数据分析与知识发现

数据分析与知识发现杂志 CSSCI南大期刊 CSCD期刊 统计源期刊

Data Analysis and Knowledge Discovery

杂志简介:《数据分析与知识发现》杂志经新闻出版总署批准,自1980年创刊,国内刊号为10-1478/G2,是一本综合性较强的计算机期刊。该刊是一份月刊,致力于发表计算机领域的高质量原创研究成果、综述及快报。主要栏目:数学图书馆 、知识组织与知识管理、情报分析与研究 、应用实践 、动态、特邀专栏、金融证券管理、企业信息管理技术

主管单位:中国科学院
主办单位:中国科学院文献情报中心
国际刊号:2096-3467
国内刊号:10-1478/G2
全年订价:¥ 1180.00
创刊时间:1980
所属类别:计算机类
发行周期:月刊
发行地区:北京
出版语言:中文
预计审稿时间:1-3个月
综合影响因子:2.25
复合影响因子:1.2
总发文量:1915
总被引量:19495
H指数:18
引用半衰期:4.5254
立即指数:0.1317
期刊他引率:0.9104
平均引文率:21.7126
  • 基于t-SNE降维的科学基金资助项目可视化方法研究

    作者:陈挺; 李国鹏; 王小梅 刊期:2018年第08期

    【目的】设计主题模型结合流形学习文本特征降维可视化方案,更有效地发现与更直观地展示科研基金资助布局。【方法】基于美国NSF信息与智能系统(IIs)10年(2008-2017)的基金资助项目数据,利用聚类算法结合人工判读构建项目主题标签:利用TF.IDF向量空间模型与LSA潜在语义分析主题模型分别构建项目申请书高维特征,采用流形学习中t-SNE非线...

  • 基于BRFSS数据库应用人工神经网络构建儿童哮喘预测模型

    作者:马晓宇; 张晗; 赵玉虹 刊期:2018年第08期

    【目的】利用BRFSS数据库,找出对儿童哮喘影响较大的高相关变量,建立简单易行、无需侵入性临床指标的儿童哮喘预测模型。【方法】采用统计学方法对变量进行筛选,利用BP人工神经网络的方法建立预测模型,并与传统Logistic回归、决策树及支持向量机方法所建模型进行比较。【结果】最终纳入预测模型的变量共4项,包括哮喘史、吸入器使用是否正确、确...

  • 新一代知识问答平台中提问者付费意愿的影响因素探究

    作者:赵宇翔; 刘周颖; 宋士杰 刊期:2018年第08期

    【目的】为了促进新一代知识问答平台的可持续发展,对提问者付费意愿的影响因素进行探究。【方法】在文献梳理的基础上,对传统知识问答平台和新一代知识问答平台之间的异同点进行比较分析。基于社会交换理论和社会资本理论,运用结构方程模型对提问者的付费意愿进行实证研究。【结果】提问者的感知价值对付费意愿具有显著的正向影响;经济收益、社...

  • 基于预警平台大数据的事件旅游客流时空分布研究

    作者:王玲; 代前进; 吴晓隽 刊期:2018年第08期

    【目的】对城市节庆期间各景区客流进行可视化,分析事件旅游客流时空分布规律及影响因素。【方法】在客流大数据的支撑下,以上海旅游节作为研究样本,运用GIS对上海80家A级景区客流数据进行空间信息表达,并构建理论模型检验影响因素。【结果】萌生性旅游资源突破事件旅游客流实现旅游需求的时间、空间障碍;原生性旅游资源是引发旅游者客流集聚的...

  • 面向微博短文本分类的文本向量化方法比较研究

    作者:李心蕾; 王昊; 刘小敏; 邓三鸿 刊期:2018年第08期

    【目的】利用Word2Vec和Sent2Vec算法生成新浪微博的文本的向量化表示形式,以期在文本分类时获得较低的计算成本和较高的分类效果。【方法】使用文本中词的0-1矩阵进行分类,将分类效果作为基准线;采用Word2Vec算法生成词向量并用不同方式合成句子的向量表示,进行文本分类,并与基准线进行对比;利用Sent2Vec算法直接生成句子向量进行分类,综合评价...

  • 人工智能辅助筛查急性神经系统疾病

    作者:本刊讯 刊期:2018年第08期

    近日,Nature Medicine上的一项研究了一个能识别各种急性神经系统疾病(如中风、出血和脑积水)的人工智能平台,可以在1.2秒内识别CT扫描中的疾病,比人类诊断更快。该研究提出将深度学习和计算机视觉技术应用于放射成像的方法框架。"整个处理和解释时间为1.2秒,这样的分类系统可以有效帮助医生发现关键问题,提高诊断效率。"研究人员说:"我们...

  • 基于LDA和AdaBoost多特征组合的微博情感分析

    作者:曾子明; 杨倩雯 刊期:2018年第08期

    【目的】结合基于LDA主题识别模型和Ada Boost方法以提高微博文本情感分类准确度。【方法】利用LDA提取微博文本主题分布特征,融合情感特征和句式特征,采用Ada Boost集成分类方法针对上述特征变量训练情感分类模型。【结果】研究结果表明,主题特征对情感识别有显著正向作用,基于主题特征和情感特征的模型分类效果最好。借助Ada Boost分类器使得...

  • 新手数据科学家常犯的13个错误

    作者:本刊讯 刊期:2018年第08期

    越来越多的企业需要数据支持其决策,业界对数据科学家的需求是巨大的,但数据科学人才短缺。成为一名数据科学家并不容易,需要解决问题的能力、结构化思维、编码能力等各种技术技能。新手数据科学家常犯的13个错误如下。(1)学习理论概念而不应用它们。使理论和实践达到平衡,每当学习一个新概念,请立即找到可以应用的数据集或问题,以便更好地理...

  • 基于领域本体的产品网络口碑信息多层次细粒度情感挖掘

    作者:何有世; 何述芳 刊期:2018年第08期

    【目的】研究产品各属性之间的层次关系以及消费者对产品局部属性与整体属性的情感态度,优化情感分析结果。【方法】构建产品领域本体,利用该本体提取产品属性并构建产品属性层次模型,通过计算情感词与属性词搭配权重来识别隐式属性,并构建领域情感词典,计算各层次产品属性的情感倾向性,从产品总体、属性类、单个属性三个层次,实现产品细粒度的...

  • 跨设备搜索中设备转移前后查询式语义变化研究

    作者:吴丹; 陆柳杏 刊期:2018年第08期

    【目的】研究用户跨设备搜索中查询式的变化,以支持用户的跨设备搜索。【方法】通过用户实验、日志分析、聚类分析等方法分析用户跨设备搜索前后查询式的长度、关键词词数和查询式多样性等基本特征以及查询式语义变化模式。【结果】用户在电脑端构造查询式的长度和关键词数量显著多于移动端,但跨设备前后查询式多样性差异不明显;用户在跨设备搜...

  • 儿童如何与机器进行沟通,为改善语音技术提供了灵感

    作者:本刊讯 刊期:2018年第08期

    华盛顿大学的一项最新研究探讨儿童如何与技术进行沟通,研究发现儿童会将语音功能视为对话伙伴。语音技术已经较为普遍,例如Siri,Amazon Echo或Google Home。但是,当孩子向这些声控设备提问时会发生什么?孩子作为语言初学者说话结结巴巴,甚至是错误表达。声控设备的反馈会是沉默或是默认的道歉。对于该类流行技术,研究人员认为其错过了接触每一...

  • 等待感知对于移动信息产品用户满意度的影响研究——以数字小说书架为例

    作者:马艳阳; 刘玉磊; 徐伯初; 支锦亦 刊期:2018年第08期

    【目的】通过数字小说书架用户阅读过程中等待感知情况进行综合分析,对影响用户满意度的路径及因子进行探索。【方法】以QQ浏览器小说书架为例制作不同变量的体验Demo,结合视频观察法、任务提示法、问卷法及深度访谈获取用户在面对不同等待感知变量时满意度特征变化数据,寻找等待感知满意度影响因子之间关系。【结果】发现影响等待感知组成的客...

  • 科技文献数据库中机构名称匹配策略研究

    作者:孙海霞; 王蕾; 吴英杰; 华薇娜; 李军莲 刊期:2018年第08期

    【目的】规范科技文献数据库中机构名称存储与管理,设计并实现机构名称匹配策略。【方法】引入地区、类别和命名特征,构建3类7组匹配判定规则,设计4组规则与编辑距离混合的匹配策略,基于中文生物医学文献数据库2006年–2011年"作者单位"数据进行实现与评估。【结果】在600余万条"作者单位"数据集上,对高等院校、医院与科研院所三类机构进行...

  • 基于文献数据的疾病与基因关联关系研究

    作者:牟冬梅; 金姗; 琚沅红 刊期:2018年第08期

    【目的】通过对文献摘要数据进行挖掘实现知识发现,发现疾病关联基因及其规律,为疾病的预防与治疗提供依据。【方法】采用基于词典的实体识别技术,构建实体抽取规则,提出疾病与基因实体间关联关系发现模型。选取糖尿病肾病相关摘要对模型进行验证,应用聚类分析方法对疾病关联基因进行分析,根据聚类结果采用回溯分析的方法回溯至原摘要讨论。【结...