数据分析与知识发现

数据分析与知识发现杂志 CSSCI南大期刊 CSCD期刊 统计源期刊

Data Analysis and Knowledge Discovery

杂志简介:《数据分析与知识发现》杂志经新闻出版总署批准,自1980年创刊,国内刊号为10-1478/G2,是一本综合性较强的计算机期刊。该刊是一份月刊,致力于发表计算机领域的高质量原创研究成果、综述及快报。主要栏目:数学图书馆 、知识组织与知识管理、情报分析与研究 、应用实践 、动态、特邀专栏、金融证券管理、企业信息管理技术

主管单位:中国科学院
主办单位:中国科学院文献情报中心
国际刊号:2096-3467
国内刊号:10-1478/G2
全年订价:¥ 1180.00
创刊时间:1980
所属类别:计算机类
发行周期:月刊
发行地区:北京
出版语言:中文
预计审稿时间:1-3个月
综合影响因子:2.25
复合影响因子:1.2
总发文量:1915
总被引量:19495
H指数:18
引用半衰期:4.5254
立即指数:0.1317
期刊他引率:0.9104
平均引文率:21.7126
  • 产品虚假评论文本识别方法研究述评

    作者:吴佳芬; 马费成 刊期:2019年第09期

    【目的】对产品虚假评论文本识别方法研究现状进行述评。【文献范围】以“Review Spam”、“虚假评论”等为主题词在WoS、CNKI、EI等8个数据库中进行文献检索,经过文献主题筛选、质量评估和参考文献追溯等步骤获得代表性文献90篇。【方法】采用系统性文献综述过程对虚假评论文本识别方法研究的关键内容进行提取、归纳和分类,总结并对比分析各类...

  • 面向主题模型的主题自动语义标注研究综述

    作者:凌洪飞; 欧石燕 刊期:2019年第09期

    【目的】对面向主题模型的主题自动语义标注方法进行总结与评述,以促进主题模型的发展与应用。【文献范围】在Web of Science和CNKI数据库中分别以“Topic Labeling OR Topic Labelling OR Topic Tagging ORTopicIndexing”和“主题模型AND(标注OR标签)”等检索式进行检索,通过手工筛选获得代表性文献57篇。【方法】对相关论文进行深入阅读与分...

  • 基于均值漂移算法的文本聚类数目优化研究

    作者:赵华茗; 余丽; 刊期:2019年第09期

    【目的】探索最佳文本聚类数目的优化方法,为提升文本聚类算法的有效性和质量提供参考。【方法】结合TF-IDF和Word2Vec算法,提取TopN关键词向量作为语料库文本特征表达;结合均值漂移算法、聚类有效性指标(Silhouette)和均方误差(MSE)指标,确定最佳文本聚类数目。【结果】Top 4 500关键词向量规模能较好呈现文本特征;基于均值漂移算法确定的最佳...

  • 基于夜间灯光亮度的OpenStreetMap数据完整性检验

    作者:刘菲; 成晓强; 吴华意 刊期:2019年第09期

    【目的】解决OpenStreetMap (OSM)数据完整性评价中参考数据集难获取、更新慢等问题。【方法】引入夜光遥感影像作为新的参考数据集,以综合竞争力较强的城市作为样本,研究夜间灯光亮度与OSM数据完整性之间的相关关系,探究中国OSM数据的质量分布规律。【结果】建立OSM建筑物密度和夜间灯光亮度的回归模型,相关系数为0.8522。中国约84.2%的城市OSM...

  • 融合多粒度信息的文本向量表示模型

    作者:聂维民; 陈永洲; 马静 刊期:2019年第09期

    【目的】更加全面地提取文本语义特征,提高文本向量对文本语义的表示能力。【方法】通过卷积神经网络提取词粒度、主题粒度和字粒度文本特征向量,通过“融合门”机制将三种特征向量融合得到最终的文本向量,并进行文本分类实验。【结果】该模型在搜狗语料库文本分类实验上的准确率为92.56%,查准率为92.33%,查全率为92.07%,F1值为92.20%,较基准模...

  • 结合词向量和统计特征的专利相似度测量方法

    作者:俞琰; 陈磊; 姜金德; 赵乃瑄 刊期:2019年第09期

    【目的】针对传统专利相似度测量忽略词语语义关系的问题,提出一种新的专利相似度测量方法,以提高专利相似度测量的准确度。【方法】引入基于神经网络的词向量模型,获得专利文本中词的语义信息;计算词统计特征信息,度量不同词在专利文本中的重要程度;最后结合词向量和统计特征,形成专利文本表示,测量专利相似度。【结果】本文所提结合词向量和统...

  • 基于类别特征扩展的短文本分类方法研究

    作者:邵云飞; 刘东苏 刊期:2019年第09期

    【目的】针对短文本分类中的内容稀疏问题,提出一种基于类别特征扩展的短文本分类方法。【方法】使用改进后的TF-IDF模型以及LDA主题模型构建基于类别特征的关键词集与主题分布集,完成对短文本内容及词汇向量表征上的扩充,并在此基础上通过卷积神经网络对短文本分类。【结果】实验结果表明,基于类别特征扩展后的短文本在分类的准确率上提升3%,在...

  • 融入实体特征的典籍自动分类研究

    作者:秦贺然; 刘浏; 李斌; 王东波 刊期:2019年第09期

    【目的】在传统统计特征词算法的基础上,添加实体特征对10本古代典籍进行分类研究。【方法】基于支持向量机模型,分别采用传统的TF-IDF、信息增益、卡方检验、互信息4种统计量计算特征词,再加入命名实体这一特征,验证分类器的分类效果。【结果】加入实体特征之后分类器的最高精度达98.7%。在传统的信息增益、TF-IDF、互信息和卡方检验特征计算下...

  • DeepMind开源三个深度强化学习框架

    刊期:2019年第09期

    深度强化学习(Deep Reinforcement Learning)一直是近年来人工智能的一些重大突破的核心。尽管深度强化学习取得了很多进展,但由于缺乏工具和库,深度强化学习方法在主流解决方案中仍然难以应用。因此,深度强化学习主要以研究形式存在,并未在现实世界的机器学习解决方案中得到大量应用。

  • 基于加权关联模式挖掘与规则后件扩展的跨语言信息检索

    作者:黄名选; 卢守东; 徐辉 刊期:2019年第09期

    【目的】针对自然语言处理中查询主题漂移和词不匹配问题,提出一种基于加权关联模式挖掘和规则后件扩展的跨语言信息检索模型及其算法。【方法】该模型采用新的加权关联模式支持度和基于最大项目权值的项集剪枝策略挖掘频繁项集,利用置信度和相关度评价加权关联规则,根据扩展模型从规则中提取优质扩展词实现规则后件扩展,扩展词与原查询词项组合...

  • 基于机器学习的在线问诊平台智能分诊研究

    作者:王若佳; 张璐; 王继民 刊期:2019年第09期

    【目的】比较不同机器学习算法在智能分诊任务中的准确率,针对性地分析在线问诊平台的类目设置问题,尝试从数据中提取新特征提升分类器效果。【方法】基于“春雨医生”13个科室33 073条实际问诊数据,比较两种文本向量化方式在支持向量机、多项式贝叶斯、Logistic回归、随机森林、k近邻以及集成分类模型这6种分类器上实现智能分诊的准确率;通过高...

  • 新算法识别Twitter网络欺凌的准确度高达90%

    刊期:2019年第09期

    近日,某研究团队开发了一个机器学习算法,识别Twitter上的霸凌和侵略者的准确度高达90%。目前,缺少能够有效地检测社交媒体上有害行为的工具,因为这种行为在本质上通常是模棱两可的,并且通常通过看似肤浅的评论和批评表现出来。为了解决这一问题,研究团队分析了有滥用行为的Twitter用户所表现出的行为模式以及他们与其他Twitter用户之间的差异。

  • 财经媒介信息对股票市场的影响研究:基于情感分析的实证

    作者:岑咏华; 谭志浩; 吴承尧 刊期:2019年第09期

    【目的】考察媒介信息所蕴含的情感信号对于股票市场的影响效应。【方法】利用LSTM深度神经网络方法对主流财经网站的新闻、股吧、博客文本的情感信息进行识别和提取,构建自回归分布滞后模型和面板回归模型,从宏观市场以及微观股票资产两个层面实证揭示财经媒介信息所蕴含的情感对股票市场表现的关联影响。【结果】(1)媒介信息情感的倾向性变化...

  • 面向微博商品评论的情感标签抽取研究

    作者:李博诚; 张云秋; 杨铠西 刊期:2019年第09期

    【目的】提出新的情感标签抽取方法,以提高微博商品评论的特征级情感标签抽取效果。【方法】基于依存句法分析并结合制定的抽取规则进行评价单元划分和显式标签抽取,通过NodeRank算法揭示评论中的隐式表达关系,进而抽取隐式标签,提高情感标签抽取的正确率。【结果】通过真实的网络评论数据集进行模拟和对比实验,本文方法的总体准确率、召回率、F...

  • “极度”节能电路的未来

    刊期:2019年第09期

    数据中心正在以惊人的速度处理数据并分发结果,而这一强大的系统需要大量的能源。据估计,到2020年,信息通信技术所消耗的能源将占美国总能耗的20%。为了满足数据中心的能源需求,日本和美国的研究团队开发了一个框架,旨在减少能耗的同时提高效率。