《数据分析与知识发现》杂志2017年第02期期刊目录-发表之家

专家检索与专家排名研究评述

作者：叶光辉; 夏立新刊期：2017年第02期

【目的】对已有专家检索与专家排名方法进行评述，为后续研究提供理论基础。【文献范围】从Webof Science（WOS）、CNKI等数据库中分别以“专家检索（Expert Retrieval）”、“专家排名（Expert Ranking）”、“排名融合（Ranking Fusion）”等为检索词搜集获得相关文献65篇。【方法】针对专家检索覆盖面不足及专家特征计算量大两方面问题，从专...
改进潜在语义分析和支持向量机算法用于突发安全事件舆情预警

作者：田世海; 吕德丽刊期：2017年第02期

【目的】针对现有预警体系多以企业自身和监管部门为主体、忽视网络舆情，导致预警力度不强、缺乏透明度及敏感性、使突发性安全问题时有发生且无法得到及时处理的现状，提出一种新的舆情预警模型。【方法】通过元搜索技术挖掘舆情信息，增加基准偏移值优化情感特征项倾向性权重，添加修正因子以改进潜在语义分析和支持向量机（LSA＋SVM）算法，...
基于LDA模型的移动投诉文本热点话题识别

作者：方小飞; 黄孝喜; 王荣波; 谌志群; 王小华刊期：2017年第02期

【目的】运用中文信息处理和话题识别与追踪的方法，从大量移动投诉文本中找出有价值的信息。【方法】从分析投诉文本的特点人手，使用k—means先对文本聚类。利用LDA对每个类进行建模，提取话题，并从词频、词跨度和词长三方面计算每个话题中词的权值，把权重最大的词作为该话题的标签，并计算每个话题的文档分布概率均值。对具有相同标签的话...
词向量聚类加权TextRank的关键词抽取

作者：夏天刊期：2017年第02期

【目的】将维基百科蕴涵的世界知识以词向量方式融入TextRank模型，改进单文档关键词抽取效果。【方法】利用Word2Vec模型基于维基百科中文数据，生成词向量模型，对TextRank词图节点的词向量进行聚类以调整簇内节点的投票重要性，结合节点的覆盖和位置因素，计算节点之间的随机跳转概率，生成转移矩阵，最终通过迭代计算获得节点的重要性得分，...
Knowledge Unlatched和JSTOR合作研究如何利用开放获取图书

刊期：2017年第02期

人文社会科学专著开放获取支持计划Knowledge Unlatched（KU）和JSTOR数字图书馆正在合作研究开放获取资源的使用模式。虽然KU将继续在OAPEN和HathiTrust平台上托管资源，但同时也会将30多个开放获取图书资源交由JSTOR托管，包括历史、文学、政治科学、人类学和媒体与传播等领域的图书，所有这些都是由世界领先的学术出版社出版的，并在世界各地...
社会化标注中用户动态标签云构建研究

作者：谢梦瑶; 潘旭伟刊期：2017年第02期

【目的】标签云可用于信息检索推荐和导航，由于用户标注具有时序特征，为有效揭示用户兴趣动态变化，提出基于时序演化的用户动态标签云构建方法。【方法】利用心理学中记忆的遗忘和加强特征构建标签的动态权重，从而建立用户动态标签云以反映用户关注点的变化。【结果】与现有的标签云算法比较，构建的用户动态标签云算法能够根据用户动态变化...
基于SEER数据库应用贝叶斯网络构建亚洲肿瘤患者预后模型——以非小细胞肺癌为例

作者：尹玢璨; 辛世超; 张晗; 赵玉虹刊期：2017年第02期

【目的】利用SEER数据库，找出对非小细胞肺癌患者预后生存的影响因素并预测患者预后生存状态，指导肿瘤预后评价。【方法】采用单因素统计学方法及Logistic回归分析初步筛选预后相关因素，利用贝叶斯网络方法构建患者术后生存预测模型，并与其他三种常见的机器学习分类算法所建模型效能做比较。【结果】最终纳入模型的预后变量共5项，包括年龄...
一种面向中文本体模式的本体对齐框架

作者：王汀; 高迎; 刘经纬刊期：2017年第02期

【目的】现有的本体对齐方法往往忽视中文概念的语序敏感和一词多义的语义特征。本文提出一种基于同义词词林和序列比对算法的大规模中文本体映射模型。【方法】采用基于改进的同义词词林相似度算法计算简单词元的语义相似度。并利用基于改进同义词词林与序列比对相融合的算法度量未登录词之间的语义相似度。【结果】在由DBpedia（中文版）、百...
NISOResourceSync（资源同步）框架规范的更新版本

刊期：2017年第02期

美国国家信息标准组织（NISO）于近日宣布正式出版了ResourceSync框架规范的更新版本（ANSI／NISOZ39．99—2017）。由美国国家标准协会（ANSI）批准，该1．1版本改进了一个Web标准，该标准详细说明了服务器可以实现的各种功能，以允许第三方系统与不断发展的资源保持同步。这种同步在当前的环境下是非常重要的，现如今，不仅是内容的元数据，基...
基于依存关系的中文微博作者性别识别

作者：祁瑞华刊期：2017年第02期

【目的】针对网络文本篇幅短小、传统文体特征集稀疏等特点，探讨依存关系在中文微博作者性别识别中的应用。【方法】选取腾讯公开微博作为实验语料，抽取依存关系特征与现有文献中的词汇特征、结构特征、功能词特征、词性标注特征和微博特征进行对照实验。【结果】采用支持向量机、朴素贝叶斯、最近邻和决策树算法的对照实验验证了本文方法在中...
ProQuest白皮书《机遇和挑战：电子书，印刷本，选择对图书馆和读者的影响》

刊期：2017年第02期

ProQuest于近日了题为《机遇和挑战：电子书，印刷本，选择对图书馆和读者的影响》的白皮书，现已可供下载。该书专注于英国高等教育图书市场，将来自英国图书馆员的评论与全球数据结合起来，分析了管理图书馆馆藏的复杂性以及不断变化的内容类型给整个业界带来的机会。
面向食品安全突发事件汉语分词的特征选择及模型优化研究

作者：张越; 王东波; 朱丹浩刊期：2017年第02期

【目的】在食品安全领域中，建立相关数据库对食品安全的监管和控制都会有很大的帮助，自动分词在构建索引、使用索引以及构建语料库中都起到至关重要的作用。将基于条件随机场的字标注统计学习方法，应用在食品安全突发事件语料的自动分词中。【方法】分析语料的词长分布等特点，对该方法自动分词过程中所涉及的特征选择和特征模板进行不同实验...
基于SVM多特征融合的微博情感多级分类研究

作者：杨爽; 陈芬刊期：2017年第02期

【目的】为更精确地识别网民态度，监测网络舆情，提出一种基于SVM多特征融合的情感5级分类方法。【方法】从词性特征、情感特征、句式特征、语义特征4个方面，提取动词、名词、情感词、否定词等14个特征，运用SVM方法对微博情感进行5级分类。【结果摈验结果表明，该方法对情感5级分类的准确率为82．40％，召回率为81．91％，F值为82．10％。【...
融合内容与用户手势行为的用户画像构建系统设计与实现

作者：汪强兵; 章成志刊期：2017年第02期

【目的】开发移动端的文献阅读系统，通过利用在移动端的用户手势行为数据及手势行为对应的内容，挖掘用户兴趣，构建用户兴趣画像。【应用背景】融合内容与用户行为的用户画像构建系统能够挖掘用户在阅读文献时的兴趣，并进行用户画像构建。【方法】以移动平台下的Web阅读系统为工具，通过收集用户在移动设备上浏览文献产生的用户手势行为（单...
面向网络游记时间特征的情感分析模型

作者：程翠琼; 徐健刊期：2017年第02期

【目的】通过对网络游记进行情感分析，发现游客对旅游地情感倾向的时间分布规律。【应用背景】越来越多人通过浏览大量网络游记来收集信息，制定旅游计划。网络游记成为旅游者搭配旅游地及出游时间的重要参考内容，也为商家提供了商机。【方法】提出面向网络游记时间特征的情感分析模型，分析游客情感的时间变化规律。该模型包括5个模块：网络...

数据专员工作总结数据专员述职报告数据交换技术论文数据保密解决方案数据信息论文数据分析分析技术数据分析实训总结数据分析师统计学基础数据分析方法数据分析毕业论文数据分析的前景数据分析的方法

数据分析与知识发现杂志 CSSCI南大期刊 CSCD期刊 统计源期刊

Data Analysis and Knowledge Discovery

专家检索与专家排名研究评述

改进潜在语义分析和支持向量机算法用于突发安全事件舆情预警

基于LDA模型的移动投诉文本热点话题识别

词向量聚类加权TextRank的关键词抽取

Knowledge Unlatched和JSTOR合作研究如何利用开放获取图书

社会化标注中用户动态标签云构建研究

基于SEER数据库应用贝叶斯网络构建亚洲肿瘤患者预后模型——以非小细胞肺癌为例

一种面向中文本体模式的本体对齐框架

NISOResourceSync（资源同步）框架规范的更新版本

基于依存关系的中文微博作者性别识别

ProQuest白皮书《机遇和挑战：电子书，印刷本，选择对图书馆和读者的影响》

面向食品安全突发事件汉语分词的特征选择及模型优化研究

基于SVM多特征融合的微博情感多级分类研究

融合内容与用户手势行为的用户画像构建系统设计与实现

面向网络游记时间特征的情感分析模型

数据分析与知识发现杂志 CSSCI南大期刊 CSCD期刊 统计源期刊

Data Analysis and Knowledge Discovery

专家检索与专家排名研究评述

改进潜在语义分析和支持向量机算法用于突发安全事件舆情预警

基于LDA模型的移动投诉文本热点话题识别

词向量聚类加权TextRank的关键词抽取

Knowledge Unlatched和JSTOR合作研究如何利用开放获取图书

社会化标注中用户动态标签云构建研究

基于SEER数据库应用贝叶斯网络构建亚洲肿瘤患者预后模型——以非小细胞肺癌为例

一种面向中文本体模式的本体对齐框架

NISOResourceSync（资源同步）框架规范的更新版本

基于依存关系的中文微博作者性别识别

ProQuest白皮书《机遇和挑战：电子书，印刷本，选择对图书馆和读者的影响》

面向食品安全突发事件汉语分词的特征选择及模型优化研究

基于SVM多特征融合的微博情感多级分类研究

融合内容与用户手势行为的用户画像构建系统设计与实现

面向网络游记时间特征的情感分析模型

数据分析与知识发现杂志 CSSCI南大期刊 CSCD期刊统计源期刊