作者:杨磊; 王子润; 侯贵生 期刊:《数据分析与知识发现》 2019年第11期
【目的】信息质量是主题发现的重要影响因素,通过构建Q-LDA模型进行网络健康社区主题挖掘,弥补LDA主题模型在网络信息质量方面的不足,并增强模型的主题表示能力。【方法】研究网络健康信息质量评价体系,并对网络健康信息进行质量加权,在LDA主题模型的基础上建立Q-LDA主题挖掘模型,利用实际数据对模型进行验证。【结果】Q-LDA模型的结果可解释性和主题表达能力优于传统的LDA主题模型,其主题挖掘效率提高16%,能够更有效地挖掘网络健...
作者:汤颖; 苏建明; 童宁 期刊:《计算机辅助设计与图形学学报》 2019年第10期
主题建模是非常重要的一类文本挖掘方法,被广泛用于构建文本语料库的主题,但其存在难以解释和调整的问题.为了协助用户构建字典以及帮助用户理解主题模型并调节模型,设计并实现了渐进式可视化分析框架,包含2个可视化工作区:语料库优化可视化工作区,协助用户高效构建字典;主题模型可视化工作区,提供多尺度信息可视化以辅助用户理解主题模型并交互地改进主题建模.实现了Web环境下的交互式可视主题模型系统TMvis,并采用20newsgroups新...
作者:王天立; 周超 期刊:《福建电脑》 2019年第08期
针对缺失数据处理,回归能有效处理连续型数据而无法有效处理文本型数据.本文结合聚类和回归两者算法的优点给出一种聚类和回归的混合策略,它能较好地处理文本和连续性数据.同时考虑到当文本型数据类别很大时,决策树处理方法效果不佳,提出了一种改进的文本数据处理的算法.
线性模型(linear model):是一种分析模型,它假定考虑的各变化因素是线性的关系. 协作推荐:是利用用户访问行为的相似性来相互推荐用户可能感兴趣的资源.
作者: 期刊:《中国质量与标准导报》 2017年第04期
为进一步加快推进国家标准公开工作,满足社会各界便捷地查阅国家标准文本的迫切需求,“国家标准全文公开系统”于3月16日正式上线运行。国务院标准化协调推进部际联席会议办公室印发《推进国家标准公开工作实施方案》后,国家标准委立即着手“国家标准公开系统”的软件研发,抓紧开展国家标准文本数据的梳理、汇集、加工工作,积极落实《实施方案》各项要求。
作者:曹馨宇; 刘涌; 王海涛 期刊:《清华金融评论》 2019年第01期
防范化解金融风险是实现高质量发展必须跨越的重大关口。合理有效地利用文本中未被利用的与金融相关的信息,可以为金融风险的科学防范提供支持。本文基于已有的成就技术,通过制定规范的技术流程,结合实际应用时的技术现状、技术人员情况,通过标准化的方式,提供一种互联网文本数据关键语义信息抽取的普适性方法。
作者:雷蕾; 黄敏学 期刊:《珞珈管理评论》 2014年第01期
随着大数据时代的到来,UGC数量呈爆炸性增长,为学术研究提供了丰富的原料,也给企业提供了了解消费需求和产品表现的新途径。本文构建了一套产品评价体系,用数据爬虫在网上抓取为期2年的79356条评论。通过切词技术和模糊综合评价法,量化文本数据,得出顾客在不同时点的产品评价,对不同品牌顾客的关注点进行比较。相对以往的评价方法,本评价系统更具化、针对性,在兼顾动态性的同时,能更好地应对大数据时代的数据特点。
作者:黄敏; 任宗华; 朱颢东 期刊:《轻工学报》 2018年第03期
针对人们在出游前查看景区网络评价信息难以得到对该景区之整体评价的问题,提出了一种适用于海量数据的词频统计算法TF-CT.该算法采用余弦相似性算法对海量的文本数据进行词性分类,将具有相同表达态度的数据归为一类;采用TextRank算法对各类别中的一条数据进行关键词语提取;采用改进的TFIDF算法对提取的关键词进行词频统计,获取文本数据的表达态度.实验结果表明,与TFIDF算法相比,TF-CT算法在结果准确度和时间复杂度上具有更大的优...
智慧数据可以简单定义为大数据和人工智能技术的结合,人工智能可以让数据变得更加智慧。这里再次强调一下大数据的三个特点:大容量、高速度、多种类。针对大容量和高速度的特点,我们已经有一些比较成熟的相关技术,但多种类这个特点仍然给我们带来了很大挑战。数据与人工智能的结合带来了很多市场机遇,我们可以通过机器学习的方法和技术帮助人们做智慧的决定和优化。我举个简单的例子,文本数据是结构化程度最低的一类数据,也是当前...
作者:本刊编辑部; PARSONAGE; P; K; HISCOCK; J; LAW; R; J 期刊:《中国全科医学》 2017年第06期
背景早期癌症诊断对于改善癌症患者生存质量至关重要。国际癌症标杆伙伴关系模块4(The International Cancer Benchmarking Partnership Module 4,ICBP4)是一项定量调查研究,探讨乳腺癌、结直肠癌、肺癌和卵巢癌诊治延迟的原因。为了进一步了解相关的诊断过程,探索自由文本评论中患者表达的观点也很重要。目的采用已完成ICBP4调查的患者提供的自由文本数据,以加强患者对其诊断过程的了解。设计与场所定性分析2013年10月—2014年1...
作者:高嘉良; 余丽; 仇培元; 陆锋 期刊:《地球信息科学学报》 2019年第09期
文本数据为地理知识服务提供了海量资源。面向文本数据的地理实体关系抽取是地理知识图谱构建的核心技术,直接影响地理知识推理与服务的质量。由于文本数据不可避免地含有噪声,从文本中抽取的地理实体关系需要质量评价和信息过滤。本文提出一种基于通用知识库的地理实体关系过滤方法,针对已抽取的地理实体关系从中筛选出高质量的结果:先利用"本体知识"、"事实知识"和"同义词知识"构建地理关系知识库,作为信息过滤的参照数据;再基于...
作者:张兴强; 刘雪; 朱艺焱; 宋勇刚; 王欣; 王学媛 期刊:《交通运输系统工程与信息》 2018年第05期
现有的城市交通安全分析主要考虑人财物的直接损失,却忽略了事故产生的交通延误等间接损失,同时也较少利用互联网海量数据进行分析.本文建立了基于互联网文本数据的城市交通事故属性模型,采用模糊系统聚类法划分事故交通影响等级,构建了基于绝对事故次数、损害后果和交通影响的等效事故次数模型,并将其应用于累积频率曲线和K-means聚类的城市快速路地点安全组合评价方法中.北京市快速路地点安全评价结果表明,本文所提出的方...
以分布式数据库文本数据为研究对象,提出基于分类特征的改进共享最近邻方法对数据实现去重备份处理。根据文本数据内容先划分到预设定类别中,利用特征词条到实数的映射即特征选择函数进行特征选择,按照一定准则从初始特征中选取具有强分类能力的特征,通过计算某训练集中各个词条特征选择函数参数值,获取参数值低于阈值的词条。利用哈希思想将文本空间相邻2个数据点实现指纹空间变换,转换空间后保持数据点相近,通过共享最近邻方法对...
作者:吴银鸿; 方旭红 期刊:《黎明职业大学学报》 2018年第02期
为探究地理环境对闽南民歌产生的影响,选取文本挖掘的新视角,通过Java爬虫抓取闽南民歌及内容文本,借助ROST Content Mining6软件对闽南民歌文本进行抓取高频词汇和可视化分析。高频词汇可分为表示闽南地方虔诚信仰的词汇,表示月份的时间名词,表示亲人朋友等人物名词,表示地方农作物的名词,表示自然环境与地方其他特色的名词。根据闽南民歌社会网络和语义网络表可以看出,“父母”“日头”“小妹”“心肝”等词汇处于闽南民歌的核心...
在程序员日常工作中,数据处理占据了相当的比重。而在所有的数据之中,文本又占据了相当的比重。文本能够被人理解,具有良好的透明性,利于系统的开发、测试和维护。然而,易于被人理解的文本数据,机器处理起来就不一定都那么容易。文本数据复杂多变,特定性强,甚至是千奇百怪。因此,文本处理程序可谓生存环境恶劣。一般来说,文本处理程序都是特定于应用的,一个项目有一个项目的要求,彼此之间很难抽出共同点,代码很难复用...
多媒体数据不仅规模远超文本数据,其商业价值也毫不逊色。 随着以Hadoop为代表的大数据分析技术的普及,大数据的商业价值得到深入挖掘,并开始在互联网、零售、医疗、物联网等多个行业成为商业变革的主导力量。Facebook最近就了名为GraphSearch的新型社交搜索产品,基于海量的社交关系网络及“Likes”行为数据,为用户提供个性化的社交搜索服务,该产品被认为将是Google搜索业务的重要竞争对手。
江南一带过去有流行评弹,包括评话和弹词。前者又称“大书”,只是说,也就是苏州人的说书。后者又称“小书”,还要唱,用琵琶和三弦伴奏(人多了还有月琴)。我小时候很喜欢听大书。说书人往往根据传统故事和小说改编,有时会添油加醋,作为噱头。其中印象最深是《三国》,其中有这么一段:说是诸葛亮到东吴联合孙权一同抗曹。周瑜有心要杀诸葛亮,但又怕落下骂名,于是想借曹操之手。他请来了孔明,要他带关张去聚铁山截曹操的...
作者:叶芝祥; 程国忠; 杨迎春 期刊:《光谱学与光谱分析》 2005年第03期
报道了捕捉GBCUV软件的屏幕图形的驻留程序设计原理. 用GBCUV软件获得苯酚、苯胺、模拟炼油废水的吸收光谱数据, 然后用自编TXTSR.COM, TXZH.EXE程序将其转变为文本数据, 最后用卡尔曼滤波法处理文本数据, 获得模拟炼油废水中苯酚测量回收率为99.0%~103.8%; 苯胺为97.8%~100.6%, 使用该程序扩大了GBC-918的使用范围, 可满足现代光谱分析的需要.
作者:牟冬梅; 琚沅红; 戴文浩; 黄丽丽 期刊:《图书情报工作》 2018年第05期
[目的/意义]分析并提出虚拟健康社区文本数据的知识发现策略,构建虚拟健康社区文本数据知识发现模型。[方法/过程]通过总结分析虚拟健康社区文本数据特点,针对其特点带来的数据挖掘困难制定相应的知识发现策略,并在DIKW体系指导下,依据提出的知识发现策略构建虚拟健康社区文本数据知识发现模型。通过应用计算机编码、自然语言处理技术、句法分析、制定推理规则等方法实现从自由文本数据到药物不良反应智慧的数据价值升华过程...
非结构化数据分析是大数据分析不可或缺的重要部分,本文以建设银行非结构化数据分析与应用为入手点,讨论基于客户之声文本数据、业务流程扫描件图像等非结构化数据,运用机器学习算法构建分析模型满足业务场景需要,驱动业务创新与发展。