广义中餐馆连锁模型是一种基于全色和多光谱影像的非监督分类方法,它在一个非参数贝叶斯框架下同时实现基于全色影像的分割及基于多光谱影像的分类。由于全色影像光谱分辨率的限制,导致其所获取的部分分割体存在"欠分割"现象,影响模型最终分类精度。针对广义中餐馆连锁模型中的欠分割问题,提出基于广义中餐馆连锁模型的欠分割对象检测及拆分方法。首先,提出分割体的异质性指标以对可能包含多种地物的分割体进行检测;其次,基于多光...
作者:凌洪飞; 欧石燕 期刊:《数据分析与知识发现》 2019年第09期
【目的】对面向主题模型的主题自动语义标注方法进行总结与评述,以促进主题模型的发展与应用。【文献范围】在Web of Science和CNKI数据库中分别以“Topic Labeling OR Topic Labelling OR Topic Tagging ORTopicIndexing”和“主题模型AND(标注OR标签)”等检索式进行检索,通过手工筛选获得代表性文献57篇。【方法】对相关论文进行深入阅读与分析,以主题标注过程中主题标签的生成来源为线索,对已有方法进行分类与比较分析。【结果...
作者:江雨燕; 桂伟 期刊:《计算机工程与应用》 2017年第23期
随着大数据时代的来临,如何有效从海量的文本数据中挖掘和分析主题特征已成为学者们的研究重点。隐含狄利克雷分配(Latent Dirichlet Allocation,LDA)作为经典的概率主题模型,因其自身优越的文本分析能力被广泛应用。然而,该模型大多以包含隐含主题变量的有向图的形式存在,实现文档的表达具有局限性。而分布式表示方法定义文档的语义分布在多个主题中并由多主题特征相乘得到;且由于传统的无监督特征提取模型无法有效处理含类别标...
作者:李湘东; 何海红; 曹环; 黄莉 期刊:《数据分析与知识发现》 2014年第07期
【目的】调整训练集分布的不均衡性,以提高科学分类体系下数字资源文本的分类性能。【方法】提出基于粒划分和LDA相结合的新方法B-LDA,首先根据划分准则对训练集进行分割,实现粒度空间的转换,然后采用概率主题模型(LDA)对文本建模,利用类全局语义信息生成新文本,从而使训练集达到分布均衡。【结果】仿真实验结果表明:随着特征项数的变化,在不同偏斜程度训练集上F1值有2.7%至9.9%不等的提升。【局限】由于语料库规模...
作者:李晶; 秦永彬; 黄瑞章 期刊:《计算机与数字工程》 2017年第02期
大数据时代的到来使得文本数据的数据量暴增,因此准确而高效地识别和分析文本数据的潜在结构变得越来越重要。要从海量的数据中挖掘模式和知识,需要借助于强大的计算工具,所以机器学习科学家提出了概率主题模型。当前,以隐含狄利克雷分布(LDA)模型为代表的经典概率主题模型已经被广泛地应用到数据挖掘的各个方面。由于LDA模型对区分相似主题的能力非常差,影响了LDA的实际应用性能,为解决这一重要问题,论文基于LDA模型提出了一种...
作者:邵华; 李杨; 丁远; 刘凤臣 期刊:《农业工程学报》 2016年第22期
利用遥感影像数据进行土地利用/覆被分类是多学科共同关注的热点问题,但传统自动分类方法仍然难以满足应用需求,以隐狄利克雷分配模型(latent dirichlet allocation,LDA)为代表的概率主题模型能够建立底层特征和高层语义之间的桥梁,近年来也被引入了遥感影像分析领域,但多集中于针对高空间分辨遥感影像的分析。该文分析了一般概率主题模型在遥感影像空间分辨率降低后面临的问题,在此基础上借鉴词对主题模型(biterm topic model,BTM...
作者:马胡双; 石永革; 高胜保 期刊:《科学技术与工程》 2016年第21期
基于混合策略个性化推荐的思想,为进一步提升业务套餐型产品的个性化推荐的准确性,提出了基于特征增益与多级优化的协同过滤推荐算法(FACCF);其中融合了消费数据的时域特征、空域特征、消费倾向以及套餐特征。该算法首先基于客户的时域、空域行为特征,构建了CTAP概率主题模型实现协同过滤;其次,将过滤后的新特征、套餐主题与套餐特征结合进行优化;最后,基于贝叶斯网络对客户群体的消费倾向进行聚类分析,形成二次优化,获得个性化...
作者:宋俊; 李禹恒; 黄宇; 陈昊; 付琨 期刊:《计算机应用研究》 2016年第07期
针对微博内容较短、歧义较大的问题,利用概率主题模型对用户的兴趣进行建模,提出了一种基于用户兴趣的微博实体链接方法。具体地,利用现有的主题模型从知识库的大量数据中训练实体与上下文词汇的语义关联,提出用户兴趣主题模型来建模用户对实体的兴趣以及微博的语义,并完成实体链接的任务。此外,在真实数据集上进行了大量实验和分析,取得了87.6%的实体链接准确率,实验结果表明,与现有方法相比,该方法通过用户兴趣的建模更好地刻画...
作者:林洋港 陈恩红 期刊:《计算机工程与科学》 2010年第07期
训练集中文本质量的好坏直接决定着文本分类的结果。实际应用中训练集的构建不可避免地会产生噪声样本,从而影响文本分类方法的实际应用效果。为此,针对文本分类中的噪声问题,本文提出一种基于概率主题模型的噪声处理方法,首先对训练集中的每个样本计算其类别熵,根据类别熵对噪声样本进行过滤;然后利用主题模型进行数据平滑,进一步减弱噪声样本的影响。这种方法不但能够减弱噪声样本对分类结果的影响,同时还保持了训练集的...
作者:吴超荣 廖祥文 期刊:《计算机与现代化》 2012年第12期
主观性句子识别旨在发现文本集合中具有观点的句子。本文基于概率主题模型,提出融合主题的主观性句子识别模型。该模型通过考虑主题因素识别句子主观性,同时挖掘文本集合中的潜在主观性主题。提出的模型是一个弱监督生成模型,不需要大量的标记语料进行训练,仅需要一小部分领域独立的主观性词典修改模型的先验。实验证明,提出的模型能有效地提高句子识别召回率和F值,同时抽取的主观性主题具有较强的语义信息。
作者:易文斌 冒亚明 慎利 期刊:《计算机工程与应用》 2013年第10期
土地覆盖是自然环境与人类活动相互作用的中心,而土地覆盖信息主要是通过遥感影像分类来获取,因此影像分类是遥感影像分析的最基本问题之一。在参考基于概率主题模型的高分辨率遥感影像聚类分析的基础上,通过半监督学习最典型的生成模型方法引出了基于概率主题模型的半监督分类(SS-LDA)算法。借鉴SS-LDA模型在文本识别应用的流程,构建了基于SS-LDA算法的高分辨率遥感影像分类的基本流程。通过实验证明,相对于传统的非监督分类与...
作者:李湘东 何海红 曹环 黄莉 期刊:《现代图书情报技术》 2014年第07期
【目的】调整训练集分布的不均衡性,以提高科学分类体系下数字资源文本的分类性能。【方法】提出基于粒划分和LDA相结合的新方法B-LDA,首先根据划分准则对训练集进行分割,实现粒度空间的转换,然后采用概率主题模型(LDA)对文本建模,利用类全局语义信息生成新文本,从而使训练集达到分布均衡。【结果】仿真实验结果表明:随着特征项数的变化,在不同偏斜程度训练集上F1值有2.7%至9.9%不等的提升。【局限】由于语料库规模...
作者:李湘东 曹环 黄莉 期刊:《情报理论与实践》 2015年第04期
针对传统特征选择方法在处理分布偏斜问题时存在的局限性,结合分布偏斜训练集自身的特点,探讨并提出基于改进的LDA模型的特征选择方法。新方法根据类别信息强度及类偏斜程度对特征项分配不同的权重来调整数据分布的不均衡性,并根据类交叠程度降低相似主题的权重,最后利用改进的LDA模型训练分类器。与传统特征选择方法相比,改进后的LDA模型方法在不同偏斜程度训练集上整体分类性能有1.1%至4.7%的提高。新方法可有效提高分布偏斜训练...
作者:田璟 郭智 黄宇 黄廷磊 付琨 期刊:《国外电子测量技术》 2015年第07期
大部分传统的基于距离尺度学习的图像标注方法假设训练样本之间存在确定的约束关系。这样的假设在小规模、精准的数据集上可以取得一定的效果。但是当数据量较大,每幅图像有多个标注且部分标注含有噪声时,这种过于理想的假设则不成立。提出了一种基于概率主题模型的距离尺度学习方法,通过概率主题模型挖掘这种模糊的、潜在的不确定辅助信息,并应用于后续的距离尺度学习中得到语义上距离尺度,改进基于搜索的图像标注性能。在Fl...
作者:佟瑞鹏 梁明添 李春旭 期刊:《中国安全科学学报》 2016年第01期
为了解《中国安全科学学报》所刊载论文的特点及其研究主题变化趋势,基于中国知网,统计安全科学领域中10种主要期刊近5年的论文数据,利用Cite Space软件对比分析各期刊载文的关键词;采用概率主题模型对《学报》近10年的3 268篇论文进行主题分类分析。结果表明:《学报》与安全领域其他期刊相比,在体现学术研究热点及趋势方面有较好的同步性,且能从侧面反映该领域的主流研究进展;得到的19个主题中,安全管理、理论及工程方法研究、工...