首页 期刊 现代计算机 面向工业互联网资讯的中文关键词抽取 【正文】

面向工业互联网资讯的中文关键词抽取

作者:陈硕; 殷锋; 袁平 四川大学计算机学院; 成都610065; 西南民族大学计算机科学与技术学院; 成都610041; 重庆第二师范学院数学与信息工程学院; 重庆400067
抽取   特征选取   工业互联网   随机森林  

摘要:为了获取工业互联网领域中文资讯的关键词,提出一种基于特征的中文关键词抽取算法。该算法主要从分词、候选词选取和特征选取三个方面做改进。首先,在分词阶段,通过从大量工业互联网资讯中抽取的特定词语和利用搜狗输入法的领域词库的词典创建了两个用户自定义词典,解决工业互联网领域文本中存在大量未登录词的问题,提高分词的准确率,进而提高关键词抽取的准确率;然后通过实验仿真选取合适数量的候选词,提高算法的效果和效率;其次,在特征的选择方面不仅考虑词频类、位置类和长度类等特征,还考虑了语义方面的特征,共选取6大类21种特征。最终通过随机森林将21种特征相结合,训练出一个关键词分类器,经实验测评,在精确率、召回率和F值三个评价指标中,该算法的效果都获得提升。

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

学术咨询 免费咨询 杂志订阅