摘要:微博短文本中存在一些相同或相近、但与主题关系不大的词项,对准确度量文本之间的相似性具有较大的干扰作用,影响微博话题被发现的质量。提出一种基于文本内容与结构化信息相结合的特征词选择算法,能有效提取具有代表性的特征词,并对文本、话题间相似度的计算策略进行改进,然后将特征词选择算法与相似度计算方法融合,应用于微博文本数据实现话题发现。实验结果表明,本算法能有效降低话题发现的平均漏检率与误检率,提高话题发现质量。
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社
热门期刊服务
影响因子:1.55
期刊级别:统计源期刊
发行周期:月刊
期刊在线咨询,1-3天快速下单!
查看更多>
超1000杂志,价格优惠,正版保障!
一站式期刊推荐服务,客服一对一跟踪服务!