摘要:微博文本具有短小快捷、主题多变等特点,社交话题检测与跟踪研究面临新的挑战。结合微博的话题时序性和短文本语义相似度等特点,提出了基于微博聚类的话题检测与跟踪系统方法。首先,通过定义微博文本的时序频繁词集,给出面向热点话题的特征词选择方法;然后,根据时序频繁特征词集,利用最大频繁项集获得微博初始聚类;针对初始簇间存在文本重叠情况,提出基于短文本扩展语义隶属度的簇间重叠消减算法,获得完全分离的初始簇;最后,根据簇语义相似度矩阵,给出凝聚式话题聚类方法。通过新浪微博完成实验测试,表明所提方法可用于中文微博热点话题检测与跟踪。
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社
热门期刊服务
现代中西医结合 浙江中西医结合 中西医结合肝病 中西医结合研究 中西医结合 深圳中西医结合 中国中西医结合 世界中西医结合 中西医结合学报 中国中西医结合脾胃 中国中西医结合消化 中国中西医结合肾病相关文章
结合自身工作