首页 期刊 数据分析与知识发现 多语言高质量社会化标签生成与聚类 【正文】

多语言高质量社会化标签生成与聚类

作者:章成志 南京理工大学经济管理学院; 南京210094; 江苏省数据工程与知识服务重点实验室(南京大学); 南京210093
语言标签   自动聚类   社会化   多语言   质量  

摘要:随着Web2.0网站的不断兴起,不同语种的社会化标签日益增多。社会化标签是互联网用户对网络上的Web资源进行协同标注的结果,是广大用户从自身角度对文本信息内容的揭示,融入了互联网用户的集体智慧。同时,不同语种用户对Web资源进行标注,促使互联网上的多语言社会化标签资源不断丰富。然而,社会化标签质量参差不齐,存在标签噪声问题,对标签的挖掘与应用产生干扰。另外,不同语言类别的社会化标签广泛存在于一些主流的Web2.0网站中,使得同一资源存在不同语种的社会化标签。多语言标签本身是一种很具价值的多语言资源,在多语言文本挖掘、跨语言信息检索等多语言信息资源的处理及服务领域均具有重要用途。对多语言标签进行聚类,可以进行跨语言的社区发现、社会舆情监测等应用研究。然而,多语言标签资源目前尚未被有效挖掘和利用,缺乏对多语言社会化标签的自动聚类研究与实践。

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

学术咨询 免费咨询 杂志订阅