首页 期刊 信息技术 基于半监督LDA主题模型的ZeroNet文本内容分析 【正文】

基于半监督LDA主题模型的ZeroNet文本内容分析

作者:过小宇; 丁建伟; 江泓; 陈周国 保密通信重点实验室; 成都610000
零网   暗网   主题模型   文本分类  

摘要:新兴暗网零网(ZeroNet)是一种使用比特币加密技术和比特流(BitTorrent)协议构建的抗审查P2P网络,用户规模不断扩大。鉴于ZeroNet去中心化、抗审查等暗网的技术特点,从ZeroNet的体系结构分析入手,基于模拟登陆的方式设计并开发了ZeroNet文本抓取系统;采用半监督隐狄利克雷分布(Latent Dirichlet Allocation,LDA)主题模型针对ZeroNet网站中占比最大的博客和论坛文本数据中的中英文的文本数据进行建模分析;进一步,对比无监督LDA主题模型,文中采用的半监督LDA主题模型具有更好的分类结果,对于ZeroNet网站新内容的监控具有实践意义。

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

学术咨询 免费咨询 杂志订阅