首页 期刊 科技创新导报 一种网络论坛结构化数据的通用提取算法 【正文】

一种网络论坛结构化数据的通用提取算法

作者:李春虎; 齐美玲; 候亚璇 华北理工大学理学院; 河北唐山063210; 华北理工大学信息工程学院; 河北唐山063210; 华北理工大学机械工程学院; 河北唐山063210
网络论坛   特征识别   结构化数据   数据提取  

摘要:在当今大数据的时代,很多人会在网络论坛上发表自己的观点和看法,为舆情监测、商业决策等工作提供了大量参考信息。但这些信息往往以半结构化的形式存放在论坛页面中,并且不同论坛网站采用的页面结构也不尽相同。针对这一问题,设计一种基于特征识别的通用提取算法,可以从不同结构的论坛页面中提取出结构化的数据(包括标题、作者、发帖时间和帖子正文)。对回帖数较少/较多的情况、大量网站使用论坛软件进行管理的实际,设计不同的提取方案。最后,设计一个综合的通用论坛数据提取算法,在包含77种、177个网页论坛上进行测试,测试结果表明,算法具有较好的提取效果,可用于数据采集、舆情分析等工作。

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

学术咨询 免费咨询 杂志订阅