随着微博的发展,近几年来网络上以微博为手段进行恶意炒作的事件不断增多,干扰了互联网正常秩序,对国家社会稳定与安全造成严重隐患。本文以新浪微博为研究对象,对规避新浪访问限制保障分布式数据持久采集、利用数据挖掘分类思想进行多特征炒作账户识别进行了研究,在进行特征分析时,选择决策树学习算法,通过测试建立分类模型,最终实现了对炒作微博账户的分析预测。
作者:廉捷 周欣 曹伟 刘云 期刊:《清华大学学报·自然科学版》 2011年第10期
随着新浪微博用户群体的增长,新浪微博的数据获取是微博研究首先需要解决的问题。该文提出了基于新浪微博API与基于页面解析的新浪微博数据获取方案。程序逻辑控制API调用方法与频率,获取JSON对象并解析实现高效数据获取。同时将传统的网络爬虫结合网页解析技术结合API同时使用,解决了因API接口开放不完善,且因在返回结果数量上限与调用频率方面的限制,导致不能有效实现新浪微博数据的全面获取的问题。经过实验测试,通过2套方案的...