首页 期刊 湖北师范大学学报·哲学社会科学版 基于Scrapy-Redis分布式数据采集平台的设计与实现 【正文】

基于Scrapy-Redis分布式数据采集平台的设计与实现

作者:严慧; 彭绪富; 朱小婉; 熊旭辉; 董叶豪 湖北师范大学计算机科学与技术学院; 湖北黄石435002; 湖北师范大学文理学院; 湖北黄石435002; 湖北师范大学教育科学学院; 湖北黄石435002
微博平台   数据采集   分布式   网络爬虫  

摘要:针对微博平台大数据的采集、挖掘、分析等热点问题,深入介绍并分析了采集平台的相关理论技术,通过对采集平台功能结构及后台数据库设计、页面爬取和解析、反爬虫的应用技术设计、分布式策略设计等四个方面的技术研究,设计并实现了一种基于分布式的微博数据采集平台;给出了主从模式系统架构;达到了用户只需根据需要输入待爬取微博页面的ID,并选择要采集的数据类型,即可获得所需数据的目的。经测试,系统搭建成本低,爬取性能高,可运用于微博数据的舆情分析和数据调研等研究方面的基础数据采集。

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

学术咨询 免费咨询 杂志订阅