首页 期刊 数码世界 基于webmagic爬取技术的西藏主流媒体热点新闻的获取 【正文】

基于webmagic爬取技术的西藏主流媒体热点新闻的获取

作者:王国庆; 高红梅; 黄法锦; 白玛旺久 西藏大学信息科学技术学院; 西藏拉萨850000
热点爬取   网络爬虫   webmagic  

摘要:随着互联网的快速发展,传统的浏览器已经很难满足用户对于特定领域的新闻需求。为针对此需求,本项目以webmagic为框架构建爬虫,以CSS选择器,Xpath和正则表达式为抽取方式来抽取所需信息,从中国西藏新闻网上抓取有关新闻,下载到本地并存储进数据库,经过整理分析后,最终以网页的方式呈现给用户。该技术能够准确、迅速的获取数据,且爬虫简单易维护。

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

学术咨询 免费咨询 杂志订阅