随着近些年来Python语言在各个行业广泛应用,各大公司对Python技术人员的招聘数量日益增多。利用Python语言的Scrapy框架技术从国内招聘网站上采集了15000条招聘数据,对数据进行了处理和存储,将招聘信息中的行业情况、经验要求、工资情况、学历要求、公司规模和招聘地区等进行了展现和分析。对Python语言框架技术、实现方式方法和必要代码进行详细讲解,对目前国内招聘岗位的需求特点进行了大数据分析,为正在学习Python技术或有意向...
网络爬虫技术方便了网民获取信息,但不当的使用会造成很多问题,如何才能有效地监管网络爬虫是个重要的问题.文章梳理了爬虫的应用现状和监管方式,并建议根据应用分类加强监管. 1 引言 2019年9月初,上海新颜科技与杭州摩蝎科技CEO先后被证实由警方带走调查,涉及的事项均为大数据金融风控.一时间,大数据技术引发的安全和隐私问题再次引起大众的关注.大数据是近几年来的热点技术,因为大数据的潜力似乎无穷,而此次两家公司的主要业务为...
数据在获取的过程中,会受到网络形势复杂性的影响,一般的网络爬虫已经难以适应当前网络发展的需要,数据查找时会出现很多的错误。而Python语可配置网络爬虫通过Python就可以对多线程爬虫程序轻松实现,进行Python可配置爬虫设计,已经成为提高网络运行的主要方式。
作者:范渊 期刊:《信息通信技术与政策》 2012年第03期
面对信息安全攻击从网络层和系统层向应用层的转变,Web应用系统作为组织对外服务门户,面临巨大威胁。Web应用漏洞扫描技术是一类重要的信息安全技术,与防火墙、入侵检测系统互相配合,能够有效提高信息系统Web应用层的安全性。通过对Web应用的深度扫描,Web应用的管理员或开发商可以快速了解Web应用存在的安全漏洞,客观评估Web应用的风险等级,在黑客攻击前进行有效防范。
作者:甘泉; 刘建川; 任春雷; 曾衍伟 期刊:《测绘》 2015年第02期
地理信息服务已经成为地理空间信息共享与互操作的主要途径之一。在地理信息公共平台建设过程中,地理信息服务搜索技术对丰富与整合多源地理信息有着重要作用。本文阐述了利用开源浏览器排版引擎Webkit,研发地理信息服务搜索引擎的关键技术,解决了动态网页中地理信息服务的提取问题。
作者:严慧; 彭绪富; 朱小婉; 熊旭辉; 董叶豪 期刊:《湖北师范大学学报·哲学社会科学版》 2019年第01期
针对微博平台大数据的采集、挖掘、分析等热点问题,深入介绍并分析了采集平台的相关理论技术,通过对采集平台功能结构及后台数据库设计、页面爬取和解析、反爬虫的应用技术设计、分布式策略设计等四个方面的技术研究,设计并实现了一种基于分布式的微博数据采集平台;给出了主从模式系统架构;达到了用户只需根据需要输入待爬取微博页面的ID,并选择要采集的数据类型,即可获得所需数据的目的。经测试,系统搭建成本低,爬取性能高,可运用...
作者:王璇; 霍义霞; 慈云飞; 史国振; 李莉 期刊:《网络与信息安全学报》 2016年第08期
网络爬虫是搜索引擎的重要组成部分,其性能直接影响搜索引擎的准确性和及时性。Larbin是一个高效、简单、功能比较完善的开源爬虫框架,基于此,介绍了几种典型的开源爬虫框架,并对其进行多维度比较;对Larbin体系结构进行详细的介绍;然后指出Larbin在程序结构和流程方面存在的不足,提出对应的优化方案;测试结果表明,改进后的方案在速度和性能方面都有所提高。
作者:马璐; 谭明军; 杨旭东; 聂易彬 期刊:《公路交通技术》 2019年第06期
论述了高速公路投资辅助决策系统的开发背景和系统需求,设计了高速公路投资辅助决策系统的总体技术框架、软件物理框架、逻辑架构,探索了系统开发过程中的关键算法,提出了一种高速公路投资辅助决策系统的开发途径,并完成了开发实例。该系统为高速公路投资单位的投资决策活动提供了一种直观、可视化的辅助决策工具。
随着科学技术的快速发展及社会经济的进步,互联网技术起着越来越重要的作用.对于一些企业和社会公共机构来说,借助互联网爬虫和html特征提取技术,能够将一些重要的资源和数据进行有效的整合和应用,并设计出一个包含了较多信息资源的资讯展示平台.企业和社会公共部门通过将这种包含了较多信息的展示平台呈现给广大用户,能够为用户提供大量的资讯和信息,这对于一个企业的发展和社会良好口碑的建设都是具有突破性作用的.本文基于此,对...
作者:王国庆; 高红梅; 黄法锦; 白玛旺久 期刊:《数码世界》 2020年第01期
随着互联网的快速发展,传统的浏览器已经很难满足用户对于特定领域的新闻需求。为针对此需求,本项目以webmagic为框架构建爬虫,以CSS选择器,Xpath和正则表达式为抽取方式来抽取所需信息,从中国西藏新闻网上抓取有关新闻,下载到本地并存储进数据库,经过整理分析后,最终以网页的方式呈现给用户。该技术能够准确、迅速的获取数据,且爬虫简单易维护。
不作恶(Do not be evil)是谷歌的一项非正式的公司口号,谷歌的口号全称是“完美的搜索引擎,不作恶”(The perfect search engine,do not be evil)。事实上,科技背后是有价值观的,它应当向善,而也只有当它向善的时候,科技创新难以被量化统计的价值,才是正向的。然而,在一些互联网公司眼中,为了获得短期的利益,可以通过大数据杀熟、网络沉迷、数据安全、网络爬虫、头部效应导致的平台垄断等技术手段攫取利益,赚快钱,这显然背离了“科...
作者:耿倩; 陶礼 期刊:《微型电脑应用》 2019年第09期
航空运输业的供求矛盾逐年加深,繁杂的航班数据不能够高效清晰的展现出来,需要设计航班数据可视化系统,以提升航空公司的运行效率,也可以使广大航空用户更加便捷的了解航班信息。介绍了一种航班数据的可视化展示系统。首先通过航班数据跟踪公司的网站信息爬取获得航班数据,再通过Bezier曲线设计连接两个目的地形成航线;最后通过D3.js技术对航班数据统计信息进行图形化展示。
网络爬虫在其被使用以来的二十余年时间里,之前被人们视为没有问题的中立技术,如今被人们视为“道德上可疑的并可被视为违法”的技术。结合侵犯公民个人信息的具体领域和行为,情境化地探讨网络爬虫行为违法性及其刑事规制问题,具有重要意义。网络安全法与公民个人信息保护法等确立的公民个人信息保护合法性原则,以及网络爬虫领域规范爬虫行为的行业规则即爬虫协议(Robots协议),是判断爬虫行为形式上非法的重要标准。对爬虫行为侵犯...
作者:盛凯; 毛红霞 期刊:《信息与电脑》 2019年第18期
大数据时代,新浪微博已成为国内最大的信息平台之一,笔者提出了一种基于新浪微博数据采集的设计与实现方法。通过对比选择爬虫网站,采用Cookie登录、单对象、爬取进度可视化等方法依次剖析每个阶段遇到的问题及解决办法,旨在实现高效、稳定、快速的数据采集。最后将获取的结果存入MongoDB数据库可供后续进行大数据分析研究,得到对私对公有意义的分析结果。
笔者首先分析了网络招聘的现状,介绍了爬虫技术的分类,进而提出了基于Java爬虫框架WebMagic的爬虫方案,然后分析了爬取流程,具体阐述了对大型招聘网站上的职位信息进行抓取及存储的过程,最后简单说明了对岗位信息数据进行清洗、分析、展现的过程。
作者:邓世广; 王月; 马亚伟 期刊:《中国地震》 2019年第03期
首先,基于Python爬虫技术,实现了高精度定位结果的地震目录的自动下载;然后,针对省局台网快报目录汇总后存在重复定位地震的问题,提出了一种能够有效筛除重复定位地震的方法;最后,分析EQ3格式地震目录的二进制结构,实现了高精度定位结果的地震目录向EQ3格式的转换。实际应用表明,该程序能够显著提高EQ3格式地震目录更新的工作效率,更高定位精度的地震目录也有助于对地震活动性进行深入分析。
作者:侯禹臣; 吴伟 期刊:《计算机科学》 2019年第S11期
针对静态图像行为识别研究缺乏标注数据的问题,在Android平台下,利用“众包”思想,设计并开发了基于静态图像的视觉行为人工标注系统。该系统主要包括分配标注任务、用户标注图像信息、评审标注信息和查看历史标注信息等功能。对于评审分数较高的标注信息,利用网络爬虫技术提取该图像的辅助文本标签,并且将标注信息转化为词向量后进行存储,以便于后期的实验研究。同时,系统应用一种基于定价机制的任务分配算法,有效地提高了用户图...
作者:卢弘卓; 黄家俊; 磨敦仁; 蔡群英 期刊:《现代计算机》 2019年第34期
在移动互联网时代,面对日渐丰富的信息资源,我们难以利用网络上大量却分散的信息做到快速按需筛选信息。为了解决这一问题,项目融合网络爬虫技术,获取分散的数据,并且将其聚合到网站和小程序上。在满足用户需求之后,为了提升用户体验而加入信息推荐,运用Hadoop对用户访问记录进行分析,从而实现推荐。
作者:黄文清; 黎嘉嘉; 宁琼敏; 罗小青 期刊:《信息技术与信息化》 2019年第12期
近年来随着电影市场飞速发展,对电影票房影响因素分析及预测既能降低电影市场的投资风险,又能吸引投资者的目光。因而使用网络爬虫技术采集2993部电影的相关数据。通过对各变量进行可视化分析,选取了口碑、上映档期、影片类型、关注度、前期票房和影片片长作为变量。以此构建多元线性回归和随机森林模型。经过比较模型发现,随机森林的模型拟合较理想,因此,选取随机森林模型对近期上映的15部电影票房进行预测,结果表明,有73.3%的电...
近年来,随着城镇化进程的加快,房价节节攀升,购房压力相应增大,租房成为满足居民居住需要的主要途径。互联网的发展给房屋租赁市场提供了新的交易途径,同时也带来了新的挑战。如何在较短的时间内,有效地获取租房用户所需的精准信息变得越来越重要。本文基于Scrapy框架设计安居客租房信息的爬取工具,实现对安居客网站下租房关键信息的自动爬取,过滤并存储租房房源信息,建立租房房源信息数据源,为后续的进一步分析数据提供基础。