首页 期刊 测绘科学 网络爬虫的专题机构数据空间信息采集方法 【正文】

网络爬虫的专题机构数据空间信息采集方法

作者:杨宇; 孙亚琴; 闫志刚 中国矿业大学环境与测绘学院; 江苏徐州221116
泛在网络   空间信息采集   网络爬虫   矩阵算法   决策树  

摘要:针对海量专题机构数据空间信息和属性信息缺失的问题,该文使用专题机构信息网站作为信息源,以深度优先策略网络爬虫作为信息获取方法,提出了一种基于网络爬虫框架的专题机构数据空间信息采集方法。在网络爬虫方法关键功能模块中,设计了一种基于词元的字符串相似度矩阵算法来提高机构检索列表匹配准确度,并提出了一种基于决策树模式的行政区划信息识别和抽取算法用以实现地址字符串中行政区划的准确识别和提取。通过具体实现和实验测试,证明该方法能有效地实现专题机构数据空间信息和属性信息的采集,并具有较高的时间效率和准确率,可作为机构数据空间信息采集的一种有效方法。

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

学术咨询 免费咨询 杂志订阅

测绘科学

影响因子:0.77

期刊级别:北大期刊

发行周期:月刊