首页 期刊 数据分析与知识发现 科技文献数据库中机构名称匹配策略研究 【正文】

科技文献数据库中机构名称匹配策略研究

作者:孙海霞; 王蕾; 吴英杰; 华薇娜; 李军莲 南京大学信息管理学院; 南京210093; 中国医学科学院医学信息研究所; 北京100020
信息检索   机构名称规范   相似度计算   混合策略   文献数据库  

摘要:【目的】规范科技文献数据库中机构名称存储与管理,设计并实现机构名称匹配策略。【方法】引入地区、类别和命名特征,构建3类7组匹配判定规则,设计4组规则与编辑距离混合的匹配策略,基于中文生物医学文献数据库2006年–2011年"作者单位"数据进行实现与评估。【结果】在600余万条"作者单位"数据集上,对高等院校、医院与科研院所三类机构进行匹配实现,结果表明综合考虑机构地区和命名特征规则的混合匹配策略表现最佳,准确率均在80%以上,召回率达64.82%,F值达71.66%。【局限】辅助词典和规则构建主要依赖人工经验,覆盖面不全;机构名称识别存在错误,对匹配结果产生影响;提出的匹配策略无法有效解决机构名称形态差异较大的规范问题。【结论】本研究提出一种基于规则和编辑距离的机构名称匹配策略,能够提高科研文献数据库建设的规范性。

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

学术咨询 免费咨询 杂志订阅