【免费】基于文本元素的PDF表格区域识别方法研究-发表之家

基于文本元素的PDF表格区域识别方法研究

作者：窦方坤; 曹皓伟; 徐建良中国海洋大学信息科学与工程学院; 山东青岛266100

pdf 文字流文本抽取文本分类表格识别

摘要：为了对药学PDF文献中的表格进行正确识别,减少表格抽取过程中无关文本元素混入的噪音,以更准确地进行表格结构还原和信息抽取,基于pdf2xml对药学文献PDF中的文本元素进行抽取,将文本元素分类并对表格标题区域向下延伸,从而识别表格区域。实验结果表明,该算法在单栏药学PDF和双栏药学PDF中的识别率分别达到89.7%和93.7%,比tabula工具的识别结果分别提高了10.4%和60.4%,表明该算法能有效处理表格框线缺失和分栏文献等复杂情况。

注：因版权方要求，不能公开全文，如需全文，请咨询杂志社

学术咨询免费咨询杂志订阅

热门期刊服务

科技与经济统计与经济计算机教育计算机与信息技术数值计算与计算机应用计算机工程与设计计算机技术与发展计算机辅助设计与制造电气技术与经济交通与计算机机械科学与技术审计与经济研究

基于大概念的语文教学基于智慧课堂的教与学基于核心素养的培养基于核心素养的教学方式基于模型的优化设计

软件导刊

影响因子：0.97

期刊级别：省级期刊

发行周期：月刊

服务介绍

基于文本元素的PDF表格区域识别方法研究

软件导刊

期刊咨询

订阅杂志

期刊推荐