首页 期刊 计算机工程与设计 基于文档结构与深度学习的金融公告信息抽取 【正文】

基于文档结构与深度学习的金融公告信息抽取

作者:黄胜; 王博博; 朱菁 重庆邮电大学通信与信息工程学院; 重庆400065; 重庆邮电大学光通信与网络重点实验室; 重庆400065; 深圳证券信息有限公司数据中心; 广东深圳518000
公告   信息抽取   神经网络   文档结构树   序列标注  

摘要:针对金融类公告中的结构化数据难以被高效快速提取的问题,提出一种基于文档结构与Bi-LSTM-CRF网络模型的信息抽取方法。自定义一种文档结构树生成算法,利用规则从文档结构树中抽取所需节点信息;构建基于信息句触发词的局部句子规则,抽取包含结构化字段信息的信息句;将字段的结构化信息抽取看作序列标注问题,分词时加入领域知识词典,构建基于Bi-LSTM-CRF的神经网络模型进行字段信息识别。实验结果表明,该信息抽取方法可以满足多类型公告的结构化信息提取,最终的信息句与字段信息抽取的平均F1值均可达到91%以上,验证了该方法在产品业务中的可行性和实用性。

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

学术咨询 免费咨询 杂志订阅