首页 期刊 信息通信 基于专利摘要词嵌入分布式表示方法的改进 【正文】

基于专利摘要词嵌入分布式表示方法的改进

作者:刘刚; 曹雨虹; 裴莹莹; 李玉 北华航天工业学院电子与控制工程学院; 河北廊坊065000; 北华航天工业学院计算机与遥感信息技术学院; 河北廊坊065000
专利摘要   词嵌入   语言模型   聚类   自然语言处理  

摘要:专利文献是记录专利的主要依据,而专利摘要则是专利文献的进一步浓缩。实验基于中文专利摘要部分,借助Python第三方库jieba进行分词、词性标注、gensim进行词向量映射,探讨对中文专利摘要部分进行分词、词性标注的问题,进而探讨词嵌入中基于词袋模型和分布式模型的差异。针对现有的分布式表示方法中词向量连续稠密等问题,提出了在相关语料库的基础上将词语聚类之后再结合CBOW和Skip-Gram模型训练语料词语得到权重矩阵,并将此权重矩阵用户测试数据中去预测中心词并得到其词向量。研究表明改进后的方法在词嵌入分布式表示词向量更适合用于循环神经网络的研究。

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

学术咨询 免费咨询 杂志订阅