介绍了一种新型的校园网络环境下的搜索引擎。从搜索引擎所需技术的各个方面对这种搜索引擎的架构,具体实现方法进行详细的阐述。包括最新P2P技术,网络架构,搜索引擎系统架构,中文分词技术,数据提交,用户接口等等。侧重介绍了这种搜索引擎的实现模型和原理,具体实现环节还需要详细的实践和理论考证。
作者:周寅 期刊:《武汉船舶职业技术学院学报》 2019年第04期
本文利用深度学习中的词向量来稍加改进,利用Word Embedding与条件随机场结合,然后进行线性组合,使分词达到更加高效。运用北大的语音资料库提供的实验语料进行实验,进一步证实实验结果,融合条件随机场的技术,在中文分词方面取得更优秀的效果,在北京大学提供的语料库的封闭测试中准确率和召回率都得到了较高的成绩。并且在开放式领域中也取得了明显的提高。
作者:章登义; 胡思; 徐爱萍 期刊:《计算机应用研究》 2019年第10期
针对现有的基于深度学习的神经网络模型通常都是对单一的语料库进行训练学习,提出了一种大规模的多语料库联合学习的中文分词方法。语料库分别为简体中文数据集(PKU、MSRA、CTB6)和繁体中文数据集(CITYU、AS),每一个数据集输入语句的句首和句尾分别添加一对标志符。应用BLSTM(双向长短时记忆模型)和CRF(条件随机场模型)对数据集进行单独训练和多语料库共同训练的实验,结果表明大规模的多语料库共同学习训练能取得良好的分词效果。
作者:江明奇; 严倩; 李寿山 期刊:《中文信息学报》 2019年第09期
中文分词任务是自然语言处理的一项基本任务。但基于统计的中文分词方法需要大规模的训练样本,且拥有较差的领域适应性。然而,法律文书涉及众多领域,对大量的语料进行标注需要耗费大量的人力、物力。针对该问题,该文提出了一种基于联合学习的跨领域中文分词方法,该方法通过联合学习将大量的源领域样本辅助目标领域的分词,从而提升分词性能。实验结果表明,在目标领域标注样本较少的条件下,该文方法的中文分词性能明显优于传统方法。
作者:涂文博; 袁贞明; 俞凯 期刊:《计算机工程与应用》 2020年第02期
在中文信息处理中,分词是一个十分常见且关键的任务。很多中文自然语言处理的任务都需要先进行分词,再根据分割后的单词完成后续任务。近来,越来越多的中文分词采用机器学习和深度学习方法。然而,大多数模型都不同程度的有模型过于复杂、过于依赖人工处理特征、对未登录词表现欠佳等缺陷。提出一种基于卷积神经网络(Convolutional Neural Networks,CNN)的中文分词模型——PCNN(Pure CNN)模型,该模型使用基于字向量上下文窗口的方式...
作者:李畅; 吴振强 期刊:《考试周刊》 2011年第26期
传统的算法处理分词过于粗糙,而且往往会引起分词歧义。为弥补传统分词算法的固有缺点,本文在吸收了成熟算法优点的基础上,提出了改良型的中文分词算法(正向扩词分词算法和反向扩词分词算法)。这两种新算法与传统最大匹配算法相结合,不但提高了分词的精度和速度,而且降低了分词服务程序的开发难度。经过实践验证,分词准确率达到大多数系统对中文分词的要求。
作者:曾华琳; 李堂秋 期刊:《学术问题研究》 2006年第01期
汉语分词在汉语文本处理过程中是一个十分特殊而重要的组成部分。传统的基于词典的分词算法存在着很大的缺陷,它们无法对未登陆词进行很好的处理。而基于概率的算法只考虑了训练集语料的概率模型,对于不同领域的文本的处理效果不尽人意。本文提出了一种基于上下文信息提取的概率分词算法,它能够将预切分文本的上下文信息加入分词概率模型中,以上下文信息指导文本的切分。这种切分算法结合经典n元模型以及EM算法,在开放测试环境中取...
作者:郑少婉; 陆培民 期刊:《信息技术与网络安全》 2018年第02期
研究了基于语义的裁判文书成分分割的方法,旨在在语义理解的基础上,从裁判文书中获取判决书信息、原告信息、被告信息、案件事实、原告诉求、被告辩称、法院认定证据、法院观点、法律依据、判决结果等信息,从而减少法官工作量,以及帮助人们更好地了解案件。通过两个部分详解了系统的构建以及分割的实现,系统构建主要包括线下裁判文书采集、语料库训练,以及线上的分析模块。
作者:李瑞芳; 杨娜 期刊:《信息技术与网络安全》 2009年第19期
介绍了将开源的全文检索工具包Lucene嵌入到自己的搜索引擎中来满足开发主题搜索引擎的需求。并基于Lucene中文分词的不足设计了一个比较完善的中文分词器,然后将其引入具体应用中,并且与传统搜索引擎在性能上进行了比较。
文章结合股市新闻和股票历史价格,首先将股市新闻作为多重核的一个子核,利用中文分词软件对股市新闻进行分割,并从中选取1000个有代表性的词语处理后作为股市新闻子核的特征空间;然后选取11个指标对股票历史价格进行了处理并将其作为另外一个子核的特征空间;最终利用线性加权的方法对两个特征子空间进行合成,并进行仿真。
中文分词是中文文本挖掘的重要环节。中文分词的方法主要有基于辞典与规则和基于统计两种,“基于串频统计和词形匹配的分词系统”在一定程度上结合了中文分词两种方法的优点于一体.它充分利用文本本身的信息建立临时辞典,再配合一定的常用辞典,用词形匹配的方法达到分词的目的。
作者:吴建源 期刊:《广东培正学院论丛》 2011年第04期
探讨了BP神经网络的学习过程与主要参数,分析了基于BP神经网络的中文分词算法,在joone-editor建立好的神经网络模型中加以实验,实验表明面对歧义切分的时候,BP神经网络的学习和适应能力较原先的MMAnalyzer具有明显的进步。
作者:薛源 期刊:《计算机产品与流通》 2019年第05期
传统机器学习分词方法大都依赖人工设计的特征工程,需要大量的工作来验证这些特征的有效性,显然工作效率比较低。基于神经网络的深度学习算法逐渐兴起之后,使得自动学习文本特征成为一种可能。基于长短时记忆神经网络(LSTM)与条件随机场模型(CRF)相结合的中文自动分词模型是本文主要阐述内容。首先,利用工具Word2Vec从未标记的语料库中训练出字嵌入向量;其次,将上一步训练得到的字向量输入到LSTM并计算出其上下文表示向量;最后,再...
根据Hash函数固有的特点,利用数组和链表这两种常见的数据结构,提出一种较为先进的词典存储结构.在提高了词典访问速度的同时,也兼顾了提高主存储器的空间利用率,而且本算法实现起来也比较容易.
本文探讨了神经网络算法在中文分词中的研究和应用,利用误差反向传播的理念,设计出一种基于神经网络的分词系统。并针对BP神经网络在中文分词技术中存在的一些缺陷,如收敛速度慢、易陷入局部极小等,引入输出值调整等相关优化技术,达到了提高分词精度、提升模型稳定的目的。
本文以Hash表为基础,设计了一种改进的单向扫描中文分词方法,该方法在同等切分精度条件下的分词效率优于传统最大匹配算法。
作者:冯国明; 张晓冬; 刘素辉 期刊:《数据分析与知识发现》 2018年第05期
【目的】提高对专业术语、名词占比较高的专业领域文本的分词准确度。【方法】提出将词典、统计、深度学习三者有机结合的DBLC模型,并编程实现。获取中国管理案例库中的部分案例作为专业领域语料,将其他几种已有分词模型作为对比对象进行实验与分析。【结果】通过实验得到各模型在实验语料上的分词效果,DBLC模型在各评价指标上均优于其他模型,分词准确率达到96.3%。【局限】未对原词典词与新词做区别处理,没有考虑词典的存储结构问...
中文分词技术是中文信息处理的关键,开发设计中文分词系统需要选择合适的平台构造分词词典,处理分词方法。本文是利用VC++6.0作为开发工具,介绍系统设计之初词典的构造与加载的方法。
作者:陶林润德 期刊:《中国战略新兴产业》 2017年第10X期
文本分类是处理和组织文本信息的关键技术,能够帮助有效地组织信息,快速区分有效信息和无用信息,满足用户的个性化需求。本文主要介绍了文本分类的背景、国内外的研究现状以及利用机器学习方法解决文本分类问题的一般步骤。文章第二部分对中文分词、特征向量提取、分类器训练和评估原理做了重点介绍,包括了自然语言处理的统计语言模型,机器学习的KNN、SVM、神经网络算法。
作者:周寅; 黄鋆 期刊:《电子技术与软件工程》 2019年第21期
本文基于经典算法回溯法,对中文分词进行在研究与比对,发现我们的实验结果优于当下的双向LSTM模型、以及CRF条件随机场的数据,将中文分词难点问题未登录词和歧义词的识别提高了1%。