作者:刘勇; 魏光泽 期刊:《电子设计工程》 2017年第16期
中文分词是计算机进行文本分析的关键技术。基于提高分词效率以满足日益增长的文本分析需求,通过分析常用的基于词典的机械分词算法与词典机制的优缺点,在对最大匹配算法进行改进的同时,采用双字哈希词典设计了适合此算法的双字哈希余字分组的词典结构。提出了基于双字哈希结构的最大匹配改进算法。该算法在保证原最大匹配算法分词精度的前提下,大大提高了分词速度。经实验证明,改进后的算法性能明显提升。
作者:刘学军 期刊:《北京工商大学学报·社会科学版》 2006年第02期
Perl是一种功能强大自寺编程语言.Huffman编码是压缩文件的一种常用算法.采用Perl语言编程来产生Huffman编码,并阐述了用Perl编写此程序的基本思想及其数据类型的使用技巧·最后根据此程序的输出结果,简要讨论并分析了Huffman算法对文件自寺压缩率随字符种类及其出现频率的变化规律.
作者:杨晓军 王一莉 期刊:《微电子学与计算机》 2010年第07期
提出了一种应用于GIS领域的中文分词算法.采用将首字和尾种类词用哈希表管理,其余中间字串用Trie树来实现的"首位Hash-Trie树"结构作为词典载体来实现地学词典的高效率存取操作,简化了Trie树的深度,并基于一种改进的正向最大匹配的算法,很好的解决了切分歧义和未登录词的问题.实验结果表明,该算法为GIS中文查询语句的正确理解提供了有效的语义信息.
作者:梁桢 李禹生 期刊:《计算机工程与设计》 2010年第23期
为了提高现有的中文分词效率,提出了基于Hash结构词典的逆向回溯中文分词方法。针对首字Hash结构词典的不足,设计了能够记录词长的Hash结构尾字词典,然后对逆向最大匹配分词算法进行了分析,为了解决其存在的中文分词歧义问题,设计出一种逆向回溯最大匹配算法,该改进算法采用的回溯机制能够有效消除分词中可能存在的一些歧义问题。实验结果表明,该方法实现了提高中文分词速度并减少交集型歧义字符串切分错误的设计目标。
作者:莫建文 郑阳 首照宇 张顺岚 期刊:《计算机工程与设计》 2013年第05期
为了能够快速、准确地进行中文分词,在传统分词词典构造及相应算法的基础上,提出了改进的基于词典中文分词方法。该方法结合双字哈希结构,并利用改进的正向最大匹配分词算法进行中文分词,既提高了分词速度,同时解决了传统最大匹配分词算法中的歧义问题。实验结果表明,该方法在一定程度上提高了中文词语切分的准确率,同时大大缩短了分词时间。
作者:杨东 期刊:《电脑编程技巧与维护》 2013年第07期
使用哈希结构模拟了文件系统中的文件记录,讲述了以哈希算法实现文件记录的保存、查找和删除的方法,以算法流程图与c语言结合的方式演示了模拟的过程。