作者:李玲; 王法胜; 李绍民 期刊:《大连民族大学学报》 2020年第01期
为了减少大学生完成作业过程中的抄袭问题,提高大学课程教学的过程性考核效果。基于自然语言处理中常用的Simhash算法,设计开发了作业系统。该系统以Spring、SpringMVC、MyBatis(SSM)为开发框架,前端开发采用Bootstrap技术。先采用IKAnalyzer分词器对输入的作业文本进行分词处理,再使用Simhash算法计算文档的签名,最后通过计算汉明距离得到作业的结果。该系统能够对学生提交的作业进行,帮助教师客观地评价学生的作业完成情况,有效...
作者:王添男; 冯锋 期刊:《电子测试》 2019年第15期
simhash算法是针对处理海量数据包括文本、网页等去重问题的最重要的技术之一,本文基于传统的simhash算法去重时存在短文本准确率难以保证的问题提出一种改进的策略,通过使用多线程的方式达到指定的运算量级,对准确率的问题使用折中点的方式去解决,长短文本使用不同的汉明距离去判定文本的相似性,同时运用TF-IDF算法与标注重点相结合的方式,使得确定权重的方式在基于TF-IDF的算法下适应于更多的文本,让不同的文本确定权重变得更加...
作者:汤建明; 寇小强 期刊:《计算机应用与软件》 2018年第12期
如今网络和信息技术飞速发展,每天都有数以亿万计的文本数据产生。然而,不可避免地有很多文本内容是重复的。这样导致用户在利用搜索引擎搜索或者在网站上浏览内容时会看到很多相似的东西。这不仅给用户带来了不好的体验,对内容提供商来说,也需要花费更多的资源对重复冗余的内容进行存储。因此,对文本做一些相似度判断的基本处理,去除重复的文本有很重要的意义和价值。提出设计和实现一种基于simhash的文本去重系统。该系统...
作者:晋晓琳; 张树武; 刘杰 期刊:《中国传媒大学学报》 2019年第01期
为了在海量文本中快速精确的找到所需文本,本文提出了一种基于分布式架构的海量文本相似度检测方法。首先使用TF-IDF进行文本特征提取,然后用分布式搜索引擎Elasticsearch召回候选样本集,最后采用余弦相似度算法计算最终相似度。在全文粒度和句子粒度上,通过与指纹算法Simhash以及Simhash算法结合余弦相似度算法实验比较发现,本方法在准确率和速度上都有明显的优势,因此能够满足海量文本快速相似度检测的要求。
作者:刘亚姝; 王志海; 侯跃然; 严寒冰 期刊:《清华大学学报·自然科学版》 2019年第01期
计算机及网络技术的发展致使恶意代码数量每年以指数级数增长,对网络安全构成了严重的威胁。该文将恶意代码逆向分析与可视化相结合,提出了将可移植可执行(PE)文件的".text"段函数块的操作码序列simHash值可视化的方法,不仅提高了恶意代码可视化的效率,而且解决了操作码序列simHash值相似性判断困难的问题。实验结果表明:该可视化方法能够获得有效信息密度增强的分类特征;与传统恶意代码可视化方法相比,该方法更高效,分类结果更准...
作者:彭双和; 图尔贡·麦提萨比尔; 周巧凤 期刊:《计算机技术与发展》 2017年第11期
随着计算机技术的飞速发展,各领域存储系统中的数据存储量迅猛上升,而其中的冗余数据也呈不断增加趋势。以往的研究表明,某些存储系统中的冗余数据已达60%,其存储管理成本较高。处理冗余数据已成为目前存储系统研究的热点。为此,提出了一种基于Simhash的中文文本去重方案。该方案采用数据块作为粒度对重复数据进行去重处理,主要是将中文文本中的“。?!”等特殊字符作为分割点,对数据进行相应的分块处理,并以Simhash作为...
作者:孔德广; 蒋朝惠; 郭春; 周燕 期刊:《通信技术》 2018年第03期
Webshell后门是我国面临的严重安全威胁之一。由于Webshell隐蔽性强,已成为黑客布置后门的主要方式。传统Webshell检测方法普遍存在检测时间长、检测严重滞后、误报高等问题。因此,提出了一种基于Simhash算法的Webshell检测方法。该方法结合Webshell代码复用思想构建Simhash指纹库,可以做到实时检测、实时告警,可应用于中小型网站。对该检测方法进行实验分析,并与其他检测工具进行比较,证明了该检测方法在低误报情况下,也能较好地...
作者:陈波; 潘永涛; 陈铁明 期刊:《通信学报》 2017年第S2期
提出一个基于多层SimHash的相似度检测方法,通过对APK文件进行分析,最终从5个方面提取分析内容来表征APK,同时在每一层上使用改进的SimHash方法进行相似度检测分析。通过从APK文件中提取的Android Manifest.xml文件、从dex反编译得出的Smali代码累加和、Smali文件指令提取、Java代码集合、Java指令集提取5个层面进行分析。同时通过学习Voted Perceptron投票算法,将其应用到检测过程中,采用信任值权重的方法,为每一层赋予一个可信值...
作者:杨旸; 杨书略; 柯闽 期刊:《计算机学报》 2017年第02期
为了保护数据隐私,数据拥有者会将敏感数据的密文外包到云服务器,这使得传统明文搜索技术难以使用.因此可搜索加密技术被用于对密文数据进行搜索,实现高效的数据利用.然而目前在加密云数据中,关键词模糊搜索方案主要是通过构造关键词模糊集合来实现,其需要大量的计算和存储开销.本文提出的搜索方案,无需构造关键词模糊集合,而是基于Simhash的降维思想,将文档关键词做n-gram处理并得到Simhash指纹来实现模糊搜索.该文结合汉明距离和...
作者:栗迎结; 任洪敏 期刊:《现代计算机》 2016年第14期
在对Web应用进行安全漏洞检测时,手动检测和所使用的网页比对算法都会影响到检测的准确率和效率,在传统的SQL注入漏洞检测技术的基础上建立一个基于Selenium的自动化检测系统,并使用优化的Simhash文本相似性检测算法来提高系统性能,通过实验验证该系统的可行性和检测结果的可信度。
作者:王格 吴钊 李向 期刊:《计算机与数字工程》 2016年第04期
在大量的文本数据中,针对不能快速有效地提取或查找有用信息及知识这个问题,以文本相似度计算为基础的文本数据挖掘成为数据挖掘研究领域里的一个重要的课题。论文主要研究两种不同的方法 VSM余弦算法和Simhash来实现文本相似度的计算,首先采用传统的VSM余弦算法和Simhash算法,按照余弦公式通过内积最终计算出文本间的相似度大小n(0〈n〈1),最后为了实现余弦算法并提高系统效率,使用了大量容器如Map、Set和Vector以及内积算法等...
作者:李纲 毛进 陈璟浩 期刊:《现代图书情报技术》 2013年第09期
针对中文文本,抽取出文本内容特征,结合Simhash算法生成中文文本的语义指纹,通过语义指纹的海明距离判断文本间相似程度。整合Single—Pass快速聚类算法对语义指纹快速聚类,所得的语义指纹聚类即为文本去重的最终结果,从而实现面向中文文本的快速去重流程。实验过程中,通过与Shingle算法对比,可以体现该方法在算法精确度、鲁棒性等方面的优势,同时该方法的运行速度优势也能较好地支持大数据量文本的去重操作。
作者:俞枫 王引娜 期刊:《微型电脑应用》 2014年第01期
SimHash算法是目前主流的文本去重算法,但它对于特定行业的文本数据在主题方面的天然相似性特点并没有特殊的考虑.基于多年在金融证券行业信息管理和数据整合的经验,本文分析目前文本去重方法存在的问题,特别针对SimHash算法在特定行业文本去重中的不足,创新地提出一种基于段落主题的文本去重方法(简称DRPKP算法),通过对去重准确率、覆盖率和去重时间3个指标进行对比测试,DRPKP算法比SimHash算法准确率可提高24.5%、覆盖率可提...
作者:徐济惠 期刊:《计算机技术与发展》 2014年第09期
以互联网重复文档反作弊需求为背景,研究了基于Simhash的海量文档反作弊技术。以Simhash算法为文档判重的核心算法作基础对该算法获取文档特征的过程进行改进,将单词意义作为衡量单词权重的一个考量因素。针对64位文档Simhash签名,提供用户维度、全文维度和黑库维度的文档判重服务,并可基于全文和段落两种粒度进行文档相似性比较。通过测试数据和分析,该技术能保证运行稳定,每个实例可存储1亿文档,平均请求耗时稳定在20 ms左右,高...
作者:池水明 阚歆炜 张旻 期刊:《计算机时代》 2014年第03期
针对传统SQL注入漏洞检测方法准确率和效率无法达到很好平衡的问题,提出了一种基于Simhash文本相似性检测的SQL注入漏洞检测技术.使用特征值来进行网页间的比较,提高了检测的精度与效率,据此设计并实现了一个SQL注入漏洞检测原型系统.实验结果表明,该系统在检测SQL注入漏洞时兼具了准确性与高效性.
作者:余意 张玉柱 胡自健 期刊:《信息通信》 2015年第02期
随着互联网的发展,重复的网络信息越来越多,所以,大规模的文档去重技术研究逐渐成为热点。文中对基于Simhash算法的大规模文档去重技术进行了研究,并且以Simhash算法为文档去重的核心算法作基础对该算法获取文档特征的过程进行改进,将单词词义和词长作为衡量单词权重的考量因素。通过理论分析以及相应的实验数据表明,文章提出的改进方法实现了在大规模文档数据基础上对相似文档的快速检测。
作者:石雁 李朝锋 期刊:《计算机技术与发展》 2015年第12期
在中文文本相似去重中的关键词计算和提取阶段,文本分词后,存在高维、稀疏和缺乏语义词项,而这些大多没有实际意义的词会给计算带来噪音,不利于文本去重。为此,需要提取文本特征,使该特征能够表示文本的主要内容。针对此问题,提出了一种结合词频、词项间互信息关联度及其语义相似度的改进的关键词提取方法。该方法综合考虑候选词的统计特征、词项间的相关度和相似度,并将此方法应用于SimHash文本相似计算模型中。实验结果...