作者:张曼; 夏战国; 刘兵; 周勇 期刊:《计算机工程与应用》 2020年第05期
传统卷积神经网络文本分类模型全连接层参数过多易引发过拟合问题,为此,将图像分割中的全卷积思想首次引入字符级文本分类任务中,不仅避免了过拟合问题,而且通过卷积层替换全连接层减少了参数数量,从而加快了模型收敛速度。文本分类问题中单词、短语等层面的处理方式存在获取文本信息不充分的问题。使用字符级全卷积神经网络进行文本分类,充分获取文本信息,并在卷积池化层后添加局部响应归一化层(LRN),提高了模型的总体性能。通过...
作者:张云翔; 饶竹一 期刊:《现代计算机》 2020年第02期
随着电力物联网的高速发展,电网系统中存在大量电子文本。而当前电网信息管理较为混乱,没有统一的模型,同一信息可能因为不同业务格式存在文本上的差异,严重影响电网系统的各项业务效率和成本。为了对电网系统中的海量电子文本进行检索和信息提取,构建一个LSTM神经网络分类模型来对电网文本信息进行分类,并通过基于电网数据的实验验证该方法的有效性。
作者:宋科建; 杨海南 期刊:《电子世界》 2020年第02期
本文提出一种新颖的方法进行多标签分类,实现过程中所涉及的主要步骤有确定数据集,利用字典学习对所述数据集进行学习得到各个样本的稀疏编码,然后经二次投影得到分析字典,结合SVM分类器得到目标优化问题。实验结果表明,该方法具有很好的分类效果。1相关概述随着大数据时代的兴起,机器学习以及数据挖掘领域发展迅速,其中分类问题是机器学习领域的重要研究课题之一。分类问题从本质上来说其实是样本归类,主要有单标签分类和多标签分...
作者:过小宇; 丁建伟; 江泓; 陈周国 期刊:《信息技术》 2020年第03期
新兴暗网零网(ZeroNet)是一种使用比特币加密技术和比特流(BitTorrent)协议构建的抗审查P2P网络,用户规模不断扩大。鉴于ZeroNet去中心化、抗审查等暗网的技术特点,从ZeroNet的体系结构分析入手,基于模拟登陆的方式设计并开发了ZeroNet文本抓取系统;采用半监督隐狄利克雷分布(Latent Dirichlet Allocation,LDA)主题模型针对ZeroNet网站中占比最大的博客和论坛文本数据中的中英文的文本数据进行建模分析;进一步,对比无监督LDA主题模...
作者:程豪; 张虎; 崔军; 赵红燕; 谭红叶; 李茹 期刊:《计算机工程与设计》 2020年第01期
目前针对法条预测的相关研究大都采用文本分类的思想,但模型构建过程都未考虑不同法条之间的从属关系或相似程度,因此对于易混淆法条预测效果普遍较差。针对现有方法在易混淆法条预测中存在的不足,提出基于分层学习的易混淆法条预测方法。将法条分为易区分法条和易混淆法条,按法条内容将易混淆法条组合为不同易混淆法条集并分别训练易混淆法条集预测模型,运用分层学习完成易混淆法条预测。在刑事案件的数据上进行实验,实验结果表明...
作者:康雁; 杨其越; 李浩; 梁文韬; 李晋源; 崔国荣; 王沛尧 期刊:《计算机工程》 2020年第03期
传统的文本分类方法仅使用一种模型进行分类,容易忽略不同类别特征词出现交叉的情况,影响分类性能。为提高文本分类的准确率,提出基于主题相似性聚类的文本分类算法。通过CHI和WordCount相结合的方法提取类特征词,利用K-means算法进行聚类并提取簇特征词构成簇特征词库。在此基础上,通过Adaptive Strategy算法自适应地选择fasttext、TextCNN或RCNN模型进行分类,得到最终分类结果。在AG News数据集上的实验结果表明,该算法可较好地...
作者:李小三; 雷康 期刊:《新一代信息技术》 2013年第05期
LDA是生成武概率模型,从理论上说,具有其他模型无可比拟的建模优点;SVM分类算法在文本分类上具有独特的优异性能,本文将前者良好的文本表示性能、降维效果与后者强大的分类能力结合起来。实验表明,该方法克服了传统选择方法带来的分类性能受损问题,并且能够在降低数据维度的象件下提高分类的正确率。
作者:王梦佳; 林晶晶; 杨文晖 期刊:《新一代信息技术》 2014年第12期
支持向量机(Support Vector Machine,SVM)是根据有限的样本信息在模型的复杂性和学习能力之间寻求最佳折中,以期获得最好的泛化能力,并且在解决文本分类中表现出很多特有的优势。本文以文本分类为主要任务,讨论了目前存在的几种二叉树多类SVM算法组合策略。并用中改进的多类SVM分类算法作为文本分类器核心算法,并在多类文本分类实验中进行验证。
作者:卢志翔; 蒙丽莉 期刊:《广西科技师范学院学报》 2011年第04期
TFID作为文本特征权重计算常用方法,其不足之处是忽略了特征词在文本中的分布情况和文本长度。修正特征词后的改进TFIDF算法召回率和准确率都优于改进前TFIDF。
作者:何峰 期刊:《自动化与信息工程》 2006年第03期
在网络这个庞大的虚拟图书馆中,占信息比重最大的文本数据却缺乏结构化、组织化的规整性,大大降低了网络文本信息的利用效率,而文本的自动分类技术则能降低网络的查询时间,提高网络搜索质量。文章提出了一种基于粗糙集理论的文本分类方法。
作者:徐彤阳; 尹凯 期刊:《情报科学》 2019年第10期
【目的/意义】引入人工智能领域中的深度学习方法来解决数字图书馆中传统文本分类的缺陷,这既是人工智能领域研究的重点,也是图书馆领域关注的热点问题。【方法/过程】在对数字图书馆传统文本分类进行系统梳理的基础上,提出基于深度学习的数字图书馆文本分类模型,利用词向量的方法对文本特征进行表示,采用深度学习模型中的卷积神经网络提取文本信息的本质特征,并进行了实验验证。【结果/结论】实验测试表明,基于深度学习的文本分类...
作者:吴龙峰; 于瓅; 王峰 期刊:《宿州学院学报》 2019年第12期
文本分类是自然语言处理领域的一个重要分支,它不仅能对文本信息进行高效的分类和管理,而且能为自然语言处理其它方面的应用提供良好的理论支撑和技术支撑。近年来文本分类的研究在很多领域都取得了显著的成果,但由于文本分类在国内起步较晚,涉及领域较多,目前还有较多的工作需要进一步的研究和完善。基于此,从技术、方法和应用几个方面介绍了空间向量模型的文本分类的研究近况,以期为该领域的相关研究提供借鉴。
作者:朱军; 饶元; 傅雷扬; 张宁; 刘锴 期刊:《长江大学学报·自然科学版》 2012年第1X期
由于语言上的差异,中文垃圾邮件过滤与英文邮件在信息处理技术上差别较大.针对中文垃圾邮件过滤的邮件训练集、过滤规则和分类器特征库更新不及时,经常出现误判和漏判等问题,以文本分类技术为基础,将基于规则方法和Bayes分类方法相结合,设计了一种中文垃圾邮件过滤方法,详细阐述了中文邮件过滤的邮件预处理、中文分词、特征选取等技术.试验结果表明,该方法可以明显改善中文垃圾邮件过滤效果.
作者:江海戬; 辛立强 期刊:《工业控制计算机》 2019年第12期
由于卷积神经网络在训练前就需要确定分类个数,所以用一个卷积神经网络模型能为文章添加的标签总个数是确定的不能改变的,而使用多个卷积神经网络模型组合可以避免这类问题。在实现多标签中首先使用词向量库将文字转化为词向量,然后依次用多个卷积神经网络模型对文章进行提取特征并分类,其中通过对预测出的类别概率分析来添加相应的标签,可以代替人工操作节省撰写文章人的时间。
作者:胡婧; 刘伟; 马凯 期刊:《科学技术与工程》 2019年第33期
为了探讨中文病历文本预处理后高维稀疏性的特点,导致文本分类精度低、算法模型收敛速度慢等性能问题,提出一种基于粗糙集的词袋(BOW)模型结合支持向量机(SVM)的文本分类算法(BOW+SVM)。该算法首先采用BOW模型对特征词提取构建高维度文本空间向量,然后利用粗糙集的属性约简算法对文本特征处理,把模糊的、冗余的属性从决策规则中清除,降低空间向量维数,最后利用所提纯的特征与SVM分类器交叉结合进行文本分类。在Python+TensorFlow环...
作者:梁柯; 李健; 陈颖雪; 刘志钢 期刊:《智能计算机与应用》 2019年第05期
本文利用Python语言,对25 000条英文影评数据进行文本分类。首先利用词袋模型对文本数据进行分类。在此基础上加入Word2Vec建立新的词向量特征,通过精准率和召回率对比前后2种模型的分类效果;最后通过逻辑回归和朴素贝叶斯分类模型的分类效果对照得出研究结论。结果表明:对于英文影评文本分类,在同等条件下,使用Word2Vec构建词向量模型的精准率和召回率比使用bag of Word词袋模型分别高出0.02个百分点和0.026个百分点;在使用Word2V...
作者:张扬武; 李国和; 王立梅; 宗恒; 赵晶明 期刊:《计算机应用与软件》 2019年第10期
由于文本分类中的特征空间高维稀疏,传统单一的降维方法难以满足实际大数据分类需求。针对这种情况,提出一种两阶段的混合特征选择方法。第一阶段计算每个特征词的信息增益率并进行排序,然后根据设定的阈值进行特征词的选择。第二阶段利用主成分分析方法将第一阶段输出的仍保持高维特性的高维特征空间映射到低维新特征空间。实验结果表明,与单一的传统方法比较,混合特征选择方法实现了二次降维,不但减少了计算开销,还提高了分类性...
作者:丁月; 汪学明 期刊:《计算机应用研究》 2019年第12期
传统朴素贝叶分类算法没有根据特征项的不同对其重要程度进行划分,使得分类结果不准确。针对这一问题,引入Jensen-Shannon(JS)散度,用JS散度来表示特征项所能提供的信息量,并针对JS散度存在的不足,从类别内与类别间的词频、文本频以及用变异系数修正过的逆类别频率这三个方面考虑,对JS散度进行调整修正,最后计算出每一特征项的权值,将权值代入到朴素贝叶斯的公式中。通过与其他算法的对比实验证明,基于JS散度并从词、文本、类别三...
作者:阿力木江·艾沙; 殷晓雨; 库尔班·吾布力; 李喆 期刊:《计算机应用研究》 2019年第11期
基于类别信息的特征权重计算方法对特征与类别的关系表达不够准确,即对于类别频率相同的特征无法比较其对类别的区分能力,因此要考虑特征在类内的分布情况。将特征的反类别频率(inverse category frequency,ICF)和类内熵(entropy)相结合引入到特征权重计算方案中,构造了两种有监督特征权重计算方案。在维吾尔文文本分类语料上进行的实验结果表明,该方法能够明显改善样本的空间分布状态并提高维吾尔文文本分类的微平均F 1值。