首页 期刊 计算机技术与发展 结合深度学习与词性标注的网页分类算法研究 【正文】

结合深度学习与词性标注的网页分类算法研究

作者:骆聪; 王帅 江南计算技术研究所; 江苏无锡214083
网页分类   深度学习   html标签权重   词性标注   深度信念网络  

摘要:为了方便互联网用户高效地从海量网页中获取自己所需的信息,准确的网页分类技术越来越受到人们的重视。网页分类技术一般采用信息增益、互信息等进行特征选取,并使用kNN(k-nearest neighbor)、朴素贝叶斯(naive Bayes)和支持向量机(support vector machines)等进行分类。不同于传统的网页分类算法,结合深度学习的知识采用更深层次的方法进行特征提取。通过考虑网页HTML标签权重提取网页的内容,然后利用词性标注技术在剔除部分对网页分类贡献较小的词语的同时,也为区分能力高的名词赋予更高的权重,最后结合深度信念网络(deep belief network)进行特征提取和特征分类。实验结果表明,提出的网页分类算法具有和采用支持向量机相当的准确性,并且在使用词性标注技术后,网页分类结果的 F 1 值又提升了3.35%。

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

学术咨询 免费咨询 杂志订阅