杂志简介:《清华大学学报·自然科学版》杂志经新闻出版总署批准,自1915年创刊,国内刊号为11-2223/N,是一本综合性较强的科技期刊。该刊是一份月刊,致力于发表科技领域的高质量原创研究成果、综述及快报。主要栏目:专题 燃料电池与锂离子电池、专题 电力系统、机械工程、自动化、计算机科学与技术、建设管理等
作者:方卫东; 袁华; 刘卫红 刊期:2005年第S1期
为获取领域本体并量化概念关系的可信度,提出了一种基于Web挖掘的学习模型.通过可扩展的模式集和分布语义模型获取本体主干,使用关联规则发现概念间的一般关系,对候选本体进行修剪和合并.模式可信度、概念语义距离与关联特征决定了概念间关系的可信度.通过'文本分析-本体获取-文本扩充'的迭代过程,优化模型参数和阈值.该模型解决了现有本体学习...
作者:陈蔚然; 董守斌 刊期:2005年第S1期
为了解决垃圾邮件过滤问题,考虑到中文垃圾邮件的特点和过滤系统的效率要求,应用生物信息化技术中模式提取算法TEIRESIAS的原理,设计了基于生物序列模式提取技术的垃圾邮件过滤算法BioMatrix,并实现了基于此算法的中英文邮件过滤系统.过滤系统由数量控制过滤提供垃圾邮件训练集,通过提取其中的特征模式对邮件进行分类,可以识别出约94.2%的垃圾邮...
作者:郭立山; 董守斌; 袁华 刊期:2005年第S1期
传统的主题提取算法存在一些已知的问题.为了更好地满足SEWM-2004中文Web检索测评中的主题提取任务要求,分析经典的基于超链接分析的主题搜索(hyperlink-induced topic search,HITS)等算法,提出了一种以站点作为查询的资源单位,并结合内容分析的主题提取算法CWT100G上的超链接分析(hyperlink analysis withinCWT100(,HAC).HAC算法首先根据网页的...
作者:欧健文; 董守斌; 蔡斌 刊期:2005年第S1期
为了消除网页噪音,有效地提取基于模板的网页主题信息,提出了一种新的信息提取方法.该方法采用机器自动学习方式生成网页集的模板;以网页链接关系中的锚点文本作为提取目标对模板进行标记,生成对应模板的提取规则;依据模板的提取规则对网页主题信息进行提取.对国内2 588个新闻网页进行了检测.实验结果表明,该方法可以快速、有效地提取模板生成的...
作者:马志新; 陈晓云; 王雪; 李龙杰 刊期:2005年第S1期
最大频繁项集挖掘可以广泛应用在多种重要的Web挖掘工作中.为了有效地削减搜索空间,提出了一种新的最大频繁项集挖掘中的搜索空间剪枝策略.这种策略基于深度优先遍历词典序子集枚举树,利用树中子节点与父节点扩展集中相同项的扩展支持度相等的特性,对搜索空间进行剪枝.应用该策略,对MAFIA算法进行改进优化.实验结果表明,该剪枝策略可以有效削减...
作者:王建州; 马志新; 李廉 刊期:2005年第S1期
异常数据的识别与挖掘是非常重要的数据分析之一,在传统的数据分析中往往将异常数据的影响最小化或剔除它们,这可能导致重要的隐藏信息的丢失.该文提出了一种时间序列中异常数据检测与挖掘的新方法,首先计算出时间序列相邻两个点之间的斜率,再与混沌预测斜率相比较以检测出数据的偏差点集,其次对偏差点集进行动态方差检测以确定其异常数据集.该...
作者:雷庆; 吴扬扬 刊期:2005年第S1期
Web中存在着大量描述实体间相互关联的信息,而目前的搜索引擎缺乏知识的处理和理解能力,无法对Web中的关系信息进行识别.该文以XML作为研究对象,提出了一种XML文档中识别和抽取关系信息及其出现模式的方法.该方法按照用户的挖掘请求搜集XML文档;通过计算XML文档的相似度来识别目标文档;建立用户挖掘模式并与目标文档进行模式匹配实现关系数据的...
作者:张克君; 李伯群; 李欣; 杨炳儒 刊期:2005年第S1期
大型网站为了提高访问效率,通常建立多个镜像站点,这导致获取网站全局的用户访问模式知识变得困难.该文提出一种分布式Web日志挖掘模型DWLMS,并以路径分析技术为例,提出了基于DWLMS的局部频繁路的更新算法LFP和全局频繁路径的更新算法GFP,解决了Web访问信息的异地存储、实时增长、分布式算法通讯量等因素给模式分析过程带来的困难.对提出的算法...
作者:封化民; 刘飚; 刘艳敏; 方勇; 宋国森 刊期:2005年第S1期
随着Internet的发展,Web上信息呈爆炸式增长趋势,呈现方式也愈发多种多样,这就给信息检索、信息提取等计算机处理带来了巨大困难.针对HTML的半结构化特征和DOM缺乏位置信息的不足,该文提出了一种新型的Web页面分析和内容提取框架,该框架既包括一种新型的含有位置信息的坐标树模型,还包括能反映空间关系的图模型,将HTML文档转换为坐标树,并结合位...
作者:赵英刚; 何钦铭; 陈奇 刊期:2005年第S1期
标准的单值支持向量(One-class SVM)机不能对含有不完全信息的输入样本进行学习分类.为此该文提出用区间数来对不完全输入信息进行描述,将不完全的信息输入扩展为区间向量形式,引入区间运算来取代原来分类函数中的运算,从而根据区间运算结果来对信息不完全的模式输入进行分类.使用该方法,在分类过程中能够充分利用区间表示的先验知识,同时也能够...
作者:傅鹏; 张德运 刊期:2005年第S1期
传统基于向量空间模型的文本分类方法需要对文档进行预处理,同时也会损失很多有用的信息.该文提出一种基于离散核支持向量机的文本分类方法,直接根据文档的字符序列构造离散核,用于支持向量机分类算法,比较文档之间的相似性,从而改善文本分类的效果.证明了离散核支持向量机方法的时间复杂度与文本的长度成O(n)关系.在Reuters-21578文档集上将离...
作者:刘云峰; 齐欢; HU; Xiang'en; CAI; Zhiqiang; 代建民 刊期:2005年第S1期
为实现文档在不同概念层次下的自动聚类,研究了潜在语义空间中维度的统计特性,发现对应大奇异值的维度描述了语义元素间的共性,对应小奇异值的维度描述了语义元素间的特性,呈现出潜在语义空间维度与概念粒度之间隐含的对应关系.基于这种认识,通过采用不同维度来实现文档在不同概念粒度下的聚类,并获得了很好的聚类准确率.另外,在基于潜在语义分...
作者:庄东; 陈英 刊期:2005年第S1期
随着因特网的迅速增长,能够分类大规模文档的高效文本分类算法变得非常重要.该文提出一种基于加权近似支持向量机模型的文本分类算法,加权近似支持向量机对近似支持向量机作了改进,通过为每个训练误差增加一个权值和使用在原空间直接求解的算法,克服了近似支持向量机模型不适合不平衡数据分类和高维数据分类的缺点.试验结果表明,与标准支持向量...
作者:冯晋; 李春平 刊期:2005年第S1期
由于中文分词处理的复杂性在一定程度上限制了中文信息抽取技术的发展,因此,快速有效地抽取中文文本主题的需求越来越突出.该文主要通过中文分词技术、频繁词查找和词性组合计算来分析词与词之间的关联并最终提取出能够表达文章内容的主题词汇,同时还对这些词汇作了记分和排序.读者能够通过这些词汇来判定文章的主题和重要内容.通过对人民日报语...
作者:董宝力; 祁国宁; 顾新建 刊期:2005年第S1期
为了实现面向特定领域网站的网络资源搜索,提出了一种描述网站主题特征的混合向量空间模型.利用链接文本信息来描述同类主题网站的内容和组织结构所具有的相似特点,而不是由网站链接的树或图结构反映.在向量空间模型的基础上,抽取反映网站结构和内容的文本特征信息,建立网站主题的特征向量模型.在此基础上进行制造企业网站的主题搜索,采用类中心...
相关文章
清华大学自主招生