<正>《汉语词汇学论集》(厦门大学出版社,2011年,以下简称《论集》)收录了李如龙先生近十几年间发表的汉语词汇学论文。其内容包括了五个方面:(一)共同语词汇的系统及其生成与发展;(二)汉语与汉字的互动与汉语词汇的历史演变;(三)方言和共同语词汇的共时与历时比较研究;(四)语汇及语汇学;(五)词汇规范及口语教学。这些研究成果以其鲜明的特色集中体现了李先生的汉语词汇研究的理念。
作者:张清军; 朱才连 期刊:《工程科学与技术》 2004年第03期
文本主题自动提取是一种很有实用价值的技术,它可以有效地浓缩整个web页面,解决无线网络终端由于显示屏太小而无法显示整个网页的难题.总结了目前有关文本主题提取方面的研究成果,设计了一个特征词加权函数,在此函数中考虑了词所跨的段落数因子,同时采用非线性函数描述词长因子和词所跨的段落数因子的作用,并将加权函数应用于主题自动提取.实现了一个中文主题自动提取系统原型,通过对文本集的测试验证了加权函数的有效性.
作者:任永辉 期刊:《咸阳师范学院学报》 2015年第05期
方言特征词是方言形成和发展过程中产生的,文章对宝鸡方言的特征词进行疏证,以探求其特征词的语源。
垃圾邮件的过滤是一个具有现实意义的课题,其自动过滤主要以关键字过滤技术为主。这种技术缺陷在于某些词词型发生变化,但仍保留其原有潜在特质,即在意义上等价时,其关键字的识别方法就不适用了。本文根据Agrawal等人的关联分析算法提出一种过滤垃圾邮件的方法,即根据词项的潜特征进行判定,从而提高垃圾邮件的识别率。
作者:赵苗 期刊:《北华大学学报·自然科学版》 2018年第01期
在新一轮基础教育改革的背景下,多种版本的品德教材进入了教学实践。为考察不同版本的品德教材特点,本文在义务教育阶段品德教材语料库的基础上,以主题及特征词为统计分析对象,对不同版本教材内容与课程标准的拟合情况,以及不同版本教材的各自特色和优劣势进行了实态分析与描述,旨在为教材的编写提供参考建议。
文章依据近年来发表的关于晋语的论著材料和观点讨论晋语的方言特征问题。认为:晋语的入声和江淮官话的入声有许多差异,尤其是“舒声促化”现象很值得注意;除文白异读多之外,晋语还有不少别义异读;经过进一步比较,晋语还可以发掘一批特征词;晋语有发达的四字格俗语。
作者:郭涛; 王一涛 期刊:《汉字文化》 2018年第A01期
本文描写了陕西省长武县方言的词义特点。通过与普通话词义的比较,长武方言的词汇在词汇意义上的特点主要表现为:同形异义、词义扩大、词义缩小等;在色彩意义的特点主要表现为形象性、生动性;在语法意义上,长武方言的构词后缀与普通话的构词后缀差异较大。
作者:章兰; 杨季文; 江浩 期刊:《河海大学常州分校学报》 2004年第02期
设计了一种基于VSM模型的动态文本分类器,它能针对文本的不同类别建立不同的特征子空间,各特征子空间之间相互独立,同时能将文本分类中常用的2个评估指标召回率和精确率转化为正确分类率和错分率;考察了特征子空间的维数和判定界值对这2个指标的影响.该动态文本分类器能对用户输入的文本流进行动态分类.
通过对查询短语的结构分析,认为查询短语通常由关键字和特征词构成.特征词是对网页内容的概括,它预示着网页中包含一组特定的特征词条.基于此思想建立了面向Web网页内容的特征库,研究了以Web网页内容特征库为基础实现对查询短语进行语义理解的方法,提出了相关度级别的算法,对库中已收入的特征词进行了查询测试,查准率为86.7%.实验表明,该方法基本实现了对查询短语的理解,对提高搜索引擎的查准率有显著的效果.
作者:唐星; 王军锋; 王文军; 蒋刚; 舒炎昕 期刊:《内蒙古师范大学学报·教育科学版》 2019年第01期
为了优化软件系统设计初期的信息架构分类工作流程,提升软件设计和后期维护的效率,以多媒体视频广告屏幕控制系统为例,提出了对信息架构各功能对象特征词添加属性访问权值,使其向量化,然后采用层次聚类算法来实现将功能对象进行自动划分的设计方法.实验结果表明,采用层次聚类算法来实现软件系统信息架构的自动分类具有可行性,能够有效提高软件系统信息架构设计开发的效率.
作者:吴林静; 劳传媛; 范桂林; 黄景修; 刘清堂 期刊:《计算机应用研究》 2018年第08期
以应用题自动求解为目标,以高考入学考试数学试卷中的分层抽样应用题为研究对象,重点研究了分层抽样应用题的句子语义角色识别方法。根据分层抽样的原理,首先定义了分层抽样题意表征中的五种核心语义角色,分别为总体、样本、总体中的层、样本中的层和实体之间的关系。基于这五种语义角色,应用题题意理解中的核心问题被转换为对应用题文本中的句子进行语义角色判定。提出了一种基于特征词与 n-gram模型相结合的句子语义角色判...
“坑”表示溪涧在东南诸方言中普遍存在,并大量出现在东南地区村落地名当中。此义引申自山谷义,有明确的历史来源,并与东南地区地貌特征有很大关系,是东南诸方言的广义特征词。
作者:陶峰; 汤鲲; 程光 期刊:《计算机技术与发展》 2018年第08期
随着电子邮件的普及,垃圾邮件的泛滥问题也逐渐引起人们的关注,垃圾邮件分类技术的研究成为了近年来的热点课题。邮件特征选择会直接影响到分类的效率和精确度,使用TFIDF算法可以有效评估一个特征项对于邮件分类的重要程度。但在邮件分类中单纯使用TFIDF来判断一个特征是否有区分度还存在很多的不足:没有考虑到特征词在类间和类内的分布情况,低估了高频词的作用并高估了低频词的作用。对TFIDF算法进行修改,降低特例邮件中频...
作者:张弛; 周艳玲; 张贯虹 期刊:《赤峰学院学报·自然科学版》 2019年第05期
为了更加准确地计算文本特征权重,提高文本相似度计算的精确度,文章提出了一种基于《知网(HowNet)》语义知识库的加权语义复杂网络文本相似度计算方法.该方法首先以特征词为节点,以特征词窗口共现为边,以特征词的TF-IDF值为特征词节点的初始权重,以融合共现频率和概念间语义距离计算特征词节点之间边的权重,构建加权语义文本复杂网络.然后利用综合特征指数作为加权语义网中文本的特征权重.最后基于公开数据集和KNN算法进行文本聚类...
作者:王术; 付关友; 朱征宇 期刊:《计算机工程与设计》 2005年第03期
个性化服务研究核心点在于准确描述用户兴趣,即对用户访问过并感兴趣的网页进行准确描述.现今对网页特征描述方法还未有系统的研究.针对网页特征描述中涉及的特征抽取范围、特征词规范化及词语权重计算3方面内容进行了分析研究,将改进后的新方法应用于个性化服务系统时取得了较好的信息推荐效果.
文章提出了一种基于本体论的文本特征提取方法.通过构建文本结构树来充分利用文本结构分析得到的信息,利用本体对领域知识的描述信息来分析特征词之间的关系,而且在特征权值的计算中提出了特征词统领长度的概念和计算方法.实验数据表明该方法提高了文本特征提取的准确性.
作者:叶振宇; 刘晶 期刊:《计算机时代》 2004年第11期
本文给出了一种基于模糊模式识别的垃圾邮件过滤方法:针对个人用户,搜集样本邮件进行学习,提取特征词汇构成特征论域,在论域上定义模糊集描述邮件,然后构造隶属函数并计算贴近度,使用择近原则判别垃圾邮件;阐述了模糊模式识别原理和过滤算法.
作者:陈红阳; 汪林林; 陈滢生; 鲁江坤; 左雪 期刊:《电信科学》 2017年第10期
微博短文本中存在一些相同或相近、但与主题关系不大的词项,对准确度量文本之间的相似性具有较大的干扰作用,影响微博话题被发现的质量。提出一种基于文本内容与结构化信息相结合的特征词选择算法,能有效提取具有代表性的特征词,并对文本、话题间相似度的计算策略进行改进,然后将特征词选择算法与相似度计算方法融合,应用于微博文本数据实现话题发现。实验结果表明,本算法能有效降低话题发现的平均漏检率与误检率,提高话题发现质量...
作者:梁昌勇; 王倩倩; 陆文星; 丁勇 期刊:《数据分析与知识发现》 2011年第05期
目前,国内外对在线评论特征词的研究很少考虑到卖家的商品标题和描述信息,这使得数据挖掘过程盲目,挖掘结果准确率不高。采用聚类分析方法,把商品标题和描述考虑进来,搭建三层挖掘模型对在线评论进行研究和分析,提出定位L—K-中心点算法。实验结果证明,该方法能提高挖掘的准确率,减少挖掘时间。