首页 期刊 信息周刊 面向语料库构建的数据采集系统 【正文】

面向语料库构建的数据采集系统

作者:魏靖烜; 张洁 内蒙古科技大学
语料库   数据采集   大数据  

摘要:语料库又被称作为语库——(corpus),在语料库语言学(CorpusLinguistics)研究中被最为基础资源来看待,是根据一定的标准收集并由计算机分析工具处理的书面或口头样本文本的集合。阿特金斯等(Atkins?&?Clear)?(1992)在语料库设计标准中(Corpus?Design?Criteria)提到“语料库是根据特定设计标准为特定目的而建立的大型语言文本数据库”。另一方面,语料库语言学是一门跨学科的学科,它采用数据驱动的实证主义研究方法,将计算机科学与原始的理论体系结合起来处理自然语言。本文基于语料库构建的作用与意义及目前存在的问题提出了相应的面向语料库构建的数据采集系统设计原则,并对其系统进行介绍。

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社