首页 优秀范文 数据通信的概念

数据通信的概念赏析八篇

时间:2023-08-29 16:36:03

数据通信的概念

数据通信的概念第1篇

关键词:数据元素;数据;数据标准化;元数据;信息分类与编码

1 数据元素基本理论

1.1 数据元素及相关定义

在数据元素理论研究中,下面的术语是很重要的,理解好这些术语是理解数据元素的基础。

①数据元素(Data Element):用一组属性描述定义、标识、表示和允许值的一个数据单元。

②数据元值(Data Element Value):数据元能许值集合中的一个值。

③数据项:数据元的一个具体值。

④同义名称: 与给定名称有区别但表示相同的数据元概念。

⑤限定词:帮助定度和呈递唯一性概念的术语。

⑥域:一种属性的可能数据值的集合。

⑦值域:允许值的集合。

⑧域名:将数据元的值域及度量单位利用一个统一的名称来表示。

⑨对象类:对象集,现实世界中的想法、抽象概念或事物集合,有清楚边界和含义,并且特性和其行为遵循同样的规则面能够加以标识。

⑩对象:可要想象或感觉的世界的任一部分。

(11)特性:对象类的所有个体所共有的某种性质。

(12)表示:值域、数据类型的组合,必要时也包括度量单位或字符集。

(13)对象类词:数据元名称的成分,用于表示其所属的对象类。

(14)特性类词:数据元名称的一个成分,用于表述对象类的特性,(数据元名称的一个成分,表述数据元所属类别)。

(15)表示类词:数据元名称的成分,用于描述数据元的表示形式。

(16)数据模型:以反信息结构的某种方式对数据组织的某种描述。

1.2 数据元素规范与标准化框架

1.2.1 数据元素的组成

数据元由对象类、特性和表示三部分组成,其中对象类用于收集和存储数据的事物,例如,人、井、岩芯、管线、储罐都是对象类等;特性是用来区别和描述对象的,例如,颜色、性别、年龄、收入、地址、价格等均为特性;数据的表示部分中最为重要的方面是值域,值域是数据元允许(或有效)值的集合。对于值域,数据元中存在两种类型的值域,一种是所谓取值是固定的,即取值是可枚举的,例如,人眼睛颜色这个数据元,其取值可能包括:Brown、Gray、Green、Hazel、Blue,另一种是概括的,即数据元取值是有定义域约束的,其取值可能是有限的,但是无法列出全部值,例如人的年龄,其取值范围可能是1-200,并且每位要求是十进制表示。

1.2.2 数据元结构模型

(1)数据元概念(DEC):对象类与特性联合在一起形成数据元概念,数据元概念在数据分类中是非常有用的,一般来讲,数据元概念是一个抽象意义上的数据元,但这类数据元的对象类已经限定,只有经过对数据元概念中的各个要素再进一步的限定,才使数据元概念变成真成有意义的应用数据元素。所以,数据元概念本身具有抽象性与分类性。

(2)通配数据元:特性与表示联合在一起形成通配数据元,通配数据元素也具有抽象意义,对于这类数据元来讲,它的特性与表示已经确定,所以它具有通配性,如果将这类数据元与具体的对象类联系在一起,那么该类数据元就可以具体化为有意义的应用数据元。

(3)数据元类型:数据元概念与通配数据元形成数据元类型。

数据元是由数据元概念和表示两部分组成。当一个表示被联合到一个数据元概念上时,就能够产生数据元。数据元和数据元概念间存在多对1的关系,也就是一个数据元必须对应一个数据元概念,而一个数据元概念可以有多个数据元,换句话说,多个数据元可以共享一个数据元概念。

数据元与表示之间的关系是一对一的关系,也就是一个数据元需要一个表示。当数据元的概念模型相同而表示不同时就是两个不同的数据元,数据元中的表示是描述数据元中的数据元概念中的特性,即数据元中的特性有且仅有一个表示。

在数据元概念中对象类和特性之间是一对一的关系,一个对象类需要只需要一个特性(或者特性类),一个特性(特性类)只描述一个对象类,当一个特性和一个对象类建立关联时就产生了一个数据元概念。

同实体关系类的数据模型相比,模型中的实体相当于数据元中的对象类,而实体的属性本当于数据元中的特性和表示。

1.2.3 数据元素的属性

数据元素本身也是一个事物,既然是事物那么就需要属性来描述这一事物,通常我们也将描述属性称为描述数据元素的元数据。

1.2.4 数据元结构模型

经过对数据元理论的深入研究,我们抽象出图2的模型,该模型反映出了数据元概念、表示、基本数据元以及应用数据元间的关系。

1.2.5 值域基本模型

按照数据元素理论,给出了数据元的值域模型。该模型将数据元素的值域抽象为概念域,即所谓的“域名”,一个概念域可能会与多个值域有关系;概念域可能是枚举类型的,也可以是非枚举类型;同样,值域可能是枚举值域,也可能是非枚举值域。

2 数据元的元模型

经过对数据元理论与实际数据规范化应用的研究,我们提出了数据元的元模型。

该框架模型是将对象类、特性类、分类模式由此演生的基本数据元和应用数据元、值域以及数据标准值、实例标准值以及标准实体有机的关联在一起。揭示了数据元与应用的紧密关系。整个模型高度概括了数据标准化的核心工作。

3 数据元素与信息编码间的关系

有些学者讲过,信息标准化实质是信息代码化的过程,周知,信息分类与编码在整个企业信息标准化中占有基础的不可替代的地位。因此如何对企业的各种信息进行有效的分类,并对其进行编码这是信息化过程中一个非常重要的过程。其实数据元素与信息分类及编码有着密不可分的关系,在表1中给出了数据元素分析方法与信息分类与编码的对应关系。

4 数据元应用的领域

数据元素理论属于信息标准化的基础理论,即是数据规范化理论基础。数据元分析在信息分类、数据的集成参考模型、数据模型优化设计、数据元字典以及制订数据交换标准等方面得到应用。

数据元的研究,目前在国际上相当流行,而在国内的研究还处于起步阶段。通过几年的研究,目前,我们已经将这一方法论用于石油上游的数据规范化中,并取得了良好的效果,目前,正在将这一方法论用于中石油的ERP数据平台中的数据规范化中。相信,随着这一方法论的在石油石化领域的不断应用,必将为石油石化信息化建设起到科学的指导与推动作用。

数据通信的概念第2篇

梁战平先生指出:“英语的Information是一个连续体的概念,由事实(Fact),数据(Data),信息(Information),知识(Knowledge),情报、智能(Intelligence)五个要素构成‘信息链’(Information Chain),信息的上游面向物理属性,信息的下游面向认知属性。”[1]我们认为,信息链中的数据、信息、知识、智能、情报,构成了信息科学群的研究基础,因此,对这些基本概念的界定和理解十分重要。

数据:是载荷或记录信息的按照一定规则排列组合的物理符号。它可以是数字、文字、图像,也可以是声音或计算机代码[2]。数据本身不具有语义内涵,只有通过对数据背景和规则的解读才能获取信息。

信息:信息有多个层次的定义,从信息哲学的角度,有本体论层次的信息定义和认识论层次的信息定义。某事物的本体论层次信息,就是该事物运动的状态和状态变化方式的自我显示[3]。认识论层次的信息,是指主体所感知或表述的关于该事物的运动状态及其变化方式的形式、含义和效用,其中形式因素的信息部分称为“语法信息”,含义因素的信息部分称为“语义信息”,效用因素的信息部分称为“语用信息”,把同时包含语法、语义、语用信息的认识论信息称为“全信息”[4]。在信息链中,信息=数据+背景[5],即信息是数据被赋予现实意义后在信息媒介上的映射。

知识:从认知哲学的层面看,知识是事物运动状态和状态变化的规律[6]。从信息链角度看,知识是对信息加工、吸收、提取、评价的结果[7]。信息转换成知识的条件是信息和实践结合,并经过人类大脑的思维、整理、评价和实践检验,可用“信息+经验=知识”[8]来表达。由于知识是与实践经验相联系的信息,因此,知识有显性和隐性知识之分。

智能:信息链中的智能和情报被视为同一概念,我们认为情报和智能是既有区别又有联系的两个概念,在此我们首先解释智能概念:智能是解决问题的一种能力和方略,是在一定的环境下针对特定的问题和目的而有效地获得信息、处理信息形成知识和策略、利用策略来解决问题,从而成功地达到目的的能力[9]。智能是被目的所激活的知识,是知识在一定条件下的运动方式。

从以上数据、信息、知识、智能的基本概念出发,可以认为数据是信息的原材料,其外延涵盖范围最广;信息是知识的上位概念,信息的外延大于知识;知识来源于信息,知识是智能策略的上位概念,知识的趋向是要成为人们决策的智能方法。数据、信息、知识、智能之间存在包含关系,如图1所示:

附图

图1 数据、信息、知识、智能概念关系示意图

在信息链中,数据、信息、知识、智能策略之间还存在一种层递关系,表现为数据在一定的背景和规则下,通过解读,转换为可接受的信息;信息只有结合人的实践经验,通过学习、评价、筛选才能上升为知识;而知识被目的激活后才能成为智能策略,如图2所示:

附图

图2 数据、信息、知识、智能层递关系示意图

2 情报术语及其与信息链的关系

学科术语的成熟与稳定,反映了该学科发展的完善程度。在情报学领域,情报是最基本的术语,同时也是争议最大的术语,其争议不仅反映在术语的词语表达上,同时也反映在其概念界定上。情报学的这种术语不稳定表现,说明了该学科的发展还不够完善。

2.1 情报的概念诠释

关于情报的概念,国内外学者们主要是从数据、信息、知识、智能等角度来定义的。

(1)从数据角度定义的情报概念。如美国乔治亚工业学院的斯拉麦卡教授认为“情报就是有用的数据或被认为有用的数据”[10];情报决策学派的代表人物——美国俄亥俄州立大学的约维茨提出“情报是对决策来说具有价值的数据资料”[11];学者罗爵认为“情报是消除不确定性保证高效行为的数据”[12]。

(2)从信息角度定义的情报概念。如维克利认为“情报是有意发出的改变接受者知识结构的信息内容”[13];刘植惠提出“情报是能解决问题的社会信息”[14]。

(3)从知识角度定义的情报概念。如英国著名的情报学家布鲁克斯认为:“情报是使人原有知识结构发生变化的那部分知识”[15];国内情报学家严怡民教授提出:“情报是作为交流传递对象的知识”[16]。

(4)从信息角度定义的情报概念。如勃拉特、霍肖夫斯基等人认为“情报是发生在人脑中的智能过程的表现”[17];其它类似的观点还有:“情报就是逻辑的、推理的表达本领;情报就是形成、修改和使用的智力模型”[18],等等。

上述四类定义情报的角度,都只侧重了情报的某一方面的特性,但从这四个角度的情报定义可以看出,情报与数据、信息、知识、智能有密切联系。基于这样的认识,我们认为:情报是针对一定的主体对象被激活了的有用的信息或知识。

2.2 情报与信息链的关系

数据通信的概念第3篇

关键词:单片机;通信;数据传输;数据的帧格式

Abstract: based on the mechanic colleges and universities and related course curriculum present situation, from the basic knowledge system, solve the students in this course, the difficulties encountered in the actual learning process of perspective, discussed the mechanic colleges and universities related in the process of single-chip computer courses teaching as communication way of basic knowledge in this paper, the defects, leading to some of the problems, and according to the characteristics of the mechanic colleges and universities student put forward a solution.

Key words: single chip microcomputer; Communication; Data transmission; The data frame format

中图分类号:C41文献标识码:A文章编号:2095-2104(2013)

正文:

1 概述

单片机课程中涉及到部分通信基础知识,对于这部分知识的阐述在各类单片机教材中都各不相同。笔者结合自身的教学经验,对各类教材在关于这部分知识的阐述特点深入研究,发现大部分教材在阐述通信基础知识时并没有足够地考虑到当前技工院校学生在学习单片机课程之前普遍没有系统全面地学习过通信专业相关知识的特点。同时,由于当前技工院校学生在学习过程中普遍比开设类似课程的本、专科院校的学生在学习上困难更多,更需要循序渐进地引导,在教学过程中对抽象专业知识的学习需要更多时间的特点。笔者认为,在讲解单片机课程中涉及到的通信基础知识的过程中,应该充分考虑到这些特点,在教学方法上作出改进。有些内容的阐述方式也许对于本、专科院校或基础较好,学习能力强的学生来说显得有些累赘,但根据笔者自身的教学经验,这些略显累赘的阐述方法能在教学过程中解决很多在后续学习中才能显现的问题,并在学习过程中能起到增加学生信心的作用。本文主要针对单片机课程中涉及到的数据传输方式和数据帧格式这两个问题的阐述方法作出分析并提出新的阐述方案。

2 相关专业开设课程现状及学生相关知识体系现状

有些专业开设了通信方面的专业课,但往往晚于单片机课程,有些则根本没有相关的专业课程。现行的技工院校单片机教材,无论是采用传统教学方法还是模块式的教学方法,虽然在相应章节对这部分内容也有简单概念的说明,但有相对比较零散或是深度不够的问题,而单片机原理及接口技术课程中不可避免地要用到这些知识,尤其在接口技术这部分还需要学生对相关通信方面的知识有较为深入的理解。所以应该在单片机课程的教学中对这部分通信知识做系统地、有足够深度的讲解,以避免将问题积累在后续教学过程中,给教师和学生都造成不必要的困难,使得单片机这门本身比较难学的课程显得更加晦涩难懂,相当一部分学生正是由于本文提到的问题在学习单片机课程的中途选择放弃,给后续其他相关专业课的教学也带来了很大的困难。

3 分析由于基础知识不完善导致的问题

对于数据的传输方式,部分教材只有简单地分类说明,没有深入阐述,如果能有直观地图形辅助说明学生理解起来会更加容易。同时也缺乏相应的练习题,使得学生在读了一遍概念之后用起来仍然不太理解。

对于数据的帧格式,部分教材讲解过于简单,缺乏例子,学生理解起来普遍感到困难。后续的学习中,学生容易把单片机的串行口工作模式与数据帧格式混淆,以至于在学习串行口工作模式时用到帧格式的情况下甚至无法分清到底在学什么,这种情况下往往要回过头来对帧格式的概念重新进行讲解,再加以区分。这就给学生的学习造成了很大困扰,同时教师在反复强调二者区别时也浪费了很多教学时间,并且效果不佳。

所以,如果能在第一次接触到这些概念时就针对以后可能会出现的问题做一些有针对性的讲解和练习,就能在很大程度上避免这类问题的出现。

4 解决方案

基于以上分析,如果能在第一次接触到这些概念时就针对以后可能会出现的问题做一些有针对性的讲解和练习,就能在很大程度上避免这类问题的出现。所以,笔者对提到的两部分内容提出以下阐述方案。

4.1通信的概念及通信方式的分类

计算机与外界的信息交换称为通信。

通信按照通信方式分为并行通信和串行通信。并行通信是指数据的几个位同时发送或接收。串行通信是指数据的位按顺序逐位依次发送或接收。单片机与上位机或设备的通信方式普遍采用串行通信的方式。

例1:数据10110101B从A端发送到B端,若采用并行通信的方式,发送过程示意图如图1所示,八位数据同时从A端发往B端,B端同时接收这八位数据;若采用串行通信的方式,发送过程示意图如图2所示,八位数据按从低位到高位的顺序逐位依次从A端发往B端,B端也按从低到高的顺序逐位依次接收。

图1

图2

引导学生思考以下问题:

1)上例中完成数据传输,用并行通信方式与用串行通信相比哪种方式所用的时间多?

2)图1中要实现数据同时传送,需要几条线?图2中数据逐位传送,需要几条线?

基于技工院校学生的学习特点,对于基础概念的解释应尽可能地详细并浅显易懂,同时要有一定的深度。把并行通信和串行通信的概念用示意图表示,使得学生在学习的过程中对这两个概念有更形象、具体的理解,避免由于没有明确理解两个概念而无法理解单片机的通信方式。

在以上联系的基础上再对并行通信与串行通信进行比较,阐述方式如下:

1)并行通信的速度比串行通信的速度快;

2)并行通信的线路铺设费用高,需要铺设与同时传输的数据位的位数相等的连接线,适用于近距离数据传输。串行通信的线路铺设费用相对较低,只需一条发送数据的线和一条接受数据的线,也可以发送和接收共用一条连接线,适用于远距离数据传输;

3)并行通信线路的铺设相对复杂,系统可靠性相对较差,适合于近距离数据通信;串行通信线路的铺设相对简单,系统可靠性相对较高,适合于远距离数据通信;

串行通信又可分为同步通信和异步通信。异步通信从传输方式的角度又分为单工、半双工及双工。MCS—51系列单片机采用的是串行异步双工的通信方式。

4.2 数据的帧格式

对于单片机通信中的四种帧格式,大部分教材都有详细的描述,但普遍缺乏图示和例题。在此仅以其中的模式1为例提出新的阐述方案。

模式1

在串行通信模式1中,一帧数据共有10位,其中包括1位起始位(低电平信号),8位数据位和1位停止位(高电平信号),结构如图3所示:

图3

例2:假设有一组数据:10010011B要从A发往B,帧格式采用模式1,请将数据发送时一帧数据的具体内容填入下面的表格中:

对于模式0、模式2及模式3也采用相同的方法阐述。

5 新方案解决问题的效果

通信概念及分类方式的阐述方案中,针对技工院校学生的学习特点,对通信的概念和分类通过循序渐进、辅以图示的方式做了阐述。这话阐述方式的特点是针对技工院校部分专业学生在学习单片机课程之前并没有接触过通信相关课程的情况,在阐述通信的概念和分类时能辅以浅显易懂的例题,在实际教学过程中使得学生在学习这些概念时能及时清晰地理解概念的含义,避免了在后续的诸如单片机串口读写操作等涉及到其它较复杂概念的问题中还要一并解决阐述通信基本概念时遗留的问题,在一定程度上可以避免学生在学习串口操作时的才意识到之前的通信基本概念还没搞清,胡子眉毛一把抓,增加学习难度,给后续概念的学习造成困难。

数据帧格式的阐述方案中,由于引入示意图,使得学生对于单片机串行通信采用的帧格式中四种模式的理解更加直观。及时补充的相应例题也起到了引导学生在接受概念的同时主动思考的作用,加深学生的理解。另外,笔者在实际教学过程中发现,由于单片机的串行口工作模式也有四种,分别是模式0、模式1、模式2和模式3,四种模式的命名方式与数据帧格式的四种模式一模一样,使得部分学生在学习时对两组概念发生混淆。而对数据帧格式的阐述采用新方案后,也能在很大程度上起到避免两组概念混淆的作用。

参考文献:

[1]劳动和社会保障部教材办公室.单片机原理及接口技术[M].北京:中国劳动社会保障出版社,2004年

数据通信的概念第4篇

【关键词】软件工程本体 关联数据 本体构建

软件工程数据对软件工程的开发至关重要,但软件工程数据具有多样性,在群体软件开发过程中,为知晓信息、挖掘数据,需要对软件工程关联数据进行构建。本文基于本体的自动构建方法,对软件工程关联数据的自动构建进行探讨,旨在为语义的检索、数据的挖掘提供依据。

1 相关概念

1.1 关联数据

关联数据主要以网络本体语言(OWL)、资源描述框架(RDF)对无序数据、大规模异构进行构建,使其具有语义化和结构化,从而方面计算机进行理解。近年来,软件工程领域中关联数据的应用越来越广泛,使复杂软件工程的数据开发更为简便。在软件工程的开发中,一个团队容易对另一个团队的项目开发构建产生依赖,与此同时,团队之间的协作是确保相关项目顺利完成的重要基础。微软建立的Codebook平台可以借助连接图的建立,连接软件元件及相关团队信息。Iqbal在Kiefer等研究的基础上,通过资源标识符(URI)的统一,从源代码、版本控制系统中对数据进行抽取,以PDF文件格式对关联数据进行构建,利用SPARQL引擎可以完成查询操作。因此,引入关联数据,可以方便处理软件工程的复杂数据。但国内现有研究仅局限于缺陷跟踪、源代码等内容,并未涉及文档、邮件及开发人员信息等数据。

1.2 数据的抽取

目前,国内研究主要是针对关系型数据库-本体概念和关联数据的映射。一般都是基于关系型数据库,对本体概念和关联数据进行构建。此类方法的自动化程度较高,但容易抽取出冗余的关联数据。本研究主要采用定制映射的方式,在关系型数据库中对软件工程关联数据进行抽取。

1.3 数据的发现

数据源信息具有多样性,现有研究主要通过获取已有关联数据的特征,针对特定关联,发现更多软件工程的数据关联。ReLink利用文本相似度、人员身份匹配、时间间隔发现软件变更和缺陷之间的关联;也有开发者借助追踪链图以文本和结构分析的方式发现文档与源代码的关联。由于信息语义分析的不足,借助信息检索技术发现关联数据依然会存在漏洞。本文基于信息检索技术(IR)和语言处理技术(NLP),通过文本和结构的分析,来发现关联数据。

2 本体概念的构建

2.1 构建初始本体概念

基于规则的映射方法,根据关系型数据库元数据对初始本体概念进行构建,构建步骤分为两步:

(1)在关系型数据库中抽取元数据信息;

(2)利用关系映射规则对新概念及概念属性、层次、关系等进行创建。

2.2 本体融合

融合不同数据源中的初始本体概念,识别出相似的初始本体概念,对其进行合并,统一软件工程领域本体。如在开发软件工程的过程中,不同团队的缺陷数据会出现在不同的跟踪工作中。在Bugzilla中,抽取的初始本体Bug概念会表示为“SoftwareEngineering#Bug”。利用本体融合方法,借助概念命名、属性及关系对概念间的相似度进行计算,可以有效合并相同概念。

3 数据的抽取

3.1 关联数据映射

初始本体概念的生成过程中,关系型数据库的表、列、键等元数据均与本体概念建立了相应关系,借助这些关系可以直接对映射文件进行创建,随后通过映射规则可以完成领域本体与结构化数据之间的映射。

3.2 实例消解

对不同关系型数据库的关联数据进行融合,需要合并各结构化元数据中的本体概念,同时,本体实例需要对齐。如Bugzilla中的“”与Bugfree中的“”两个实例指的是同一人。另外,在本体实例消解和本体融合中,相似度计算及合并的方法基本相同。

3.3 实例属性消歧

实例消解可以消除实例间的歧义,实例属性消歧能够处理实例合并中属性值的不一致问题。多值属性出现不一致的情况时,可以保留所有属性值。单值属性出现不一致的情况时,需要基于属性出现次数的“投票”方式及其所在实例的度决定属性值。

4 数据的发现

4.1 关联数据的特征

关联数据具有同义词、动宾短语、结构关系三个特征。同义词:软件开发的不同的参与者对同一事物的描述存在差异,但各自的用词用语存在近义或同义的关系。动宾短语:非结构化数据的信息主要采用自然语言进行描述,动宾短语结构含有语句的关键信息,故借助动宾短语可以替代语句表示数据信息。结构关系:同一概念下的实例数据往往存在结构关系,连接实例可以得到结构关系的表达方式。两个实例关联为一个实例时,它们的结构关系一般都是相连的。

4.2 数据关联的重建

参照关联数据的重建方法(见图1),对数据集的非结构化文本数据进行预处理、动宾短语抽取、同义词识别,随后建立向量空间模型,借助机器学习方法计算模型参数的相似度,之后结合数据集中的结构关系数据更新相似度结果,即可发现关联数据。

5 结语

本文探讨了软件工程关联数据的自动构建方法,以便群体软件开发中,信息知晓和协同开发的问题能够得到解决。该方法主要通过领域本体的构建在软件仓库结构化数据中对关联数据进行抽取,同时根据关联数据的三个特征,利用NLP技术IR技术发现软件仓库中潜在的关联数据。后续将采取实验来验证这一方法的自动化程度与有效性,从而证实这一构建方法的可行性。

参考文献

[1]陈兰兰.基于社会网络分析和共词分析的国内关联数据研究[J].图书与情报,2013(05):129-132.

[2]张明卫,朱志良,刘莹等.一种大数据环境中分布式辅助关联分类算法[J].软件学报,2015,26(11):2795-2810.

[3]毛宇星,陈彤兵,施伯乐等.一种高效的多层和概化关联规则挖掘方法[J].软件学报,2011,22(12):2965-2980.

[4]张永娟,陈涛,张|等.基于Sesame及Rdfizer扩展工具的关联数据应用平台[J].图书情报工作,2013,57(16):135-139.

[5]夏立新,李成.基于关联数据的科技报告语义共享框架设计与实现[J].数字图书馆论坛,2015(09):2-9.

作者简介

韩雨豪(1999-),山东省济宁县人。高中学历。现为山东梦巴克网络科技有限公司高级电脑技师,主要从事电脑应用与翻译方面工作。

数据通信的概念第5篇

[关键词]本体论 个性化服务 书目推送 高校图书馆

[分类号]G250

随着信息化时代的到来,人们对信息的实效性要求越来越高,高校图书馆如何不断地改进服务质量,更好地服务广大师生已成为一个紧迫课题。而如何及时主动地为广大师生提供个性化书目推送服务正是其中的要求之一。主动推送的书目信息必须符合用户需求,需要根据用户对馆藏书目检索和图书馆网络的使用情况,收集用户行为数据进行分析,从而挖掘出用户的潜在需求,再相对应地制定推送策略,为广大师生提供个性化的书目信息推送服务。这种个性化的书目推送服务,体现了阮冈纳赞提出的“图书馆五法则”中“每本书有其读者”,“节省读者的时间”这两条原则。

目前,针对本体论的研究是图书情报领域的研究热点,无论是领域本体论的构建还是个性化信息服务中基于本体论的用户兴趣模型的构建,都有很多研究成果报道,而关于书目信息推送服务,虽然也有较多的研究成果,如利用RSS信息聚合技术来实现图书信息推送服务,利用邮件及手机短信进行书目信息推送服务等,但利用本体论技术进行个性化书目信息推送服务的研究,还鲜有相关报道。本体论作为一种新的知识表示方式,由于具有良好的概念层次结构和对逻辑推理的支持,因而在实现个性化的书目信息推送服务中具有很好的应用前景。本文拟对此进行相关研究,为高校图书馆实现个性化书目信息推送服务提供参考。

1、高校图书馆个性化书目信息推送服务

高校图书馆个性化信息服务,是指针对不同的用户(学生或教师),根据其个人信息,采取不同的服务策略,提供不同的服务内容来满足其对信息的不同需求。开展个性化的书目信息推送服务,就是在个性化书目信息推送系统的环境下,根据用户的特征提供用户需要的具有针对性的信息,同时通过对用户专业特征、研究兴趣的智能分析而主动地向用户推荐其可能需要的书目信息,以满足用户信息需求多元化的需要,提高图书馆的服务质量和服务层次。

高校图书馆提供的个性化书目信息推送服务有其自身的特点:①服务对象明确、层次分明。高校图书馆主要服务对象是高校的教学科研人员、行政管理人员和学生,就每类服务对象而言,又可再进行细分。比如:教师可分为教授、副教授、讲师、助教等,学生可分为博士研究生、硕士研究生、本科生等,这就要求高校图书馆根据各类对象对信息资源需求的侧重点不同而提供个性化书目信息推送服务。②服务对象知识化突出、专业化明显。高校师生是高校图书馆的主要服务对象,他们具有较高的文化水平,对专业知识的掌握比较深入,因而对信息服务的质量要求比较高,对书目信息的需求主要集中在相关专业及邻近专业上。因此,必须针对不同服务对象的不同特点提供书目信息推送,才能充分发挥个性化书目信息推送服务的重要作用。

2、书目信息及用户信息本体论库

为了实现基于本体论的个性化书目信息推送服务,建立一个能全面准确表达书目资源信息以及用户信息的本体论库是关键所在。该本体论库不但能全面准确地描绘出书目资源以及用户特征的标志信息,而且可以清晰地建立起书目资源之间、用户之间以及书目资源与用户之间的各种联系,这也正是基于本体论的个性化书目信息推送系统的优势所在。本体库设计如图1所示:

从图1可知,本体论库中至少要包括书目信息资源类、读者特征类和知识库类等3个类目。书目信息资源类的属性包括资源的标题、作者、相关知识以及相关读者等,其中相关知识的属性值域指向知识库类,可以建立起书目资源实例与知识库定知识领域实例的隶属关系;相关读者属性值域为读者特征类,可以建立起特定资源与该资源的目标读者之间的关联。读者特征类的属性包括读者类型、专业方向、学位学历、兴趣爱好以及关联读者,其中专业属性与兴趣属性,其值域指向知识库类的实例,以建立起用户与知识库领域实体的一对一或一对多关系。知识库类则以某个知识领域通用的概念为描述对象,建立并描述这些概念之间的关系。

3、基于本体论的用户兴趣模型

基于本体论的用户兴趣模型可以借助于书目信息本体论以及用户的个人信息资料来构建,其中的每一个概念都被赋予一个初始值为0的概念兴趣相关度。随着用户检索图书馆书目系统以及办理借阅次数的不断增加,通过对用户兴趣相关领域概念的提取以及对概念兴趣相关度的计算,不断在用户兴趣模型中累加此概念的兴趣相关度权重,这样经过一段时间,用户兴趣模型中概念兴趣相关度非零的概念节点逐渐趋于稳定,即用户兴趣模型逐渐收敛。其中概念兴趣相关度权重越高的概念表明其与用户的兴趣越相关。

3.1 用户兴趣的获取

目前各个图书馆的流通管理系统数据库中都积累了大量的读者借阅历史数据以及读者在办理借书证时留下的大量个人信息资料,利用这些信息我们可以挖掘出用户对图书资源的借阅偏好模式以及用户潜在的需求,获取用户的兴趣所在。

・根据用户个人信息进行聚类。虽然每个用户都有其个性化需求,但是在一定条件下,他们的需求会有相似性,因此可以收集用户公开的所有个人信息,将相同属性的用户聚类。例如:相同专业年级的学生对某些课程科目的信息需求是类似的,在馆藏书目系统中,他们也许就使用过同一个主题词进行检索。同一属性类的用户中,某一用户感兴趣的书目,另一用户也有可能感兴趣。

・根据用户检索数据进行分析。用户在使用书目查询系统时输入的检索记录,反映了用户感兴趣的书目信息,我们可以通过分析用户输入的检索词,包括题名、责任者、主题词以及分类号等,来获取用户的兴趣概念;在这个过程中,对于用户输入的责任者、主题词等检索项,可以直接提取作为用户的兴趣概念;对于用户输入的题名,则要先通过分词等技术抽取出能代表该书目内容的特征词语,然后把这些特征词语与领域本体论中的概念进行匹配,实现从特征词语到概念词语的转换,从而获取用户的兴趣概念;对于用户输入的分类号,要先把分类号转换成相应的类目概念作为用户兴趣概念。

・根据用户访问日志进行挖掘。图书馆网站的Web服务器积累了大量的用户访问数据,这些数据是用户真实意图和动机在行为上的表现。通过Web日志文件,我们可以获取用户的访问页面以及用户在每页停留的时间等数据。对这些数据进行分析,用户浏览页面上可能含有用户所寻找的信息,进一步挖掘用户的隐性需求。

3.2 概念兴趣相关度的获取

影响用户的概念兴趣相关度的主要因素有:①用户借阅某本书的时间Length。对于某本书,用户借阅时间越长,则表明用户对该书兴趣越大;②用户借阅或检索某本书距离现在的时间PassedTime。很明显,用户很久以前借阅的某本书和刚刚借阅的相比,后者用户更感兴趣;③用户的直接反馈Evaluation。用户对推送书目的评价最能反映用户对该书的兴趣程度。

考虑以上几个因素,用户借阅或检索某本书后,对该书所对应概念的兴趣度变化AI,可以参考如下的计算公式:

I=W1*f1(Time,Length)+W2*f2(PasssedT-ime)+W3*f3(Evaluation)

(1)

其中,f1、f2、f3为三个函数,分别用于计算上述三个因素对该书目对应概念的兴趣相关度的影响。w1、w2、w3分别为这三个因素在影响概念的兴趣相关度变化量中所占的权重。

4、一种基于本体论的书目信息推送系统模型

该模型主要由以下几个部分组成:用户界面、书目信息推送模块、本体论服务器(包括用户兴趣模型、书目信息本体论库)、书目信息分析模块、书目信息数据库、个性化书目信息索引库等。

4.1 用户界面

用户界面在系统中的主要作用表现为:

・建立用户个人档案。当用户首次登录时,用户界面要求用户通过注册建立起自己的个人档案,内容涉及用户身份、知识背景、兴趣领域等方面的内容。用户档案的建立可以使系统构建初始的用户兴趣模型。

・选择推送模式。主页推送、邮件推送或手机短信方式。

・对用户行为进行动态监测。对用户行为的动态监测可以包括:用户借阅某本书的时间、用户借阅或检索某本书距离现在的时间、用户对推荐书目的评价等。用户界面通过以上对用户行为的监测分析,将结果反馈到用户偏好本体论库中,使用户的下一次查询能够得到更优化的结果。

・获取用户反馈信息。用户界面建立了用户对推送书目信息的评价机制,鼓励用户对推送书目信息给出量化的评价值,该值通过某种计算后,用于更新用户兴趣模型的内容,并据此对个性化书目信息索引库中的内容进行调整。

4.2 书目信息本体论库

书目信息本体论库在系统中的作用主要包括:

・利用书目信息本体论对书目信息进行语义标引。对于书目信息库中的每一条信息,书目信息分析模块首先提取其中的特征词,然后可以在书目信息本体论的协助下,将其转换为本体论中的概念词,并与具体的每一条书目信息建立映射关系,从而实现对书目信息的语义标引。

・利用书目信息本体论构建用户兴趣模型。利用本体论库构建的用户兴趣模型,不仅包含了用户的兴趣概念,还包含了用户兴趣概念之间的各种关联,这样系统可以在用户兴趣概念之间进行推理,挖掘出用户潜在的兴趣概念。另外,当用户对某一兴趣概念的概念兴趣相关度发生变化时,系统可以对与其相关联的兴趣概念的概念兴趣相关度做出相应的调整,从而使用户的兴趣模型更准确地反映用户的实际情况。

4.3 用户兴趣模型

在使用推荐系统时,比较突出的一个问题是客户信息的获取,然而在本系统中,由于高校图书馆书目推荐系统用户和使用环境的特殊性,系统可以方便地得到较为真实的用户偏好、个人信息等,使这一问题得到较好地解决。读者信息主要包括:①读者的基本个人信息,如所在院系、身份信息(教师还是学生)、职称信息、学生类别等。这些信息不需要读者自己输入,可以从学校管理信息系统获得;②读者的显/隐性输入信息,如读者输入关键字、书名、文献特征、读者的浏览记录等;③读者的历史借阅记录数据;④读者借阅过某些文献所给出的评价。

由于用户的兴趣知识属于一种隐性知识和动态知识,很难对其进行直接或明确的说明,因此用户偏好本体论库的构建也不可能是一劳永逸的,而是要通过系统对用户兴趣的动态追踪,不断深入挖掘,并在此基础上对用户兴趣模型的内容进行不断修正,才能比较准确地反映用户的兴趣偏好。

4.4 书目信息推送模块

书目信息推送可以基于以下三种方法:

・基于相关性书目信息的推送:推送系统根据用户感兴趣的书目信息来推送其它相关的书目信息,这种方式需要了解客户当前选择的书目信息。例如某位读者选择借阅了有关“电子商务”的书籍,推送系统就可以向其推荐其它关于“电子商务”图书的书目信息。

・基于相关性用户的推送:推送系统根据目前用户与其他已经借阅了某图书的其他用户之间的相关性进行推送。例如推送系统可以对某计算机学院的读者推送与其相类似(相同爱好、研究方向等)的其他读者借阅查看的资料。

・基于用户专业及兴趣的推送:推送系统可以根据某读者的历史借阅数据以及用户的专业、研究方向等,获得读者潜在知识需求,对读者进行书目信息推送。

推送的形式可以根据用户的不同情况,由用户选择以下三种方式中的一种:

・用户登陆图书馆网站查询时自动弹出推送书目信息。

・通过E-mail发送到用户邮箱。

・通过短信发送到用户的手机。

由于本体论具有良好的逻辑推理功能,因此,书目信息推送模块能够借助本体论从语义层面根据读者特征信息、资源特征信息和知识库信息,自动推理出与读者所从事专业、阅读兴趣等相匹配的书目信息资源。针对高校的特点,每个读者的特征类包含了关联读者属性,通过该属性,可在老师与学生之间、具有相同爱好读者之间建立联系,将资源信息推送给目标读者的同时推送给关联读者,实现点对面的资源推送。

4.5 书目信息分析模块

书目信息分析模块的功能主要是对书目信息进行语义概念层次上的分析与过滤,只保留下与用户相关的书目信息、过滤掉无关的。具体来说:①书目信息分析模块需要对所收集到的每一条书目信息进行特征词的抽取;②对于抽取的这些特征词,书目信息分析模块还需要在书目信息本体论的协助下,将其转换为本体论中的概念词语;③还要把含有这些转换为本体论中的概念词语与用户兴趣模型中的概念词进行匹配,只有匹配成功的概念词语所对应的书目信息资源才是需要保留的。将这些保留下来的书目信息按照某种规则排序后存入个性化书目信息索引库中,由书目信息推送模块按照某种方式推送给用户。

4.6 个性化书目信息索引库

系统自动为每个图书馆的用户建立个性化书目信息索引库,即从书目信息库中抽取出与用户相关的书目信息实体,滤出无关信息,满足了用户个性化书目信息需求。

个性化书目索引库中的书目信息是按照用户兴趣概念进行存储的,每个兴趣概念都与用户兴趣模型中的概念相对应。当用户兴趣模型中的用户兴趣发生变化时,个性化书目信息索引库相应地也会做出调整。在这里,我们假定个性化信息索引库中包含有一个对自身信息进行管理的管理服务器,管理服务器会把不符合用户兴趣的兴趣概念及其相应的书目信息从个性化书目索引库中删去,同时加进用户新产生的兴趣概念等。

数据通信的概念第6篇

关键词:政府信息资源 知识库 政府信息分类 信息检索 非结构化数据

一、概述

从简单消息传递到信息处理,再到20世纪90年代Karl-Erik Sveiby博士提出的知识管理概念,知识作为一种资源和资产得到越来越多的重视。人类的信息包括结构化信息和非结构化信息两大类:结构化信息是指经过人工标注、整理、加工过的按特定格式排列的信息;非结构化信息是指存储格式各异,没有经过人工加工、整理过的信息,如:邮件、文本文件、视频等。从《诗经》、《史记》到《圣经》、《荷马史诗》等记载人类文明的信息都可以归入非结构化信息的行列,而结构化信息的出现,则是最近几十年随着数据库技术的发展才逐渐增多的。在政府信息当中,文件、报告、通知、函件、法规等大量的非结构化信息占据主导,Gartner的一项调查显示,人们所存储的数据中,有85%以上是非结构化信息;每过三个月,其周围的非结构化信息就会增加一倍。非结构化信息构成了政府知识的主体,因此对政府领域知识管理的核心问题是对非结构化信息的处理。

起初政府的信息是分散在堆积如山的文件中的,而知识是存在于人的头脑中的。但是随着信息化的发展,人们发现当要寻找某些知识的时候,往往无法在浩瀚的文海中找到所想要的知识,于是人们发现这些非结构化的信息作为知识的载体需要进行管理,由此出现了图书馆目录索引体系,而后出现了信息系统、OA办公系统、文件管理系统,为知识的积累和查询提供方便。随着信息化的发展,信息爆炸时代的到来,在无限的信息化系统,无限的信息孤岛中,人们寻找需要的知识的时候,可能再一次陷入迷茫的困境,人们会再一次发现找不到其所想要的知识。每当信息的载体不断地发展、不断地增加,知识就会再次淹没在浩瀚的载体之中。因此,对于知识载体建立整合机制,建立政府资源领域知识整合的标准体系变得尤为重要。

二、建立基于Ontology的领域知识库

知识是人类在改造现实世界的实践中认识和经验的总和,是人类进行智能活动的基础。知识描述是现在人工智能研究中最活跃的领域,在过去的几年中,知识描述的技术和理论经历了快速的变化和发展。Ontology最早是一个哲学上的概念,后被人工智能研究者引入计算机领域中,使用Ontology描述知识的内容。

⒈Ontology的概述

⑴Ontology的定义

由斯坦福大学的Gruber给出的Ontology的定义被普遍接受。Fensel等人对此定义进行深入分析,认为Ontology是共享概念模型的明确的形式化规范说明,包含4层含义:概念化(Conceptualization)、明确(Explicit)、形式化(Formal)和共享(Share)[1]。

――概念化:通过抽象出客观世界中一些现象的相关概念而得到的模型,所表现的含义独立于具体的环境状态;

――明确:指所使用的概念及使用这些概念的约束都有明确的含义,以避免对同一概念的模糊的二义性的理解;

――形式化:指Ontology是计算机可识别的,能被计算机处理的;

――共享:指Ontology中体现的是共同认可的知识,反映的是相关领域中公认的概念集,即Ontology针对的是团体而非个体的共识,不是对私有的特殊知识的理解和表述。

尽管人们对于Ontology的定义不尽相同,但是通过以上这些定义可以看出Ontology的一些基本特征[2]:

――Ontology是用来描述特定领域的;

――该领域中的术语以及术语间的关系被明确的定义出来;

――使用一定机制(通常情况下是层次结构,使用Is-a,Has-a等类型关系)来组织这些术语;

――Ontology的使用者对领域中术语的含义存在一种共识。

⑵Ontology的组成

Ontology设计中,Ontology模型通过一系列基本要素来描述客观现实的世界,对领域进行建模,实现领域体系的明确描述。根据Perez分类法组织思想,并结合领域建模结构的特征,认为Ontology模型中应该包含类概念/类(Concept/Class)、属性(Attribute)、关系(Relations)、实例(Instance)等基本要素。

――概念:在Ontology中对概念明确的、格式化的描述,称为类(Class)。概念的含义很广泛,可以指任何的事物,如工作描述、功能、行为、策略和推理过程等。概念表示的是实例对象的抽象集合。

――属性:对于每个概念所具有的特性或者特征的描述称为属性。对于一个概念的属性特征有很多,在描述概念的时候,我们只采用那些和使用目的有关的属性,即有用的属性。同时按照属性的特征,可以将其分为两类:固有属性(仅属于一个概念的属性)和公共属性(属于多个概念的属性)。

――关系:对于概念之间的关系的描述称为关系,关系代表了领域中概念之间的交互作用和联系,关系之间也可能构成新的关系。概念之间存在的关系是错综复杂的,除了子类关系(subclass-of)、部分关系(part-of)、实例关系(instance-of)、属性关系(attribute-of)等基本关系以外。同描述属性选取一样,我们在刻画领域模型的时候,只选取那些和使用目的相关的关系类型来刻画领域。关系形式上可以定义为n维笛卡尔(Descartes)乘积的子集。

――规则:每个属性所应当遵循的限制称为规则。举例来说,对于概念水,具有属性温度、质量等,当温度超过100摄氏度时,水将变为水蒸气,所以,对于水的温度属性需要进行一定的限制,这种限制就是规则。

――实例:从语义上分析,概念类表示的是具有相似特征的对象的集合,实例表示的是概念所描述的一个具体对象,一个概念的实例必须具备该概念所有的属性和属性值。实例也可以具有自己特有的属性和属性值。某个领域是由具体实例通过它们之间的相互关系和作用组成的,Ontology模型只是实际应用领域在Ontology设计人员头脑中理解景象。

⑶Ontology的表示

Ontology主要用于描述领域知识包含的内容、属性。如果希望领域Ontology能够方便的建立,实现领域知识的描述和利用,就应该选择合理、有效的表示方式,使Ontology的表示具有较强的表达能力和实用性。知识的一些表示方法如逻辑语言、框架、语义网络等都可以用来表示Ontology。

①一阶逻辑谓词表示法

一阶谓词逻辑表示法是最早和使用最为广泛的知识表示方法。知识用事实和规则来表示,事实和规则的基本构成单位是谓词。谓词由谓词名和一个参数表构成,每个参数可以是常量、变量或函数。

Cycl和KIF(Knowledge Interchange Format)[3]是一阶谓词逻辑语言的代表。Cycl和KIF都基于一阶谓词逻辑,同时还具有部分的二阶谓词逻辑特性。Cycl是Cyc系统的表示语言,它是一种体系庞大而非常灵活的知识表示语言。该语言在一阶谓词演算的基础上,扩充了等价推理、缺省推理等功能,在该语言的环境中配有功能很强的可进行逻辑推理的推理机。KIF是为不同计算机系统交换知识而设计的知识描述语言。KIF试图建立与不同格式的映射关系,从而实现知识表述格式的转换和系统间的交互。

②描述逻辑

在知识表示的研究中,描述逻辑(Description Logic,DL)[4]是基于对象的知识表示的形式化工具,它是一阶谓词逻辑的可判定子集,能够提供可判定的推理服务,并且继承了语义网络的研究成果,定义了一种可操作的形式化语义,以支持知识描述的无二义性和推导算法的可跟踪性。DL基于逻辑的表示机制,根据概念和概念之间的二元关系描述术语学的知识,二元关系可以用来根据必要和充分条件定义一个概念术语,概念的所有实例必须满足这些条件。DL的一个显著特性就是可以根据描述定义概念(类),描述确定对象必须满足的属性,表达描述的语言允许构造复合描述,包括对对象之间二元关系的约束。

在经过二十多年的研究与发展之后,描述逻辑已经基本趋于成熟并走向应用,它是知识表示的形式化工具,实现的系统有BACK、CLASSIC、LOOM等。由DARPA组织提出的DAML+OIL(DARPA Agent Markup Language,Ontology Inference Layer)这种本体语言即是在描述逻辑的基础上建立的。但是描述逻辑主要还只能处理静态的知识,在对动态世界的表示与推理上却无能为力,尤其是对智能主体的内部知识库的表示显得乏力,也不能对服务的动态性与交互性进行刻画。

③基于框架的表示法

框架(Frame)是Minsky于1975年提出的一种概念,是一种组织和表示知识的数据结构,用它来表示有关事物的知识的时候既可以表示出事物各方面的属性,又可以表示出它们之间的类属关系。它由框架名和一组用于描述框架各方面具体属性的槽(slot)组成。每个槽又可以根据实际情况划分为若干个“侧面”。一个槽用于描述所论对象某一个方面的属性,一个侧面用于描述相应属性的一个方面。在比较复杂的框架中,侧面还可以是子框架调用,作为对槽的进一步说明。槽和侧面所具有的属性值分别称为槽值和侧面值。在一个框架表示知识的系统中,一般都含有多个框架,为了指称和区分不同的框架以及一个框架内的不同的槽,需要分别给它们赋予不同的名字,分别称为框架名、槽名和侧面名。无论对于框架,还是槽和侧面,都可以附加一些约束条件,对于所赋值给予限制。

框架表示法是一种结构化的知识表示方法,它善于表示结构性的知识,能够把知识的内部结构和知识间的联系表示出来,同时与计算机程序所说的结构相似,便于计算机表达和处理。适合表示典型的概念、事件和行为,能够很好的体现概念间的层次结构关系,但是框架表是方法的推理能力有限,不适合表示大量推理性知识。

⑷Ontology的作用

①自然语言理解方面

自然语言的理解就是把自然语言描述的一个受限世界,变换为计算机的表示法描述的一个世界模型。领域Ontology本身作为知识实体是系统的知识库,它由概念以及概念之间的联系构成,是对领域知识的概念化的描述。它可用来进行自然语言的消歧,和进行简单的文本推理。例如,对领域词典的应用,就是可以在对自然语言文本分词的时候,标明特殊的领域词汇的词性,消除词汇在特殊环境下的歧义,在以下的语法和语义分析中起到重要的作用。而文本推理就可以利用Ontology中的缺省的知识填充空缺的意义,或者通过Ontology中概念之间的转换关系找出句子的转义。

②知识工程方面

――知识共享和重用。领域Ontology是实现领域知识共享和重用的基础,它为需要实现共享领域知识的使用者提供了公共的可共享的领域概念。开发领域Ontology的主要目的之一就是在人们和软件智能体之间对信息结构的理解提供一种可共享的、共同的理解机制,可以方便地进行知识共享和交互。通过维护、扩充领域Ontology,使得面向领域的应用系统的开发不必从头开始,大大缩短了开发的周期,节省了开发的费用。知识的重用是将知识利用在应用层中的过程,知识检索是知识重用的一个重要方面,Ontology提供的术语使精确的检索成为可能。

――知识获取。一直以来知识获取都是知识工程的一个公认的瓶颈问题,因此知识获取受到了广泛的重视和研究[5]。知识获取的途径主要有两种,一是从学科专家处获得专业知识,二是从文本或数据库中直接获取。但是,由于专家的研究领域和研究精力的局限,很难给出完整的科学体系,而且据统计90%以上的知识可以从文本中直接获取,因此对从事大规模知识获取的人员来说,从文本中直接获取知识无疑是一种更为可取的办法。但是,由于文本都是以自然语言组织而成的,而自然语言的理解在现在阶段仍然是计算机科学中的一个难题,所以想要由计算机自动获取基本上很难实现,因此,需要采用人工干预的半自动的知识获取办法。

――知识存储。Ontology概念的层次关系为知识的存放提供了很好的解决方案。本文中用关系数据库中的表格存放固定关系的概念,对于不断精化的Ontology则设计为树型结构,知识结构清晰,便于查询和利用。

――知识标准化。Ontology为人们描述目标世界提供了一组通用的词汇,而这种词汇正是实现知识系统化的基础。通用词汇和知识的系统化有利于实现知识的标准化。

⒉面向政府信息资源领域Ontology的建立

⑴需求分析

我们建立Ontology的目的,就是将人们在政府信息资源领域的知识和经验,按照计算机能够识别和处理的方式进行表示,并输入计算机的存储介质中。并利用这些专业知识,帮助系统建立政府资源信息库,并为后期对数据的检索利用和信息挖掘打下基础。

确定Ontology所包含的范围的方法之一就是列出基于Ontology的政府知识库所涉及的信息资源信息(Competency question)作为基本素材。通过资料可以得到对这个Ontology是否包含这些类型问题的足够的信息、答案或解释,是否需要特定层次的详细信息或特定专业领域的表达法等。在本系统中,我们所涉及的术语和概念都来自政府信息资源领域,收集的面向政府信息资源领域知识库,并归纳出一些知识类型,将这些信息所涵盖的范围作为判定政府信息资源Ontology的范围的依据。

具体实现时,我们在宁波市政府信息中心资料库和Internet上寻找关于政府知识领域的相关资料,并对信息资料进行分析,整理出大量政府信息资料的素材,建立如下的模型实例,由于政府信息资源广阔,无法穷举和全面,我们为说明问题,根据重要程度,主要归纳出如下这些问题类型,如表1所示。

表1 问题类型和概念类及其属性

⑵确定Ontology的表现形式

根据政府信息资源领域的特点,本系统中的Ontology以框架结构表示作为领域本体的表示形式,如图1所示。

图1 Ontology表示形式

概念的属性可以是多个,属性的描述形式包括属性名,属性取值的类型,以及侧面和注释。侧面用于对属性的含义进行约束,如时间、范围等,用于说明属性的取值约束条件,是可选项。本文中概念的属性类型,可以是数值、字符串等,也可以是概念类型,甚至是一个本体类型。注释的作用是附加说明属性的含义,也是可选项。

概念和概念之间关系的描述形式和属性描述形式相似,也是包括关系名,关系取值的类型,关系的侧面和注释。

⑶定义Ontology中概念类及其属性和属性侧面

我们再通过考察政府信息资源领域知识,以及该领域的问题库,来定义这些概念类以及它们的属性。目前我们暂时定义了经济领域和社会领域这两个概念类,用经济差距、经济理论、经济体制、经济行业、商业与市场、财政与货币政策、经济结构调整、投资增长与储蓄来刻画经济领域这个概念类,用社会分析、社会评估、社会问题、社会保障、社会心理类等属性来刻画社会领域这个概念类(如表1所示),每种问题类型对应于这两个概念类及其相关属性。可以说,问题类型和概念类及它们的属性是相互对应、相互影响的。

属性可以用不同的侧面来描述属性的值,如:值的类型、取值范围、可取值的个数和值的其他限制条件。属性的赋值类型(slot-value type)有:字符串(String slots)、数字型(Number slots)包括浮点数(Float)和整数(Integer)、时间型(Time slots)、布尔型(Boolean slots)、枚举型(Enumerated slots)、实例型(Instance slots)。对于类的每个属性,我们还要限制其取值的范围,称之为属性的域(Domain)。

⑷创建Ontology中的实体

当定义好了Ontology中的概念、概念的属性和属性的侧面,以及概念之间的关系之后,就可以采用一些抽取方法和手段来抽取对应的实体。

我们通过基于启发式规则的抽取方法从Web上和政府数据资源库里抽取出经济领域和社会领域这两个概念类的实体。

⑸列出政府数据资源库领域Ontology中的重要术语,建立领域词汇表

列举描述或解释要定义的领域Ontology中的术语,得到一个全面的术语列表非常重要,它不仅能对自然语言文本的起标示领域词汇、消除概念歧义等作用,而且也为知识共享奠定了基础。

在本文中建立的领域Ontology中包含一个领域词典,其中包含了政府数据资源库领域的领域词汇,如经济体制、货币政策、社会问题等,以下是我们如何建立该领域词典的:根据问题的集中关注程度,对概念类的各个属性进行评估,来决定是否建立词典;需要建立词典的,会采用自动方式对该属性的内容进行抽词处理,并计算每个词的权重,权重大的则表示该词对该属性比较重要,可以作为该属性的词典,而最后是否放到领域词典中则需要经过领域专家的判定,以兼顾术语收集的效率与准确率;将每个属性的词典表明相应的词性,如经济体制的词可以标为jjtz,然后加入到分词系统ICTCLAS的词典中,以后分词的时候可以用来表明特定的领域词汇。具体如表2所示。

表2 属性词典的建立情况

⑹定义Ontology中的关系

Ontology中存在的关系是错综复杂的,除了包括子类关系(subclass-of)、部分关系(part-of)、实例关系(instance-of)、属性关系(attribute-of)等基本关系以外,还有领域中所特有的各类关系。

领域中概念实体的层次关系,是领域特有关系中比较重要的一种。领域中概念实体的层次关系就表示成概念实体树的形式,概念实体树建立领域概念实体的父子关系。概念实体树在信息检索系统中有重要的作用,如对信息实体进行分类、聚类,以及进行相关性检索等。政府信息资源多维概念实体树是在对政府信息资源领域知识分析的基础上,对领域内部的“经济”和“社会”等概念及它们的实体建立关系。图2建立的是一棵关于政府信息资源库的多维概念实体树。树中的叶节点,“体制改革”、“社会福利”、“和谐稳定”、“环境保护”和“财政税收”均是政府信息资源库的实体。对于这些实体,系统采用了多种分类的方法,如“经济领域”、“社会领域”等,这构成了一棵多维概念实体树。

通过以上的方法,我们基本基于复杂的政府资源信息,用Ontology的方法,建立起政府资源领域知识库的模型,包括:信息的概念分类、概念的属性、领域词汇表和多维概念实体树。

对于将来其他的政府信息资源,我们都可以依据这个模型进行知识构建,不断完善政府信息的概念分类和领域词汇体系。政府资源领域知识库的建立是一个需要不断积累和不断完善的过程,并为知识的检索和挖掘打下基础。

三、政府领域知识库构建的意义和进一步的探索方向

根据Ontology和政府信息资源领域的特点,我们从概念定义、模型组成、分类和表示方法等几个方面对基于Ontology技术的政府资源领域知识库进行介绍和研究,并阐述了如何组织和建立领域Ontology的过程,并说明基于Ontology进行领域知识描述的重要作用。

基于Ontology技术建立政府信息资源领域知识库体系,使得政府信息的搜索和加工建立了底层构架基础。只有当我们按科学的方法建立和健全了这一构架体系,政府知识管理、知识积累和知识挖掘才变得有可能。

我们采用Ontology的思想进行政府领域知识的组建,包括政府领域词典的建立,以及Ontology中概念、属性、关系等的建立,组织和建立好领域知识库是政府知识工程中的关键,它决定着政府领域知识使用的效果和效率。当然目前我们的工作还存在着一些不足,需要将来进一步探索和改进,主要包括以下两个方面:

(1)Ontology的半自动建立。Ontology的建立过程中的很多工作由人工手动完成,需要大量的时间且容易出现出差错,特别是Ontology中词语的类型标注。下一步工作中需要研究切实可行的、用以提高系统自身学习能力的办法,使得在Ontology的建立过程中尽量减少人工干预。

(2)Ontology的扩充和更新。本文目前Ontology中的知识包含的还不够多,如概念类只有举例对经济领域和社会领域两种,需要进行进一步扩充,使之内容更加丰富,更加完善,能够处理更多的用户问题。同时,由于领域中的知识处于不断的更新变化中,因此,需要对已有的Ontology随之进行适度的更新和修改,以保证系统处理的准确性。

参考文献:

[1]邓志鸿,唐世渭.Ontology研究综述[J].北京大学学报:自然科学版,2002,38(5)

[2]Maria Auxilio Medina Nieto.An overview of ontologies[EB/OL].(2003-03-01)[2008-02-18].

作者简介:

数据通信的概念第7篇

本文论述了信息技术与数学教学整合的教学模式研究的现状及其重要性,分析了构建信息技术与数学教学整合的教学模式的原则,并探讨了在主导——主体教学理论的指导下构建的5种概念、规律和几何整合教学模式的目标、操作程序、适用条件以及评价方法。 关键词:信息技术数学教学整合教学模式 1引言 现代教育技术广泛应用于教育领域,不仅从手段上,而且从观念上、教学模式上都引起教学的深层次变革,信息技术与课程整合成了教学改革的一个突破口。然而,目前信息技术在中小学理科教学的应用水平仍然非常低,大多是作为教学内容的展示工具。中小学理科教师对于如何将信息技术与理科教学整合感到非常困惑,他们心中也产生了许多问题,如“什么时候用信息技术比较合适?怎么用?”、“怎么做才能体现‘主导——主体’教学思想?”、“怎么做才算是信息技术与课程整合?”,要回答这些问题,除了让中小学教师掌握先进的教育教学理论、信息技术以外,更为重要的是进行基于信息技术与课程整合思想的教学模式的研究,为中小学教师的教学实践提供一个可参考的范式。教学模式是在一定的教育思想、教学理论和学习理论指导下的,为完成特定的教学目标和内容而形成的比较稳定且简明的教学结构理论框架及其具体可操作的教学活动方式。教学模式是教学理论与教学实践的桥梁,既是教学理论的应用,对教学实践起直接指导作用,又是教学实践的理论化、简约化概括,可以丰富和发展教学理论。研究“主导——主体”教学思想指导下信息技术与理科教学整合的教学模式,为中小学教师提供一些可用于指导教学实践并借以改造的教学模式,对于推进信息技术与课程整合就显得非常重要而迫切。 2信息技术与数学教学整合的教学模式研究现状 有关信息技术与学科教学整合的教学模式方面的研究,语文学科走在其他学科的前面。由北京师范大学现代教育技术研究所主持的全国学科“四结合”(原为全国语文“四结合”)课题组和试验学校的教师们结合长达7年之久试验研究的实践,提出了几十种信息技术与语文教学整合的教学模式。与信息技术与数学教学整合相关的研究,基本上形成三足鼎立的局面:一是数学教学模式的研究,二是信息技术与课程整合模式的研究,三是计算机应用于数学教学的作用和方式的研究。关于信息技术与数学教学整合模式的研究却很少,有的也只是零星的、个别的。 自从20世纪70年代美国的乔伊斯和韦尔等开创性地提出将教学模式作为教学研究领域的一个独立研究方向以来,教学模式的研究一直是教学研究领域一个重要的课题。数学教学模式的研究近些年来呈现欣欣向荣的景象。贝尔在其著作《中学数学的教与学》中提出先行组织者、发现法、证明定理、解决问题、利用计算机等许多数学教学模式。由冯克诚、田晓娜主编的《最新教学模式全书》中也提出了数十种数学教学模式,还有《数学教育学报》、《中学数学教学参考》《教法与学法》、《数学通报》等期刊上名目繁多的数学教学模式,真可谓是百家争鸣、百花齐放。研究数学教学模式的学者和教师从数学学科教学的视角研究教学模式,对数学教学实践具有较好的指导作用,然而以计算机为核心的信息技术在这些教学模式中最多只是起一种教学手段或教学媒体的作用,贝尔提到的利用计算机教学也仅仅是众多教学模式中的一种,对于当前如何有效地将信息技术与数学教学全面整合起来的问题缺乏直接的指导作用。 近年来,信息技术与课程整合模式的研究引起了教育技术界的重视,提出了不少信息技术与课程整合的模式,如何克抗教授提出的讲授、个别辅导、探索、协作等5类网络教学模式,祝智庭教授总结归纳的个别授导、教学模拟、智能导师、问题解决等23种信息化教学模式,李克东教授提出的情境——探究式、小组合作——远程协商式等4种数字化学习模式。这些信息化教学模式对于信息技术与数学教学整合有很好的借鉴作用,但由于其学科的普适性而缺乏数学教学的针对性。 计算机应用于数学教学前期研究的重点在于如何充分发挥计算机辅助教学的工具,近些年来则更加关注计算机认知工具的作用,尤其是校园网、因特网在中小学的广泛普及以及“几何画板”、“mathcad”、“mathematica”、“Excel”等软件的引入与使用,许多数学教学研究人员和数学教师对于将信息技术与数学教学整合进行了有益的探索,并取得了一定的效果,其中运用“几何画板”革新数理化教学(特别是数学教学)的试验研究项目取得了尤为显著的影响和效果,如运用“几何画板”讲授抽象的数学概念、做数学实验都取得了较好的效果。但是这些计算机应用于数学教学的研究大多停留在计算机作用的描述、教学经验描述的层面上,没有对这些经验进行理论化、抽象化、模式化的概括,不利于其他教师的借鉴和运用。 3构建信息技术与数学教学整合的教学模式的原则 教学模式是教学过程的简约化描述,但教学程序却不等于教学模式。教学模式的构建虽然具有一定的主观性,受到构建者对教学规律和原理的理解和具体的教学实践的影响,但是必须在教育教学理论的指导下,符合教学规律,为实现教学目标服务,也就是说我们构建信息技术与数学教学整合的双主教学模式也要遵循一定的原则。 3.1基于主导——主体教学理论的原则 教学模式与教学思想、教育教学理论有天然的联系,没有一定理论的指导,教学模式就没有了灵魂。一个完整的教学模式应该包含主题、目标、条件(或称手段)、程序和评价五个要素(张武升,1988)。主题即教学模式所依据的教学思想或理论,对教学活动作出理论的解释,规定了教学模式的本质,还渗透、影响其他四个要素。影响教学模式的理论基础有现代的教育思想、学习理论、教学理论等。现代教育思想的指导从根本上把握了教学模式培养人的最终目标;学习理论解释学习的内在机制,要求教学符合学生的认知规律,学习是有意义的学习;教学理论是用于指导教学操作程序和方法的系统理论,直接指导教学模式的形成。 “主导——主体”教学理论是构建信息技术与数学教学整合教学模式最主要的理论依据,“主导——主体”教学理论取建构主义学与教理论和奥苏贝尔等以“教为中心”的学与教理论之长,避两者之短,认为在教学的展开进程中,要充分尊重学生的学习主体地位,让学生对教学内容进行自主学习、自主思考,教师则在教学过程中起学习内容的选择、学习过程的组织、帮助和指导等主导性作用,使学与教有机的统一起来,体现了以人的全面发展为最终目标的教育思想。 3.2体现数学教学特点的原则 为数学教学服务所构建的信息技术与数学教学整合的教学模式不可避免地受到数学的特征、数学教学的特点、原则以及数学教学改革的趋势和方向的影响。数学既是基础性学科又是工具性学科,因此数学教学既要重视基本知识、基本概念、数学思维方法的教学,又要重视数学知识的实际应用教学,重视学生实际问题解决能力的培养。针对现在数学只能为越来越少的人所掌握以及学了数学没有用处的情况,国际数学教育界提出“大众数学”、“人人都要学会的数学”的口号,美国数学教师协会(NCTM)在1989年3月制定的《学校数学课程与评价标准》中提出了全美学校数学教学目标:“为估价数学而学习,为数学推理而学习,为数学交流而学习,对于自己从事数学活动的能力有信心,成为数学问题的解决者”。我国新的数学课程标准也提出“通过义务教育阶段的数学学习,学生能够:获得适应未来社会生活和进一步发展所必需的重要数学知识(包括数学事实、数学活动经验)以及基本的数学思想方法和必要的应用技能;初步学会运用数学的思维方式去观察、分析现实社会,去解决日常生活中和其他学科学习中的问题,增强应用数学的意识;体会数学与自然及人类社会的密切联系,了解数学的价值,增进对数学的理解和学好数学的信心;具有初步的创新精神和实践能力,在情感态度和一般能力方面都能得到充分发展”。这些数学教学目标为现代数学教学提供了如下启示: 基于“做”(hand-on)的教学——学习抽象的数学概念之前,让学生做数学实验、动手操作实物或模型,培养数学的意识,强调培养学生动手的能力; 基于思维(mind-on)的教学——关注核心概念、有判断力的思维方法和能力的教学,以使学生重构并形成自己的数学概念和关系,强调思维的培养。 基于事实(reality-on)的教学——使学生学会探索、发现、讨论和有意义建构用于解决现实问题的数学概念和关系,培养学生用数学的方法来解决问题的能力。 3.3基于信息技术与课程整合思想的原则 信息技术与课程整合是指在课程教学过程中把信息技术、信息资源、信息方法、人力资源和课程内容有机结合,共同完成课程教学任务的一种新型的教学方式(李克东,2001)。信息技术与课程整合不是一朝一夕的事,而是经过许多中间过程的,最终将信息技术作为辅助学习的高级认知工具,并带动教育的全面改革。根据信息技术与课程整合的不同程度和深度,将整合的进程大略分为三个阶段(马宁、余胜泉,2001):封闭式、以知识为中心的整合阶段,信息技术作为演示、交流和个别辅导的工具;开放式的、以资源为中心的整合阶段,信息技术作为资源环境、信息加工工具、协作工具和研发工具;全方位的课程整合阶段,信息技术与课程整合引起了课程内容、教学目标和教学组织架构的全面变革。构建基于课程整合的数学教学模式要充分利用教育技术的优秀成果,并根据教学内容的特点选择适当的整合方式,强调将信息技术认知工具的作用,加强整合的深度,而不是仅仅将信息技术作为演示的工具。 3.4最优化教学效果的原则 教学模式是教学理论在教学实践中的运用和具体化,来自于教学实践。教学实践是教学模式的基石,教学模式必须用于教学实践才有其存在的必要,也只有通过教学实践的检验才能不断完善。因此,在研究教学模式的同时,还要将之用于实实在在的教学活动中,研究教学模式是否有利于提高数学教学的效率和效果,这是我们研究和构建模式的根本所在,也是验证模式是否有效、是否值得推广的基本途径。 4几种信息技术与数学教学整合的双主教学模式 教学模式的研究是理论与实践的“中介”研究,其“中介”性质决定了教学模式的研究有演绎法和归纳法两种方法。演绎法采用实证研究的方法,“从一种思想和理论假设出发,设计一种教学模式,用实验检验证明其有效后,确立这一教学模式”(张武升,1988)。归纳法是在大量教学实践基础上总结、概括形成教学模式。随着教学理论和教育科学研究方法的发展和变革,尤其是现在对教师教育科研能力的重视以及运动研究方法再度受到关注,教学模式的研究更强调运用演绎法和归纳法相结合的方法。 我们运用演绎法和归纳法结合的方法就数学的概念、规律、几何教学构建了5种信息技术环境下的双主教学模式,下面就对这5种模式的操作程序、适用条件、评价等进行阐述。 4.1概念的归纳——获得教学模式 “概念的归纳——获得教学模式”是在参考乔伊斯(B.Joyce)和韦尔(M.Well)的“概念获得模式”和塔巴(HildaTaba)的“概念发展教学模式”的基础上提出的,其目标是让学生形成正确的概念、了解概念的含义以及通过参与和反思概念化的过程,提高分析和概括的思维能力。概念的归纳——获得教学模式包括七个步骤。 (1)情景导入,明确教学目的 情景导入的目的是激发学生的学习兴趣,建立学习的心理倾向。所创设的情景一定要与要讲授的概念有关,可以是与概念相关的生活实例、资料,可以是一些例子,也可以是用以明示该概念与其他概念关系(上位、下位、并列组合)的先行组织者等。在概念学习之前,教师要向学生阐明本课的目的是通过寻找其本质属性界定某一概念。 (2)呈现例子,分类归纳 教师选择一些肯定性例子(具备概念所有属性的例子)和否定性例子(不具备或不完全具备概念属性的例子),然后呈现给学生,让他们把相似的归为一类,并找出其共同属性(即归类理由)。如果低年级学生的分析能力不够强,则可以先呈现肯定性例子,让学生提取其中的共同属性,再呈现否定性例子,剔除非本质属性,引起学生对本质属性的注意,加强对本质属性的认识。 (3)提出概念假设 当学生把所有的属性都罗列出来后,要求学生给这组例子取一个名称,思考如何用这些属性来表述这个名称,此时教师不要对任何学生的观点进行评价,要鼓励他们多思考、多说。 (4)呈现例子,检验假设 同样呈现一些肯定性和否定性的例子,让学生用自己提出的假设判断是否所有的肯定性例子都能归到概念组中、概念是否已包含了所有的本质属性,必要时可以将一些属性添加到概念中。 (5)概括总结,形成概念 教师展示全体学生提出的概念属性和概念假设,要求学生共同提取该概念所包含的所有本质属性,用简练的语言概括出概念,然后再现概念的规范表述。 (6)应用概念,巩固理解 可以呈现一些比较复杂的例子,让学生应用概念进行分类,也可以让学生自己举出一些符合该概念的例子,加深他们对概念的理解。 (7)反思概念化过程 教师可以用问题来激励学生回忆、反思、讨论自己概念化的过程,如“请回忆一下你们得出这一定义的过程,你们是怎么确定其主要特征的”,从而提高其思维能力。 在上述过程中信息技术的作用以及教师和学生在过程中的活动可用表1来概括。 表1概念的归纳——获得教学模式中信息技术的作用和师生活动 模式程序信息技术的作用(理想状态)教师活动学生活动 情景导入,明确教学目的情景创设工具创设情景,说明教学目的明确目的,建立心理倾向 呈现例子,分类归纳例子展示、操练、表征观点(提取的概念属性)工具选择例子,确定呈现方式,收集概念属性例子分类,归纳概念属性 提出概念假设表征观点、交流讨论工具鼓励学生思考、发言,收集学生提出的假设提出属性和名称,讨论 呈现例子,检验假设展示例子、操练、表征观点、交流讨论工具选择例子,阐明阶段目的,参与讨论,收集概念属性假设例子判断,归纳属性,讨论 概括总结,形成概念呈现假设、表征观点、交流讨论工具展示概念属性和假设,参与讨论,评价学生概括的概念概括概念,讨论互评 应用概念,巩固理解呈现例子、操练工具选择例子,评价效果判断,举例 反思概念化过程交流讨论工具提问引发讨论反思,讨论 这种教学模式适合于讲授那些具有明确属性的概念,如有(无)理数、方程、等式等,也可以用于教授代数运算法则,如合并多项式、合并同类项等,对信息技术的要求不高,有大屏幕投影设备和一台计算机的教室基本满足教学条件(讨论口头进行,分类、提出假设可用纸代替),但是在教学前,教师必须选择准备好肯定性和否定性例子以及一些复杂的、似是而非的例子。教学的效果可以用判断、举例的方法来评价学生是否已理解、获得了该概念。 4.2规律的应用——探究教学模式 学习规律的目的是为了应用规律,此模式的目标是使学生通过应用概念和规律加深对概念和规律的理解,培养数学方法的应用能力和实际问题的解决能力,包括六个阶段。 (1)情景导入,明确问题 利用多媒体计算机创设现实问题情景,激发学生解决问题的兴趣,明确要解决的问题。 (2)分析问题,明确应用的概念或规律 让学生思考分析问题,提取问题中的已知条件、未知条件和要求的结果,引导学生讨论解决该问题需要用到的数学概念和规律,确定解决问题的概念和规律。 (3)分组讨论,提出假设 先将学生分成若干个小组,以小组为单位猜想、讨论解决问题的可能方案。这个阶段要鼓励学生多思考、多猜想,而不要求计算、证明,但是要给学生一定的时间限制,时间的长短则根据问题的难易程度而设定。 (4)共享方案,评价筛选 当学生已提出足够多的方案时,让小组成员汇报小组提出的方案。教师收集、汇总学生的方案,并把全部方案展示给全体学生,选出其中不同的方案后,让学生用逻辑推理的方法淘汰不可能的方案,进一步筛选出可能方案。 (5)计算证明,验证假设 让学生对剩下来的可能方案用严密的计算和证明的方法来验证其有效性。如果学生的信息能力较强,也可以要求学生用信息技术来表征最后的方案。 (6)汇报总结,反思 学生汇报验证的结果,总结问题的解决方案。如果方案比较复杂,教师可以用多媒体计算机来演示该方案解决问题的过程。最后要求反思解决问题的过程,讨论问题解决过程中所用的数学方法。 模式中信息技术的作用以及教师与学生的可能见表2。 表2规律的应用——探究教学模式中信息技术的作用和师生活动 模式程序信息技术的作用(理想状态)教师活动学生活动 情景导入,明确问题情景创设、问题呈现工具创设情景建立心理倾向,明确问题 分析问题,明确应用的概念或规律交流讨论工具引导,总结讨论,分析,确定应用的概念或规律 分组讨论,提出假设交流讨论、表征假设工具分组,设定讨论时间,鼓励学生,关注小组内所有成员的发言情况讨论,提出假设

共享方案,评价筛选展示方案、交流讨论工具收集、呈现方案,参与学生讨论汇报,讨论评价 计算证明,验证假设计算工具,实验环境,交流讨论工具提供工具,工具使用方法指导,提供帮助计算、证明,交流讨论 汇报总结,反思表征方案、交流讨论工具评价,总结,引发反思汇报,讨论总结,反思 此模式适用于与生活有关的计算公式、规则的复杂应用教学,如相遇问题、解方程问题等,对信息技术的理想要求是具有多媒体投影设备、网络环境、计算器、几何画板等数学探索工具等,要求教师和学生熟练使用Word、计算机、几何画板、网络交流讨论工具等。如果不具备网络教学环境,则学生的交流讨论可以口头进行。教学效果可以用解决类似问题来进行评价。 4.3几何概念、规律的“数学实验”教学模式 运用几何画板的“几何概念、定理的数学实验教学模式”的目标是通过“做”的教学,让学生正确理解几何中的概念、规律,了解概念、规律的形成原理,培养发现问题、转换问题的能力,培养用数学模型来解决问题的能力。该模式的步骤为: (1)情景导入,明确目的 情景导入的目的是激发学生探究的兴趣,明确数学实验的重点(要学习的概念/规律),如用与教学内容相关的例子引入课题,如用飞机或飞机模型引入角平分线教学、用飞翔的蝴蝶引入轴对称概念的教学、演示离心率变化引起曲线变化的动画引入离心率概念的教学等。 (2)做“数学实验”,自主探索 学生明确了本课的目的后,让学生用几何画板做数学实验,利用教师编好的课件独立探索,发现数学概念包含的本质特征、规律形成的原理。如果学生能熟练使用几何画板,也可以让学生自己制作简单的课件。 (3)讨论总结,形成概念/提出规律 学生将探索获得的概念属性或规律与学习伙伴进行讨论,在教师的帮助、引导下提出正确的概念或规律。 (4)概念/规律应用 将所获得的概念或规律应用于解决一些问题,可以是进行一些练习,也可以是解决一些实际问题,如用轴对称概念解决“在河边建一个水电站,使之到两个供水站的距离之和最短”等。此时还可能用几何画板进行数学实验。 (5)反思 用提问的方法引起学生回忆、反思自己的学习过程,讨论如何获得概念、发现规律的,在应用规律的时候是如何应用规律的,用“数学实验”进行学习对自己解决问题有什么启示等。 表3说明了信息技术在此模式中的作用以及模式程序中教师和学生的活动。 表3几何概念、规律的数学实验教学模式中信息技术的作用与师生活动 模式程序信息技术的作用(理想状态)教师活动学生活动 情景导入,明确目的情景创设工具创设情景建立心理倾向,明确学习目的 做“数学实验”,自主探索实验环境,表征概念或规律工具提供工具,监控、帮助、引导做数学实验,探索,记录探索的心得 讨论总结,形成概念/提出规律交流讨论、表征概念或规律工具总结,评价讨论,提出概念,互评 概念/规律应用呈现问题工具,练习工具,实验环境提出问题,提供工具,监控、引导、帮助练习,做“实验” 反思交流讨论工具引发思考,参与讨论讨论,总结 这种模式适用于抽象的几何概念、几何定理、复杂概念的研究和利用几何知识解决问题教学,如轴对称概念、多边形的内角之和、离心率概念、复杂曲线的形成、空间几何等,也可以用于物理、化学的教学中。要求师生都熟练使用几何画板和Word、记事本等记录工具,可用需要转换的复杂问题来评价教学效果。 4.4基于Internet的数学计算应用——合作探索教学模式 现代数学教学强调数学与现实生活的联系,要求数学教学要从身边的生活问题出发、用于解决生活中的实际问题,Internet提供的丰富资源又为此提供了更广阔的空间。“基于Internet的数学计算应用——合作探索教学模式”就是为实现使学生将学到的数学计算知识用于解决生活问题、从而培养其联系实际、解决问题能力的目标而设计的,其步聚包括七个环节: (1)情景导入,提出问题 情景创设的目的是激发学生探索、解决问题的兴趣,创设的情景要与学生的日常生活密切相关,而且要利用视频、音频、图片等多媒体信息来呈现问题,如深圳南山实验学校的易伟湘老师用悉尼奥运会的资料、用图片展示活动城市的情况[17]来调动学生的积极性取得了比较好的效果。 (2)分析问题,明确方向 要求学生分析解决问题需要确定哪些条件,这些条件与哪些数学知识有关系,最后确定解决问题涉及的数学概念,复习概念间的数量关系。 (3)小组学习,查找信息 教师按照学生的兴趣或位置关系将学生分成若干小组,确定每个小组成员都有相应的任务后,提供给学生信息记录表、相关的资源、网址或搜索引擎,传授学生使用这些资源的方法,让学生开始查信息。要求每个学生都独立自主地查找信息,他们所查找的信息都是为了解决共同的任务,是小组任务的一部分,培养他们协作的意识。这一阶段要给学生足够的时间和资源,使他们能进行充分的探索,学生还要及时记录所找到的信息。 (4)交流协作,解难释疑 当小组成员找到所需的信息后,让他们回到小组中,交流他们所查的信息以及为什么选择这些的理由,讨论其中分歧的意见以达成共识。对于一些学生容易忽视的因素,教师要及时引导。 (5)计算数据,问题解决 学生计算经过讨论的数据,比较、分析计算结果,讨论、选择恰当的解决方案。这里学生提出的解决方案可能不是惟一的,教师要鼓励学生多角度考虑解决方案,以培养他们的发散思维。 (6)成果汇报,讨论评价 学生在小组交流达成共识后,由小组成员向全班同学汇报学习的结果以及提出方案的理由,教师和其他组的学生可以就他们的方案提出适当的建议。 (7)反思 要求学生回忆探索、协作的过程,反思如何从问题中提取数学知识、怎样才能找到需要的信息、如何选择有用信息、解决该问题用了哪些数量关系、与小组成员协作是否愉快、学习伙伴有哪些值得自己学习的地方、打算以后怎么用这些数学知识和学习方法等等。 模式中信息技术的作用及教师与学生的活动如表4所示。 表4基于Internet的数学计算应用——合作探索教学模式中信息技术的作用及师生活动 模式程序信息技术的作用(理想状态)教师活动学生活动 情景导入,提出问题情景创设工具创设情景,阐明目的明确目的,建立心理倾向 分析问题,明确方向讨论工具,展示数量关系工具帮助学生提取、复习数学概念、数量关系分析、讨论,提出、复习数量关系 小组学习,查找信息信息探索、记录工具提供记录表、资源和工具,监控、帮助查找、记录数据 交流协作,解难释疑交流工具监控、引导,启发讨论,选择有用信息 计算数据,问题解决计算工具、表征方案工具提供工具,监控、引导计算、讨论,提出方案 成果汇报,讨论评价展示成果工具,讨论工具参与讨论,提出建议汇报,讨论、互评 反思讨论工具引发思考,参与讨论反思,讨论 这种模式适用于一些与日常生活有关的计算知识的教学,如行程问题、利息问题等。运用此模式进行教学的前提是具备并师生熟练使用Internet教学环境、Excel等电子表格工具、Word等文字处理工具软件。教学效果的评价可延续到课后进行,可让学生写学习体会、学生互评协作意识与协作能力。 4.5基于Internet的综合性应用问题的合作研究学习模式 这是一种多学科、多纬度的综合性教学模式,将知识、计算、规律的学习与解决实际问题等目标综合在一起。应用这种模式的教学一般不能在一节课中完成,根据项目的难易程度确定所需的时间。此模式的实施分为八个阶段: (1)设置问题情境,提出问题 问题可以由教师口头提出或用展示某一事件引出,也可以由学生自己提出。问题的情景应该是真实的,能够引起学生探索的热情。 (2)分析问题,明确评价方法 要求学生分析问题情景中所隐含的数学知识,列出已掌握和未掌握数学概念的清单。教师向学生说明研究的成果形式以及评价的方法。 (3)组织小组,确定研究计划 教师按照一定的分组策略将学生分成若干个小组,或者由学生自行分组,小组人数以4-5人为佳。小组成员一起讨论研究的方法、进度以及小组成员的分工,制定研究计划表和数据记录表。 (4)自主探索,学习概念,查找信息 每个小组成员根据自己的任务分工,学习自己未掌握的数学知识,并开始收集与解决问题相关的信息。学生通过学习新的数学知识、查找所需的信息,逐步建构起关于该领域知识结构原形,并形成自主思维的能力与习惯。教师帮助学生判断所查信息的有效性。 (5)交流协作,完成数据表 学生搜索到所需的信息后,回到小组,与其他小组成员一起交流所找到的信息以及该领域的相关知识以及自己关于解决问题的见解,并用查到的信息完成数据表。如果交流发现有不恰当的数据或数据不充分,则需要重新查找数据。 (6)计算数据,提出假设 将所查的数据进行必要的单位转换、中间计算,计算出最终数据,形成各种可能的解决方案。 (7)讨论假设,问题解决 对提出的可能解决方案进行组内讨论,决定最佳解决方案。 (8)汇报,评价,反思 由小组成员向全体同学作出口头汇报,如果可能还需提交书面报告。教师和其他小组根据评价的方法对他们的研究进行评价。要求学生对研究的过程进行反思,思考自己又学到哪些新的知识、是怎么解决这个问题的、自己在小组中的贡献有多大等等。 在这个模式中,信息技术的作用以及教师和学生的可能活动见表5。 表5基于Internet的综合性应用问题的合作研究学习模式中信息技术的作用及师生活动 模式程序信息技术的作用(理想状态)教师活动学生活动 设置问题情境,提出问题情景创设工具创设情景,提出问题明确问题 分析问题,明确评价方法讨论工具,展示成果形式和评价方法的工具帮助引导,说明成果形式和评价方法分析问题,提取数学知识,了解成果形式和评价方法 组织小组,确定研究计划制定研究计划和数据电子表工具确定分组,提供工具和工具使用帮助分工,制定计划表和数据表 自主探索,学习概念,查找信息资源、查找工具,探索工具提供资源,监控、引导学习概念,查找信息 交流协作,完成数据表讨论工具,数据记录工具监控、帮助、引导讨论,输入数据 计算数据,提出假设计算工具,方案表征工具监控、帮助、引导计算数据,记录结果 讨论假设,问题解决讨论工具监控、帮助、引导讨论,提出方案,准备口头汇报,撰写研究报告 汇报,评价,反思汇报撰写工具、讨论工具总结、评价,引发思考口头汇报、互评,反思 此模式适用于研究一些用数学知识解决社会性问题,如分期付款问题、投资回报问题、问题等等,模式的运用要求在Internet教学环境中,师生熟练使用浏览器、搜索引擎、Excel等表格工具、Word等文字处理工具、PowerPoint等演示工具,学生具备一定的协作技巧和进行口头、书面汇报的能力。教学效果的评价可以从问题解决、汇报、协作等方面进行。 以上是我们在这个领域所作的一点探索,所提的模式并不能包含所有内容的教学,还有许多内容的模式尚待研究,相信随着信息技术与数学教学整合研究的深入,这些模式会得到不断的修正、完善,更多的模式也会出现。 参考文献 [1]北京师范大学现代教育技术研究所.深圳市南山实验学校.信息技术与课程整优秀案例论文集.高等教育出版社,2001.11. [2]冯克诚,田晓娜.最新教学模式全书(上卷).国际文化出版公司,1997.8. [3]高文主编.现代教学的模式化研究.山东教育出版社,2000. [4]何克抗,李克东主编.信息技术与语文教学改革全国经验交流会论文集.全国学科“四结合”总课题(内部资料).1997-2001./www.etc.edu.cn/articledigest10/net-instruction.htm. [6]李克东.数字化学习——信息技术与课程整合的核心.电化教育研究.2001.(8).(9)./www.etc.edu.cn/academist/ysq/infor-tech-sub.htm. [8][美]贝尔.中学数学的教与学.许振声等译.北京:教育科学出版社,1990.8./www.cbe21.com/subject/maths/jxck.php. [10]向玉琴,刘英健.美国小学数学教学的基本特征.山东教育.1998.(3). [11]张武升.关于教学模式的探讨.教育研究.1988.(5). [12]祝智庭主编.现代教育技术——走进信息化教育.高等教育出版社,2000.9. [13]BruceJoyce,MarshaWeil&EmilyCalhoun,ModelsofTeaching,Allyn&Bacon,1999./www.techknowlogia.org.

数据通信的概念第8篇

[关键词]Scorpion 自动标引 杜威十进分类法

[分类号]G250.73

Scorpion是OCLC运用图书馆学和计算机信息检索技术建立自动主题标引工具的一个研究项目,目前已创建了一些自动主题标引工具,其在探索中运用的一些思想对于研究网络资源的自动标引和编目具有较大借鉴意义。笔者系统地搜集了Scorpion项目资料,并对其研究内容进行了具体分析,希望有助于进一步研究自动标引和网络信息资源组织与编目。

1 Scorpion概述

在计算机网络技术迅速发展的背景下,电子网络资源日益增多,终端用户很难查询到所需的精确信息。在此背景下,OCLC启动了探索电子资源自动标引和编目的研究项目Scorpion,其研究的重点在于建立一个基于杜威十进分类法的自动主题识别工具。Scorpion的简单处理流程包括如下步骤(见图1):首先,确定一组要包含在杜威等级检索数据库中的ESS记录,并从这些记录中选取一些字段来建立数据库;其次,将要标引的电子资源转换成相应数据库的检索提问,并在Scorpion杜威数据库中进行检索,输出的结果集即可看作该资源潜在的标引主题词。尽管Scorpion最初的一些思想是容易被证明的,Scorpion研究人员仍花费了大量时间来精炼分级检索数据库,并且在输入数据的预处理和输出结果集的后处理上做了大量的工作。目前,对结果集的后处理已成为Scorpion关注的焦点。 综观Scorpion目前的研究,主要有如下几方面:①Scorpion杜威等级数据库的建立。在这一工作中,Scorpion研究人员分别探讨了Scorpion与杜威十进分类法的关系以及Scorpion杜威实验数据库结果的检验、评价和改进,其中使用了截词算法和SMART的几种得分算法,尤其重要的是引入杜威法上下位类等级关系,提高了自动标引的质量。②Scorpion实验结果集的改进及其质量评价。在这一研究中,Scorpion研究人员运用对比杜威号码集和Scorpion结果集的方法,并在结果集的改进中提出了几种过滤方法。③其余相关研究,如Scorpion与自动聚类的关系等。

2 建立Scorpion杜威、实验数据库过程中的研究

OCLC发起Scorpion项目之目的在于以合理的成本费用将等级分类法和主题标题法应用于电子信息资源的组织与检索,因而其论题之一即杜威十进分类法能否用于对电子信息资源进行自动主题分类。由于杜威法目前是由OCLC森林出版社使用编辑支持系统(Editori―al support system,简称ESS)以电子方式在线进行维护的,ESS系统相应的记录可用来制作杜威十进分类法最近的印刷版本,因而Scorpion隐含的思想之一即使用ESS记录来建立自动标引文献主题的等级检索数据库,然后把某一文献看作这些数据库的检索提问,检索的结果即作为该文献可能的主题标引词集合。

2.1建立实验数据库的基本方法和思想

由于任何分类工具都希望其依据的知识基础立类完整,每一个主题概念明确无歧义。因而在建立杜威数据库的过程中,Scorpion研究人员首先对杜威法是否可作为自动主题分类工具进行了验证。具体做法即根据ESS记录中描述的概念建成数个数据库,然后将每一概念都转换成针对相应数据库的检索请求,让分级检索软件确定数据库中与输入概念最为匹配的概念。

研究人员选用了SMARTll,O版(System for Ma-nipulating and Retrieving Text)作为实验数据库平台,并选取了SMART的两种得分算法ATN和ATC,这两种算法是以同样的方法来确定术语权重的,区别在于ATN计算的仅是术语权重的简单总和,而ATC则使用记录的长度将其权重标准化到0.0和1.0区间内。标准化的目的是为了削减较长记录比较短记录更容易被检索的特点。记录长度之所以被作为实验考虑的一个因素,是因为在等级层次中越靠后的概念具有的限制术语数越多。

在实验过程中,研究者发现ESS记录实际上是依赖于杜威法的上下位类等级属性来完整定义一个概念。针对ESS记录数据库的检索提问,只有当考虑了号码的等级层次以及与之关联的概念短语时,才可能产生更精确的检索结果。因而,研究者调查了在概念记录中增加上下位类等级信息对Scorpion结果的影响。除此之外,研究人员还检测了截词法对杜威法概念术语检索结果的影响,即建立有截词算法功能和无截词算法功能的两种不同版本Scorpion数据库。

此实验是在6个特定数据库中进行的,输入的检索提问记录都限于该记录所在的数据库,如表1所示:

2.2实验过程

为了客观评价Scorpion杜威数据库,研究人员首先检测了一条输入检索提问概念被转换成潜在主题排序列表中第一条结果的频率。实验假定只要输入的检索提问概念出现在排序结果中,就表明自我匹配发生。并且实验中所有的结果集都只包含20个概念。这样,每个结果集至多应包含有1个自我匹配记录和至少19个自我不匹配记录。

对于杜威号307.77(Self-contained communities),使用012数据库和ATC得分算法,得到如表2所示的20个返回概念:

以上实验结果非常满意,自我匹配记录出现在排序的第一条,并且超过半数的其他检索概念出自数据库中杜威号307所在的同一领域。

而事实上并非每一个ATC算法结果集中自我匹配记录都出现在序号1的位置上,这主要是SMART系统本身的两个因素造成的:①在ATC得分算法下,当一个概念和它自身对比的时候,返回的得分总是为1.0(最高的可能得分)。因而,在结果集中每一个输入的概念得分都会为l,问题在于由于ATC得分算法的标准化,其他概念的得分也会为1.0。②SMART系统对所返回的具有同样得分的记录是按照SMART内部文献号的递减顺序排列的,而Scorpion数据库是按杜威号的升序排列的。因而,在确定所输入的检索提问概念作为潜在主题排序列表中第一个返回结果的频率时,在同样的得分组中,概念是按杜威号的递减顺序排列的。

考虑到以上两个因素,研究人员计算了某个输入概念在一个给定数量的分值为1.O的关系组中出现的次数,并将这些结果值绘制成图(见图2)。其中,x轴表示包含输入记录得分为1.0的结果集的数量大小,Y

轴表示具有这个数量或更少的关系组的所有结果集占总数的累计百分比。例如,数据库012的结果集有99%是由得分为1、概念数量为4或更小的关系组组成。对数据库012、013、015和016来说,至少97%的输入概念作为排序号最高的概念和自身相匹配。在两个没有上下位等级的数据库011和014中,结果不尽满意,但是其匹配率仍然在93%以上。

2.3实验发现――上下位类等级信息对Scorpion杜威数据库有重要影响

在图2中,将具有截词功能和不具有截词功能的数据库进行对比(数据库011和014对比,012和015对比,013和016对比),发现截词功能对于自我匹配效果的影响不是很明显。产生影响的主要因素是所包含的等级关系信息的数量,包含有上下位类等级关系数据库的结果比仅包含上位类的数据库更好。可以预言,两者的结果都优于不包含等级关系的数据库。为了进一步验证以上结果,又使用SMART ATN得分算法进行了相似的分析,同样证明在概念中增加其上下位类等级记录后,其结果得到了最大程度的改善。

表3列出了杜威法中的概念535,028在数据库011,012,013中运用ATC算法检索所得的前20条匹配记录。值得注意的是在数据库011的结果中ATC得分为1,O的大量的杜威概念号码(等级序号从1-15)。当通过增加上下位类关系使概念具有更多的上下文环境时,数据库011中前边的匹配概念在数据库012和013中被分散了。在数据库012中只有三条非自我匹配的(用黑体显示出来)概念仍然保留在前20条记录中。同样在数据库013的检索结果中,只有6条记录仍然被保留下来。

图3和图4以绘图的形式展示了上下位类关系对记录自我匹配效果的影响。这两个图是关于输入某一检索提问概念的前20条记录散布图。其中x轴是相应的检索提问概念的杜威号,Y轴是检索出的相应概念的杜威号。通过对比图3和图4,可以明显看出上下位类信息加强了概念间的匹配。

2.4实验结论

从以上实验中得出的结论有:①杜威法描述了一个高度结构化的分类整体,其中的概念定义很严密,互不交叉;②增加上下位类环境可以在很大程度上改善Scorpion为主题概念分配较窄范围号码的能力。以上结论表明杜威法是自动分类工具可依据的很好的知识基础;③实验结果集中还出现了明显不符合要求的记录,还有待进一步改进。