首页 优秀范文 数据挖掘技术分析论文

数据挖掘技术分析论文赏析八篇

时间:2022-09-22 13:52:52

数据挖掘技术分析论文

数据挖掘技术分析论文第1篇

数据挖掘技术综述

数据挖掘(Data Mining)是一项较新的数据库技术,它基于由日常积累的大量数据所构成的数据库,从中发现潜在的、有价值的信息——称为知识,用于支持决策。数据挖掘是一项数据库应用技术,本文首先对数据挖掘进行概述,阐明什么是数据挖掘,数据挖掘的技术是什么,然后介绍数据挖掘的常用技术,数据挖掘的主要过程, 如何进行数据挖掘,主要应用领域以及国内外现状分析。

一. 研究背景及意义

近十几年来,随着数据库系统的广泛流行以及计算机技术的快速发展,人们利用信息技术生产和搜集数据的能力大幅度提高。千万个数据库被用于商业管理、政府办公、科学研究和工程开发等,特别是网络系统的流行,使得信息爆炸性增长。这一趋势将持续发展下去。大量信息在给人们带来方便的同时也带来了一大堆的问题:第一是信息过量,难以消化;第二是信息真假难以辨认;第三是信息安全难以保证;第四是信息形式不一致,难以统一处理。面对这种状况,一个新的挑战被提出来:如何才能不被信息的汪洋大海所淹没,从中及时发现有用的知识,提高信息利用率呢?这时出现了新的技术——数据挖掘(Data Mining)技术便应用而生了。

面对海量的存储数据,如何从中发现有价值的信息或知识,成为一项非常艰巨的任务。数据挖掘就是为迎合这种要求而产生并迅速发展起来的。数据挖掘研究的目的主要是发现知识、使数据可视化、纠正数据。

二. 概述

1,数据挖掘

数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。这些数据可以是结构化的,如关系数据库中的数据,也可以是半结构化的,如文本,图形,图像数据,甚至是分布在网络上的异构型数据。发现知识的方法可以是数学的,也可以是非数学的,可以是演绎的,也可以是归纳的。发现了的知识可以被用于信息管理、查询优化、决策支持、过程控制等,还可以进行

数据自身的维护。数据挖掘借助了多年来数理统计技术和人工智能以及知识工程等领域的研究成果构建自己的理论体系,是一个交叉学科领域,可以集成数据数据库、人工智能、数理统计、可视化、并行计算等技术。 2,数据挖掘技术

数据挖掘就是对观测到的数据集进行分析,目的是发现未知的关系和以数据拥有者可以理解并对其有价值的新颖方式来总结数据。它利用各种分析方法和分析工具在大规模海量数据中建立模型和发现数据间关系的过程,这些模型和关系可以用来做出决策和预测。

数据挖掘的过程就是知识发现的过程,其所能发现的知识有如下几种:广义型知识,反映同类事物共同性质的知识;特征型知识,反映事物各方面的特征知识;差异型知识,反映不同事物之间属性差别的知识;关联型知识,反映事物之间依赖或关联的知识;预测型知识,根据历史的和当前的数据推测未来数据;偏离型知识,揭示事物偏离常规的异常现象。所有这些知识都可以在不同的概念层次上被发现,随着概念树的提升,从微观到中观再到宏观,以满足不同用户、不同层次决策的需要。

数据挖掘是涉及数据库、人工智能、数理统计、机械学、人工神经网络、可视化、并行计算等的交叉学科,是目前国际上数据库和决策支持领域的最前沿的研究方向之一。

3,数据挖掘的功能

数据挖掘通过预测未来趋势及行为,做出预测性的、基于知识的决策。数据挖掘的目标是从数据库中发现隐含的、有意义的知识,按其功能可分为以 下几类。

3.1 关联分析(Association Analysis)

关联分析能寻找到数据库中大量数据的相关联系,常用的一种技术为关联规则和序列模式。关联规则是发现一个事物与其他事物间的相互关联性或相互依赖性。

3.2 聚类

输入的数据并无任何类型标记,聚类就是按一定的规则将数据划分为合理的集合,即将对象分组为多个类或簇,使得在同一个簇中的对象之间具有较高的相似度,而在不同簇中的对象差别很大。聚类增强了人们对客观现实的认识,是概念描述和偏差分析的先决条件。聚类技术主要包括传统的模式识别方法和数学分类学。

3.3 自动预测趋势和行为

数据挖掘自动在大型数据库中进行分类和预测,寻找预测性信息,自动地提出描述重要数据类的模型或预测未来的数据趋势,这样以往需要进行大量手工分析的问题如今可以迅速直接由数据本身得出结论。。

3.4 概念描述

对于数据库中庞杂的数据,人们期望以简洁的描述形式来描述汇集的数据集。概念描述就是对某类对象的内涵进行描述并概括出这类对象的有关特征。概念描述分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者描述不同类对象之间的区别。生成一个类的特征性只涉及该类对象中所有对象的共性。生成区别性描述的方法很多,如决策树方法、遗传算法等。

3.5 偏差检测

数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有意义。偏差包括很多潜在的知识,如分类中的反常实例、不满足规则的特例、观测结果与模型预测值的偏差、量值随时间的变化等。偏差检测的基本方法是寻找观测结果与参照值之间有意义的差别。这常用于金融银行业中检测欺诈行为,或市场分析中分析特殊消费者的消费习惯。

三.目前的研究现状及存在的主要问题

自KDD一词首次出现在1989年8月举行的第11届国际联合人工智能学术会议以来。迄今为止,由美国人工智能协会主办的KDD国际研讨会已经召开了13次,规模由原来的专题讨论会发展到国际学术大会,人数由二三十人到超过千人,论文收录数量也迅速增加,研究重点也从发现方法逐渐转向系统应用直到转向大规模综合系统的开发,并且注重多种发现策略和技术的集成,以及多种学科之间的相互渗透。其他内容的专题会议也把数据挖掘和知识发现列为议题之一,成为当前计算机科学界的一大热点。

与国外相比,国内对DMKD的研究稍晚,没有形成整体力量。1993年国家自然科学基金首次支持我们对该领域的研究项目。目前,国内的许多科研单位和高等院校竞相开展知识发现的基础理论及其应用研究,这些单位包括清华大学、中科院计算技术研究所、空军第三研究所、海军装备论证中心等。其中,北京系统工程

研究所对模糊方法在知识发现中的应用进行了较深入的研究,北京大学也在开展对数据立方体代数的研究,华中理工大学、复旦大学、浙江大学、中国科技大学、中科院数学研究所、吉林大学等单位开展了对关联规则开采算法的优化和改造;南京大学、四川联合大学和上海交通大学等单位探讨、研究了非结构化数据的知识发现以及Web数据挖掘。

四. 研究内容

1,数据挖掘的过程

数据挖掘是指一个完整的过程,该过程从大型数据库中挖掘先前未知的、有效的、可实用的信息,并使用这些信息做出决策或丰富知识。

数据挖掘的一般过程如下流程图所示:

图1,数据掘的一般过程

2.1 神经网络

神经网络方法是模拟人脑神经元结构,以MP模型和Hebb学习规则为基础。它主要有三种神经网络模型:前馈式网络、反馈式网络、自组织网络。为

2.2决策树

决策树学习着眼于从一组无次序、无规则的事中推理出决策树表示形式的分类规则。它采用自顶向下的递归方式,在决策树的内部结点进行属性值的比较并根据不同的属性值判断从该结点向下的分支,在决策树的叶结点得到结论。

2.3 遗传算法

遗传算法是一种优化技术,是模拟生物进化过程的算法。基于进化理论,并采用遗传结合、遗传变异以及自然选择等设计方法。由三个基本算子组成:繁殖、交叉、变异。

2.4 传统统计分析

这类技术建立在传统的数理统计的基础上。在数据库字段项之间存在两种关系:函数关系(能用函数公式表示的确定性关系)和相关关系(不能用函数公式表示,但仍是相关确定性关系),对它们的分析可采用判别分析、因子分析、相关分析、多元回归分析及偏最小二乘回归方法等。

2.5 关联规则

关联规则是发现一个事物与其他事物间的相互关联性或相互依赖性。关联规则是展示属性: 值频繁地在给定数据集中一起出现的条件,是数据挖掘中作用比较广泛的知识之一。

2.6 可视化技术

可视化技术是利用计算机图形学和图像技术,将数据转换成图形或图像在屏幕上显示出来,并进行交互处理的理论、方法和技术。可视化数据挖掘技术将可视化有机地融合到数据挖掘之中,使用户对于数据挖掘有一个更加直接直观清晰的了解,提供让用户有效、主动参与数据挖掘过程的方法。

3,数据挖掘的应用领域

数据挖掘技术从一开始就是面向应用的。它不仅是面向特定数据库的简单检索查询调用,而且要对这些数据进行微观、中观乃至宏观的统计,分析,综合和推理,以指导实际问题的求解,企图发现事件间的相互关联,甚至利用已有的数据对未来的活动进行预测。

一般Data Mining较长被应用的领域包括金融业、保险业、零售业、直效行销业、通讯业、制造业以及医疗服务业等。更广义的说法是:数据挖掘意味着在一些事实或观察数据的集合中寻找模式的决策支持过程。

4,数据挖掘的发展方向

目前,数据挖掘的研究方面主要有:数据库知识发现方面,将知识发现(KDD)与数据库系统、数据仓库系统和Web数据库系统紧密结合,力图充分利用Web中的丰富资源;机器学习方面,进一步研究知识发现方法,希望克服现存算法的计算性瓶颈,如注重对Bayes(贝叶斯)方法以及Boosting算法的研究和提高;统计领域,加大传统统计方法在数据挖掘中的应用。数据挖掘研究正蓬勃开展,在今后还会掀起更大的波澜,其研究焦点集中到以下几个方面:研究专门用于知识发现的数据挖掘语言,也许会像SQL语言一样走向形式化和标准化;寻求数据挖掘过程中的可视化方法,使得知识发现的过程能够被用户理解,也便于在知识发现过程中的人机交互;研究在网络环境下的数据挖掘技术,特别是在Internet上建立数据挖掘服务器,与数据库服务器配合,实现数据挖掘;加强对各种非结构化数据的挖掘,如文本数据、图形图像数据、多媒体数据。

5,数据挖掘的新技术

Web数据挖掘技术首要解决半结构化数据源模型和半结构化数据模型的查询与集成问题。这就必须要有一个模型来清晰地描述Web上的数据,而寻找一个半结构化的数据模型是解决问题的关键所在。除此之外,还需要一种半结构化模型抽取技术,即自动地从现有数据中抽取半结构化模型的技术。

XML可看作一种半结构化的数据模型,可以很容易地将XML的文档描述与关系数据库中的属性对应起来,实施精确地查询与模型抽取。利用XML.Web设计人员不仅能创建文字和图形,而且还能构建文档类型定义的多层次、相互依存的系统、数据树、元数据、超链接结构和样式表。

6,数据挖掘面临的问题和挑战

虽然数据挖掘技术已经在各方面都得到了广泛的应用,但数据挖掘技术的研究还不够成熟,在应用上有很大的局限性。正是这些局限性,促使数据挖掘技术进一步的发展:

(1)挖掘的对象 数据库更大,维数更高,属性之间更复杂,数据挖掘处理的数据通常十分巨大。

(2)数据丢失问题 因大部分数据库不是为知识发现而定做的,那么它就有可能会存在一些重要的数据和属性丢失的问题。

(3)多种形式的输入数据 目前数据挖掘工具能处理的数据形式有限,一般只能处理数值型的结构化数据。

(4)网络与分布式环境的KDD问题 随网络的发展,资源的丰富,技术人员各自独立处理分离数据库的工作方式应是可协作的。

五.研究达到的预期结果

系统的介绍数据挖掘技术,使更多的研究人员在数据库中发现有用的,有潜在价值的数据知识。

六.小结

通过各方面资料的查找,理解了基本的数据挖掘概念、数据挖掘技术、数据挖掘的实际应用及国内外现状。在论文中将对数据挖掘的概念以及发展概况进行介绍,并总结数据挖掘中使用的技术,主要结合当前的研究成果,分析了数据挖掘领域的。研究领域方面,可能主要集中在网络信息中的主要应用。

七.毕业论文进程安排

序号 论文各阶段安排内容 日期

1 资料调研及方案设计 1.4-1.10

2 数据挖掘的概论研究 1.11-1.25

4 数据挖掘常用技术研究 1.26-2.15

5 数据挖掘的应用研究 2.15-3.1(中期检查)

6 数据挖掘的新技术研究 3.1-3.10

7 数据挖掘的发展方向 3.11-3.16

8 撰写论文 3.16-4.10

数据挖掘技术分析论文第2篇

【关键词】Web挖掘、网络舆情、分析处理

0 引言

网络舆情作为一种十分重要的舆情表现形式,是公众在互联网上对某种社会现象或社会问题公开表达的具有一定影响力和倾向性的共同意见。要加强对网络舆情信息的分析,及时发现舆情热点,及时对民意走势做出正确引导。在此情况下,我们引入Web数据挖掘技术来提高对舆情的处理和分析的效率以及质量,实现网络舆情的分析。

1 Web挖掘

Web挖掘是数据挖掘在Web上的应用,它是一种综合使用自然语言处理、数据挖掘、人工智能、机器学习等技术的智能分析方法。根据挖掘对象的不同,Web挖掘可以分为Web内容挖掘、Web结构挖掘和Web使用挖掘三个方面。相比于传统的网络舆情分析方法,Web挖掘可以用更短的时间了解网络舆情的状况和走向以及与之相关联的热点问题,为网络舆情的深入分析提供了技术支持。

1.1Web内容挖掘。Web内容挖掘是指从Web文档的内容或者Web搜索的结果中获取知识的过程。由于网页的内容错综复杂不易于计算机理解,Web内容挖掘可以有效的对大量的Web文本集合进行总结、分类、聚类、关联分析,以及利用Web文本进行趋势预测。在网络舆情分析中,Web内容挖掘可以发现与事件主题相关的知识内容和语义关联模式。

1.2Web结构挖掘。Web结构挖掘是指对Web组织结构、Web页面的链接关系等进行挖掘并从中提取出潜在的有用的知识的过程。Web链接信息包括了大量的关于Web内容相关性、质量和结构方面的信息,为网络舆情的分析的提供了重要资源。通过Web结构挖掘,可以获得与舆情主题高度相关的链接以及链接逻辑结构的语义知识,从而帮助舆情分析人员确定重要舆情源和中心页面,有助于深入挖掘舆情信息。

1.3Web使用挖掘。Web使用挖掘是指通过挖掘Web服务器上的日志信息来提取浏览者的访问记录,获取有价值的信息的过程。这些信息包括网络服务器访问记录、服务器日志记录、浏览器日志记录、用户信息、注册记录、用户对话或交易信息、用户提问等。通过上述信息可以发现用户的访问模式以及行为偏好,可以更好地理解用户行为从而提供智能化的服务。通过Web使用挖掘,可以确定舆情热点和焦点,从而更准确地预测网民行为。

2 基于Web数据挖掘的网络舆情分析

2.1数据层。舆情信息采集的主要任务是提取与热点相关度高的信息,为下面的舆情挖掘和分析做好准备工作。舆情信息采集由以下5步完成。

(1)确定主题和选择采集地点。为了使采集效果更好,必须以主题的形式对信息需求进行描述。

(2)利用自动采集软件采集数据。数据采集软件可以自动采集相关信息,并下载到本地进行分析。

(3)页面分析。采集完页面之后,对页面进行分析,提取重要信息,以便进行后续的过滤和处理。

(4)URL与主题的相关性判断。在采集过程中增加过滤机制以便提高采集数据的质量。

(5)页面过滤。对采集页面进行主题相关性评价,去除相关性低的页面,从而提高采集页面的准确性。

2.2 挖掘层。挖掘层主要由语义信息集成和Web挖掘引擎两部分组成,而且语义信息集成为Web挖掘引擎提供经预处理后的结构化信息,简化并加速 了Web挖掘处理。

(1)语义信息集成。由于数据层的数据来自于不同的媒介,因而在结构和语义上都存在很多的不同,需要对其进行统一处理,并根据需要利用智能信息处理技术进行深入的预分析,从而提高挖掘引擎的效能和健壮性。

(2)Web挖掘引擎。Web挖掘引擎是网络舆情分析的动力部分,执行Web挖掘任务。它定义了Web挖掘模型语言,选取了合适的挖掘算法和工具。其主要目的是从大量的网络舆情信息中提取规律,并预测事件的发展趋势。可根据网络舆情信息源的特点,从多个方面更加深入的进行挖掘处理。

2.3分析层。分析层是核心部分,其主要技术应用于对网络舆情信息的智能分析,该分析从六个层面进行,分别是:主体类聚分析、语义关联分析、概念描述、趋势预测分析、主题识别探测和倾向性分析。其功能主要是将经过挖掘处理后的知识进行描述,并生成网络舆情分析报告来辅助决策机构。

2.4应用层。应用层的出现首先方便了与用户之间的交互。用户可以通过软件来指导网络舆情信息的采集、挖掘和分析处理,从而发现隐藏的规律和发展趋势,同时也更易于舆情信息的理解和分析结果的应用。其次,为后续工作提供接口。由于计算机不能对随机出现的各种警情进行判断,因此需要提供系统交互接口,可以让专家进行分析,实现人机互动,从而提高舆情分析的准确性。

3 基于Web挖掘的网络舆情分析系统实例分析

本文以方正智思舆情预警辅助决策支持系统为例,讨论Web挖掘技术在网络舆情分析中的应用。正智思舆情预警辅助决策支持系统是一款由北大方正技术研究院研发而成的中文智能信息挖掘与处理的平台软件。其核心技术为中文信息处理技术与Web挖掘技术,采用B/S结构,利用J2EE技术框架,实现基于浏览器的瘦客户、服务器模式。它不仅能对舆情信息进行全方位采集,还能对舆情信息进行智能分析处理。其实时响应、智能分析、辅助倾向性判断等特点为相关职能部门全面掌握网络舆论动态,作出正确引导,提供分析依据,从而提高各级政府应对突发事件的能力。

4 结语

Web挖掘是一种综合使用自然语言处理、数据挖掘、人工智能、机器学习等技术的智能分析方法。实践表明,将Web挖掘融入网络舆情分析中,可以充分发挥Web挖掘技术从海量信息中发现隐藏的规律,实现对网络舆情信息全方面深入的分析,从而辅助相关职能部门正确引导民意。在网络舆情中应用Web挖掘技术,可以有效地提高网络舆情分析结果的正确性,也是其未来的发展方向。

参考文献:

[1]付业勤,郑向敏. 国内外网络舆情研究的回顾与展望[J]. 编辑之友,2013,12:56-58.

[2]张玉峰,何超. 基于Web挖掘的网络舆情智能分析研究[J]. 情报理论与实践,2011,04:64-68.

数据挖掘技术分析论文第3篇

关键词 数据挖掘技术;医学信息;医学应用

中图分类号 TP3 文献标识码 A 文章编号 1674-6708(2016)172-0132-01

数据挖掘技术自20世纪90年代开始兴起,随着信息时代的到来,数据挖掘技术受到越来越多的关注。数据挖掘技术在众多不同领域正发挥着重要作用,和其他领域一样,数据挖掘技术在医学信息领域也具有广泛应用。数据挖掘技术有助于医院管理者做出民智决策、医生做出正确诊断、医学研究者做出有效分析和预测。

1 数据挖掘技术

数据挖掘(Data mining)是指从大型数据中通过算法发现或提取有意义、有潜在价值、新颖的信息与规律等知识。Shapiro在1989年8月举行的第11届国际联合人工智能学术会议上,首次提出数据库中知识发现一词――数据挖掘技术。随后,很快吸引了大量数据库工作者转向数据挖掘的研究。

经历了20余年的发展,数据挖掘的算法日趋成熟,融合了模式识别、数字图像处理、数据库技术、信息检索、数理统计等众多技术。数据挖掘是一个复杂的过程,它是由多个流程组成的,随不同领域的应用这些流程会有所变化,一般的流程为问题定义、数据准备、数据转换、数据挖掘、结果评估、知识的发现和应用。这些流程的顺序并不是线性的,而且为了取得好的数据挖掘结果常常需要反复。数据挖掘的方法主要有概念描述、关联分析、分类、聚类分析、异常检测等。

2 数据挖掘在医学信息领域的重要意义

医学信息的形式多样,包括文字、图像、声音、视频等形式,它涵盖了生物信息学、药物信息学、医学图形信息学等学科,同时,具有隐私性、冗余性、不完整性、模糊性且带有噪声等特点。数据挖掘作为一种数据处理技术,从医学数据信息中寻找潜在的关系或规律,从而获得有效的对病人进行诊断、治疗,增加对疾病的预测准确性,实现疾病的早期发现,提高治愈率,为医学信息领域提供了新的方法[ 1 ]。

1)医学数据挖掘技术有助于提高数据分析效率,增加产生新知识的速度。医学数据库是一个庞大的信息库,有海量的数据,而且数据的形式多样,要在这样的数据信息中找到有价值的信息,采用传统的方法需要花费更多的时间。利用数据挖掘技术,可以分析数据的趋势变化和规律,减少数据冗余和重复性的影响,减少数据量,选择合适的算法制定规则还可以实现自动化分析。如数据挖掘技术分析电子病历中分散、非结构化数据,进行自动化的数据采集[ 2 ]。

2)医学数据挖掘技术可以提供知识的准确性和可靠性,提高疾病的治愈率。日常医疗中通常采用抽样的方法获取样本,结果导致往往只有一部分符合特定要求,存在样本的局部性并影响真实性。数据挖掘技术从数据的整体性出发,通过概率抽样、评估、假设验证等过程提取信息中的共性特征和个性差异,弥补了随机对照实验的不足。理论上还能够根据病人的个体差异,给出个性化治疗方案。如通过整合系统生物学与电子病历数据,医学数据挖掘技术为个性化医疗计划转变为临床实践提供机会。

3)医学数据挖掘技术可以用于预测建模,辅助临床诊断和推荐治疗措施。大量的研究和大数据的到来,使得大部分临床医生的知识转化变得非常困难,难以跟上最新的知识来指导临床诊断。数据挖掘预测建模,根据特定信息对离散数据进行预测。谷歌公司利用人们在网上检索的与流感相关的记录建立了数学模型,成功的预测流感传播和发生的地点。又如癌症早期诊断中,利用数据挖掘技术对癌症患者做出诊断和提出治疗方案。

3 数据挖掘在医学信息领域的应用

医学信息与数据挖掘都是快速发展的前沿研究,复杂多变的需求分析及医学信息数据的特点,使医学信息的数据分析迫切需要数据挖掘技术的支持。医学信息中的很多内容,如在医疗管理、疾病诊断和医学科研方面,都在数据库技术中找到了支持。

1)医疗管理。目前,随着数字化的普及,很多医院都建立了庞大的数据库,目前主要有医院信息系统(hospital information system,HIS),它分为管理信息系统和临床信息系统,管理信息系统主要处理诸如人事、财务和设备管理等医院内部管理方面的信息,临床信息系统主要处理患者相关信息。从数据库中运用数据挖掘技术,来分析和发现数据的各种信息,可以帮助医院决策者更好的制定管理策略[3]。按照数据挖掘的需求,进行关联分析、分类分析、聚类分析等挖掘算法,可进行医院费用分析、医疗质量管理、医用耗材管理、住院患者人群分类等。

2)疾病诊断。面对日益庞大的病案数据,仅依靠临床经验,容易出现诊断错误,针对临床数据库、医学图像等,数据库挖掘技术也发挥着重要的作用。

决策树算法帮助医生从大量数据中寻找规律,提高准确率。应用聚类算法、关联规则等还可以进行疾病诊断因素和疾病关联等方面的分析,如实现癌症的早期诊断和预防等。

医学图像随着医疗设备的发展,种类都越来越多,医学图像中蕴含这丰富的图像特征和规则信息,使用决策树、神经网络和关联规则等数据挖掘算法,可以辅助医生对病变区域进行分析,提高医学诊断的准确性和正确性。

3)医学科研。基因研究:数据挖掘技术与传统的统计分析,在数据分析的效率上有明显的优势。利用关联规则、聚类分析等有助于发现一组序列的差异及相似性,阐明多个序列间的关系,确定基因种类。

蛋白质结构预测:许多国家组建了蛋白质结构和功能数据库,为科研工作这提供丰富信息的同时,由于数据分散、存储媒介多、数据冗余等复杂性,使用数据库技术进行数据清理,追踪蛋白质数据序列,为蛋白质结构预测提供便利。

药物发现及设计:数据挖掘技术有助于增加新药发现和设计中的主动性并避免盲目性。利用数据挖掘技术对从庞大的化合物数据库中发现药物靶分子,对药物进行筛选、药物毒理学、药物副作用分析,从而降低药物开发的时间和成本[4]。

4 结论

医疗信息的数字化发展和医学研究工作者对高校处理和分析大数据的渴望为数据挖掘提供了广阔的研究空间,也显示了数据挖掘在医学信息领域的发展潜力。利用数据挖掘技术,将帮助医疗管理、临床疾病诊断和医学科研等。相信在不久的将来,数据挖掘在医学信息领域将取得突破性进展。

参考文献

[1]石晓敬.数据挖掘及其在医学信息中的应用[J].医学信息学杂志,2013(34):2-6.

[2]秦文哲,陈进,董力.大数据背景下医学数据挖掘的研究进展及应用[J].中国胸心血管外科临床杂志,2016(1):55-60.

数据挖掘技术分析论文第4篇

关键词:数据挖掘;学校教学;教学管理;应用

中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2013)26-5805-03

随着信息技术的不断发展,数据量的不断增大,面对庞大的数据信息的合理使用,应运而生了数据挖掘技术。目前数据挖掘技术已经在商业、金融、医学等领域得到广泛的应用,但是在学校教学管理中还未得到广泛的关注。然而学校教学管理本来就积累了海量的数据,这些数据形成了一个信息容量巨大的数据库。如何有效的对数据进行挖掘分析,发现隐藏的有用信息资源来更好的指导教学与管理,辅助学校管理决策,更好的服务于教学,是目前重要的研究课题。该文就从数据挖掘的概念出发,简述数据挖掘在高职校教学中的应用。

1 数据挖掘与数据挖掘技术的概念

1.1 数据挖掘

数据挖掘的概念分为广义和狭义两种。

数据挖掘(Data Mining):广义的数据挖掘又称数据库中的知识发现(Knowledge Discovery in Database),简称知识发现(KDD)。它是从大量的、不完整的、有噪声的、模糊的和随机的实际数据中,经过提取、转换、分析等处理技术,提取隐含在其中的、人们事先不知道的、但又是可信的、潜在的和有价值的信息和知识,帮助决策者分析历史数据以及当前现有的数据,从中发现隐含的关系或模式,进而预测出未来可能发生的行为的过程。

狭义的数据挖掘是一个利用各种分析工具在海量数据中发现模型和数据之间关系的过程,是知识发现过程中的一个关键步骤。

简单的说数据挖掘就是从大量的数据中“提取”或者“挖掘”知识的过程。

1.2 数据挖掘技术

数据挖掘技术实际上是人们长期以来对数据库技术进行开发研究而总结出的结果,其中数据挖掘与数据仓库技术的发展有着密切的关系。大多数情况下,数据挖掘首先是要把数据从数据仓库中取出放到数据挖掘库中,然后数据仓库对数据进行清理,发现解决数据不一致等问题。但是由于数据挖掘的所发现的知识有所不同,因此所利用的技术也有所不同。

2 数据挖掘分析方法与分析步骤

数据挖掘利用的技术越多,那么得出的结论的精确度就越高。因为,对于某一种技术不适用的问题,其他方式方法可能有用,这主要看问题的类型以及数据的类型和规模。下面简要介绍几种能适用于高职校教学管理工作的数据挖掘技术。

1)关联分析:关联规则挖掘是数据挖掘的一个重要研究方法,也是教学中最常用的一种方法。关联规则描述的是从大量的数据集中发现有用的依赖性或关联性的知识。该方法起初是为了分析市场购物篮所提出的,目的是为了发现顾客的购买模式。目前关联规则在其它领域也得到广泛的应用。

2)分类与预测:分类是根据某个分类器将数据库中的数据对象一一划分到给定的几个类别中的某一个中。操作步骤为:先构造分类器,后利用所获得的分类器对数据进行分类。分类是一种事先确定了类别与类别个数的有指导的学习过程。分类模型可用于预测。预测是利用学习所获得的模型对未知类别的数据对象进行类别预测。例如学生成绩数据库中,根据学生各科考试成绩,将学生的成绩分类为:优秀、良好、一般、差四个等级。对每个类别标记之后就是对数据进行分析,对每个等级挖掘分类规则也就是对每个数据做出精确的描述,如“成绩优秀的学生各门考试科目的成绩都不低于90分”,然后根据分类规则对数据库中标记的其他相同属性的数据进行分类。

3)聚类:与分类是事先确定了分类的类别相反的聚类只是将数据全部输入数据库中,然后对数据进行分析。根据一定的法则将数据合理的划分多个不同组,使得同一个组内的数据具有较高的相似度,不同组之间的数据基本无相似之处。聚类是在不知道类别和类别个数情况下的一种无指导学习过程,这点恰好和分类相反,正好说明聚类与分类是一个互逆的过程。

4)决策树:利用概率论的原理,以树的成长过程将事例根据不同类别进行分类。它可以对数据进行分析也可以预测,优点在于理解性强、直观、分类速度快,缺点是对于庞大的且复杂的数据时,分支数多,管理难度大。

5) 遗传算法:是由美国密西根大学D.J.Holland 教授和他的同事们根据自然界优胜劣汰、适者生存的自然进化过程而研究出的结合自然选择原理和遗传机理相结合的随机搜索算法。遗传算法采用的是概率寻优的方法,直接对结构对象进行操作,不需要确定的规则就可以自适应调整方向,寻求最优化搜索。它是一种寻找最优结算法。

数据挖掘步骤:

数据挖掘是一个较为复杂的信息处理过程,其中涉及到多个步骤,概况如下:

1)确定目标集合:确定用户需要的相关信息。

2)数据准备:根据用户需要的信息在数据库中选取相关的数据集,其中包括不同模式数据的转换和数据的统一汇总等,这样做的目的是为了更好的辨别出需要分析的数据集合,缩小处理数据的范围,提高数据的利用率以及数据挖掘的速度。然后对数据进行预处理等处理方式,对数据给予加工整理。

3) 数据挖掘:先确定好挖掘的目的或者任务,然后选定何种数据挖掘方法,并进行实际数据挖掘操作,通过操作挖掘出用户可能感兴趣的或者需要的相关数据信息。这一步是整个挖掘步骤中最关键的一步。

4)数据分析与结果评估:将挖掘出的数据信息进行再处理,去除没有价值的数据信息,并对剩余的数据信息进行检验、评价和评估,最终能让用户理解的同时又满足用户实际需求的信息。

3 数据挖掘在高职校教学管理中的应用

3.1 数据挖掘在学生成绩分析中的应用

在高职校的教务管理系统中存放着在校学生大量的数据信息,这些数据都具有可靠性和历史性。这些数据的信息量非常大,利用数据挖掘技术对所有学生的成绩进行分析,可以得到许多有价值的数据信息,例如:专业设置、课程设置、教师教学方式等等。高职校中,每学年的教学计划都是有规律的,课程安排都是循序渐进的。在学习专业课程之间必须先学习一些相关的专业基础课程,如果之前的基础课程没有学好,那么之后的专业课程的学习也会受到影响。另外,同一年级的相同专业的平行班中,由于授课教师素质、班级文化的差异,最后也可能导致学生成绩存在很大的差距。通过数据挖掘技术的相关方法,对学生成绩数据库中的大量数据进行分析挖掘,分析数据之间的关联性等,最后得出具有价值的信息,能更好的为课程设置提供有效的依据。此外,同一门课程中,教师授课的方式可以采用多种形式,例如传统的讲授法、讨论法、案例法、多媒体网络教学等。不同的课堂授课方式对于学生学习的兴趣和知识的掌握程度上多少存在着差异,最后直接的结果就是学生的成绩存在一定的差异。通过对数据库中学生成绩的分析挖掘,运用相关的挖掘方法,可以更好的判断哪种教学方式能更好的服务于教学内容,能更好的让学生吸收和掌握相关的知识内容,能更有利的推广分层次教学。

3.2 数据挖掘在教学评价方面的应用

一般情况下,每到学期末,都会让学生对各科的任课教师就教学内容新颖、教学方法的使用等已经设置好的内容进行打分,然后是教师之间的互评。这样单一的问卷调查的形式得出的结论只能得到一些表象的信息,未必能发现深层次的教学质量的一些规律,对提高教师的教学质量和教学水平起不到任何的作用,只能是流于形式而已。利用适当的数据挖掘方法对已有的评价数据进行分析处理,能发掘出类似于“什么情况最能影响教师的课堂教学情绪”、“影响教师课堂教学水平发挥的因素有哪些”等等问题,进而帮助教师有效的改进教学方法以及提高教学质量和水平。

3.3 数据挖掘在教学管理方面的应用

一个班级不论学生数量的多少,都是由每个学生个体组成的。每个个体的个性能否有效的积极的融入到班级这个大集体中,以及每个个体对于学习的积极性直接影响到了整个班级的学习氛围和精神风貌。通过数据挖掘技术对班级学生的个人基本信息、特长爱好、奖励惩罚等数据信息分析挖掘,这样可以发掘出很多有用的数据来分析学生的个体行为,并且寻找个体行为之间的关联性,针对每个个体学生制定出有效的管理方案,避免班级出现小团体、自由主义者等情况,更有助于的培养整个班集体的集体风貌。

3.4 数据挖掘在信息化管理中的应用

随着信息化的推进,在高职校中各个管理职能部门都存放着关于学生的大量的有效的数据。例如:负责招生的部门存有学生志愿填报的信息以及录取的信息;

教务部门存有第一手的学生成绩信息;学生管理部门掌握着学生的各种日常信息等等。如果能将这些职能部门中的信息连贯起来合理的管理,那么对于高职校信息化管理是非常有利的。如能再将数据挖掘技术运用到信息化管理中,就能从学生的入学到日常学习再到就业实习等的数据信息中发现大量实用与有用的信息,更便于管理着的管理。

4 结束语

总之,将数据挖掘应用到日常的教学与管理中,将原先存放的海量数据得到合理充分的使用,发掘数据中潜在的信息,为学校教学管理提供有利的信息支持,从而改进并完善教学管理与方法,提高学校教学与管理质量。

参考文献:

[1] 杨波.浅谈数据挖掘技术应用[J].电脑知识与技术,2010(24).

[2] Jiawei Han,Micheline Kamber.数据挖掘概念与技术[M].北京:机械工业出版社,2001.

[3] 杨永斌.数据挖掘技术在教育中的应用研究[J].计算机科学,2006,33(12):284-286.

[4] 魏萍萍,王翠茹,王保义,等.数据挖掘技术及其在高校教学系统中的应用[J].计算机工程,2003,29(11):87,89.

[5] 丁智斌,袁方,董贺伟.数据挖掘在高校学生学习成绩分析中的应用[J].计算机工程与设计,2006,27(4):590-592.

[6] 于立红,张建伟.基于数据挖掘的高职生成绩分析与预测[J].郑州轻工学院学报,2006,21(3).

[7] 李雄飞,李军.数据挖掘与知识发现[M].高等教育出版社,2003.

[8] 员巧云,程刚.近年来我国数据挖掘研究综述[J].情报学报,2005,24(2).

[9] 马希荣,孙志华.数据挖掘技术在教学评价中的应用[J].计算机工程与应用,2003(19):51-54.

数据挖掘技术分析论文第5篇

【关键词】 数据挖掘;医院管理;信息管理

在医院管理制度以及诸如社会保险制度改革的持续深入之下,更多的医院需要直面市场,医院管理系统在医院经营管理工作中也变得更加重要。因此,很多大中型医院都逐步建立起了内部信息管理系统,为高效的医疗管理提供服务。本文在对数据挖掘的定义进行基本介绍的基础上,分析了数据挖掘技术在医院信息管理工作中的作用,并详细论述了数据挖掘在医院信息管理环节中的应用。

1 数据挖掘的基本定义

数据挖掘的基本定义包括技术定义与商业定义两个方面:技术定义――从大量的不完全、模糊的、随机的、有噪声的数据库中提取出具有潜在使用价值的数据,且这部分数据不为人所知的过程;商业定义――数据挖掘工作是在企业既定的目标之下施行的,对大量的企业数据进行分析与摸索,以揭示这部分数据中所潜藏的商业规律与价值,然后持续的对其进行模式化处理的方法。

2 医院信息管理过程中数据挖掘的基本步骤

首先,对问题进行定义:确定数据业务的主要内容,认清楚数据挖掘的主要对象和目的,这是数据挖掘工作重要的一步。

其次,进行数据准备:其一,充分理解数据,在理解的基础上将数据转换成为对应的分析模型,这个模型是针对具体的挖掘对象而建立起来的;其二,对数据进行选择与简化,根据用户的挖掘需要而从原始数据库中选择一组合理的数据;其三,数据的预处理,对所选择的数据质量进行选择,为进一步分析打好基础。

再次,进行数据挖掘:将经过预处理的数据进行挖掘处理。

最后,对挖掘结构进行优化,解释并分析评估结果。在此基础上对知识进行优化,将分析所得到的知识集成到该项目的业务信息系统当中,以达到优化整个挖掘模型的目的。

数据挖掘属于一个持续反馈和迭代的过程,其具体的实施过程如图1所示。

3 数据挖掘技术在医院信息管理中的具体应用

3.1 数据挖掘技术在财务管理中的应用 首先,可以对患者的基本费用构成进行分析,利用数据挖掘技术能够分析整个医院、各个科室及至各个病区专科中的所有患者的费用构成,从而为费用比例的优化以及医疗费用项目结构的合理性提供参考,使医院管理者能够针对性的控制医疗费用;其二,对医院同期费用进行横向对比分析,利用数据挖掘技术能够对不同时期医院、科室以及各个病区费用进行对比分析,将结果形成各种报表、视图,为医院管理者分析费用走势;其三,进行成本效益分析,利用数据挖掘技术能将多个系统的数据汇总到数据库,在对医院成本效益整体情况进行全面分析的基础上,得到医院整体的经营状况,提高医院的经济效益;其四,对医保费用构成进行分析,将医院业务数据与医保中心返还数据结合起来,进行定额计算分析,为医院更合理的利用医保资源提供参考,在医保定额下为患者提供更好的服务。

3.2 数据挖掘在医院经营目标管理中的应用 其一,对患者的构成进行分析,通过数据挖掘技术中秩和比法可以对医院就诊患者的区域分布、年来分布、性别分布、职业分布以及身份分布等进行分析,从而对不同患者的经济状况、需求等信息进行分析,得到不同经济收入患者对医院费用的反映,从而对不同经济类型的患者提供对应的服务,一遍提高医院的整体服务质量;其二,对患者的流动情况进行分析,利用数据挖掘技术可以实现该项功能,通过确定患者从挂号到取药离开医院的时间分布分析患者在就诊过程中的瓶颈,以便可以针对性的采取措施来为医院管理者在业务流程的更新与改进过程提供参考,促进患者就医效率的提高。

3.3 数据挖掘在经营决策管理中的应用 其一,对患者就诊时间进行分析,医院就诊患者具有较强的季节性,可以通过对每月、每季度的门诊人数、住院人数以及床位的周转率等,通过时间为维度,建立灰色预测模型进行分析,确定在未来某一段时间内到医院就诊和住院的人数,一遍医院可以针对性的作出对应的准备措施,确定一个最佳的服务项目时间表。同时,为医院作出诸如终止与开始某项医疗服务项目作出科学的决策,最终实现医院人力、设备以及设施的最佳组合;其二,对影响医疗工作量的因素进行分析,通过确定一个合理评价医疗工作量的方式,找到导致医疗工作量变化的主要因素,从而达到医疗工作量分析的最终目的。例如:医院治疗患者数目是医院工作量评价的重要指标,对医院的经济效益与社会效益都有直接影响。利用数据挖掘技术,采用灰色关联分析的方法实现对影响医院治疗患者数量因素进行分析,确保各个关联因素之间的关联程度,得到最终的分析结果。

3.4 数据挖掘技术在医院资源管理中的应用 其一,对各个科室进行综合评价,利用数据挖掘技术可以对各个科室进行综合分析,选取出其中最具代表性、独立性强、能真实反映出科室整体工作效率、治疗效果、经济效益以及综合管理水平等多个指标进行综合评价与分析,找到影响各个科室的薄弱环节,提出针对性的管理措施,对提高科室的整体水平具有重要作用;其二,对医疗设备的绩效进行预测分析,可以从HIS中存储的患者信息中获得病种、数量以及诊疗类别等信息与医疗设备使用相关联之后,利用数据挖掘技术进一步分析生层次的数据,构建数据挖掘模型,通过这些数据模型在医疗设备采购之前就对其将来带来的绩效进行分析、预测,使医院采购工作能够有更加准确、科学的决策依据。

4 结 语

本文在对数据挖掘技术基本定义进行论述的同时,探讨了医院信息管理过程中数据挖掘的基本步骤,从财务管理、经营目标管理、经营决策管以及医院资源管理四个方面分析了数据挖掘技术在医院信息管理中的应用。为促进数据挖掘技术在现代医院信息系统管理中的应用提供参考。

参考文献

[1] 龚卫宁.数据挖掘在医院管理中的应用[J].中国医药指南,2012,10(12):722-725.

数据挖掘技术分析论文第6篇

计算机和互联网的飞速发展和普及,给全世界带来了巨大的信息化浪潮。信息量迅速、持续的增长给人们带来方便的同时也带来了困惑和烦恼,海量的数据已远远超过人类的处理和分析理解能力,同时信息真假的辨识、安全性的保证以及格式的统一问题也是人们面临的一个挑战。于是,数据挖掘技术应运而生,而数字图书馆作为信息管理和服务的主要机构,同样也积累了大量的信息而且也要面对使用中的各种问题,数据挖掘技术的应用可以为数字图书馆的业务工作和管理工作提供可靠的决策依据,也必将对图书馆其他方面的工作产生深远的影响。

一、数据挖掘技术概述

数据挖掘是一门不断快速发展的综合叉学科,其兴起于20世纪80年代末期。数据挖掘理论汇聚了数据库、可视化、并行计算等方面的技术,集统计学、人工智能、模式识别、计算机科学、机器学习等多门学科理论知识为一体。其在多个领域都有所应用。

(一)数据挖掘定义

所谓数据挖掘是指从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。我们知道知识发现(Knowledge Discovery in Databases,KDD) 是一个能从大型的数据库中自动地和智能地抽取一些有用的、可信的、有效的和可以理解的模式的过程。而数据挖掘(Data Mining ,DM) 是KDD 的一个处理过程,也是KDD 的最重要环节。数据挖掘与传统的数据分析( 如查询、报表、联机应用分析) 的本质区别是数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。

(二)数据挖掘的任务

数据挖掘任务分描述性数据挖掘和推断性数据挖掘两大类。和统计学原理相似,描述性数据挖掘的任务是描述数据的一般特征,推断性数据挖掘的任务试图基于提供的数据做预测。目前基于数据挖掘功能所能发现的各种知识主要包括特征化描述、判别分析、关联分析、数据分类、预测、聚类、孤立点分析、偏差分析等。通常,人们对他们所能发现的各种模式或者是需要从手头数据来发现模式没有一个清晰的思路,因此,必须要有一个通用的数据挖掘系统用来发现各种知识以及不同抽象层次的知识,这也使得交互性成为数据挖掘系统的一个重要特征。

(三)数据挖掘的基本步骤

数据挖掘的步骤会随应用的领域不同而有所不同,每一种数据挖掘技术也都有各自的特性和使用步骤,所以针对不同问题和需求所制定的数据挖掘过程也会存在各种差异。另外,数据的完整程度、专业人员支持的程度等都会对建立数据挖掘过程有所影响。这些因素造成了数据挖掘在各不同领域中的运用、规划,以及流程的差异性,即使同一产业,也会因为分析技术和专业知识的涉入程度不同而有所不同,因此对于数据挖掘过程的系统化、标准化就显得格外重要。因为这样,不仅可以较容易地跨领域应用,也可以结合不同的专业知识,发挥数据挖掘的真正精神。通常数据挖掘完整的步骤如下:1.理解数据和数据的来源。2.获取相关知识与技术。3.整合与检查数据。4.去除错误或不一致的数据。5.建立模型和假设。6.实际数据挖掘工作。7.测试和验证挖掘结果。8.解释和应用。由此可以看出,数据挖掘牵涉了大量的准备工作与规划工作,其中包括数据的净化、数据格式转换、变量整合,以及数据表的链接等。

(四)数据挖掘的方法

在整个数据挖掘过程中,第6步是数据挖掘的实施阶段,即根据目标任务的数据类型等选取相应的数据挖掘算法并进行挖掘。而数据挖掘的方法由人工智能和机器学习的方法发展而来,人们结合传统的统计分析法、模糊数学方法以及科学计算可视化技术,以数据库为研究对象,最终形成数据挖掘的方法。目前业界比较认可以下6种方法:1.统计分析方法:利用统计学原理对数据库中的数据进行分析,能得到各种不同的统计信息和知识,作为数据挖掘的一大类方法,包括:常用统计、相关分析、回归分析、差异分析、聚类分析、判断分析。2.归纳学习方法:从采用的技术角度上可分为两大类,信息论方法和集合论方法。信息论方法是利用信息论的原理建立决策树。3.模糊数学方法:模糊性是客观存在的,而当系统的复杂性越高,其精度的复杂性就会越高,其精确化能力便越低,这就意味着模糊性越强。利用模糊集合理论进行数据挖掘的方法有:模糊模式识别、模糊聚类、模糊分类和模糊关联规则等。4.仿生物技术:典型的方法是神经网络方法和遗传算法。5.公式发现:在工程和科学数据库中对若干数据项进行一定的数学运算的相应的数学公式。6.可视化技术:是一种图形显示技术。例如,把数据库中多维数据变成多种图形。

二、数据挖掘技术在数字图书馆中的应用

目前数据挖掘技术已经形成相对成熟的技术体系,其在数据组织与分析、数据挖掘、知识发现等方面存在巨大潜力。因此数据挖掘除了可以为数字图书馆的建设提供关键技术外,还可以实现海量数据的存储和利用,提取出表面上庞杂无序而有内在联系的信息供读者使用。也可以指导图书馆的业务工作与管理决策,通过对用户数据的分析,可以得到用户的需求和兴趣信息,从而满足信息时代读者的需要。

(一)数据挖掘为数字图书馆的个性化服务打下基础

收集读者有关的信息,建立读者信息库。读者是数字图书馆的重要资源,一个信息完整的读者信息库,能保证在充分挖掘的基础上,了解读者的普遍性需求与特殊性需求,从而开展有针对性的个性化服务。通过对读者访问日志记录信息的挖掘,把握读者兴趣,有助于开展网络信息推送服务以及个人信息的定制服务。数据挖掘从全局出发,以丰富、动态的联机查询和分析来了解读者的信息需求。通过在线提问、调查表等方式,系统可以获取关于读者的用户名、访问IP地址、职业、年龄、爱好等原始信息。然后,采取一定的挖掘规则(如关联规则、联机分析处理等),对这些数据进行融合分析,其结果是为每个读者建立一个信息需求模型。根据读者需求,主动跟踪本馆数字资源的变化,收集读者所需信息。同时还可以利用智能推送技术将读者所需信息推到用户的计算机、电子信箱和手机上。

(二)数据挖掘使数字图书馆庞大的数字信息资源检索成为可能

随着科技的进步,现在读者可以在家通过网络访问数字图书馆的资源,而网络内容挖掘是一个从文本、图像、音频、视频、元数据等形式的网络源信息中采用分类、聚类等形式的挖掘方法,发现有用信息,并将这些信息按满足某种检索方式的形式加以组织的过程。通过对网站内容的挖掘,主要是对文本内容的挖掘,可以有效地组织网络资源。有的学者应用数据和文本挖掘技术在网络上进行问题跟踪,从而获得了以前未知的有用知识,为信息内容分析提供了极大的可能性。

(三)数据挖掘是使读者获取全而广的知识信息的保障

数据挖掘技术可以使读者在具有极度不确定性的海量数据中找出信息分布的规律,挖掘隐藏的信息并形成模型,从而发现具有规律性的知识。比较典型的例子是江苏南通师范学院对重点学科“古代文学”中的楚辞研究专题知识库开发,他们采用学科专家与学科馆员、系统管理员相结合组成工作组的开发模式来收集、挖掘与获取楚辞研究专题信息资源,由于楚辞研究的信息资源浩如烟海,采用人工的方式查询根本无法达到收全率和知识库源信息广度要求,因此采用自动抓取和人工过滤相结合的方式,利用非结构化的数据挖掘技术以采集和获取全而广的楚辞研究知识信息源。

数据挖掘技术分析论文第7篇

关键词:大数据;挑战;发展趋势

中图分类号:TP311.13 文献识别码:A 文章编号:1001-828X(2017)013-0-01

引言

大数据能够分成科学大数据以及决策大数据等,大数据挖掘技术的应用,呈现的是倒金字塔型,底部是通过IT计算系统以及平台层,中间算法以及模型层,顶层应用层所构成的完善系统。当前的大数据挖掘技术在通信企业当中的应用发挥着重要作用,注重对技术的理论深化研究对通信企业的良好发展就有着积极意义。

一、大数据挖掘的功能和主要技术分析

1.大数据挖掘的功能体现

大数据挖掘的功能比较多,在自动预测趋势以及行为的功能上较为突出,数据挖掘自动在大型的数据库当中寻找预测性信息的作用比较突出,这样就大大提高了查询数据的效率。而在大数据挖掘功能中的关联分析的功能上也比较突出,关联分析的主要功能就是找到数据库当中隐藏的关联网,在关联分析生成的规则的可信度就比较突出[1]。大数据挖掘功能当中的聚类功能也比较突出,其中就有着传统模式识别法以及数学分类学。功能中的偏差检测功能比较突出,在数据库当中数据常有的异常记录当中,偏差所包含的潜在知识比较多,有不满足规则的特例以及观测结果等偏差。

2.大数据挖掘主要技术

其一,神经元网络技术。大数据挖掘技术当中的神经元网络技术是比较重要的应用技术,其中用于分类以及聚类和特征采掘的作用发挥比较突出。神经网络模仿生物神经网络,就是分布矩阵结构。神经元网络技术当中前馈式网络以及反馈式网络和自组织网络是比较重要类型[2]。其中前馈式网络是以感知机以及反向传播模型等作为代表的,能用在预测以及模式识别上。在自组织网络类型方面,主要是以ARI模型等为代表的,在聚类的应用上比较突出,在神经元网络的技术应用下,就能大大提高实际问题的解决效率。

其二,线性回归分析技术。大数据挖掘技术中的线性回归分析技术的作用也比较重要,其包含着预测目标以及预测属性,两者关系能绘制二维空间。在具体实施中,沿着轴绘制预测属性值,在这一回归模型方面就能视为一条曲线,曲线用于最小化实际预测值以及线上点间错误发生率。

其三,决策树技术。大数据挖掘技术中决策树技术的应用也比较重要,决策树是在数据属性值基础上实施的归纳分类,其主要的优势是可理解性和直观性。其和神经网络最大却别就是决策树能解释得出结果的决策过程。

二、大数据挖掘面临的挑战和发展趋势

1.大数据挖掘面临的挑战

大数据挖掘所面临的挑战比较多,在数据挖掘对象方面,更大型的数据可以及更高维数以及属性间更复杂的关系,诸多的因素就会使得搜索知识的代价比较高。大数据挖掘技术的应用下,在多种形式输入数据上就面临着比较大的挑战,在当前的数据挖掘工具处理数据的形式上是比较有限的,能处理数值型的结构化数据,但是对文本以及数学公式等进行挖掘,还有事数据自身的缺损以及噪声,在商业数据库当中的应用也有着很大挑战。

大数据挖掘技术应用所面临的挑战当中,验证技术的局限性也比较突出,在技术应用中是通过特定分析方法以及逻辑形式发现知识的。在这一过程当中,系统就可能没有能力交互证实发现的知识,这就会造成发现的知识没有普遍实用性[3]。还有事待挖掘的数据自身可能是错误的,这样在数据挖掘的有效性方面就受到了相应影响。大数据挖掘所面临的问题中,在知识的表达以及解释机制和知识的维护更新方面也比较突出,在支持的局限和其他系统的集成方面也面临着很大挑战。

大数据挖掘技术的应用中,所得到的预言模型不会告诉一个人为什么会做一件事和采取某个行动,为保障数据挖掘结构的价值,用户就要能对自身的数据进行了解。输入数据库当中的异常数据以及不相关字段等对数据挖掘输出结果质量就有着影响。数据挖掘不会在缺少指导下自动发现模型,数据挖掘不会替代有经验的商业分析师以及管理人员所起的作用。

2.大数据挖掘技术发展趋势

大数据挖掘技术的进一步升级下,在应用的范围上也进一步扩大化,其中将大数据挖掘技术在通信企业领域的应用就能发挥积极作用,当前大数据挖掘的技术发展趋势就是开发针对特定应用的数据挖掘系统。在未来的发展过程中,大数据挖掘技术就会实现可伸缩的数据挖掘方法目标[4]。数据挖掘技术的重要发展方向就是基于结束挖掘的发展方向,增加用户交互同时来改进挖掘处理的总体效率,能够有效提供额外控制方法,能允许用户说明以及使用约束。

大数据挖掘技术的应用发展中,数据挖掘语言标准化的目标将会实现,标准的数据挖掘语言以及其他方面标准化工作对数据挖掘系统化的开发就有着积极作用,能有效优化多数据挖掘系统以及功能间互操作。大数据挖掘技术的应用过程中,可视化数据挖掘的技术将会进一步发展,复杂数据类型挖掘新方法的发展应用目标将会实现。

三、结语

综上所述,大数据挖掘技术自身的优势使其在实际工作当中得到了广泛应用,在将大数据挖掘技g在通信企业当中加以科学化的应用下,就能提高企业的运行管理效率。希望能通过此次的理论研究,对大数据技术在生产工作当中的广泛应用起到一定促进作用。

参考文献:

[1]丁华.面向用户体验的大数据服务架构研究现状和存在问题[J].河南科技,2016(12).

[2]向志军.数据挖掘技术在高职单片机课程评价分析中的应用[J].河南科技,2016(15).

[3]邵德伟.大数据量数据库集群技术在政务云平台中应用[J].机电工程技术,2016(Z2).

数据挖掘技术分析论文第8篇

[关键词] 数据挖掘 商业决策 数据分析

一、应用数据挖掘技术支撑商业管理理念的实施

商业管理理论及理念的研究一直没有停歇,那面是“二八原则”,这面又是“蓝平长二”,无论是什么,其宗旨都是为使企业能在激烈的商业竞争中审时度势,迅速出击,知己知彼,百战不殆。任何好的商业决策都必须及时、准确,有真实可靠的事实与数据为依据。商业组织如果感觉不灵敏,很容易陷入“夜半临深池”的危险境地却不自知,有先进的管理理念也无济于事。面对日益复杂的竞争环境,数据挖掘技术应运而生。

数据挖掘技术基于人工智能、机器学习、统计学等技术,可高度自动化地从深层次上分析商业组织在运营过程中积累的海量业务数据,抽取重要信息,使商业组织大大提高认知其组织内外环境的能力,灵活应对突发事件,迅速制定合理决策,使先进的商业管理理念落到实处。

二、数据挖掘功能及其所能解决的典型商业问题

1.关联分析

关联分析是从大量的数据中发现项集之间相关关系或因果结构的数据分析方法。通过对大量销售数据的分析,可以发现两种或多种商品之间存在的关联关系,据此可改变商品的摆放位置,制定捆绑销售等策略。亚马逊及当当等购物网站在用户选择商品后及时给出的其他商品的推介就是利用关联分析得到的。

2.分类与预测

分类与预测是通过对当前数据集合的描述以识别未知数据的归属或预测未来数据的发展趋势。通过对大量销售数据的分析,可以确定特定客户的兴趣、消费习惯、消费倾向和消费需求,进而推断其下一步的消费行为,据此进行定向营销和推送服务,必将大大节省营销成本,获得良好的营销收益。

3.聚类分析

聚类就是按照事物的某些属性把事物聚集成类。聚类之前类的数量及类的特征都是未知的。应用聚类技术能发现不同客户群并刻画出客户群的特征,据此制定营销策略和客户服务策略,如超市根据客户聚集地中心点制定班车路线,制定商品宣传策略等。

4.孤立点分析

数据库中包含的与其他数据行为或模型不一致的数据对象称为孤立点,在数据库中查找识别孤立点的技术即为孤立点分析。在银行、电信等行业的业务数据中发现的孤立点可能预示着欺诈行为,尽早识别,可以为企业减少不必要的经济损失。另外可用于网络的入侵检测,生态系统的失调检测,特殊病种检测等。

5.时序演变分析

时序演变分析是建立事件或对象行为随时间变化的规律或趋势的模型。据此方法利用股市交易信息可分析股市的波动趋势,利用商业交易信息可分析出产品的销量变化趋势、目标市场发展趋势等,利用天气状况数据可分析天气的变化趋势等。

6.文本信息抽取

文本信息抽取是从非结构化的文本中提取重要信息的过程。利用该技术可获取竞争情报,可从新闻等文本中动态抽取日期、地点和人物等信息,并借助关联分析方法进一步识别出产品、企业、人、事件和地点之间的关系,使企业对竞争环境的感知更敏锐。

7.Web挖掘

Web挖掘是指从网络环境中提取有价值信息的过程。如搜索引擎的应用;如分析网站的参观者和购买者的高频率浏览路径,以确定用户对某产品的需求,发现用户的个人喜好,发现用户的去留倾向……据此可改变网页的设置,为用户提供个性化服务,改变受欢迎产品的经营和宣传策略等。

三、数据挖掘流程及所面对的问题

数据挖掘流程可描述为“数据选择数据预处理数据挖掘模式评估知识表示”。

数据挖掘首先根据分析目标从数据源中选取与业务相关的数据。数据源是存储业务数据的数据库或数据仓库。选取的数据通常会存在不完整、含噪声(错误数据)、不一致等问题,需要预处理数据使数据适合于挖掘。在这一过程中元数据起了非常重要的作用。

数据挖掘之前必须选定数据挖掘模型,即先做出某种假定,关联分析、聚类分析及分类与预测为不同的挖掘模型。分析商品销售数据时假定其中某些商品具有相关性,则选择关联分析模型,若挖掘的结果找到了产品A的购买带来产品B的购买则是具体的模式。最终需要评测这种模式是不是真实有效且对商业决策有指导意义(模型评估,利用兴趣度度量加人的识别),保留有意义的模型,并用一种用户容易理解的方式表达出来(知识表示)。

数据的选择和预处理会直接影响数据挖掘的结果。另外任何一种挖掘模型和挖掘算法都不是万能的,不同的商业问题需要用不同的方法去解决。对于特定的商业问题和特定数据可能有多种算法,需要评估以选取最佳算法。

四、总结

数据挖掘作为正在兴起并得到广泛应用的信息技术具有巨大的商业价值,特别是在银行、电信、保险、交通、网上商城、超市等商业领域都有很好的表现。数据挖掘技术可以组织并深层次分析企业积累的海量业务数据,预测客户行为,预测产品状况,预测市场走势,帮助决策者正确判断即将出现的机会,调整策略,减少风险。因此利用数据挖掘技术必将大大提高商业组织利用信息的能力,使得信息更好地为决策服务。

但数据挖掘不是万能的,在实际应用中还要受到许多限制。有足够的合适的数据,选择恰当的模型和算法,有决策者的支持等都是有效应用数据挖掘技术的必要条件。

参考文献:

[1]李佩钰等:蓝平长二 商业理论洛阳纸贵,biz.省略

[2]栾世武:数据挖掘给企业应用带来什么,省略ki.省略