首页 优秀范文 数据挖掘技术探讨论文

数据挖掘技术探讨论文赏析八篇

时间:2023-03-30 11:29:27

数据挖掘技术探讨论文

数据挖掘技术探讨论文第1篇

Abstract: As an effective technology, by which we can hunt potential and valuable knowledge from the vast information resources of the Web, Web mining is quietly rising and drawn greater attention. Currently, researches of Web mining are still at development stage, and no uniform conclusions, which need theoretical discussion of more domestic and foreign scholars on howWeb mining development plays a promoting role on the development of their lives, as well as the challenges it faces.

关键词: Web挖掘;分类;模式分析;可视化;网络通信

Key words: Web mining, classification; pattern analysis; visualization; network communication

中图分类号:TP393 文献标识码:A文章编号:1006-4311(2010)08-0133-01

0引言

由于互联网在传播与交换信息方面的快捷与便利,互联网以惊人的速度作为商务和信息的平台持续发展。Internet用户群体表现出多样性的特点,全球互连网大约有数千万个Web网站,其访问用户具有不同的背景,不同的兴趣和目的,他们在访问过程中留下大量的Web访问和使用信息。分析这些数据能够发现有意义的隐藏访问模式规则,这对于分析和改善站点的使用情况及资源配置具有重要的意义。

1国内外的研究现状

目前为止,国外的挖掘研究己经从最初的可行性基础研究经历了试验性研究,文本挖掘应用在商业领域得到了应用。政府机构,通过Web挖掘进行数据评估和分析,同时完成其他的搜索任务。国内对Web挖掘的研究起步较晚,国内互联网业是从1997年开始迅速蓬勃地发展起来的。直到1999年,国内互联网用户达到一定数量后,国内学者才开始关注Web数据挖掘。

2Web数据挖掘概述

Web挖掘是将数据挖掘技术与互联网相结合的一项综合技术,简单地说,"Web挖掘就是从Web文档、Web活动中抽取感兴趣的、潜在的有用模式和隐藏信息怎样对这些数据进行复杂的应用成了现今研究热点,它面对的信息常常为文本、图形、图像数据等。

3Web挖掘的分类

web挖掘的研究主要有3种,即Web结构挖掘、Web使用挖掘和Web内容挖掘。①Web结构挖掘。Web结构挖掘主要是指挖掘Web上的链接结构,它有广泛的应用价值。②Web使用挖掘。Web使用挖掘主要是指对日志记录的挖掘。访问信息进行分析和发现找到日志中蕴藏的规律以识别潜在的客户、跟踪及侦探非法访问的隐患等。③Web内容挖掘。Web的内容主要是包含文本、声音、图片等的文档信息,以及Web的链接结构的链接信息。

4Web挖掘的处理流程

数据进行数据挖掘,必须经过如下处理流程。①查找资源。其任务是从目标文档中得到数据,包括电子邮件、文档、新闻组、或者网站的日志形成数据。②信息选择和预处理。其任务是从取得的Web资源中剔除无用信息将有用信息进行必要的整理。组成规整的逻辑形式甚至是关系表。③模式发现。自动进行模式发现。在同一个站点内部或在多个站点之间进行。④模式分析验证、解释产生的模式。这个过程可以是机器自动完成,也可以是与分析人员进行交互来完成。

5Web挖掘应用的成功案例分析

数据挖掘已经在许多领域得到了应用。①Web挖掘应用到NBA竞技中。IBM公司开发的数据挖掘应用软件被美国NBA大约20个队教练广泛使用。②Web挖掘应用到商业银行中。数据挖掘技术在银行和金融领域应用广泛。③Web挖掘应用到电信中。数据挖掘技术在电信行业也得到广泛应用。④Web挖掘应用到科学探索中。数据挖掘开始应用到尖端科学的探索中。

6Web挖掘存在的问题

Web数据挖掘方面还有很多工作要做,我们在探讨过程中看到需要进一步研究和完善的工作主要有以下几个方面:①错误数据的处理与过滤。在现实数据库中,往往存在一些明显的错误数据,这必然影响挖掘的精度。②数据格式的转换。虽然此方面的东西已经应用了不少,由于服务器的日志文件格式的复杂性,现在还没有一个能使多数人接受的转换工具。③用户访问事务的确定。这是一个Web数据挖掘中基本的也是最重要的,确定方法的好坏直接影响着以后的工作。④传统的数据挖掘技术应用到Web数据挖掘。数据挖掘技术在传统数据库上的应用应该说比较完善了,如何将其核心技术应用到各种新型数据库或Web结构上还需要继续研究。⑤数据挖掘的评估与可视化。挖掘得到的各种规则不仅需要证明其正确性,更需要证明其有用性和可理解性。合适的评估方法可以提高有用性,而可视化的研究可以提高可理解性,使挖掘结果更易为用户接受。⑥高度综合的网络信息。Web挖掘的研究对象是网络信息,由于网络信息涉及各个学科门类,因而内容具有较大的综合性,要在丰富的内容中挖掘有规律的知识,其难度相当大。⑦模糊、多样的用户目标。基于网络信息Web挖掘的用户类型较多,许多用户往往对所要挖掘的主题模糊的、粗浅的认识,不能提出明确的目标。这就需要基于Web挖掘的知识发现系统具有一定的智能性和学习机制,不断地发现和跟踪用户的兴趣,并且清晰地表示知识发现的结果,从而提高知识发现的可用性。

总之,Web挖掘已经引起了世界各国计算机科学界、信息产业界以及许多著名高科技跨国公司的高度关注,具有充分潜力和挑战性。

参考文献:

[1]韩家炜,孟小峰,王静,李盛恩.Web挖掘研究.计算机研究与发展,2001(4):405-414.

[2]杜文华.Web使用挖掘综述[J].电脑开发与应用,2003,4:59-61.

数据挖掘技术探讨论文第2篇

关键词:数据挖掘;高校;节能监管;决策

1.高校节能监管现状

当今社会,节能减排已经引起人们的普遍关注,越来越多的政府单位、企业、组织机构和个人自发地投入到节能减排的工作中。高校在一个城市能源消耗中占很大的部分,大学生的在校能耗人均量明显大于全国城镇居民能耗人均量。据统计,国内在校大学生人均用水量是全国居民人均用水量的2倍,能耗是全国居民平均值4倍多。高等院校能源使用缺少科学的计算和管理。如何采用合适的技术手段,将高校能耗的数据信息进行科学处理,提取出有用的规则和知识,挖掘出隐含在这些数据背后有价值的规律和知识,为高校的节能监管工作提供系统、科学化的决策指导,从而提高节能管理水平,减少高校的能源消耗,塑造年轻一代的节能意识。

2.国内外相关研究

国外的高校在资金方、经费等原因在一定的程度上加速了节能监管的开发和研究的推进,所取得的成果也是比较大的,国外的高校在节能监管信息化比较的成熟。在经过长期的节能监管信息化建设历程中,国外的高校使用了成熟的技术框架,立足学校的实际情况对节能监管实现可视化的监管,很大的程度上提高了学校的能源使用率。美国高校建筑和设施的节能改造工程已经进行了十多年,这些学校中比较典型的是位于美国德克萨斯的A&M大学,校园节能监管项目改造工程的投入了不少的资金,节能监管平台的稳定运行,经实测的节能收益超过了平台建设的资金多倍。

我国重视校园节能监管的构建起始于上世纪九十年代,在经过了积极宣传节能监管概念、初期的示范性建设和全方位实行构建的几个阶段。政府以12所高校为首批试点建设节约型校园的学校,并于2009年制定了有关校园建设节约型校园的建筑节能监管系统构建和管理技术的一系列技术指导方法,并将作为今后院校建设校园能源监管平台的理论依据和技术指导。政府近些年加大了节能监管的投入力度,建设节约型校园在经过这些年的研究获得得了不少进步,启动了所节约型校园建设试点。

敖四江[1]等人对目前我国高校校园能源管理存在的问题进行了分析,提出了相应的解决方案,例如尝试引入市场的机制、建立相关机构管理能源、完善管理体系等。高彪[2]等人通过研究上海某综合型大学,对科研楼、图书馆、教学楼、办公楼、宿舍楼等校园典型建筑的用能特点及节能潜力进行了探讨。王旭东[3]通过对天津职业技术师范大学校园能源消耗现状的研究,提出在高等学校构建基于网络系统的能源管理平台是实现节能降耗的重要手段。李道洋、蒙艳玫[4]等以广西大学校园内40栋校园公共建筑为样本建筑,通过多元线性回归分析方法对建筑能耗和影响因子进行分析,得到影响样本建筑能耗的主要因子,并建立了相应的能耗预测模型。季文娟[5]、喻伟[6]等将神经网络模型应用于建筑能耗预测,建立了基于人工神经网络的建筑能耗预测模型,实现了对建筑能耗的预测。在校园节能监管的研究上,主要集中于相关理论和对策制定方面,结合校园节能监管实践的应用研究方面还不够深入,较多的研究集中在利用统计分析研究方法或者数学模型对建筑能耗数据进行分析、预测,结合数据挖掘技术对能耗数据进行分析的研究亟待提高与完善。

3.数据挖掘在高校能源监管中的应用

在数据的分析和处理上面,数据挖掘会发挥重要的作用,它能从数据中提取有价值的信息。从应用层面来讲,数据挖掘是一种决策支持过程,主要基于数据库、人工智能、数理统计技术,高度自动化地分析数据,做出归纳性的推理,从中挖掘出潜在模式,帮助决策者减少风险、做出正确的决策。以高校不同类型建筑能耗为例,围绕数据挖掘过程的主要步骤,探讨数据挖掘技术在高校节能监管中的应用。本文的数据挖掘目标为建立起高校建筑能效分析的聚类挖掘模型,通过模型分析,制定降低能耗的策略。

3.1 数据清理、集成与选择

从高校能源数据库中提取近五年来的建筑能耗原始数据,去除无效缺失数据,挑选出科学的、安全的、适用于数据挖掘应用的属性数据进行数据清洗。

3.2 数据预处理

对于高校建筑能耗历史数据,由于测量和记录的严重失误,或由于仪器仪表的突然波动,都会造成数据的缺失。对于有多个属性缺失值的记录,直接将其从样本中删除;缺失的水电能耗数据,用当月系统能耗平均值填补。在不影响数据挖掘结果质量的前提下,尽可能保持了原数据的完整性。数据清洗后,对某些原来没有的属性按需要进行生成,通过泛化、属性离散化处理将数据转换以构成一个适合数据挖掘的描述形式。

3.3数据挖掘应用

从数据挖掘角度看,高校建筑能耗是较好的数据挖掘对象。因高校建筑用能所受到的不确定因素干扰远小于商业、工业等行业,能耗数据表现出的规律性更强。数据挖掘应用一般围绕特定的数据主题进行,高校建筑能耗数据挖掘可应用的主题如下:

(1)能耗预测:高校建筑能耗与建筑地域、建筑类型、建筑年代、建筑面积、建筑用途、建筑材料等众多因素相关,可以使用分类或者回归分析的方法建立起能耗预测模型。

(2)基准评价:通过基准评价,校园管理者可以了解其建筑运行情况,对比本建筑与其它类似建筑的能源消耗差异,如果发现目标建筑比其它同类建筑能耗高,可以采取措施降低能耗;对样本建筑生成关联规则,然后将这些规则应用于待评价的目标建筑,从而对目标建筑的能耗状况进行评价。

(3)运行优化:高校建筑运行能耗的高低很大程度上取决于设备运行管理、维护水平的高低,可以运用关联规则挖掘各子系统之间的关系,也可采用聚类挖掘出不同的运行模式,从而为节能决策提供支持。

4.结束语

高校节能监管是一项长期的工作,更是一个刚刚起步的节能重点项目。数据挖掘技术在高校能耗数据分析方向的应用才刚刚起步。但随着节能监测系统的不断完善、能耗数据的不断丰富,数据挖掘技术的不断深化,必将会有广阔的应用前景。

参考文献:

[1]敖四江.高校能源管理的现状分析及对策探讨[J].能源研究与管理,2010(4):38-41.

[2]高彪,谭洪卫,宋亚超.高校校园建筑用能现状及存在问题分析一以长三角地区某综合型大学为例[J].建筑节能,2011(39):41-44.

[3]王旭东.试论高校校园能源管理网络平台之构建[J].职业教育研究,2011(3):17-19.

[4]李道洋.基于分项实时监测的建筑能耗数值分析[J].广西大学学报,2012,37(5):965-971.

数据挖掘技术探讨论文第3篇

【关键词】 数据挖掘 病例分析 专家库 推荐系统

一、引言

网络技术、数据库技术、软件工程方法等快速发展和改进,医院已经上线了门诊挂号系统、医学影像管理系统、病历档案管理系统、药房管理系统、病房管理系统等,这些系统保存了海量的病例信息[1]。

目前,医院在开展诊断、治疗过程中,已经开始实施精准化治疗模式,因此利用支持向量机、BP神经网络、遗传算法、K近邻算法等数据挖掘技术总结、分析病例中诊断治疗成功的信息显得尤为重要,已经成为医院信息化发展的趋势和方向[2]。

二、数据挖掘技术及应用分析

数据挖掘技术经过多年的研究和改进,已经提出了许多先进的算法,伴随着多媒体、云计算、互联网等技术的发展,数据挖技术已经在医疗卫生等多个领域取得了显著的应用,为人们提供了丰富的数据内容和有价值的信息。在医疗诊断、治疗过程中,医院已经在主治医师自动化推荐、医学图像识别分析等领域取得了显著的成效,开发了智能医疗专家系统、医院发展智能决策库系统等,归纳起来,医院诊疗过程中常用的数据挖掘算法主要包括支持向量机、K近邻算法、BP神经网络,利用这些算法可以从宏观、微观等多维度挖掘医院信息数据中潜在的有价值信息,指导医院开展诊疗工作和行政管理,具有重要的作用[3]。

2.1支持向量机

支持向量机是一种基于分类的大数据挖掘技术,该挖掘技术可以针对非线性、高维空间的样本数据实现挖掘分析,能够利用核函数等优化数据挖掘过程,从海量的医院信息数据中挖掘高价值信息,并且能够为医疗诊断提供病灶定位、图像识别等决策知识。支撑向量机可以与遗传算法、模糊数学、粒子群等思想集成在一起,实现算法优化,挖掘更多的信息知识。

2.2 BP神经网络

BP神经网络是一种自适应和自组织的大数据挖掘技术,其可以从海量数据中挖掘样本数据特征,把数据划分为多个类别,以便能够获取有价值的潜在信息。目前,BP神经网络数据已经具备数据分布式存储、并行处理和较强的容错能力等特点,并且具备非常强大的抗干扰能力。神经网络主要包括输入层、学习层和输出层,每一层都可以设置不同的权值,并且这些权值可以自适应调整,提高算法的自适应能力和优化能力。

2.3 K近邻算法

K近邻算法采用线性统计分类算法,已经数据挖掘算法中得到了广泛的普及,是一种非常成熟的算法。K近邻算法的思路如下:给定一个样本数据,计算该样本与K个样本相似程度,选择相似程度最大的一个类别,将该样本划分为这个类别中[4]。

三、数据挖掘在病例分析中的应用

数据挖掘在病例分析中的应用主要包括以下三个关键内容:

3.1基于病例分析结果为患者推荐医师

患者在就诊过程中,为了提高患者参与的积极性、主动性和精确性,利用数据挖掘构建一个模型,该模型可以录入患者的病历信息,然后模型自动与数据库保存的病例进行对比分析,寻找治疗措施最优的医师推荐给患者。

3.2构建智能病例信息专家库

医院在开展诊断、治疗业务时,难以避免误诊,误诊的原因很多,比如患者自身体质、患者隐瞒病史、医师判断不准确等,为了提高医院诊断、治疗的精准化,可以构建智能病例信息专家库,自动化的分析诊断失败、治疗不成功的原因,从而全面提升医院救治水平。

3.3构建远程会诊推荐系统

目前,医院通过互联网可以与上级医院、科研结构合作会诊,会诊过程中,利用数据挖掘技术可以更加清晰地识别核磁共振、CT等医学图像中的病灶部位,提高诊断的准确性,便于设计治疗方案。

四、结束语

随着医院信息化水平的提升,医院信息化系统运行积累的海量数据资源是一座非常宝贵的财富,与BP神经网络、遗传算法等先进的挖掘技术相整合,可以从中发掘潜在的指导救治知识,有利于提高医院科研、治疗水平,更好的救死扶伤,保护人们的生命健康。

参 考 文 献

[1] 陈晓琛. 医院病案信息系统的数据挖掘在医院中的重要意义[J]. 当代医学, 2014, 31(25):8-9.

[2] 卞松, 刘宇宏, 高黎,等. 以数据挖掘为核心的医院数据管理平台建设初探[J]. 中国病案, 2015, 16(1):2-3.

数据挖掘技术探讨论文第4篇

【摘要】  目的 探索治疗肺纤维化中药复方的用药规律。方法 利用中国生物医学文献数据库检索到公开发表的文献中治疗肺纤维化的中药复方,建立相应数据库,采用频数分析、聚类分析、关联规则等方法对复方进行数据挖掘,对主要药物、药对(组)规律进行探讨。结果 在治疗肺纤维化的64首中药复方中,涉及114种药物,使用频次为584次;其中使用频次在5次以上的共36种、431频次;作为主要药物进行聚类分析,共分为补益药、活血药、化痰药、宣肃肺气药、清热药、平喘药6类;经关联规则分析,共得药对规则19条,药组规则25条,主要为益气药与活血药的配伍组合。结论 应用数据挖掘方法探索治疗肺纤维化中药复方用药规律是可行的。

【关键词】  肺纤维化;中药复方;用药规律;数据挖掘

abstract:objective to study the regularity of compound herbal formulae for pulmonary fibrosis. methods compound herbal formulae published on journals for the treatment of pulmonary fibrosis were searched and collected. a database was established for data mining using frequency count, cluster analysis and association rule analysis. regularity of key herbs and a pair (group) of herbs was summarized. results there were 64 prescriptions (totaling 114 herbs and 584 counts of frequency) in the compound herbal formulae for pulmonary fibrosis. the herbs which were used for more than 5 times included 36 herbs (totaling 431 counts of frequency). they were cluster analyzed and classified into 6 clusters including tonic, hemorheologic agent, apophlegmatisant, drugs used to disperse and lower the qi of the lung, heat-clearing drugs and antiasthmatic. the rules in pair of herbs were 19, and rules in group of herbs were 25 by association analysis. the rules consisted mostly of compatibility of qi-reinforcing drugs and hemorheologic agent. conclusions it was feasible that study the regularity of chinese compound prescription for the treatment of pulmonary fibrosis by data mining.

key words:pulmonary fibrosis;compound herbal formulae;regularity;data mining

间质性肺疾病(interstitial lung disease,ild)是众多具有不同程度炎症和纤维化的急、慢性肺病,其最终病理结局是肺纤维化。近10年来,多数学者尝试用中医药治疗本病,虽然目前处于探索阶段,但已显示出了良好的前景,涌现出了一批治疗肺纤维化的中药复方。虽然组建处方的中医师受不同学术流派的影响,处方用药因个人经验而不同,但不同处方中可能隐含着许多很有价值的规律,而数据挖掘能够自动地发现隐藏在数据中的规律,更能偶然地发现一些非预期但很有价值的知识[1]。因此,采用数据挖掘方法探索这些复方的用药规律,可以对众多中医专家治疗肺纤维化的宝贵经验加以整理和挖掘,以期比较全面地获得对中医基础理论和临床实践规律的统一认识。

1 资料与方法

1.1 数据收集

首先以“肺纤维化”为主题词检索中国生物医学文献数据库(cbmdisc,1978年1月-2010年8月),通过阅读标题及摘要,初步获得有关中医药治疗肺纤维化的文献,仔细阅读全文,按组方符合中医理论、药味完整、剂量准确、主治明确、临床例数至少20例等标准,选取中药复方;将符合标准的64个复方按照编号、方名、药名、参考文献等依次输入microsoft excel 中,分别建立相应的数据库,各数据库间通过数据编码在不同数据间形成关联。

1.2 数据清洗

选取中药数据库进行数据清洗,主要工作是将药名规范化,如将“山萸肉”统一为“山茱萸”,“浙贝”统一为“浙贝母”。组合概念拆分,如药味“味甘辛”拆为“味甘”、“味辛”;如归经“归肺脾经”拆为归“肺经”、“脾经”;如功效“清热化痰”拆为“清热”和“化痰”等。在新得到的中药数据库中,按《中华本草》所载,输入每味药物的性、味、归经和功效,并将其数字化。其中寒、热、温、凉等药性按蒋氏方法[2]赋值;对于酸、苦、甘、辛、咸等药味及归经、功效主治等,某药的描述与其某一项相符则记为1,无则记为0。由2个人分别输入数据,完成后交叉核对,不一致处,讨论解决。

1.3 数据挖掘

1.3.1 描述性分析

采用频数分析方法,计算药物的种类及每味药的使用频次。

1.3.2 聚类分析

对使用频次超过5次以上的药物,按药物的性味、归经、功效主治以分层聚类法进行聚类分析。

1.3.3 关联规则分析

采用关联规则挖掘药对配伍规律,设最小支持度20%,最小可信度50%。

1.4 数据挖掘工具

描述性分析和关联规则分析由statistica8.0软件完成,聚类分析由spss17.0软件完成。

2 结果

2.1 描述性分析结果

64个复方中使用114种药物、共584频次。其中出现5次以上的有36种,由高到低为:黄芪(48)、当归(37)、丹参(34)、川芎(27)、甘草(22)、麦冬(21)、党参(16)、沙参(15)、杏仁(12)、生地黄(12)、黄芩(12)、五味子(11)、红花(11)、半夏(11)、瓜蒌(9)、蛤蚧(9)、桑白皮(8)、桔梗(8)、浙贝母(7)、熟地黄(7)、地龙(7)、川贝母(7)、白果(7)、郁金(6)、鱼腥草(6)、水蛭(6)、人参(6)、金银花(6)、莪术(6)、赤芍药(6)、白芍药(5)、枳壳(5)、全蝎(5)、麻黄(5)、茯苓(5)、冬虫夏草(5),共431频次。

2.2 聚类分析结果

36味常用药物共分为6类,根据每类药的主要功效加以归类,并将每味药在治疗肺纤维化中所应用的主要功效进行整理,结果见表1。

    表1 36味药物聚类结果

2.3 关联规则分析结果

药对共得关联规则19条,获得药对13对:党参、黄芪;沙参、丹参;黄芪、丹参;川芎、丹参;当归、丹参;甘草、当归;麦冬、当归;黄芪、当归;川芎、当归;川芎、黄芪;甘草、黄芪;麦冬、黄芪;甘草、麦冬。见表2。药组(每组3味药以上)共得关联规则25条,共获得药组5个:川芎、丹参、黄芪;当归、丹参、黄芪;川芎、黄芪、丹参、当归;川芎、当归、丹参;川芎、当归、黄芪。见表3。表2 药对关联规则 表3 药组关联规则

3 讨论

数据挖掘技术应用于中医药研究,成为促进中医药科研发展和实现中医药现代化的重要组成部分[3]。数据挖掘只是人类认识和探索世界的一个工具和方法,它可以发现一些潜在的现象,但不会告诉你为什么。数据挖掘的结果必须在相应目标领域专家的指导下进行解释和评价[4]。

3.1 主要药物分析

聚类分析是根据事物本身潜在的特性研究对象分类的方法。通过聚类把一个数据集合中的个体按照相似性归成若干类别,使其“物以类聚”,将数据库中的记录划分为一系列有意义的子集[5]。对于36味主要的药物按性味、归经、功效主治进行聚类分析后,获得的分类基本与临床实践相符,但也有部分出入:①白果归到补益药类;②白芍药归到活血药类;③茯苓与人参、五味子归为补益药亚类;④浙贝母、川贝母、瓜蒌与沙参、麦冬归到一类。

经过研习文献,我们发现,以上分类具有合理之处:①白果,虽然归到化痰止咳平喘中,但《本草纲目》中指出“熟食温肺益气、定喘嗽,缩小便”,《本草再新》中说“补气养心,益肾滋阴”,而临床上常配伍五味子、胡桃肉等补肾纳气,配伍熟地黄、山茱萸等补肾固涩,说明其有补、涩之功效。②白芍药常归为补虚药中,然芍药在《神农本草经》中赤、白不分,至陶弘景始分,但后世不少医家认为白芍药具有活血之功效,如《本草求真》明确指出“赤芍药与白芍药主治略同”、《药品化义》云“白芍能补复能泻,专行血海”、《开宝本草》认为芍药“白者止痛散血”等。③茯苓虽然归到淡渗利湿药中,但因其补气健脾之功而常作为补药来使用,自明清始,医家更将其作为补脾阴之药,如《本草化义》中说“甘淡属土,用补脾阴,土旺生金,兼益肺气”,说明与人参、五味子等具有补气生津的共同功效。④浙贝母、川贝母、瓜蒌归为化痰药,而沙参、麦冬归为补阴药,实际上沙参“养肺阴、清肺热、祛痰止咳(《中药志》)”、麦冬“下痰饮(《本草拾遗》)”,可见,此5味药不但有清肺化痰的相同功效,而且均可润肺止咳。综上所述,以现代数理方法所得到的药物分类反而与古人的认识更相近。

从主要的药物选用频次、药物性味归经、主治功效等来看,体现出大多数医家对肺纤维化的病机认识[6-7]:①病位在肺而与脾肾关系密切;②病性属本虚标实,肺脾肾气(阴)亏虚为本虚,痰浊、瘀血、热毒为标实,二者互相影响,互为因果。因此,治疗以补脾肺、补肾精等扶正为主;以活血祛瘀、化痰、清热等以治其标;同时针对肺主气、司呼吸及主宣肃等生理功能,采用宣肺气、降肺气等药以调畅气机,针对喘息选用地龙等药,均符合临床实践。自笔者等提出“本病的病位在肺络,基本病机为肺络痹阻,以通补肺络法治疗肺纤维化”的观点[8]以来,得到了不少同道的赞同,并且从不同的侧面进一步加以发挥和丰富[9-16],而数据挖掘得到活血通络药频次最多,也体现了通肺络的治法已得到众多医家的认同。

3.2 药对(组)分析

关联规则挖掘就是通过关联分析找出数据库中隐藏的知识,利用这些知识可以根据已知情况对未知问题进行推测[17]。在探索药对或药组时,应结合关联规则中支持度、可信度、提升度来考虑。支持度反映了关联是否是普遍存在的规律,可信度反映了关联规则的预测强度,同时满足用户定义的最小可信度和最小支持度阈值的关联规则被认为是有趣的,而提升度反映了关联规则中元素关系的密切程度,>1才有意义。在获得的药组关联规则中,均是有趣的;而在获得的药对关联规则中,“甘草与当归、麦冬与当归、甘草与黄芪、麦冬与黄芪”等不都满足3个条件,因此可以认为是无趣的;同时因甘草“和诸药”,与其他药同时出现的可能性很大,如果出现了关联规则应该视为已知的,所以“甘草、麦冬”也应该视为是无趣的。

结合主要药物使用频次,以补益药和活血药为主,通过对有趣的药组关联规则判读发现,大多数医家喜用益气药黄芪配伍丹参、当归、川芎等活血通络药;而药对关联规则中,益气药黄芪与党参配伍,益气药黄芪分别与丹参、当归、川芎等活血药配伍,而活血药丹参、当归、川芎两两配伍,说明益气活血通络法是众多医家治疗肺纤维化的共识。实际上这些药物经实验证实均有一定的抗纤维化作用,提示我们应将此法作为治疗肺纤维化的基本大法。

由于中医方剂理论体系极其繁杂,充满海量信息,并且方剂的效应评价具有多靶点的特征,因此在方剂研究领域,数据挖掘技术的应用应该引起重视;同时,对挖掘所得到的知识进一步分析和应用验证更为重要。本文作为引玉之砖,质之博雅斧正。

【参考文献】

 

[1] 姚美村,袁月梅,艾路,等.数据挖掘及其在中医药现代化研究中的应用[j].北京中医药大学学报,2002,25(5):20-23.

[2] 蒋永光,李力,李认书,等.中医脾胃方配伍规律的数据挖掘试验[j].世界科学技术-中医药现代化,2003,5(3):33-37.

[3] 张万水,陈利国,黄运坤,等.数据挖掘技术及其在中医遣方用药规律中的应用[j].辽宁中医药大学学报,2006,8(4):62-63.

[4] 张俊美,王娜娜.数据挖掘技术在方剂文献研究中的应用现状[j].甘肃中医,2008,21(1):5-7.

[5] 张颖,杨钧,刘建平.数据挖掘在中医药研究中的应用[j].辽宁中医药大学学报,2008,10(3):153-154.

[6] 张娟,闰永建.中医药治疗肺纤维化研究进展[j].山东中医药大学学报, 2009,33(1):81-85.

[7] 赵兰才,武维屏.肺间质纤维化的中医研究进展述评[j].北京中医药大学学报,2000,23(4):70.

[8] 张天嵩,吴银根.通补肺络法治疗肺纤维化理论探讨[j].中医杂志, 2002,43(11):808-810.

[9] 崔红生,邱冬梅,武维屏.肺间质纤维化从络病辨治探析[j].中医杂志, 2003,44(12):946-947.

[10] 蒋宁,武维屏.中医络病学说与肺间质纤维化病机关系初探[j].中国中医基础医学杂志,2003,9(5):21-22.

[11] 陈金亮,王殿华.络病理论与肺纤维化的关系探析[j].中医药学刊, 2004,22(3):407-408.

[12] 翟华强.络病理论与特发性肺纤维化[j].中国中医药信息杂志,2005, 12(10):91-92.

[13] 翟华强.从“肺络”探讨肺纤维化的防治[j].中医杂志,2007,48(5): 457-458.

[14] 崔红生,武维屏,姜良铎.毒损肺络与肺间质纤维化[j].中医杂志, 2007,48(9):858-859.

[15] 姜良铎,张晓梅,肖培新.特发性肺间质纤维化的病因病机探讨[j].中华中医药杂志,2008,23(11):984-986.

数据挖掘技术探讨论文第5篇

【关键词】数据挖掘;临床医学;医疗系统;应用

一、前言

21世纪是一个高度信息化的时代,随着计算机信息技术的飞速发展及医院信息化平台建设的需要,越来越多的软件公司设计开发出各种各样的医疗管理系统来满足各个医院的需求。特别是县、市级以上综合医院,随着医院无纸化办公系统的引入,各医院对医疗信息管理系统的依赖程度越来越强烈,使用的信息管理系统越来越多,导致医院管理越来越复杂。然而随着时间的积累,各个医院信息管理系统中存储了大量的数据资源,其中包含文字、声音、图像、视频、影像等各种医疗数据,传统的简单的数据的查询已经逐渐无法满足医院管理者的需求。如何从大量的医疗数据中提取有利于服务临床实践和领导管理决策的数据显得尤为重要,数据挖掘技术在此方面的运用也就应允而生。因此,提高对这些信息资源的利用水平,通过更加有效的分析、整合和利用这些数据,能够更好地为患者、医务人员、科研人员及管理人员提供全面、准确和及时的决策依据,是当今医药卫生行业急需解决的问题。

二、数据挖掘技术的概念

数据挖掘(DataMining),又译为资料探勘,它是指从大量的、不完整的、模糊的各种数据中提取隐藏的、不被人发现的、但又存在有价值信息的探索过程。它是通过分析每个数据,从大量数据中寻找其规律的技术,主要有数据准备、规律寻找和规律表示3个步骤。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。它的基本思想是从各种数据中抽取有价值的信息,目的是帮助决策者寻找数据间的潜在联系,从中发现被忽略的要素,而这些信息对预测和决策行为是非常有用的。数据挖掘的步骤会随不同领域的应用而有所变化,每一种数据挖掘技术也会有各自的特性和使用步骤,针对不同问题和需求所制定的数据挖掘过程也会存在差异。此外,数据的完整程度、专业人员支持的程度等都会对建立数据挖掘过程有所影响。这些因素造成了数据挖掘在各不同领域中的运用、规划,以及流程的差异性,即使同一产业,也会因为分析技术和专业知识的涉入程度不同而不同,因此对于数据挖掘过程的系统化、标准化就显得格外重要。

三、临床医疗数据的特点

1.数据多样。临床医疗数据成千上万,包括文字、声音、图片、符号、影像、视频等,所以结构类型众多,这是它的最显著特点。由于数据探索发现比较困难,使得开发通用的医疗数据软件系统较为复杂。2.数据量巨大。随着人们生活水平的不断提高,越来越多的人把身体健康放在首位,不定期去医院做体验,医院各种医疗设备就会产生成千上万条的医疗数据信息,最终导致医疗数据量急速增长。3.数据表征不显著。医疗数据有文字、图形等非数值型数据,使得数据挖掘人员很难找到数据间的对应关系。不同医生的医技水平不同,在诊疗过程中诊断病人情况可能存在不确定性,导致诊断结果不完整,也就难以发掘准确信息,最终导致每天都有大量相同或相近的数据产生,造成医疗数据的大量冗余。4.数据标准不统一。在医学界,很多药物的命名都没有统一的规范标准,例如一个简单的中药,也有很多别名,例如荷花,别名莲花、六月花神、水芝、水芸、藕花、水芙蓉、君子花、天仙花等。5.数据安全重要性。病人在医院治疗完成后会留下各种医疗数据,很多数据都是病人的隐私,医院管理者在进行数据分析与资源共享时,要保证数据资料的安全性,以防泄露病人隐私。

四、数据挖掘技术在临床医学领域中的应用

1.在医疗诊断中的应用随着我国医院信息化平台建设的升级,各个大型医院都在进行信息化平台投资建设,逐步采用了适合自己医院的电子病历系统,并实现医院内部信息共享,当不同科室的医生在进行数据分析时,可以将不同病人的各种检验检查结果与各种病症情况对应,建立一个详细的医疗诊断数据仓库,医生可以根据这个数据仓库进行快速、准确诊断,从而有效提高医生的诊断效率。同时,还能准确记录不同病种不同年龄段病人数,方便医院管理者以后进行数据统计分析、研究。2.在医疗保险中的应用随着国家对医疗保险政策的不断改革,我国住院病人中使用医疗保险进行报销费用的比例逐年升高,由于各种原因,医疗保障制度是城乡分离的,如何帮助医院管理者快速而准确地掌握医保病人费用及自费比例,是各医院管理的一项重要工作。利用数据挖掘技术创建医院信息系统与各类医疗保险的数据接口,建立药品、材料、诊疗项目等的对照表,制作医嘱、费用传输模块,实现各个医院医疗数据上传与下载,便于医疗保险部门和医院管理者对医保病人进行实时审核、监督管理,合理控制其医疗费用。3.在医院管理中的应用通过对医院各种医疗数据进行采集、整理、分析与挖掘,医院可形成一份数据完整的分析报告,能为医院管理者们提供高质量的医疗数据结果,对决策医院管理、控制医疗成本、掌握医疗费用、分析经济效益、提高医疗服务质量等起到重要作用。例如,通过对病人看病等候时间、就诊情况进行分析,可以优化门诊就医流程,对医护人员配置进行相应调整,从而提高医院工作效率,更好地为病人服务。4.在医疗科研中的应用医疗科学研究也是医院的重要工作之一,比如通过对历史病例资料的整理与分析,研究者可形成一份高质量的医疗科研论文;通过对基因工程学的学习与研究,研究者能用科学的方法有效预测未来,从而获得新品种、生产出新产品。

五、未来展望

医学,是通过科学或技术的手段处理人体的各种疾病或病变的学科,是一门特殊专业,它具有一定的特殊性和复杂性,各个医院在建设医院信息化平台时应该选择适合自己的临床医疗数据分析与挖掘工具,充分利用好数据挖掘这一关键技术,对临床医疗数据进行正确采集、分析与挖掘,尽可能大的发挥它在医学信息获取中的最大价值,从而更好地为医学事业服务,为医院工作服务,最终让更多的患者受益终身!

参考文献

[1]郭晓明,周明江.大数据分析在医疗行业的应用初探[J].中国数字医学,2015(8).

[2]刘申菊,田丹.浅谈数据挖掘的应用[J].价值工程,2010(36):95.

[3]廖亮.数据挖掘技术在医疗信息管理中的应用[J].中国信息科技,2016(6).

[4]陈琳.数据挖掘技术在医疗系统中的应用研究[J].机电技术,2016(6).

[5]洪松林,庄映辉,李堃.数据挖掘技术与工程实践[M].北京:机械工业出版社,2014.

数据挖掘技术探讨论文第6篇

关键词:数据挖掘;数据库;图书馆

中图分类号:G4

文献标识码:A

文章编号:1672-3198(2010)16-0272-01

0 引言

数据挖掘(DM,Data Mining)技术是人们长期对数据库技术进行研究和开发的结果。经过十几年的研究和发展,数据挖掘技术进入了一个更高级的阶段,尤其是,随着对网络信息挖掘算法的研究和智能化搜索引擎的出现,使数据挖掘技术进入了一个全新的阶段。

1 数据挖掘技术概述

数据挖掘,又称为数据采掘、数据开采,相近的术语有KDD(数据库知识发现)、数据分析、数据融合、决策支持等。目前,国外在数据挖掘方面的发展趋势及研究主要有:对知识发现方法的研究进一步发展。国内从事数据挖掘研究的人员主要在大学、研究所或公司。但是,国内关于数据挖掘的产品还很少。

2 数据挖掘技术的目的与发展趋势

2.1 数据挖掘技术的目的

数据挖掘并不专用于特定领域,它需要凝结各种技术和创造力去探索可能隐藏在数据中的知识。在很多情况下,应用数据挖掘技术是为了实现以下三种目的。

(1)发现知识。知识发现的目标是从数据库存储的数据中发现隐藏的关系、模式和关联。

(2)使数据可视化。分析人员需搞清楚数据库中存储的大量信息的含意。(3)纠正数据。在结合大规模的数据库时,数据库的数据常常是不完整的,而且通常包含错误和自相矛盾的信息。

2.2 数据挖掘技术的发展趋势

当前,数据挖掘技术的研究正方兴未艾,预计在21世纪还会形成更大的高潮,研究焦点可能会集中到以下几个方面:研究专门用于知识发现的数据挖掘语言,也许会像SQL语言一样走向形式化和标准化;寻求数据挖掘过程中的可视化方法;使得知识发现的过程能够被用户理解,也便于在知识发现过程中的人机交互;研究在网络环境下的数据挖掘技术,但是,无论怎样,需求牵引,市场驱动是永恒的,数据挖掘将首先满足信息时代用户的急需,大量基于数据挖掘的决策支持软件工具产品将会问世。

3 数据挖掘的过程、分类及其典型方法

数据挖掘大致分为四个步骤:

(1)资源发现;(2)信息选择和预处理;(3)概括化;(4)分析,根据数据挖掘的应用类型不同,大致可分为以下几类。

①分类模型;②关联模型;③顺序模型;④聚簇模型。

针对上述应用类型,数据挖掘领域提出了多种实现方式与算法。这里仅讨论几种常见的典型的实现方法。

①神经网络:②决策树:③联机分析处理(OLAP):④遗传算法:⑤近邻算法;⑥规则推导;⑦数据可视化。

目前,数据挖掘技术正处在发展当中。数据挖掘涉及到数理统计、模糊理论、神经网络和人工智能等多种技术,技术含量比较高,实现难度较大。

4 数据挖掘技术在教学中的应用

4.1 数据挖掘在成绩分析系统中的应用

4.1.1 现有成绩分析的弊端

教师简单的以考试分数来评价学生学习效果,教师在成绩分析这方面所花的时间较多。在一定程度上牵扯了教师的精力使教师没有更多的精力关注教学的设计和过程的组织。

4.1.2 数据挖掘的应用

(1)对试题的分析与评价。

通过分析考试成绩及参与考试的样本.警告出现异常反应的试题,以及对专家估计的试题属性值进行自动校正等等。其中难度用通过率体现。通过率为组成试卷提供选题依据,影响着分数的分布形态,离散程度,从而制约着测验的信度和效度。一般而言,整个试卷的难度平均为0.5为佳.各个试题难度均匀分布在0.2加.8之间为好。区分度反应了一个题目的鉴别能力。由其可以得到三个方面的信息,题目能否有效的测量或预测所要了解的某些特性或正态;题目能否与其他题目一致的分辨被试以及被试在该试题的得分和测验总分数问一致性如何。区分度取值介于(+l,-1)。

(2)对试卷的分析与评价。

对试卷的分析可以利用关联规则对试卷数据库进行分析来得到某次考试的有效性、可信度、得分分布等信息。评价从信度、效度、标准分数几方面来进行。

其中信度包括由客观题构成的试卷的信度和由主观题构成的试卷的信度、由主观题和客观题并存的试卷的信度.对信度系数的大小度量,应结合测验的用途、条件、内容来看效度用以了解测验的质量和功能,为进一步改进测验或是在几个同类测验中合理选择提供依据。利用效标关系、效度进行预测。

(3)对学生的分析与评价。

学生在测验后总是关心自己的成绩,关心自己成绩的排名,关心自己哪些知识点掌握的好.哪些知识点掌握得不好,想知道进一步努力的方向。可以利用分析学生的历次考试成绩及试卷中各题的得分,分析学生的进步情况、学习障碍、知识点和知识单元的掌握情况等等 其中包括利用Z分数对应曲线图对学生同时进行的各科目测试成绩进行的横向比较、利用Z分数对应曲线图及二列相关系数的分析对学生分数在历次测验中进行的纵向比较、利用成绩分布曲线得出学生成绩频数分布图等。

4.2 数据挖掘在图书馆管理系统中的应用

管理水平低下是影响我国图书馆事业发展的重要因素之一,管理水平的提高很大程度上取决于决策的科学与否。

(1)数据挖掘能将涉及图书馆这一信息系统的各种内部数据和外部信息汇集起来,经过处理和转换。

数据挖掘技术探讨论文第7篇

【关键词】分布 空间数据挖掘 大数据

随着经济水平的不断提高,人们的生活水平得到了较好的改善。工业、农业以及第三产业的快速发展促使了科学技术不断创新。社会主义市场经济的快速发展,为满足我国经济发展的需要,不断扩展发展的空间成为当前国家发展经济、政治、文化的重要内容。科学技术的发展迫使人们对地球的研究上升到空间的研究,随着大数据时代的到来,挖掘空间数据是历史发展的必然结果,是发展经济、政治以及文化的动力所在。

1 大数据下空间数据的特点

空间数据是指用来表示空间实体的位置、形状、大小及其分布特征诸多方面信息的数据,它可以用来描述来自现实世界的目标,它具有定位、定性、时间和空间关系等特性。空间数据是一种用点、线、面以及实体等基本空间数据结构来表示人们赖以生存的自然世界的数据。随着科学技术的不断发展,经济的快速发展,对地球的研究已经不能满足于大数据背景下经济快速发展的需求了,人们把研究的方向逐渐投向宇宙空间,精确的空间数据有助于为经济的发展做出更好的发展战略和策略。

1.1集成的数据

空间数据仓库的数据是从原有的空间数据库中将数据抽取来的。因此在数据进入空间数据仓库之前,必然要经过统一与综合的过程,这一过程是空间数据仓库建设中关键所在,所要完成的工作包括消除数据中的不一致性和进行数据综合计算。

1.2数据的持久性

对空间数据仓库中的数据进行挖掘主要为经济、政治、文化发展做出最好的决策,所涉及的数据操作主要是数据查询,一般情况下并不进行修改操作。空间数据仓库的数据反映的是一段时间内的数据内容,是不同时间的空间数据库快照的集合。对这些集合快照进行统计、综合和重组导出的数据,而不是联机处理的数据。空间数据库中进行联机处理的数据经过集成输入到空间数据仓库中,一旦空间数据仓库存放的数据已经超过空间数据仓库的数据存储期限,这些数据将从空间数据仓库中删除。

2 空间数据挖掘的常用方法

2.1空间分析法

随着科学技术的不断创新,为适应经济科学技术的不断发展,利用先进的GIS技术对空数据库的数据进行建模分析,从而获得更新颖的数据,让人们对空间数据的认识更深。利用空间分析的方法可以发现目标在空间上的关联,从而找出最佳的决策方式为数据做出正确的判断。

2.2统计分析法

空间数据的挖掘促使人们对地理空间信息的探索越来越看重。为了是的得到的数据更加的准确和精密,统计分析方法是人们管用的一种,通过对空间物体以及空间各种现象的特性进行分析。在对空间数据进行统计分析的时候,数据的空间特性对统计分析方法的作用不大,在进行分析的时候能清楚的将数据以图形的形式展现出来,但是统计分析方法在字符型数据上很难做到将空间数据进行关联。

2.3遗传算法

遗传算法是对生物进化的过程进行模拟计算,这种方法计算的结果精确,它能在搜索过程中自动获取和积累有关搜索空间的知识,并自适应地控制搜索过程以求得最优解。利用这种方法在空间数据的挖掘方面,能有有效的对空间数据的变化进行详细的定位分析,全方面的进行搜索,从而搜索出更加精确的数据结果。

2.4数据可视化的方法

人类的可视化能力,允许人类对大量抽象的数据进行分析。人的创造性不仅取决于人的逻辑思维,而且取决于人的形象思维。人脑的空间认知分析能力目前尚无法全部用计算机代替,因此可视化技术为知识发现提供了有力的帮助。为了了解数据之间的相互关系及发展趋势,人们可以求助于可视化技术。海量的数据只有通过可视化技术变成图形或图像,才能激发人的形象思维―― 从表面上看来是杂乱无章的海量数据中找出其中隐藏的规律。数据可视化技术将大量数据以多种形式表示出来,帮助人们寻找数据中的结构、特征、模式、趋势、异常现象或相关关系等。从这个角度讲,数据可视化技术不仅仅是一种计算方法,更是看见不可见事物或现象的一种重要手段和方。

3 空间数据挖掘存在的问题

3.1空间数据库类型多样性

随着科学技术的不断发展,空间数据的挖掘也逐渐成型,空间数据的数据类型复杂多样,数据间的联系优势紧密相接的,空间数据库之间的数据源分布不集中,种类繁多,这对空间数据进行挖掘所有类型的空间数据带来了困扰。

3.2空间数据的不断变化

整个宇宙是处于不断运动的状态的,空间数据库里的数据也是处于不断变化的,这种运动变化会使得在空间数据挖掘的过程中对数据的把握度难以拿捏,对一组数据进行挖掘的时候,由于数据不断化,下一秒就会产生新的数据。

3.3空间数据挖掘的智能化问题

随着人们对空间的探究不断加深,空间数据的挖掘也在不断成熟起来,但是由于空间数据库的数据是不断变化的,受到科学技术水平的限制,空间数据智能化程度偏低,对空间数据的挖掘程度难以深入。

4 结语

经济的快速发展推动了科学技术的不断发展,随着大数据时代的到来,人们对空间数据的挖掘正在逐渐深入。在经济快速发展的社会,为了满足经济快速发展的需要,不断加深对空间数据的挖掘有利于给经济发展提供更好的决策。在今后的发展道路上,空间数据的挖掘要不断创新,利用科学的技术水平,不断完善和发展自己的理论和方法,为经济快速发展提供科学的依据。

参考文献

[1]冯弟飞,胡圣武.空间数据挖掘的方法进展及其问题分析[J].测绘科学,2011.09(11):36―37.

[2]胡圣武,李鲲鹏.空间数据挖掘的方法进展及其问题分析[J].地球科学与环境学报,2012,0903):226―227.

[3]王新华,米飞,冯英春,赵玮.空间数据挖掘技术的研究现状与发展趋势[J].计算机应用研究,2011,08(07):111―113.

[4]徐胜华,刘纪平,胡明远.空间数据挖掘与发展趋势探讨[J].地理与地理信息科学,2011,07(03):158―159.

[5]秦昆,李振宇,杜.基于概念分析的空间数据挖掘研究进展[J].地球信息科学学报,2010,10(01):108―109.

数据挖掘技术探讨论文第8篇

摘 要:随着我国经济发展水平的不断提高,各行各业得到了显著发展,数据统计学方法也变得日趋多样,数据挖掘是建立在数据库与人工智能基础上发展起来的一种高新技术,其功能是从众多的数据当中挖掘到最有价值的信息,进而实现对数据资源的高效利用。聚类分析能够被当成一种数据分析工具,能真实反映出数据分布情况,本文主要对统计学在数据挖掘中的应用进行了探讨,从而表现统计学在数据挖掘应用中的重要性。

关键词:统计学方法;数据挖掘;应用分析

数据挖掘就是指从众多实际应用数据中获取批量大、有噪声、且随机性强的数据,将潜在的信息与数据提取出来,就是从数据中挖掘有价值的知识,而大多数原始数据具有一定的结构化特征,比如,关系数据库中的数据;也可以通过文本、图形、图像等半结构化发掘有用知识,这些知识可以是数学的也可以是非数学形式的;数据挖掘能以归纳形式存在,能够被广泛应用到信息查询、信息管理、信息决策控制中,方便数据的维护与管理。由此可见,数据挖掘是一门交叉性强的学科,加强对其的研究非常有意义,下面将对统计方法在数据挖掘中的具体应用进行分析。

一、数据挖掘与统计学的关系

(一)数据挖掘的内涵

通常来说,数据挖掘的定义较为模糊,没有明确界定,大部分对其的定义只是停留在其背景与观点的内容上。通过对不同观点的统一整理,人们最终将其描述为:从大量多样化的信息中发现隐晦性、规律性等潜在信息,并对这些信息进行创造、加工的过程。数据挖掘作为一门重要的交叉学科,能够将数据库、人工智能、机器学习、统计学等众多的科学融入到一起,从而实现技术与理论的创新与发展[1]。其中,数据库、人工智能与统计学是数据挖掘当中的三大支柱理论。数据挖掘的目的是从数据库当中发掘各种隐含的知识与信息,此过程的方法非常多,有统计学知识、遗传算法、粗集方法、决策法、模糊逻辑法等,还可以应用向邻近的可视技术、模式识别技术等,在以上所有技术的支持上能够使数据挖掘更为科学、有序。

(二)数据挖掘与统计学间的关系

通常来说,统计学的主要功能是对统计原理与统计方法进行研究的科学。具体来说就是指对数字资料进行的收集、整理、排序、分析、利用的过程,数字资料是各种信息的归纳与总结,可以将其作为特性原理的认知、推理方法[2]。而统计学则表示的是使用专业的统计学、概率理论原理等对各种属性关系的统计与分析过程,通过分析成功找到属性间的关联与发展的规律。在此过程中,统计分析方法是数据挖掘最为重要的手段之一。

在数据挖掘这一课题被提出来之前,统计分析技术对于人们来说更熟悉,也是人们日常开展工作、寻找数据间规律最常使用的方法。但是不能简单的将数据挖掘作为统计学的延伸与替代工具,而是要将两者的区别认识到位,再结合两者间的不同特点分析其应用特点[3]。大部分的统计学分析技术都是建立在数学理论与技巧上的,预测通常较为准确,效果能够让大部分人满意。数据挖掘能够充分借鉴并吸收统计学技术,在融入到自身特点以后成为一种数据挖掘技术。

统计学与数据挖掘存在的目标都是一致的,就是不断对数据结构进行发掘。鉴于统计学与数据挖掘在目标上的一致性,致使很多研究学者与专家将数据挖掘作为了统计学的一个分支机构[4]。但是这种认知非常不正确,因为数据挖掘不仅体现在与统计学的关系上还体现在思想、工具与方法上,尤其是在计算机科学领域对数据挖掘起到的作用非常大。比如,通过借助数据库技术与人工智能的学习,能够关注到更多统计学与数据挖掘上的共通点,但是两者存在的差异依然非常大。数据挖掘就是指对大量的数据信息不断挖掘的过程,DM能够对数据模式内的数据关系进行充分挖掘,并对观测到的数据库处理有着极高的关注度。

二、数据挖掘的主要过程

从数据本身出发探讨数据挖掘过程,数据挖掘的过程分为信息的收集、数据集成、数据处理、数据变换、数据挖掘实施等过程。

首先,要将业务对象确定下来,明确不同业务定义,并认清数据挖掘的目的,这是做好数据挖掘最关键的一步,也是最重要的一步,虽然挖掘的结果不能被准确预测到,但却需要对问题的可预见性进行探索[5]。其次,还要做好数据准备工作,包含数据清理、数据变换等工作,数据清理的实际意义是将噪声与空缺值补全,针对这一问题,可以使用平滑技术,而空缺值的处理则是属性中最常见的,可以将统计中最可能出现的值作为一个空缺值[6]。

信息收集指的是按照特定的数据分析对象,可以将分析中需要的特征信息抽象出来,并在此基础上选择出较为科学、适合的信息收集方法,将全部的信息全部录入到特定的数据库中。如果数据量较大,则可以选择一个专门的管理数据的仓库,实现对信息的有效保护与管理;数据集成就是指将来源不同、格式不同、性质不同、特点不同的数据集成到一起,进而为企业提供更为全面、系统的数据共享平台;数据变换就是通过聚集、概化、规范化等方式对数据进行挖掘,对于一些实用数据,则可以通过分层与分离方式实现对数据的转换;数据挖掘就是结合数据仓库中的数据信息点,并选择正确的分析方法实现对有价值数据的挖掘,事例推理、规则推理、遗传算法等都是应用较多的方法[7]。

三、统计学方法中的聚类分析

在统计学聚类方法基础上能够构建出潜在的概率分布假设,可以使用试图优化的方法构建数据与统计模型的拟合效果。基于统计学聚类方法当中,Cobweb方法是在1987年由Fisher提出的,能够以分类树作为层次聚类创建的方法,在分类树上,每一个节点都能代表着一个概念,该方法就是对节点概率描述的过程。Cobweb方法还使用了启发式估算方式,使用分类效用对分类树的构建进行指导,从而实现对最高分类的划分目的,能够将不同分类对象全部归类到一个类别中,并依据这些内容创建出一个新的类别。但是这种方法也存在一定局限性,局限性在于假设的属性概率分布都是独立的,并不能始终处于成立状态中。

只有在掌握了Cobweb算法以后才能对概念聚类算法的特点进行探究。Cobweb算法能够以分类树方式创建层次聚类,可以将概率表现为p(Ai=Vii/Ck)条件概率,其中,Ai=Vij是一个类别下的,同属于一个值对,Ck是概念类中的一种。在给出一个特定的对象以后,Cobweb能够将全部对象整合到一个节点上,从而计算出分类效应,分数最高的效用就是对象所在的节点位置[8]。如果对象构建失去节点,则Cobweb能够给出一个新的节点,并对其进行分类使用,这种节点计算方法起步较晚,能够对现有的节点与计算相互对比,从而划分出最高的分类指标,将全部对象统一到已有的分类中,从而构建出一个新的类别。

Classitci是Cobw eb方法的一种延伸与发展,能够使用其完成聚类数据的处理,在该方法下,节点中的每一个存储属性都是处于连续分布状态中,能够将其作为分类效果修正的方法,并以度量的形式表现出来,这种度量基础上能够实现连续性的积分,从而降低分散发生率,该方法是积分过程而不是对属性的求和过程。

Auto Class方法也是一种应用较为普遍的聚类方法,该方法主要采用统计分析对结果类的数目进行估算,还可以通过模型搜索方式分析空间中各种分类的可能性,还能够自动对模型数量与模型形态进行描述。在一定类别空间中,不同的类别内属性存在关联性,不同的类别间具有相互继承性,在层次结构当中,共享模型参数是非常重要的。

还有一种使用较为普遍的模型是混合模型,混合模型在统计学聚类方法上使用也非常普遍。该方法最为基本的思想就是概率分布决定着每一种聚类状态,并且模型中的每一个数据都是由多个概率在分布状态下产生的。混合模型还能够作为一种半参数密度评估方法,其能够将参数估计与非参数估计的优点全部集中到一起,并将参数估计法与非参数估价法的诸多优点融合到一起,因为模型具有一定复杂性,为此,不能将其限制在概率密度函数表达形式上,这种复杂性决定了模型与求解存在关联,与样本集合的联系非常少。通过以上的研究可以了解到,数据发掘中应用聚类方法非常有效,并且较为常见。比如,构建出Cobweb模型与混合模型,采用Clara与Clarans方法中的抽样技术,将Denclue方法用在概率密度函数中。

结束语

统计学方法自产生开始已经有非常久远的历史,将严谨的数学逻辑作为基础,将分类算法假定作为独立条件,属性值之前能够相互保持独立,对假定进行计算,当假定成立时,可以再与其他分类算法进行对比,这种分类算法准确性非常高。为此,其不仅能够对连续值进行预测,还可以通过线性回归方程对系数进行比较,从而归纳出结果。

(作者单位:中国人民大学)

参考文献:

[1] 张爱菊.基于数据挖掘技术的瓦斯气体红外光谱定量分析方法的研究[J].光谱学与光谱分析,2013,33(10):2646-2650.

[2] 许长福,李雄炎,谭锋奇等.任务驱动数据挖掘方法的提出及在低阻油层识别中的应用[J].吉林大学学报(地球科学版),2012,42(1):39-46.

[3] 郑晓峰,王曙.基于粗糙集与关联规则的道路运输管理信息数据挖掘方法[J].华南理工大学学报(自然科学版),2014(2):132-138.

[4] 周复之.固定收益决策支持系统机理建模与数据挖掘的协同研究[J].系统工程理论与实践,2010,29(12):38-45.

[5] 张继福,张素兰,蒋义勇等.基于约束概念格的天体光谱局部离群数据挖掘系统[J].光谱学与光谱分析,2011,29(2):551-555.

[6] 张欣欣,缪弈洲,张月红等.CrossRef文本和数据挖掘服务――《浙江大学学报(英文版)》的实践[J].中国科技期刊研究,2015,26(6):594-599.