全部博文(626)
分类: 数据库开发技术
2013-09-13 09:28:49
章一 导论
由于人们认知能力的有限性,海量信息在给人们带来方便的同时也带来了一大堆的问题。
第一是信息超载,难以消化;
第二是有效信息难以提取,真假信息难以辨识;
第三是信息安全难以保证,有意或无意的行为经常会威胁到信息的安全;
第四是信息形式不一致,既有结构化的信息,也有非结构化的信息,难以统一处理。
普通的数据库系统虽然可以高效地实现数据的录入、查询、统计和维护等功能,并可以对数据做一些简单分析处理,却无法挖掘和提供数据背后隐含的、人们真正需要的有价值的知识。
数据挖掘以一种全新的概念改变着人类加工和利用信息的方式,使人们从单纯的信息收集、存储、整理、利用、变无序信息为有序信息,向信息整合、信息创新、信息再生产以及变信息为知识的深层次加工等转变。
数据挖掘是一门新兴的综合性学科,它融合了其它许多学科领域的技术,包括数据库技术、统计分析、机器学习、高性能计算、模式识别、神经网络、数据可视化、信息检索、图像数据库与信号处理以及空间数据分析等;能从更深层次挖掘存在于数据内部的、有效的、新颖的、具有潜在效用的、乃至最终可理解的模式和知识。
发现的知识可以被用于信息管理、查询优化、决策支持、过程控制等,还可以用于数据自身的维护。
一、数据挖掘
Data Mining数据挖掘也叫数据开采,是从大量的、不完整的、有噪声的、模糊的和随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在而有用的信息和知识的过程。也有称它为:知识抽取Knowledge Extraction、数据考古学Data Archaeology、数据捕捞Data Dredging等。
通俗地讲,数据挖掘就是通过对大量业务数据进行抽取、转换、分析和模型化处理,将数据转化为有价值的知识的过程。
有几层含义:
1)数据源必须是真实的、大量的、含噪声的;
2)发现的是用户感兴趣的知识;
3)发现的知识是可接受的、可理解的、可运用的;
4)发现的知识是相对的、有特定前提和约束条件的、面向特定领域的,并不要求放之四海而皆准,并且最好能用自然语言表达。
此定义包含三方面的内容,即数据、信息和知识、过程。
(1)数据是指有关事实的集合,它记录了事物有关方面的原始信息,是进一步挖掘知识的原材料。由于数据挖掘处理的数据是现实世界的客观反映,因而并不能保证所有数据都非常规范,一般需要对数据进行预处理,使之适合知识提取。
(2)信息和知识是指通过数据挖掘从当前数据中发现的信息和知识,它们源于数据,又高于数据。发现新的知识或者对已有的知识进行拓展,得到更全面、更具有实际意义的知识往往更加重要。
(3)过程是指数据挖掘是一个多步骤的、对大量数据进行分析处理的过程,包括数据的选择、预处理、转换、挖掘、结果的解释和评价等,是一个人机交互、螺旋上升的过程,并且往往需要经过多次反复调整,从而挖掘出质量更高、更有效的知识。
数据挖掘是先有了数据才兴起的行业,是人们长期对数据库技术进行研究和开发的结果。
数据挖掘使数据库技术进入了一个更高级的阶段,它不仅能对过去的数据进行查询和遍历,并且能够找出过去数据之间的潜在关系,对过去既有的数据集合进行统计分析,呈现出隐藏在数据背后的知识信息。
二、数据挖掘的特点
1)规模性;
要从数据中挖掘出规律,数据源的规模必须是海量的。
2)快速性;
在市场和竞争环境瞬息万变的今天,数据变化频繁迅速,甚至有些数据很快过时。这要求数据挖掘能够动态处理数据,快速地做出反应,以提供用于决策的信息和知识。
3)动态性;
数据挖掘是根据历史数据提取规则,发展潜在规则,管理和维护规则,用于指导现在的行为,并预测未来。
4)交互性;
一般用户由于检索知识的局限性,提出的即时随机查询往往不能形成精确的查询要求,需要在查询过程中依靠数据挖掘技术进行实时交互,以便挖掘出更深入、更有价值的知识;
5)适用性;
数据挖掘的目标在于发现知识,而不是要求发现放之四海而皆准的真理,也不是要求去发现新的自然科学定理和数学公式。
数据挖掘发现的规则,是基于大样本的统计规律,因此其知识都是相对的,又特定前提和约束条件的,面向特定领域的。
6)知识性;
数据库仅仅是提供决策所需要的数据,而数据挖掘提供决策所需要的深层次知识。
7)个性化;
数据挖掘可以适应不同用户的需求或不同应用,挖掘多种类型和不同粒度的模式,能提供个性化服务。
8)发掘性。
对于那些实际并没有发生或者很少发生的行为,或者所隐藏的有用规则和规律,并没有在数据库中直接体现出来。数据挖掘能够发掘并提取这些有用规则和规律,并提出预测。