数据挖掘导论（一）-杨宝的小窝-ChinaUnix博客

杨宝的小窝

首页　| 　博文目录　| 　关于我

杨宝的小窝

博客访问： 566863
博文数量： 89
博客积分： 0
博客等级：民兵
技术积分： 2699
用户组：普通用户
注册时间： 2013-04-14 22:27

个人简介

其实，我只是个研究生。在这里，我能感觉到自己的存在。

文章分类

全部博文（89）

未分配的博文（89）

文章存档

2014年（16）

2013年（73）

我的朋友

相关博文

数据挖掘导论（一）

分类：大数据

2013-12-18 20:45:40

1. 通常，数据集可以看作是数据对象的集合。数据对象又时也叫做记录、点、向量、模式、事件、案例、样本、观测或实体。数据对象用一组刻画对象基本特征（如物体质量或事件发生时间）的属性描述。属性有时也叫做变量、特征、字段、特征或维。
2. 属性是对象的性质或特征，它因对象而异，或随时间而变化。
3. 测量标度是将数值或符号值与对象的属性相关联的规则（函数）。
4. 四种属性类型：标称（nominal）、序数（ordinal）、区间（interval）和比率（ratio）。
5. 属性的类型可以用不改变属性意义的变化来描述。
6. 区分属性的一种独立的方法是根据属性可能取值的个数来判断。
7. 数据的一般特性：
（1）维度（dimensionality）
数据集的维度是数据集中的对象具有的属性数目。低维度数据往往与中、高维度数据有质的不同。确实，分析高纬度数据有时会陷入所谓的维灾难。正因为如此，数据预处理的一个重要动机就是减少维度，称为维归约（dimensionality reduction）。
（2）稀疏性（sparsity）有些数据集，如具有非对称特征的数据集，一个对象的大部分属性上的值都为0；在许多情况下，非零项还不到1%。实际上，稀疏性是一个优点，因为只有非零值才需要存储和处理。这将节省大量的计算时间和存储空间。此外，有些数据挖掘仅适合处理稀疏数据。
（3）分辨率（resolution）常常可以在不同的分辨率下得到数据，并且在不同的分辨率下数据的性质也不同。数据的模式也依赖与分辨率。如果分辨率太高，模式可能看不出，或者掩埋在噪声中；如果分辨率太低，模式可能不出现。
8. 事务数据（transaction data）是一个特殊类型的记录数据，其中每个记录（事务）涉及一系列的项。事务数据是项的集合的集族，但是也能将它视为记录的集合，其中记录的字段是非对称的属性。
9. 数据矩阵
如果一个数据集族中的所有数据对象都具有相同的数值属性值，则数据对象可以看作多维空间中的点（向量），其中每个维代表对象的一个不同属性。这样的数据对象集可以用m*n的矩阵表示，其中m行，一个对象一行；n列。一个属性一列。这种矩阵称为数据矩阵（data matrix）或模式矩阵（pattern matrix）。
10. 稀疏数据矩阵
稀疏数据矩阵是数据矩阵的一种特殊情况，其中属性的类型相同并且是非对称的，即只有非零值才是最重要的。事务数据是仅含0-1元素的稀疏数据矩阵的例子。
11. 有事，图形可以方便而有效地表示数据。我们考虑两种特殊情况：
（1）图形捕获数据对象之间的联系；
（2）数据对象本身用图形表示。
具有图形对象的数据
如果对象具有结构，即对象包含具有联系的子对象，则这样的对象常常用图形表示。
12. 时序数据
时序数据（sequential data）也称时间数据（temporal data），可以看作记录数据的扩充，其中每个记录包含一个与之相关联的时间。
13. 序列数据
序列数据（sequence data）是一个数据的集合，它是各个实体的序列，如词或字母的序列。除了没有时间戳之外，它与时序数据非常相似，只是有序序列考虑项的位置。
14. 时间序列数据（time series data）是一种特殊的时序数据，其中每个记录都是一个时间序列（time series），即一段时间以来的测量序列。
15. 空间数据
有些对象除了其他类型的属性之外，还具有空间属性，如位置或区域。空间数据的一个例子从不同的地理位置收集了的气象数据（降水量、气温、气压）。空间数据的一个重要特点是空间自相关性（spatial autocorrelation），即物理上靠近的对象趋向于在其他方面也相似。这样，在地球上相互靠近的两个点通常具有相近的气温和降水量。
16. 数据质量
数据挖掘使用的数据往往是为其他用途收集的，或者在收集时未明确其目的。因此，数据挖掘常常不能“在数据源头控制质量”。相比之下，统计学的实验设计或调查往往其数据质量都达到了一定的要求。由于无法避免数据质量问题，因此数据挖掘着眼于两个方面：（1）数据质量问题的检测和纠正，（2）使用可以容忍的低质量数据的算法。第一步的检测和纠正，通常称作数据清理（data cleaning）。
17. 噪声和伪像
噪声通常是用于包含时间或空间分量的数据。在这些情况下，常常可以使用信号或图像处理技术降低噪声，从而帮助发现可能“淹没在噪声中”的模式（信号）。尽管如此，完全消除噪声通常是困难的，而许多数据挖掘工作都关注设计鲁棒算法（robust algorithm），即在噪声干扰下也能产生可以接收的结果。

阅读(3402) | 评论(0) | 转发(1) |

下一篇：linux磁盘与文件系统管理

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6