1. 通常,数据集可以看作是数据对象的集合。数据对象又时也叫做记录、点、向量、模式、事件、案例、样本、观测或实体。数据对象用一组刻画对象基本特征(如物体质量或事件发生时间)的属性描述。属性有时也叫做变量、特征、字段、特征或维。
2. 属性是对象的性质或特征,它因对象而异,或随时间而变化。
3. 测量标度是将数值或符号值与对象的属性相关联的规则(函数)。
4. 四种属性类型:标称(nominal)、序数(ordinal)、区间(interval)和比率(ratio)。
5. 属性的类型可以用不改变属性意义的变化来描述。
6. 区分属性的一种独立的方法是根据属性可能取值的个数来判断。
7. 数据的一般特性:
(1)维度(dimensionality)
数据集的维度是数据集中的对象具有的属性数目。低维度数据往往与中、高维度数据有质的不同。确实,分析高纬度数据有时会陷入所谓的维灾难。正因为如此,数据预处理的一个重要动机就是减少维度,称为维归约(dimensionality reduction)。
(2)稀疏性(sparsity)有些数据集,如具有非对称特征的数据集,一个对象的大部分属性上的值都为0;在许多情况下,非零项还不到1%。实际上,稀疏性是一个优点,因为只有非零值才需要存储和处理。这将节省大量的计算时间和存储空间。此外,有些数据挖掘仅适合处理稀疏数据。
(3)分辨率(resolution)常常可以在不同的分辨率下得到数据,并且在不同的分辨率下数据的性质也不同。数据的模式也依赖与分辨率。如果分辨率太高,模式可能看不出,或者掩埋在噪声中;如果分辨率太低,模式可能不出现。
8. 事务数据(transaction data)是一个特殊类型的记录数据,其中每个记录(事务)涉及一系列的项。事务数据是项的集合的集族,但是也能将它视为记录的集合,其中记录的字段是非对称的属性。
9. 数据矩阵
如果一个数据集族中的所有数据对象都具有相同的数值属性值,则数据对象可以看作多维空间中的点(向量),其中每个维代表对象的一个不同属性。这样的数据对象集可以用m*n的矩阵表示,其中m行,一个对象一行;n列。一个属性一列。这种矩阵称为数据矩阵(data matrix)或模式矩阵(pattern matrix)。
10. 稀疏数据矩阵
稀疏数据矩阵是数据矩阵的一种特殊情况,其中属性的类型相同并且是非对称的,即只有非零值才是最重要的 。事务数据是仅含0-1元素的稀疏数据矩阵的例子。
11. 有事,图形可以方便而有效地表示数据。我们考虑两种特殊情况:
(1)图形捕获数据对象之间的联系;
(2)数据对象本身用图形表示。
具有图形对象的数据
如果对象具有结构,即对象包含具有联系的子对象,则这样的对象常常用图形表示。
12. 时序数据
时序数据(sequential data)也称时间数据(temporal data),可以看作记录数据的扩充,其中每个记录包含一个与之相关联的时间。
13. 序列数据
序列数据(sequence data)是一个数据的集合,它是各个实体的序列,如词或字母的序列。除了没有时间戳之外,它与时序数据非常相似,只是有序序列考虑项的位置。
14. 时间序列数据(time series data)是一种特殊的时序数据,其中每个记录都是一个时间序列(time series),即一段时间以来的测量序列。
15. 空间数据
有些对象除了其他类型的属性之外,还具有空间属性,如位置或区域。空间数据的一个例子从不同的地理位置收集了的气象数据(降水量、气温、气压)。空间数据的一个重要特点是空间自相关性(spatial autocorrelation),即物理上靠近的对象趋向于在其他方面也相似。这样,在地球上相互靠近的两个点通常具有相近的气温和降水量。
16. 数据质量
数据挖掘使用的数据往往是为其他用途收集的,或者在收集时未明确其目的。因此,数据挖掘常常不能“在数据源头控制质量”。相比之下,统计学的实验设计或调查往往其数据质量都达到了一定的要求。由于无法避免数据质量问题,因此数据挖掘着眼于两个方面:(1)数据质量问题的检测和纠正,(2)使用可以容忍的低质量数据的算法。第一步的检测和纠正,通常称作数据清理(data cleaning)。
17. 噪声和伪像
噪声通常是用于包含时间或空间分量的数据。在这些情况下,常常可以使用信号或图像处理技术降低噪声,从而帮助发现可能“淹没在噪声中”的模式(信号)。尽管如此,完全消除噪声通常是困难的,而许多数据挖掘工作都关注设计鲁棒算法(robust algorithm),即在噪声干扰下也能产生可以接收的结果。
阅读(3387) | 评论(0) | 转发(1) |