Chinaunix首页 | 论坛 | 博客
  • 博客访问: 224615
  • 博文数量: 53
  • 博客积分: 0
  • 博客等级: 民兵
  • 技术积分: 1506
  • 用 户 组: 普通用户
  • 注册时间: 2013-07-25 10:52
文章分类
文章存档

2014年(22)

2013年(31)

我的朋友

分类: 数据库开发技术

2014-01-06 11:19:00

数据挖掘学习笔记一

前期主要学习的是数据预处理,可视化,预测建模,聚类和异常检测。学习基本概念和算法。

数据挖掘:在大型数据存储库中,自动发现有用信息的过程。

信息检索:主要依赖传统的计算机科学技术和数据的明显特征来穿件索引结构。从而有效组织和检索信息。(如百度收索引擎查找特定的Web网页)

数据挖掘任务

预测任务:根据其他属性(自变量)的值,预测特定属性(因变量)的值。

描述任务:到处概括数据中潜在联系的模式(相关,趋势,聚类,轨迹和异常)

预测建模(predictive ,modeling):涉及以说明变量函数的方式为目标建立模型,有两类预测建模任务。

分类(classification):预测离散的目标变量。(鸢尾花的类型。)

回归(regression):预测连续的目标变量。(如某只股票的未来价格)

关联分析(association analysis):用来发现描述数据中强关联特征的模式。所发现的模式通常用蕴含规则或特征子集的形式表示。

聚类分析(cluster analysis):发现紧密线管的观测值组群,似的与属于不同簇的观测值相比,属于同一簇的观测值相互之间尽可能类似。

异常检测(anomaly detection) 是识别其特征显著不同于其他数据的观测值。这样的观测值称为异常点或离群点。
阅读(1664) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~