Chinaunix首页 | 论坛 | 博客
  • 博客访问: 393638
  • 博文数量: 273
  • 博客积分: 0
  • 博客等级: 民兵
  • 技术积分: 1430
  • 用 户 组: 普通用户
  • 注册时间: 2018-02-02 15:57
文章分类

全部博文(273)

文章存档

2018年(273)

我的朋友

分类: 云计算

2018-07-27 15:43:29

人工智能是近年来科技发展的重要方向,在大数据时代,对数据采集、挖掘、应用的技术越来越受到瞩目。在人工智能和大数据的开发过程中,有哪些特别需要注意的要点?

人工智能领域的算法大师、华盛顿大学教授Pedro Domingos对此进行了深入思考。

Pedro Domingos教授的观点概括下来,可以提炼出12个注意点,为行业开发实践提供了重要参考:

注意点1:你的数据未必可靠

在实际应用中,有很多各种各样的原因会导致你的数据是不可靠的。因此,当你将数据用于解决问题前,必须经常留心来检查数据是否值得信赖。如果基于糟糕的数据来挖掘,无论多么聪明的人也永远只会获得糟糕的结果。下面列举了一些常见的可导致数据可靠性问题的因素:

? 用于开发的数据,往往和实际情况下的数据分布不同。例如也许你想把用户按照身高划分为“高”、“中等”、“矮”三档,但如果系统开发时使用的数据集里最低用户的身高是6英尺(184cm),那么很有可能你开发出来的系统里会把一个“仅有6英尺”的用户称为“矮”用户

? 你的数据集中存在很多缺失数据。事实上,除非是人为构造的数据集合,否则很难避免缺失数据问题的发生,如何处理数据缺失的问题是很有技巧的事情。实践中我们要么是干脆丢弃一部分残缺的数据,要么就是想办法计算一些数值去填补这些缺失值。无论哪种方法都可能导致应用结果的不稳定

? 你的数据可能随时在变化。数据库的表结构可能会变,数据定义也可能会变


阅读(1138) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~