全部博文(626)
发布时间:2014-02-27 13:45:42
数据清洗工具OpenRefine数据经常被称为一座金矿,尤其是在当今数据驱动的经济环境下更是如此。怎样把数据集在OpenRefine中进行转换,优化数据的质量以便于在真实场景下重用它们。一、介绍OpenRefine我们来看一个残酷的现实:你的数据是杂乱无章的。错误会散步到你的大数据集中,无论你有多么细心,错误总是存在。.........【阅读全文】
发布时间:2013-12-11 22:20:15
《Hadoop五分钟入门指南》原文见:http://blog.josedacruz.com/2013/12/09/hadoop-in-5-minutes-for-beginners/#.Uqhs3_Q6Cjt如果你有大量的数据(TB级),而且这些数据到处分散,且有些数据是结构化的,有些数据不是。你想查询这些数据,你或许在想,“我需要力量来组织和查询这些数据”。是的,你需要Hadoop。一、.........【阅读全文】
发布时间:2013-10-16 10:05:39
麦肯锡认为,大数据团队必须有五种职位:1)数据卫生员(Data Hygienists) - 这些人,确保数据总是干净的、准确的。2)数据探索者(Data Explorers) - 这些人在大数据项目找到你真正需要的数据。3)企业解决方案架构师(Business Solution Architects) - 这些人把收集的数据组织在一起,以便用于分析,他们负责.........【阅读全文】
发布时间:2013-10-16 10:01:56
新技术如社交媒体、电邮、博客、地理信息系统GIS、无线射频识别RFID和智能手机等为基于服务信息构建提供了新的机会。处理大数据常见的方法和框架是Apache Hadoop,它以批处理的方式运行数据处理任务。现在,如果需要实时处理数据和实时显示数据,那这种基于批处理的方式并不是很适合。STORM是一个开源框架,来自Twitt.........【阅读全文】