品位《重构大数据统计》
版权声明,原创文章。
这是一本非常优秀的作品。为什么这么说呢?因为这两三年我见了太多的案例,我亲眼见到一些公司在没有具体分析需求的情况下,就盲目上马Hadoop大数据解决方案,花销浪费了巨资不说,最痛心的是最终结果达不到预期。如果早两年就有这本书的指导,那么在上大数据项目时,认识思路、解决思路都会清晰很多。
要明确什么是大数据的统计计算。大数据的统计计算是把传统的统计计算的基本方法引入到大数据领域,并给出了各种算法的统计原理和数值计算的步骤,以及部分例子,让读者掌握用统计方法解决具体问题的全过程。大数据的统计计算是进行数据探索和分析挖掘的基础。我们会根据数据的实际规模,估算出具体需要多少台计算机和资源的计算,也即我们要付出的成本。其次就是估算这个统计计算需要花销多少时间,这关系到数据探索分析的效率和效果。
“花最少的钱,且统计计算出结果的时间最短”,这是完美主义程序员永无止境的追求。当然也有交差应付了事的程序员,这另当别论。要做一名大数据分析师,就需要培养一些基本的能力和素质。严谨是大数据分析师必备的第一项基本素质。必须秉持严谨、认真、负责的态度,才能保证数据的客观和准确。严谨也是大数据分析师最基本的职业道德。超强的逻辑思维能力是大数据分析师必备的第二项基本素质,感性的人不适合大数据分析师这个职业,理性、具备缜密的思维和逻辑推理能力,分清数据的主次,是取得成功的基础。好奇心与创新力是大数据分析师的第三项基本素质。要勇于假设,对数据和事务都充满好奇心,发现和挖掘隐藏在数据内部的真相,并通过不断的创新,提高自己的分析水平,大数据分析师就这么炼成了。
遗憾的是,这本书并不是大数据领域的方法学的书籍,它既没有给出针对具体的需求案例应该采取什么方法手段去解决问题,又没有给出大数据统计分析方面的解题思路,而且这本书也没有专门讲述任何数据统计分析的编程语言(比如R语言)。它仅仅是介绍了在大数据统计分析计算方面,应该具备的统计计算的基础知识,从数据模型、单变量基本统计量、单变量数据的分布,到多变量的数据特征、数据探索、极限定理,再到常用的分布函数的介绍和计算、参数估计、假设检验、非参数检验,最后是方差分析、多元线性回归、主成分分析、判别分析、模型评估曲线等。
学以致用是读书的主要追求。这本理论书籍在“致用”这一点上有所欠缺,但是学好这本书,会给那些有志于做数据分析的未来分析师们打下坚实的理论基础。期待阿里巴巴集团技术丛书能够编写侧重实际案例的大数据统计方面的书籍。
阅读(1698) | 评论(0) | 转发(0) |