Chinaunix首页 | 论坛 | 博客
  • 博客访问: 1523830
  • 博文数量: 465
  • 博客积分: 8915
  • 博客等级: 中将
  • 技术积分: 6365
  • 用 户 组: 普通用户
  • 注册时间: 2010-07-30 15:05
文章分类

全部博文(465)

文章存档

2017年(33)

2016年(2)

2015年(4)

2014年(29)

2013年(71)

2012年(148)

2011年(178)

分类: 大数据

2017-02-10 13:14:32

引言:普通数据分析师与高级数据分析师的差异有一个非常重要的点,那就是数据思维。数据思维与数据敏感度有一些类似,都是类似于情商类的看不见摸不着的东西。简单来说数据思维是一种通过数据手段解决问题的思维。 
本文选自《从1开始——数据分析师成长之路》。

  大家还记得中学时期或是大学时期的数学证明题吗? 
  已知条件A、B、C、D条件,要求证明E是成立的。 
  一道证明题往往只是一句话,然而解题过程往往要占据一整页篇幅。几何证明题出现的频次更是尤其高,还记得我们在进行数学证明的时候做的证明流程吗?几乎所有的证明题都是要求通过已知条件转换为未知条件,而我们证明的过程恰恰是方向解剖,如果要E成立需要什么条件?假设需要E、F成立;E、F成立有需要G、H、I成立;G、H、I成立恰好需要A、B、C、D条件,证明完毕。 
  证明流程如下。 
【图1】
  其实这就是一种以结果为导向的思维方法,数学带给我们的思维最重要的体现就是在解决问题的方式上。证明题的流程之所以如此清晰严谨多是因为出题者已经事先梳理了证明逻辑,对于解题者来说正确答案只有一个:证明D成立。 
除了证明题,我们还经常面对的另一类问题是应用题。应用题大多是把日常生活场景抽象简化,在题目中描绘一个场景,常见的题型可以归类如下: 
  小明在的时候发现,A事件有a属性,B事件的值是b,假设小明的C属性数据是c,问小明在D时的值d是多少? 
  这类题目刻画了一个事件场景,大多会交代时间、地点、人物、事件,然后给出一些参数,要求另外一个参数的值。同样,我们想要知道D的值需要两个条件E、F,想要知道E、F的值需要条件G、H、I,而G、H、I的值可以通过A、B、C的值a、b、c求得。逻辑关系梳理完成后需要通过对a、b、c三个数值进行加减乘除简单的数学计算或是积分求导等高阶数学算法,最终求得结果d。应用题和证明题的区别在于它在证明题的逻辑思维基础之上增加了数值运算。 
  随着应用场景的不断复杂,我们引入了一元一次方程、二元一次方程组、黎曼积分、极限思想等这些数学工具。这些工具发明的初衷在于解决实际生活中遇到的问题,只是实际生活中遇到的问题被抽象成了应用数学题。数学工具的不断丰富和复杂,人们不再拘泥于现实的应用场景,开始把数学研究单独作为一门技能进行拓展和延伸。于是产生了另一类数学题。 
已知公式A,条件是B,当n趋向于正无穷,求D。 
  A是B的全覆盖,求证:C是D的全覆盖。 
  P(A|B)=K,求P(C|A)。 
  …… 
  此类问题已经是进阶到高等数学的范畴了,高等数学与普通数学的最大区别就在于其应用场景没那么明确具体,不像加减乘除能够让你买菜,高等数学更加抽象和理论化。它们对应的是极限的思想,全面拆分问题的思想,这时我们再看看本章开头的两个实例: 
  公元前5世纪,芝诺发表了著名的阿基里斯悖论:他提出让乌龟在阿基里斯前面1000米处开始,和阿基里斯赛跑,并且假定阿基里斯的速度是乌龟的10倍。当比赛开始后,若阿基里斯跑了1000米,设所用的时间为t,此时乌龟便领先他100米;当阿基里斯跑完下一个100米时,他所用的时间为t/10,乌龟仍然前于他10米。当阿基里斯跑完下一个10米时,他所用的时间为t/100,乌龟仍然前于他1米…… 芝诺认为,阿基里斯能够继续逼近乌龟,但绝不可能追上它。 
  一尺之棰,日取其半,万世不竭。 
  这是极限思维的实际案例,大家有没有发现问题在哪里呢?留作课后思考题吧!想清楚了自然豁然开朗,想不清楚可以去找能够帮助你想清楚的方法,寻找答案的过程也算是数据分析思维的一部分。 
  我们看到上文给出的数学问题的三个模块其实对应着数学思想的变化。 
【图2】
  数学从提供解决问题的方法到变成数学工具,再变成数学思想。这一演变的过程为我们提供了解决问题的思路,思考问题的方法。数据分析的思维可以借鉴数学思想的内容,从解决实际问题的角度出发,找到需要解决这个问题的元素,一层一层地剥离下去,最终联系到我们已有的资源。同样,我们抛开数据分析的实际应用场景去探索数据分析方法的优化空间和可行性,对已有的数据进行聚类、分类等探索性分析,提升数据的使用效率,挖掘数据中潜在的价值,这些就是数据分析的思维方式。 
数据分析的思维是一种解决问题的方式,以结果为导向的向数据源头的追溯。数据分析师要有一种遇到问题解决问题的自信。没有问题是无法解决的,没解决的原因只能是投入大于产出,解决该问题带来的收益小于投入。 
  技能是容易掌握的,但是思维却是很难培养的。从我们接触数学这门学科的那一天开始,数学就尝试向我们传递这样一种思维方式,因此,在面试数据分析师时我往往会问一问面试者的数学成绩怎样。数学成绩能够部分反映一个人对数学思维的理解与运用,即使他自己都可能没有意识到这一点。这些关于数学解题的思维方式正是数据分析师所需要的,也是数据分析师必备的。那么,如何培养数据分析的思维呢?不妨先培养解决数学问题的思维。经常做一些逻辑推理题或是看一些侦探小说,会有帮助的。 
  数据分析思维一方面体现在它的逻辑性和方向性,另一个重要特征是绝对客观与绝对理性。“不以物喜,不以己悲”的态度对于数据分析思维来说很重要,它能够帮助你摒弃主观的偏见与看法。诸如遇到突发事件能在第一时间冷静下来,抛去恐慌的情绪;对自己喜欢的项目客观分析,不对数据进行修饰;对自己犯下的错误能客观评论,给出解决方法等。喜怒哀乐是每个人都会有的情绪,而对数据分析师而言,一旦进入工作就要绝对理性与客观,这也是数据分析师思考问题的前提。 
  任何人都会犯错误,我们在日常工作中难免会犯错误,作为数据分析师,每天都和一大堆数据打交道,稍有不慎就会犯错误。如何对待自己犯下的错误是衡量一个数据分析师处理问题客观性的重要标准。人们在面临指责时的本能反应是逃避或是反击,这是人性的弱点,数据分析师能否克服这样的弱点将是他能否进阶的重要因素。当领导指责你工作没做好的时候你会以怎样的态度去面对这个问题? 
  攻击的态度:不是我的错,是什么什么原因造成的。 
  逃避的态度:好像是错了,对不起! 
  客观理性的态度:是我错了,纠正方法是XXXX2小时内可以完成。此次错误的原因是XXXX,以后不会再犯了,本月绩效相应的部分会进行扣除。 
  如果你是领导,你会喜欢哪种态度呢? 
  领导永远是以结果为导向的,指责你犯错或是沉浸在内疚的情绪中于事无补,第一时间应该做的事情是把结果做好,然后再进行自我检讨,用最客观的态度进行自我批评。这样不仅给自己一个教训,也会让领导不会因此过度责怪你。你已经给出了面对此错误的最好的解决方案,别人也不会再节外生枝。更大的可能是领导会因为这件事增加对你的好感度与信任度。 
  我想大家都读过历史类或是战争类的小说,谋士给统帅的策略一般会给出上策、中策、下策,而统帅经常会出于人道主义原则选择中策或是下策。越是厉害的谋士给出的策略出发点越是绝对理性,不考虑感性的情怀与仁慈,一切以成功为最终目的。高阶的数据分析师就要具有这种谋士的精神,客观与理性的解决问题。同样,只要统帅提出问题,谋士总能给出解决方案,虽然有些理想主义的情怀,但是能从一定意义上反映数据分析思维的两个方面:分析问题的思想;处理问题时的态度。 
  思维与态度作为数据分析思维的两个核心要素是衡量一个数据分析师水平的软指标,培养自己的思维与处理问题的态度需要在实践中不断完善和进步。“学而不思则罔,思而不学则殆”,数据分析的过程需要大家不断思考、不断实践,才能在这样一个过程中不断提升自己。 
   
                      图片描述


  想及时获得更多精彩文章,可在微信中搜索“博文视点”或者扫描下方二维码并关注。
                       图片描述
阅读(574) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~