2014年第七届R语言会议北京会场,有很多业界人牛参加。相应访谈记录在这里:
http://supstat.com.cn/blog/2014/12/05/pannel-discussion-at-7th-chinar-conference-beijing/
那个时候我还对所谓的概率与统计/数据挖掘/机器学习等等没有什么兴趣,可惜今天才看到这个讨论。我觉得想法真的是很好,因此摘抄在这里。
一、王汉生(北京大学)
1)“哪些行业能把数据直接产生价值?金融投资,所以这个行业已经存在很多年了,而且做得非常的优秀,只是以前大家不叫大数据而已”
其实大数据行业存在多年了,只是最近几年由于google这些大公司热潮,"大数据"这个名词才形成并流传开来,搞得路人皆知。回想一下,我大学商铺的同学后来就是读的金融数学,工作就是大数据啊。
2)“第四个就是分析出来之后,我们怎么实施,变成一个产品或者service。因为我看了很多商业的朋友,看了他们成功和失败,哪个是最难的,不是model这一部分,是业务问题的定义,这部分是教科书里找不到的,老师教不了的。而其他的问题都是能在现有的学科设置中批量生产。”
批量生产啊!大部分大数据相关人员,恐怕真是没有可自豪的。跟自己能力类似的人员到处都是。
二、杜长嵘(优酷土豆)
“我自己总结起来的经验,做数据分析其实就是做两点。第一个是,如何把数据通过转换变成资讯、知识、形成行动方案、最后产生positive impact,这是最重要的事情。无论是一个怎么样角度,你是一个数据科学家,你是一个程序员,做处理数据的工作,最终怎样产生对公司有正面效应的事才是最重要的。”
无论什么模型,什么算法,什么编程技术,最终目的是要对公司有正面效应。做事不能忘了目标。
三、陈江(雪城大学)
“刚刚很多都在强调在商业上的应用,其实在包括环保、制造业都存在很多很多大数据的问题。比如像我在纽约州,纽约州很关切的就是各式各样的污染,其实我们中国也关注污染,不过主要是空气污染。其实关注的应该是水污染,更重要的是土壤污染。我们就有专门做污染跟公共卫生的图。很不幸,这之后在美国这个国家他不太敢公布。因为发现的结果就是,各式疾病,特别是肿瘤疾病,跟污染极度相关。他们不敢公布,因为这全部在地图上,哪个是疾病高发点,哪个点污染严重,match相当好,所以公布起来社会又有问题了。所以说,很多人认为美国很透明化,我可以告诉大家,当涉及到公共安全、公共健康问题的时候的时候也不见得很透明化。”
陈江的这段话让我注意到了:
1)数据分析技术还可以在“非商业”领域有巨大应该,可能极大的促进社会变革,最终造福大家。比如:环保。
眼界不要只在跟钱有关的行业上啊。社会生活的领域很宽广。
2) 政府信息公开化的问题。凭借直觉推断,美国政府也不可能尽善尽美,但是美国政府敢于不公开设计公共安全、健康的事情,这个还是出乎我的意料的。真是全世界的政府,本质上都差不多,只不过民众有所区别而已。
四、刘道明(光大证券)
1)“大家讲到大数据,都做爬虫,网上有大量大量的爬虫,大家都去建数据中心。
它带来的问题是什么,就是我们没有理解大数据的本质,对于在座每一个人来讲大数据的本质是我们独家掌握的核心的数据,
或者说我们比别人理解更好的我们的独家的数据”
核心的数据,更好的理解,这是本质的问题。
2)“就像现在大家都会用电脑一样,以后大家都会做数据分析,都会做数据统计”
感想:
1)每一个人都要会一点数据分析,如果你还很差,赶快行动!拿起统计教材,赶紧学点东西吧!
2)对于有孩子的家长:一定要注意培养孩子的统计思维,数据分析能力,这无关乎考试与升学。这是现代生活的必备。
3)所谓中医骗子,恐怕日子会越来越不好过了。
阅读(906) | 评论(0) | 转发(0) |