Chinaunix首页 | 论坛 | 博客
  • 博客访问: 228963
  • 博文数量: 96
  • 博客积分: 0
  • 博客等级: 民兵
  • 技术积分: 0
  • 用 户 组: 普通用户
  • 注册时间: 2016-07-14 11:43
文章分类

全部博文(96)

文章存档

2016年(41)

2015年(55)

我的朋友

分类: Python/Ruby

2015-12-22 16:20:35

1.为什么数据挖掘起始阶段使用python
最近看见两本书,《集体智慧编程》,《 社交网站的数据挖掘与分析》,两本书都是以Python语言来讲解的,都是讲的数据挖掘方面的东西,其中后者还是 2011年Jolt生产效率大奖获奖图书,难道Python很适合 做数据挖掘吗?
ython强调程序员的生产力,让你把精力集中在逻辑上而不是语言本身上。
你能想象用一下午时间实现从0开始一个简单的搜索引擎吗?C++显然是不行的。。你的大部分时间都将花在实现基本数据结构和调试语言错误上。。而用python,你要做的就是真正理解搜索算法,之后的实现真的很简单。。

我觉得用python很适合算法研究,不仅仅是数据挖掘。快速开发能让你迅速验证你的想法,而不是把时间浪费在程序本身上(想象一下你写了一星期的c++,调了一大堆指针错误,最后发现想法本身就有错误。。)当你知道你已经有了一个正确的算法,要使他运行速度提高只需用c++等重写性能瓶颈并嵌入就行了。。

python适合快速开发,我们这里数据挖掘的框架用python写,开始用python去实现你的基本的想法,不过等成熟以后最核心的算法还是用java和c写的,一方面把你的算法隐藏起来,另外一方面也是因为效率的原因。


是的,Python适合做数据挖掘。作为脚本语言,Python快速开发的优点其他答案都说了。

Python适合做数据挖掘的另一个原因是社区现在比较成熟,mloss上面发布的Python程序越来越多。最著名的就是scikit.learn了吧,几乎涵盖了机器学习中常用的算法,而且scikit.learn更新非常快。

scikit.learn只是举了一个例子,还有orange,pyml等很多非常棒的package,有了这些包的支持,做数据挖掘和机器学习的时候,就会很节省时间了。

2. python和R语言的对比

Python相对于R是有很多优点的,R基本不存在数据结构的概念,导致你没有办法优化算法
R相对Python的优点可能在于更多的包(比如数据可视化和神经网络,这两个用Python不太好做)


数据挖掘感觉还是R专业一些,能直接接触到最新的方法,某些领域可能R做得更专业一点。
当然,如果python也不是说不行——一般的情景两者都能实现。
另外,也有人用python调用R的,其实发挥到极致,无论什么语言都能实现。


3. python和c的结合方面

Python很不错,能满足绝大方面的需求,比如数据预处理,格式转换等等。对于这些计算资源要求不是很高的地方可以用纯Python来做。如果遇到纯Python处理起来比较吃力的,可以混合c来加快效率,基于c的Python库也有很多。用Python做科学研究的学者越来越多,工具数量也越来越多。 总之,Python很适合数据挖掘 :-)

阅读(896) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~