分类: Python/Ruby
2017-01-04 17:05:32
Python是一门通用的编程语言,在过去十年中被数据科学领域广泛使用。事实上,Python在数据科学领域是仅次于R的。
本篇文章的主要目的在于向大家展示使用Python学习数据科学有多么的容易。你可能以为自己要先成为一名高级Python程序员,然后才能进行通常与数据科学相关的复杂任务,然而事实并非如此。Python附带了很多有用的工具库,它们可以在后台为你提供强大的支持。你甚至不需要知道程序在运行什么,你不必关心这些。唯一你真正需要知道的是,你需要执行一些特定的任务,而Python使这些任务变得相当简单。
那么,让我们现在就开始吧。
无论你使用的电脑是Mac还是Windows,我都建议你下载一个免费的能够让你轻松访问尽可能多的有用模块的Python发行版本。
我试用了一些Python的发行版本,在这里,我推荐大家使用。这个Python发行版本包含200多个工具库。要理解Python中包、模块和库的差异,请查阅。
在你下载Anaconda的时候,你需要选择下载Python 2版本还是Python 3版本。我强烈建议你使用Python 2.17.12版本。截止到2016年底,绝大多数的非计算机科学的Python用户都使用了这个Python版本。它能够出色地完成数据科学任务,比Python 3更容易学习,而且像GitHub这样的网站中有数百万的Python脚本和代码片段,可供大家参考,生活会变得更加容易。
Anaconda也附带了Ipython编程环境,建议大家使用。安装Anaconda后,只需要导航到Jupyter笔记本并开启程序,就可以在Web浏览器中打开IPython。Jupyter笔记本的程序会自动启动Web浏览器中的应用程序。
你可以参考了解如何在Ipython笔记本中更改路径。
在你深入了解Python的数据科学库之前,你首先需要学习一些Python的基础知识。Python是一门面向对象的编程语言。在Python中,对象既可以赋值给一个变量,也可以作为参数传递给一个函数。以下都是Python中的对象:数字、字符串、列表、元组、集合、字典、函数以及类。
Python中的函数与普通数学中的函数基本上是一致的——它接收输入数据,对数据进行处理并输出结果。输出的结果完全取决于函数是如何被设计的。另一方面,Python中的类是被设计为输出其他对象的对象的原型。
如果你的目标是编写快速、可复用、易于修改的Python代码,那么你必须使用函数和类。使用函数和类有助于保证代码的高效与整洁。
现在,让我们看看Python中有哪些可用的数据科学工具库。
Numpy是一个主要用于处理n维数组对象的Python工具包,而Scipy则提供了许多数学算法与复杂函数的实现,可用来扩展Numpy库的功能。Scipy库为Python添加了一些专门的科学函数,以应对数据科学中的一些特定任务。
为了在Python中使用Numpy(或其他任何Python库),你必须首先导入对应的工具库。