python 科学计算学习一：numpy快速处理数据-hiyachen-ChinaUnix博客

架构师（云操作系统AI微服务）hiyachen.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

hiyachen

博客访问： 7180870
博文数量： 704
博客积分： 10821
博客等级：上将
技术积分： 12052
用户组：普通用户
注册时间： 2005-12-02 10:41

个人简介

中科院云平台架构师，专注于数字化、智能化，技术方向：云、Linux内核、AI、MES/ERP/CRM/OA、物联网、传感器、大数据、ML、微服务。

文章分类

全部博文（704）

云平台云计算（129）

未分类（0）

openstack（10）

分布式文件系统（3）

网络虚拟化（11）

容器云（1）

KVM-Libvirt（1）
大数据及数据挖掘（48）

spark（6）

算法（3）

hadoop（3）

mongodb（5）
Python（6）

python2（2）

python3（0）
linux-unix（72）

glusterrfs（8）

IPC（0）

文件系统（2）

AIX（1）

unix（34）
Java（170）

安全策略（4）

osgi（0）

AjAx（7）
数据库（70）

postgresql（0）

sqlite（0）

Redis(内存数据库（2）

Mysql（7）

Oracle_DB2_Sqlse（56）
Web（34）
网络与运维（19）

监控（3）
软件及系统架构（70）

金融（0）

移动开发（0）

UML（2）
中间件（2）

CICS（0）

Tuxedo（0）
C/C++（6）
PHP（3）
Others（19）

VBA||C#（3）

regExp（4）

Shell_Dos（5）
BPM（6）

JBPM（2）

工作流（4）
程序与人生（29）

Think（5）

Japan（3）
未分配的博文（21）

推荐博文

相关博文

python 科学计算学习一：numpy快速处理数据

分类： Python/Ruby

2016-07-18 17:14:28

1，广播：对形状不同的数组的运算采取的操作。但是这个输入的数组中必须有一个某轴长度为1，或者缺少了一个维度（这个时候会自动的在shape属性前面补上1）。例如：

>>> import numpy as np
>>> a=np.arange(10,50,10).reshape(-1,1)
>>> a.shape
(4, 1)
>>> b=np.arange(0,4)
>>> b
array([0, 1, 2, 3])
>>> b.shape
(4,)
>>> a+b
array([[10, 11, 12, 13],
[20, 21, 22, 23],
[30, 31, 32, 33],
[40, 41, 42, 43]])

2，内积：np.dot(a,b) 就可以来计算a，b的内积，同样的np.inner(a,b)也可以，但是它要求最后一维度是要相同的,np.outer(a,b)则是将数组展平为一维数组再进行计算。

3，求和，平均值，方差：比较简单，分别是np.sum(), np.mean(), np.var(), np.std()(这个是标准差)，关键是在加入axis参数以后要很好的区分；看下面的例子应该就比较清楚了：

求和：

>>> a
array([[6, 7, 1, 6],
[1, 0, 2, 3],
[7, 8, 2, 1]])
>>> np.sum(a)
44
>>> np.sum(a,axis= 0 )
array([14, 15, 5, 10])
>>> np.sum(a,axis= 1 )
array([20, 6, 18])
>>> np.sum(a,axis= -1 )

均值：

>>> a
array([[6, 7, 1, 6],
[1, 0, 2, 3],
[7, 8, 2, 1]])
>>> np.mean(a)
3.6666666666666665
>>> np.mean(a,axis=0)
array([ 4.66666667, 5. , 1.66666667, 3.33333333])

方差：

>>> np.var(a)

7.7222222222222223
>>> np.var(a,axis=0)
array([ 6.88888889, 12.66666667, 0.22222222, 4.22222222])
>>> np.std(a,axis=0)
array([ 2.62466929, 3.55902608, 0.47140452, 2.05480467])

4，最值和排序：最值有np.max(),np.min() 他们都有axis和out（输出）参数, 而通过np.argmax(), np.argmin()可以得到取得最大或最小值时的下标。排序通过np.sort(), 而np.argsort()得到的是排序后的数据原来位置的下标。

>>> a
array([[6, 7, 1, 6],
[1, 0, 2, 3],
[7, 8, 2, 1]])
>>> a.sort()
>>> a
array([[1, 6, 6, 7],
[0, 1, 2, 3],
[1, 2, 7, 8]])
>>> np.sort(a,axis=0)
array([[0, 1, 2, 3],
[1, 2, 6, 7],
[1, 6, 7, 8]])
>>> np.argsort(a,axis=0)
array([[1, 1, 1, 1],
[0, 2, 0, 0],
[2, 0, 2, 2]])

5，统计函数：unique（）保留数组中不同的值，返回两个参数。bincount（）对数组中各个元素出现的次数进行统计，还可以设定相应的权值。

>>> b=np.random.randint(0,5,8)
>>> b
array([2, 3, 3, 0, 1, 4, 2, 4])

>>> np.unique(b)
array([0, 1, 2, 3, 4])

>>> c,s=np.unique(b,return_index=True)
>>> c
array([0, 1, 2, 3, 4])
>>> s
array([3, 4, 0, 1, 5])（元素出现的起始位置）

>>> b
array([2, 3, 3, 0, 1, 4, 2, 4])

>>> np.bincount(b)
array([1, 1, 2, 2, 2]) 分别是0 1 2 3 4的个数；
>>> w=np.random.rand(8)
>>> w
array([ 0.29529445, 0.4554129 , 0.69615963, 0.4766137 , 0.97929591,
0.46069939, 0.76476676, 0.74556715]) 权重值；
>>> np.bincount(b,w)。
array([ 0.4766137 , 0.97929591, 1.06006121, 1.15157254, 1.20626654]) 权重和；

6，掩码数组：表示的是不完整的数据或是含有无效值的数据。

>>> import numpy.ma as ma
>>> b
array([2, 3, 3, 0, 1, 4, 2, 4])
>>> mask=b<3
>>> mx=ma.array(b,mask=mask)
>>> mx
masked_array(data = [-- 3 3 -- -- 4 -- 4],
mask = [ True False False True True False True False],fill_value = 999999)

接下来就可以对这些数据操作了。

阅读(4106) | 评论(0) | 转发(0) |

上一篇：大数据之统计学：箱图（boxplot）

下一篇：virtual(虚函数) vtbl(虚函数表)与vptr(虚函数表指针)

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6