Pandas进阶之窗口函数rolling()和expanding()-LaoLiulaoliu-ChinaUnix博客

miraclemiracle.blog.chinaunix.net

首页　| 　博文目录　| 　关于我

laoliulaoliu

博客访问： 4669540
博文数量： 1214
博客积分： 13195
博客等级：上将
技术积分： 9105
用户组：普通用户
注册时间： 2007-01-19 14:41

个人简介

C++,python,热爱算法和机器学习

文章分类

全部博文（1214）

cloud（3）
operation（9）
tornado（4）
mac_os（1）
golang（4）
架构（13）
git（4）
security（29）
shell（1）
macbook（1）
ruby（13）
javascript（15）
design（3）
testing（1）
mac（1）
bigdata（69）
nosql（46）
R（9）
gcj/acm（6）
NLP（10）
小说（3）
matlab（4）
web（44）
java（66）
product（7）
c#（1）
language（4）
machine learning（76）
science（4）
opencourse（2）
windows（3）
search（33）
algorithm（65）
database（51）
compiler（11）
ACE（5）
poem（1）
programming（29）
python（140）
assembly（1）
linux（49）
C++（16）
book（2）
cate（1）
phliosophy（3）
mental（30）
Science fiction（1）
Software（5）
c（23）
network（65）
CS（15）
thinking（10）
BSD（13）
solaris10（2）
life（57）
Debian（16）
economy（7）
Mathematics（57）
OS（8）
ibm（2）
gentoo（32）
未分配的博文（8）

文章存档

2021年（13）

2020年（49）

2019年（14）

2018年（27）

2017年（69）

2016年（100）

2015年（106）

2014年（240）

2013年（5）

2012年（193）

2011年（155）

2010年（93）

2009年（62）

2008年（51）

2007年（37）

我的朋友

一、概念

为了处理数字数据，Pandas提供了几个变体，如滚动，展开和指数移动窗口统计的权重。其中包括总和，均值，中位数，方差，协方差，相关性等；
所谓窗口，就是将某个点的取值扩大到包含这个点的一段区间，用区间来进行判断；
移动窗口就是窗口向一端滑行，默认是从右往左，每次滑行并不是区间整块的滑行，而是一个单位一个单位的滑行；
窗口函数主要用于通过平滑曲线来以图形方式查找数据内的趋势。如果日常数据中有很多变化，并且有很多数据点可用，那么采样和绘图就是一种方法，应用窗口计算并在结果上绘制图形是另一种方法。通过这些方法，可以平滑曲线或趋势。

二、rolling()

1. 参数说明

DataFrame.rolling(window, min_periods=None, center=False, win_type=None, on=None, axis=0, closed=None)

window：表示时间窗的大小，有两种形式：1）使用数值int，则表示观测值的数量，即向前几个数据；2）也可以使用offset类型，这种类型较复杂，使用场景较少，此处暂不做介绍；
min_periods：每个窗口最少包含的观测值数量，小于这个值的窗口结果为NA。值可以是int，默认None。offset情况下，默认为1；
center: 把窗口的标签设置为居中，布尔型，默认False，居右
win_type: 窗口的类型。截取窗的各种函数。字符串类型，默认为None；
on: 可选参数。对于dataframe而言，指定要计算滚动窗口的列。值为列名。
axis: 默认为0，即对列进行计算
closed：定义区间的开闭，支持int类型的window。对于offset类型默认是左开右闭的即默认为right。可以根据情况指定为left、both等。

2. 代码示例

示例中，由于窗口大小为3(window)，前两个元素有空值，第三个元素的值将是n，n-1和n-2元素的平均值。

import pandas as pd import numpy as np

df = pd.DataFrame(np.random.randn(7, 4), index = pd.date_range('1/1/2020', periods=7), columns = ['A', 'B', 'C', 'D']) df A B C D 2020-01-01 -0.103252 -0.378633 -0.689324 -1.150870 2020-01-02 -0.838289 0.036139 -0.481754 -0.006116 2020-01-03 -0.832013 -0.770184 -1.818931 0.253601 2020-01-04 -1.696006 -0.021195 0.772365 0.332447 2020-01-05 -2.136677 1.088825 1.166188 0.140585 2020-01-06 -0.705095 0.709978 1.077941 0.055677 2020-01-07 0.990198 0.764884 0.858504 -0.903039 df.rolling(window=3).mean() A B C D 2020-01-01 NaN NaN NaN NaN 2020-01-02 NaN NaN NaN NaN 2020-01-03 0.079891 -0.714177 -0.453193 0.232669 2020-01-04 -0.479782 -0.513903 -0.631638 0.034099 2020-01-05 -0.574793 -0.532310 -0.544511 -0.535417 2020-01-06 -0.675196 0.421606 -0.214320 -0.463122 2020-01-07 -0.118239 0.637363 -0.270283 -0.653187 df.rolling(window=3, min_periods=1).mean() 设置最少观测值数量为1 A B C D 2020-01-01 -0.103252 -0.378633 -0.689324 -1.150870 2020-01-02 -0.470771 -0.171247 -0.585539 -0.578493 2020-01-03 -0.591185 -0.370893 -0.996670 -0.301128 2020-01-04 -1.122103 -0.251747 -0.509440 0.193311 2020-01-05 -1.554899 0.099149 0.039874 0.242211 2020-01-06 -1.512593 0.592536 1.005498 0.176237 2020-01-07 -0.617191 0.854562 1.034211 -0.235592

3. 常见用法

rolling()函数除了mean()，还支持很多函数，比如：
count() 非空观测值数量
sum() 值的总和
median() 值的算术中值
min() 最小值
max() 最大
std() 贝塞尔修正样本标准差
var() 无偏方差
skew() 样品偏斜度（三阶矩）
kurt() 样品峰度（四阶矩）
quantile() 样本分位数（百分位上的值）
cov() 无偏协方差（二元）
corr() 相关（二进制）
借助 agg ()函数可以快速实现多个聚类函数，并输出结果，同时还可以进行重命名；
代码示例

df2 = pd.DataFrame({ "date": pd.date_range("2018-07-01", periods=7), "amount": [12000, 18000, np.nan, 12000, 9000, 16000, 18000]}) df2
       date     amount 0 2018-07-01 12000.0 1 2018-07-02 18000.0 2 2018-07-03 NaN 3 2018-07-04 12000.0 4 2018-07-05 9000.0 5 2018-07-06 16000.0 6 2018-07-07 18000.0 窗口大小为2 df2.rolling(window=2, on="date").sum() date      amount 0 2018-07-01 NaN 1 2018-07-02 30000.0 2 2018-07-03 NaN 3 2018-07-04 NaN 4 2018-07-05 21000.0 5 2018-07-06 25000.0 6 2018-07-07 34000.0 窗口大小为2，最少观测值数量为1 df2.rolling(window=2, on="date", min_periods=1).sum() date      amount 0 2018-07-01 12000.0 1 2018-07-02 30000.0 2 2018-07-03 18000.0 3 2018-07-04 12000.0 4 2018-07-05 21000.0 5 2018-07-06 25000.0 6 2018-07-07 34000.0 返回多个聚合结果，如sum()、mean() df2.rolling(window=2, min_periods=1)["amount"].agg([np.sum, np.mean]) sum   mean 0 12000.0 12000.0 1 30000.0 15000.0 2 18000.0 18000.0 3 12000.0 12000.0 4 21000.0 10500.0 5 25000.0 12500.0 6 34000.0 17000.0 返回多个聚合结果，并进行重命名
df2.rolling(window=2, min_periods=1)["amount"].agg({"amt_sum": np.sum, "amt_mean": np.mean}) amt_sum amt_mean 0 12000.0 12000.0 1 30000.0 15000.0 2 18000.0 18000.0 3 12000.0 12000.0 4 21000.0 10500.0 5 25000.0 12500.0 6 34000.0 17000.0

4. 延伸用法

通过rolling()函数与聚合函数的拼接，组成新的函数，可以更方便地实现窗口函数的功能；
这种用法，功能强大，代码简单，所有参数的设置基本一致；
列举如下
rolling_count() 计算各个窗口中非NA观测值的数量
rolling_sum() 计算各个移动窗口中的元素之和
rolling_mean() 计算各个移动窗口中元素的均值
rolling_median() 计算各个移动窗口中元素的中位数
rolling_var() 计算各个移动窗口中元素的方差
rolling_std() 计算各个移动窗口中元素的标准差
rolling_min() 计算各个移动窗口中元素的最小值
rolling_max() 计算各个移动窗口中元素的最大值
rolling_corr() 计算各个移动窗口中元素的相关系数
rolling_corr_pairwise() 计算各个移动窗口中配对数据的相关系数
rolling_cov() 计算各个移动窗口中元素的的协方差
rolling_quantile() 计算各个移动窗口中元素的分位数

5. 自定义函数

除了支持聚合函数，通过rolling().apply()方法，还可以在移动窗口上使用自己定义的函数，实现某些特殊功能；
唯一需要满足的是，在数组的每一个片段上，函数必须产生单个值；
代码示例

# 自定义方法：求和后，除以100 df2.rolling(2, min_periods=1)["amount"].apply(lambda x: sum(x)/100, raw=False) 0 120.0 1 300.0 2 NaN 3 NaN 4 210.0 5 250.0 6 340.0

三、expanding()

1. 参数说明

DataFrame.expanding(min_periods = 1，center = False，axis = 0)

expanding()函数的参数，与rolling()函数的参数用法相同；
rolling()函数，是固定窗口大小，进行滑动计算，expanding()函数只设置最小的观测值数量，不固定窗口大小，实现累计计算，即不断扩展；
expanding()函数，类似cumsum()函数的累计求和，其优势在于还可以进行更多的聚类计算；
事实上，当rolling()函数的参数window=len(df)时，实现的效果与expanding()函数是一样的。

2. 代码示例

import pandas as pd import numpy as np
df = pd.DataFrame(np.random.randn(10, 4), index = pd.date_range('1/1/2018', periods=10), columns = ['A', 'B', 'C', 'D']) df A B C D 2018-01-01 -0.349086 -0.225357 -0.108829 1.662773 2018-01-02 1.056407 -0.159644 0.042278 0.298922 2018-01-03 -1.376891 0.112999 -0.719286 0.254892 2018-01-04 0.741323 1.510449 0.615251 -1.896209 2018-01-05 1.305841 0.380900 -0.961663 -0.654108 2018-01-06 -1.079804 -0.883547 0.149659 -0.065931 2018-01-07 0.240168 -0.409613 -0.543655 0.797564 2018-01-08 0.716836 -0.329991 0.271236 -2.138515 2018-01-09 -1.448734 1.261487 0.795663 -1.492216 2018-01-10 -1.212092 -1.039160 1.581169 1.156089 df.expanding(min_periods=2).mean() A B C D 2018-01-01 NaN NaN NaN NaN 2018-01-02 0.353660 -0.192500 -0.033276 0.980848 2018-01-03 -0.223190 -0.090667 -0.261946 0.738863 2018-01-04 0.017938 0.309612 -0.042647 0.080095 2018-01-05 0.275519 0.323869 -0.226450 -0.066746 2018-01-06 0.049632 0.122633 -0.163765 -0.066610 2018-01-07 0.076851 0.046598 -0.218035 0.056843 2018-01-08 0.156849 -0.000475 -0.156876 -0.217576 2018-01-09 -0.021549 0.139743 -0.051038 -0.359203 2018-01-10 -0.140603 0.021852 0.112182 -0.207674 # 判断expanding()的求和结果，与cumsum()结果，相同
result1 = df.expanding(min_periods=1).sum() result2 = df.cumsum() np.allclose(result1, result2) True

四、ewm()

该函数，表示指数加权滑动，使用场景较少，本文暂不做详细介绍，后续用到了，会补充该部分内容。

作者：惑也
链接：
来源：简书
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

阅读(3021) | 评论(0) | 转发(0) |

上一篇：How to use BERT from the Hugging Face transformer library

下一篇：没有了

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们

16024965号-6