pandas上的一个Timedelta的例子-hmchzb19-ChinaUnix博客

个人简介

Linuxer, ex IBMer. GNU https://hmchzb19.github.io/

文章分类

文章存档

2020年（11）

2019年（15）

2018年（43）

2017年（79）

2016年（79）

2015年（58）

我的朋友

相关博文

pandas上的一个Timedelta的例子

分类： Python/Ruby

2019-05-10 20:58:35

该例子出自pandas-for-everyone一书.
使用了如下的csv文件.

点击(此处)折叠或打开

读入csv文件,将其中的一列赋值给ages,然后shuffle这一列,会发现ages会跟着变化，所以ages只是指向这一列的指针而已。

点击(此处)折叠或打开

In [81]: import numpy as np
In [82]: import pandas as pd
In [83]: import matplotlib.pyplot as plt
In [84]: scientists=pd.read_csv("./gapminder/other_csv/scientists.csv")
In [85]: scientists.shape
Out[85]: (8, 5)
In [86]: scientists.columns
Out[86]: Index(['Name', 'Born', 'Died', 'Age', 'Occupation'], dtype='object')
In [87]: scientists.dtypes
Out[87]:
Name object
Born object
Died object
Age int64
Occupation object
dtype: object
In [88]: ages=scientists['Age']
In [89]: ages
Out[89]:
0 37
1 61
2 90
3 66
4 56
5 45
6 41
7 77
Name: Age, dtype: int64
In [90]: import random
In [91]: random.seed(42)
In [92]: random.shuffle(scientists['Age'])
/usr/lib/python3.7/random.py:278: SettingWithCopyWarning:
A value is trying to be set on a copy of a slice from a DataFrame
See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
x[i], x[j] = x[j], x[i]

然后根据born和died两列创造出新的两列,　类型为datetime64.

点击(此处)折叠或打开

In [93]: born_datetime=pd.to_datetime(scientists['Born'], format="%Y-%m-%d")
In [94]: died_datetime=pd.to_datetime(scientists['Died'], format='%Y-%m-%d')
In [95]: scientists['Born_dt'], scientists['Died_dt']=(born_datetime, died_datetime)
In [96]: scientists.dtypes
Out[96]:
Name object
Born object
Died object
Age int64
Occupation object
Born_dt datetime64[ns]
Died_dt datetime64[ns]
dtype: object
In [97]: scientists.shape
Out[97]: (8, 7)

最后使用得到的两列datetime64的类型做减法，得到timedelta64数据类型，然后将这个类型转化为int.

点击(此处)折叠或打开

#下面两种方法都可以
scientists['age_years_dt']=scientists['age_days_dt'].astype(pd.Timedelta).apply(lambda l: l.days //365)
scientists['age_years_dt']=scientists['age_days_dt'].astype('timedelta64[D]').astype(int) // 365
In [102]: scientists.dtypes
Out[102]:
Name                     object
Born                     object
Died                     object
Age                       int64
Occupation               object
Born_dt          datetime64[ns]
Died_dt          datetime64[ns]
age_days_dt     timedelta64[ns]
age_years_dt              int64
dtype: object

In [103]: scientists['age_years_dt']
Out[103]:
0    37
1    61
2    90
3    66
4    56
5    45
6    41
7    77
Name: age_years_dt, dtype: int64

阅读(2190) | 评论(0) | 转发(0) |

给主人留下些什么吧！~~

感谢所有关心和支持过ChinaUnix的朋友们