首页 > 代码库 > Pandas日期数据处理:如何按日期筛选、显示及统计数据
Pandas日期数据处理:如何按日期筛选、显示及统计数据
前言
pandas有着强大的日期数据处理功能,本期我们来了解下pandas处理日期数据的一些基本功能,主要包括以下三个方面:
- 按日期筛选数据
- 按日期显示数据
- 按日期统计数据
运行环境为 windows系统,64位,python3.5。
1 读取并整理数据
- 首先引入pandas库
import pandas as pd
- 从csv文件中读取数据
df = pd.read_csv(‘date.csv‘, header=None)print(df.head(2))
0 10 2013-10-24 31 2013-10-25 4
- 整理数据
df.columns = [‘date‘,‘number‘]df[‘date‘] = pd.to_datetime(df[‘date‘]) #将数据类型转换为日期类型df = df.set_index(‘date‘) # 将date设置为indexprint(df.head(2))print(df.tail(2))print(df.shape)
numberdate 2013-10-24 32013-10-25 4 numberdate 2017-02-14 62017-02-22 6(425, 1)
- df的行数一共是425行。
查看Dataframe的数据类型
print(type(df))print(df.index)print(type(df.index))
<class ‘pandas.core.frame.DataFrame‘>DatetimeIndex([‘2013-10-24‘, ‘2013-10-25‘, ‘2013-10-29‘, ‘2013-10-30‘, ‘2013-11-04‘, ‘2013-11-06‘, ‘2013-11-08‘, ‘2013-11-12‘, ‘2013-11-14‘, ‘2013-11-25‘, ... ‘2017-01-03‘, ‘2017-01-07‘, ‘2017-01-14‘, ‘2017-01-17‘, ‘2017-01-23‘, ‘2017-01-25‘, ‘2017-01-26‘, ‘2017-02-07‘, ‘2017-02-14‘, ‘2017-02-22‘], dtype=‘datetime64[ns]‘, name=‘date‘, length=425, freq=None)<class ‘pandas.tseries.index.DatetimeIndex‘>
构造Series类型数据
s = pd.Series(df[‘number‘], index=df.index)print(type(s))s.head(2)
<class ‘pandas.core.series.Series‘>date2013-10-24 32013-10-25 4Name: number, dtype: int64
2 按日期筛选数据
按年度获取数据
print(‘---------获取2013年的数据-----------‘)print(df[‘2013‘].head(2)) # 获取2013年的数据print(df[‘2013‘].tail(2)) # 获取2013年的数据
---------获取2013年的数据----------- numberdate 2013-10-24 32013-10-25 4 numberdate 2013-12-27 22013-12-30 2
获取2016至2017年的数据
print(‘---------获取2016至2017年的数据-----------‘)print(df[‘2016‘:‘2017‘].head(2)) #获取2016至2017年的数据print(df[‘2016‘:‘2017‘].tail(2)) #获取2016至2017年的数据
---------获取2016至2017年的数据----------- numberdate 2016-01-04 42016-01-07 6 numberdate 2017-02-14 62017-02-22 6
获取某月的数据
print(‘---------获取某月的数据-----------‘)print(df[‘2013-11‘]) # 获取某月的数据
---------获取某月的数据----------- numberdate 2013-11-04 12013-11-06 32013-11-08 12013-11-12 52013-11-14 22013-11-25 12013-11-29 1
获取具体某天的数据
- 请注意dataframe类型的数据,获取具体某天的数据时,跟series是有些差异的,详细情况如下述代码所示:
# 按日期筛选数据print(‘---------获取具体某天的数据-----------‘)# 获取具体某天的数据print(s[‘2013-11-06‘])# 获取具体某天的数据,用datafrme直接选取某天时会报错,而series的数据就没有问题# print(df[‘2013-11-06‘])#可以考虑用区间来获取某天的数据print(df[‘2013-11-06‘:‘2013-11-06‘])
---------获取具体某天的数据-----------3 numberdate 2013-11-06 3
- dataframe的truncate函数可以获取某个时期之前或之后的数据,或者某个时间区间的数据
- 但一般建议直接用切片(slice),这样更为直观,方便
# dataframe的truncate函数可以获取某个时期之前或之后的数据,或者某个时间区间的数据# 但一般建议直接用切片(slice),这样更为直观,方便print(‘---------获取某个时期之前或之后的数据-----------‘)print(‘--------after------------‘)print(df.truncate(after = ‘2013-11‘))print(‘--------before------------‘)print(df.truncate(before=‘2017-02‘))
---------获取某个时期之前或之后的数据-------------------after------------ numberdate 2013-10-24 32013-10-25 42013-10-29 22013-10-30 1--------before------------ numberdate 2017-02-07 82017-02-14 62017-02-22 6
3 按日期显示数据
3.1 to_period()方法
- 请注意df.index的数据类型是DatetimeIndex;
- df_peirod的数据类型是PeriodIndex
按月显示,但不统计
df_period = df.to_period(‘M‘) #按月显示,但不统计print(type(df_period))print(type(df_period.index))# 请注意df.index的数据类型是DatetimeIndex;# df_peirod的数据类型是PeriodIndexprint(df_period.head())
<class ‘pandas.core.frame.DataFrame‘><class ‘pandas.tseries.period.PeriodIndex‘> numberdate 2013-10 32013-10 42013-10 22013-10 12013-11 1
按季度显示,但不统计
print(df.to_period(‘Q‘).head()) #按季度显示,但不统计
numberdate 2013Q4 32013Q4 42013Q4 22013Q4 12013Q4 1
按年度显示,但不统计
print(df.to_period(‘A‘).head()) #按年度显示,但不统计
numberdate 2013 32013 42013 22013 12013 1
3.2 asfreq()方法
按年度频率显示
df_period.index.asfreq(‘A‘) # ‘A‘默认是‘A-DEC‘,其他如‘A-JAN‘
PeriodIndex([‘2013‘, ‘2013‘, ‘2013‘, ‘2013‘, ‘2013‘, ‘2013‘, ‘2013‘, ‘2013‘, ‘2013‘, ‘2013‘, ... ‘2017‘, ‘2017‘, ‘2017‘, ‘2017‘, ‘2017‘, ‘2017‘, ‘2017‘, ‘2017‘, ‘2017‘, ‘2017‘], dtype=‘period[A-DEC]‘, name=‘date‘, length=425, freq=‘A-DEC‘)
df_period.index.asfreq(‘A-JAN‘) # ‘A‘默认是‘A-DEC‘,其他如‘A-JAN‘
PeriodIndex([‘2014‘, ‘2014‘, ‘2014‘, ‘2014‘, ‘2014‘, ‘2014‘, ‘2014‘, ‘2014‘, ‘2014‘, ‘2014‘, ... ‘2017‘, ‘2017‘, ‘2017‘, ‘2017‘, ‘2017‘, ‘2017‘, ‘2017‘, ‘2018‘, ‘2018‘, ‘2018‘], dtype=‘period[A-JAN]‘, name=‘date‘, length=425, freq=‘A-JAN‘)
- 按年度频率在不同情形下的显示,可参考下图所示:
按季度频率显示
df_period.index.asfreq(‘Q‘) # ‘Q‘默认是‘Q-DEC‘,其他如“Q-SEP”,“Q-FEB”
PeriodIndex([‘2013Q4‘, ‘2013Q4‘, ‘2013Q4‘, ‘2013Q4‘, ‘2013Q4‘, ‘2013Q4‘, ‘2013Q4‘, ‘2013Q4‘, ‘2013Q4‘, ‘2013Q4‘, ... ‘2017Q1‘, ‘2017Q1‘, ‘2017Q1‘, ‘2017Q1‘, ‘2017Q1‘, ‘2017Q1‘, ‘2017Q1‘, ‘2017Q1‘, ‘2017Q1‘, ‘2017Q1‘], dtype=‘period[Q-DEC]‘, name=‘date‘, length=425, freq=‘Q-DEC‘)
df_period.index.asfreq(‘Q-SEP‘) # 可以显示不同的季度财年,“Q-SEP”,“Q-FEB”# df_period.index = df_period.index.asfreq(‘Q-DEC‘) # 可以显示不同的季度财年,“Q-SEP”,“Q-FEB”# print(df_period.head())
PeriodIndex([‘2014Q1‘, ‘2014Q1‘, ‘2014Q1‘, ‘2014Q1‘, ‘2014Q1‘, ‘2014Q1‘, ‘2014Q1‘, ‘2014Q1‘, ‘2014Q1‘, ‘2014Q1‘, ... ‘2017Q2‘, ‘2017Q2‘, ‘2017Q2‘, ‘2017Q2‘, ‘2017Q2‘, ‘2017Q2‘, ‘2017Q2‘, ‘2017Q2‘, ‘2017Q2‘, ‘2017Q2‘], dtype=‘period[Q-SEP]‘, name=‘date‘, length=425, freq=‘Q-SEP‘)
- 按季度频率在不同情形下的显示,可参考下图所示:
按月度频率显示
df_period.index.asfreq(‘M‘) # 按月份显示
PeriodIndex([‘2013-10‘, ‘2013-10‘, ‘2013-10‘, ‘2013-10‘, ‘2013-11‘, ‘2013-11‘, ‘2013-11‘, ‘2013-11‘, ‘2013-11‘, ‘2013-11‘, ... ‘2017-01‘, ‘2017-01‘, ‘2017-01‘, ‘2017-01‘, ‘2017-01‘, ‘2017-01‘, ‘2017-01‘, ‘2017-02‘, ‘2017-02‘, ‘2017-02‘], dtype=‘period[M]‘, name=‘date‘, length=425, freq=‘M‘)
按工作日显示
- method 1
df_period.index.asfreq(‘B‘, how=‘start‘) # 按工作日期显示
PeriodIndex([‘2013-10-01‘, ‘2013-10-01‘, ‘2013-10-01‘, ‘2013-10-01‘, ‘2013-11-01‘, ‘2013-11-01‘, ‘2013-11-01‘, ‘2013-11-01‘, ‘2013-11-01‘, ‘2013-11-01‘, ... ‘2017-01-02‘, ‘2017-01-02‘, ‘2017-01-02‘, ‘2017-01-02‘, ‘2017-01-02‘, ‘2017-01-02‘, ‘2017-01-02‘, ‘2017-02-01‘, ‘2017-02-01‘, ‘2017-02-01‘], dtype=‘period[B]‘, name=‘date‘, length=425, freq=‘B‘)
- method 2
df_period.index.asfreq(‘B‘, how=‘end‘) # 按工作日期显示
PeriodIndex([‘2013-10-31‘, ‘2013-10-31‘, ‘2013-10-31‘, ‘2013-10-31‘, ‘2013-11-29‘, ‘2013-11-29‘, ‘2013-11-29‘, ‘2013-11-29‘, ‘2013-11-29‘, ‘2013-11-29‘, ... ‘2017-01-31‘, ‘2017-01-31‘, ‘2017-01-31‘, ‘2017-01-31‘, ‘2017-01-31‘, ‘2017-01-31‘, ‘2017-01-31‘, ‘2017-02-28‘, ‘2017-02-28‘, ‘2017-02-28‘], dtype=‘period[B]‘, name=‘date‘, length=425, freq=‘B‘)
4 按日期统计数据
4.1按日期统计数据
按周统计数据
print(df.resample(‘w‘).sum().head())# “w”,week
numberdate 2013-10-27 7.02013-11-03 3.02013-11-10 5.02013-11-17 7.02013-11-24 NaN
按月统计数据
print(df.resample(‘M‘).sum().head())# "MS"是每个月第一天为开始日期, "M"是每个月最后一天
numberdate 2013-10-31 102013-11-30 142013-12-31 272014-01-31 162014-02-28 4
按季度统计数据
print(df.resample(‘Q‘).sum().head())# "QS"是每个季度第一天为开始日期, "Q"是每个季度最后一天
numberdate 2013-12-31 512014-03-31 732014-06-30 962014-09-30 1362014-12-31 148
按年统计数据
print(df.resample(‘AS‘).sum())# "AS"是每年第一天为开始日期, "A是每年最后一天
numberdate 2013-01-01 512014-01-01 4532015-01-01 7432016-01-01 15522017-01-01 92
- 关于日期的类型,按参考下图所示来选择合适的分期频率:
4.2 按日期统计后,按年或季度或月份显示
按年统计并显示
print(df.resample(‘AS‘).sum().to_period(‘A‘))# 按年统计并显示
numberdate 2013 512014 4532015 7432016 15522017 92
按季度统计并显示
print(df.resample(‘Q‘).sum().to_period(‘Q‘).head())# 按季度统计并显示
numberdate 2013Q4 512014Q1 732014Q2 962014Q3 1362014Q4 148
按月度统计并显示
print(df.resample(‘M‘).sum().to_period(‘M‘).head())# 按月度统计并显示
numberdate 2013-10 102013-11 142013-12 272014-01 162014-02 4
更多精彩内容请关注微信公众号:
“Python数据之道”
?
Pandas日期数据处理:如何按日期筛选、显示及统计数据
声明:以上内容来自用户投稿及互联网公开渠道收集整理发布,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任,若内容有误或涉及侵权可进行投诉: 投诉/举报 工作人员会在5个工作日内联系你,一经查实,本站将立刻删除涉嫌侵权内容。