如何使用pandas的resample重采样

2024-11-26 技术教程

这篇文章主要讲解了如何使用pandas的resample重采样，内容清晰明了，对此有兴趣的小伙伴可以学习一下，相信大家阅读完之后会有帮助。

Pandas中的resample，重新采样，是对原样本重新处理的一个方法，是一个对常规时间序列数据重新采样和频率转换的便捷的方法。

降采样：高频数据到低频数据

升采样：低频数据到高频数据

主要函数：resample()（pandas对象都会有这个方法）

resample方法的参数

参数说明freq表示重采样频率，例如‘M'、‘5min'，Second(15)how='mean'用于产生聚合值的函数名或数组函数，例如‘mean'、‘ohlc'、np.max等，默认是‘mean'，其他常用的值由：‘first'、‘last'、‘median'、‘max'、‘min'axis=0默认是纵轴，横轴设置axis=1fill_method = None升采样时如何插值，比如‘ffill'、‘bfill'等closed = ‘right'在降采样时，各时间段的哪一段是闭合的，‘right'或‘left'，默认‘right'label= ‘right'在降采样时，如何设置聚合值的标签，例如，9：30-9：35会被标记成9：30还是9：35,默认9：35loffset = None面元标签的时间校正值，比如‘-1s'或Second(-1)用于将聚合标签调早1秒limit=None在向前或向后填充时，允许填充的最大时期数kind = None聚合到时期（‘period'）或时间戳（‘timestamp'），默认聚合到时间序列的索引类型convention = None当重采样时期时，将低频率转换到高频率所采用的约定（start或end）。默认‘end'

首先创建一个Series，采样频率为一分钟。

>>> index = pd.date_range('1/1/2000', periods=9, freq='T')>>> series = pd.Series(range(9), index=index)>>> series2000-01-01 00:00:00 02000-01-01 00:01:00 12000-01-01 00:02:00 22000-01-01 00:03:00 32000-01-01 00:04:00 42000-01-01 00:05:00 52000-01-01 00:06:00 62000-01-01 00:07:00 72000-01-01 00:08:00 8Freq: T, dtype: int64

降低采样频率为三分钟

>>> series.resample('3T').sum()2000-01-01 00:00:00 32000-01-01 00:03:00 122000-01-01 00:06:00 21Freq: 3T, dtype: int64

降低采样频率为三分钟，但是每个标签使用right来代替left。请注意，bucket中值的用作标签。

>>> series.resample('3T', label='right').sum()2000-01-01 00:03:00 32000-01-01 00:06:00 122000-01-01 00:09:00 21Freq: 3T, dtype: int64

降低采样频率为三分钟，但是关闭right区间。

>>> series.resample('3T', label='right', closed='right').sum()2000-01-01 00:00:00 02000-01-01 00:03:00 62000-01-01 00:06:00 152000-01-01 00:09:00 15Freq: 3T, dtype: int64

增加采样频率到30秒

>>> series.resample('30S').asfreq()[0:5] #select first 5 rows2000-01-01 00:00:00 02000-01-01 00:00:30 NaN2000-01-01 00:01:00 12000-01-01 00:01:30 NaN2000-01-01 00:02:00 2Freq: 30S, dtype: float64

增加采样频率到30S,使用pad方法填充nan值。

>>> series.resample('30S').pad()[0:5]2000-01-01 00:00:00 02000-01-01 00:00:30 02000-01-01 00:01:00 12000-01-01 00:01:30 12000-01-01 00:02:00 2Freq: 30S, dtype: int64

增加采样频率到30S,使用bfill方法填充nan值。

>>> series.resample('30S').bfill()[0:5]2000-01-01 00:00:00 02000-01-01 00:00:30 12000-01-01 00:01:00 12000-01-01 00:01:30 22000-01-01 00:02:00 2Freq: 30S, dtype: int64

通过apply运行一个自定义函数

>>> def custom_resampler(array_like):... return np.sum(array_like)+5>>> series.resample('3T').apply(custom_resampler)2000-01-01 00:00:00 82000-01-01 00:03:00 172000-01-01 00:06:00 26Freq: 3T, dtype: int64

看完上述内容，是不是对如何使用pandas的resample重采样有进一步的了解，如果还想学习更多内容，欢迎关注亿速云行业资讯频道。