获取前一行的值并计算新列 pandas python-IT科技

获取前一行的值并计算新列 pandas python

2025-02-25 09:08:00

admin

原创

摘要：问题描述：有没有办法回顾前一行并计算出一个新变量？所以只要前一行是相同的情况，（先前的更改）-（当前更改）是什么，并将其归因于新列中的前一个“ChangeEvent”？这是我的数据框>>> df ChangeEvent StartEvent case chan...

问题描述：

有没有办法回顾前一行并计算出一个新变量？所以只要前一行是相同的情况，（先前的更改）-（当前更改）是什么，并将其归因于新列中的前一个“ChangeEvent”？

这是我的数据框

>>> df
  ChangeEvent StartEvent  case              change      open  
0    Homeless   Homeless     1 2014-03-08 00:00:00 2014-02-08  
1       other   Homeless     1 2014-04-08 00:00:00 2014-02-08     
2    Homeless   Homeless     1 2014-05-08 00:00:00 2014-02-08      
3        Jail   Homeless     1 2014-06-08 00:00:00 2014-02-08     
4        Jail       Jail     2 2014-06-08 00:00:00 2014-02-08

添加列

Jail  Homeless case
 0    6        1
 0    30       1
 0    0        1

... 等等

这是 df 构建

import pandas as pd
import datetime as DT
d = {'case' : pd.Series([1,1,1,1,2]),
'open' : pd.Series([DT.datetime(2014, 3, 2), DT.datetime(2014, 3, 2),DT.datetime(2014, 3, 2),DT.datetime(2014, 3, 2),DT.datetime(2014, 3, 2)]),
'change' : pd.Series([DT.datetime(2014, 3, 8), DT.datetime(2014, 4, 8),DT.datetime(2014, 5, 8),DT.datetime(2014, 6, 8),DT.datetime(2014, 6, 8)]),
'StartEvent' : pd.Series(['Homeless','Homeless','Homeless','Homeless','Jail']),
'ChangeEvent' : pd.Series(['Homeless','irrelivant','Homeless','Jail','Jail']),
'close' : pd.Series([DT.datetime(2015, 3, 2), DT.datetime(2015, 3, 2),DT.datetime(2015, 3, 2),DT.datetime(2015, 3, 2),DT.datetime(2015, 3, 2)])}
df=pd.DataFrame(d)

解决方案 1：

获取前一个的方法是使用 shift 方法：

In [11]: df1.change.shift(1)
Out[11]:
0          NaT
1   2014-03-08
2   2014-04-08
3   2014-05-08
4   2014-06-08
Name: change, dtype: datetime64[ns]

现在您可以减去这些列。注意：这是 0.13.1 版本（最近对日期时间做了大量工作，因此与旧版本不同）。

In [12]: df1.change.shift(1) - df1.change
Out[12]:
0        NaT
1   -31 days
2   -30 days
3   -31 days
4     0 days
Name: change, dtype: timedelta64[ns]

您可以将其应用于每个案例/组：

In [13]: df.groupby('case')['change'].apply(lambda x: x.shift(1) - x)
Out[13]:
0        NaT
1   -31 days
2   -30 days
3   -31 days
4        NaT
dtype: timedelta64[ns]

解决方案 2：

除了之前的回复外，我还将添加一个解决 NaT / NaN 问题的链接，以便有一个不间断的系列：
如何分别填充 NaT 和 NaN 值

问题描述：

解决方案 1：

解决方案 2：

云端的项目管理软件