如何用 pandas DataFrame 中的前一个或下一个值替换 NaN？-IT科技

如何用 pandas DataFrame 中的前一个或下一个值替换 NaN？

2024-12-09 08:30:00

admin

原创

140

摘要：问题描述：假设我有一个包含一些 s 的 DataFrame NaN：>>> import pandas as pd >>> df = pd.DataFrame([[1, 2, 3], [4, None, None], [None, None, 9]]) >>&g...

问题描述：

假设我有一个包含一些 s 的 DataFrame NaN：

>>> import pandas as pd
>>> df = pd.DataFrame([[1, 2, 3], [4, None, None], [None, None, 9]])
>>> df
    0   1   2
0   1   2   3
1   4 NaN NaN
2 NaN NaN   9

我需要做的是将 every 替换NaN为其上方同一列中的第一个非NaN值。假设第一行永远不会包含NaN。因此，对于前面的示例，结果将是

我可以逐列、逐元素地循环遍历整个 DataFrame 并直接设置值，但是有没有一种简单的（最好是无循环）方法来实现这一点？

解决方案 1：

fillna您可以在 DataFrame 上使用该方法并将该方法指定为ffill（前向填充）：

>>> df = pd.DataFrame([[1, 2, 3], [4, None, None], [None, None, 9]])
>>> df.fillna(method='ffill')
   0  1  2
0  1  2  3
1  4  2  3
2  4  2  9

此方法...

将最后一个有效观察结果传播到下一个有效观察结果

反过来说，也是有bfill方法的。

此方法不会就地修改 DataFrame - 您需要将返回的 DataFrame 重新绑定到变量，或者指定inplace=True：

df.fillna(method='ffill', inplace=True)

解决方案 2：

接受的答案是完美的。我有一个相关但略有不同的情况，我必须向前填写，但只能在组内填写。如果有人有同样的需求，请知道 fillna 适用于 DataFrameGroupBy 对象。

>>> example = pd.DataFrame({'number':[0,1,2,nan,4,nan,6,7,8,9],'name':list('aaabbbcccc')})
>>> example
  name  number
0    a     0.0
1    a     1.0
2    a     2.0
3    b     NaN
4    b     4.0
5    b     NaN
6    c     6.0
7    c     7.0
8    c     8.0
9    c     9.0
>>> example.groupby('name')['number'].fillna(method='ffill') # fill in row 5 but not row 3
0    0.0
1    1.0
2    2.0
3    NaN
4    4.0
5    4.0
6    6.0
7    7.0
8    8.0
9    9.0
Name: number, dtype: float64

解决方案 3：

在尝试此解决方案时，我注意到的一件事是，如果数组的开头或结尾有 N/A，则 ffill 和 bfill 不太起作用。你需要两者。

In [224]: df = pd.DataFrame([None, 1, 2, 3, None, 4, 5, 6, None])

In [225]: df.ffill()
Out[225]:
     0
0  NaN
1  1.0
...
7  6.0
8  6.0

In [226]: df.bfill()
Out[226]:
     0
0  1.0
1  1.0
...
7  6.0
8  NaN

In [227]: df.bfill().ffill()
Out[227]:
     0
0  1.0
1  1.0
...
7  6.0
8  6.0

解决方案 4：

您可以使用pandas.DataFrame.fillna选项method='ffill'。'ffill'代表“向前填充”，并将向前传播最后一个有效观察值。另一种方法是以'bfill'相同的方式工作，但反向进行。

import pandas as pd

df = pd.DataFrame([[1, 2, 3], [4, None, None], [None, None, 9]])
df = df.fillna(method='ffill')

print(df)
#   0  1  2
#0  1  2  3
#1  4  2  3
#2  4  2  9

还有一个直接的同义词函数，pandas.DataFrame.ffill以使事情变得更简单。

解决方案 5：

只有一个列版本

使用最后一个有效值填充 NAN

df[column_name].fillna(method='ffill', inplace=True)

用下一个有效值填充 NAN

df[column_name].fillna(method='backfill', inplace=True)

解决方案 6：

只是同意ffill方法，但一个额外的信息是，您可以使用关键字参数限制前向填充limit。

>>> import pandas as pd    
>>> df = pd.DataFrame([[1, 2, 3], [None, None, 6], [None, None, 9]])

>>> df
     0    1   2
0  1.0  2.0   3
1  NaN  NaN   6
2  NaN  NaN   9

>>> df[1].fillna(method='ffill', inplace=True)
>>> df
     0    1    2
0  1.0  2.0    3
1  NaN  2.0    6
2  NaN  2.0    9

现在有了limit关键字参数

>>> df[0].fillna(method='ffill', limit=1, inplace=True)

>>> df
     0    1  2
0  1.0  2.0  3
1  1.0  2.0  6
2  NaN  2.0  9

解决方案 7：

您可以使用它fillna来删除或替换 NaN 值。

NaN移除

import pandas as pd

df = pd.DataFrame([[1, 2, 3], [4, None, None], [None, None, 9]])

df.fillna(method='ffill')
     0    1    2
0  1.0  2.0  3.0
1  4.0  2.0  3.0
2  4.0  2.0  9.0

NaN替换

df.fillna(0) # 0 means What Value you want to replace 
     0    1    2
0  1.0  2.0  3.0
1  4.0  0.0  0.0
2  0.0  0.0  9.0

参考pandas.DataFrame.fillna

解决方案 8：

ffill现在有自己的方法pd.DataFrame.ffill

df.ffill()

     0    1    2
0  1.0  2.0  3.0
1  4.0  2.0  3.0
2  4.0  2.0  9.0

解决方案 9：

还有pandas.Interpolate，我认为它提供了更多的控制权

import pandas as pd
df = pd.DataFrame([[1, 2, 3], [4, None, None], [None, None, 9]])

df=df.interpolate(method="pad",limit=None, downcast="infer") #downcast keeps dtype as int 
print(df)  

   0  1  2
0  1  2  3
1  4  2  3
2  4  2  9

解决方案 10：

在我的例子中，我们有来自不同设备的时间序列，但有些设备在某个时间段内无法发送任何值。因此，我们应该为每个设备和时间段创建 NA 值，然后执行 fillna。

df = pd.DataFrame([["device1", 1, 'first val of device1'], ["device2", 2, 'first val of device2'], ["device3", 3, 'first val of device3']])
df.pivot(index=1, columns=0, values=2).fillna(method='ffill').unstack().reset_index(name='value')

结果：

        0   1   value
0   device1     1   first val of device1
1   device1     2   first val of device1
2   device1     3   first val of device1
3   device2     1   None
4   device2     2   first val of device2
5   device2     3   first val of device2
6   device3     1   None
7   device3     2   None
8   device3     3   first val of device3