Pandas 使用什么规则来生成视图和副本？-IT科技

Pandas 使用什么规则来生成视图和副本？

2025-01-07 08:45:00

admin

原创

摘要：问题描述：在决定数据框中的选择是原始数据框的副本还是原始数据的视图时，我对 Pandas 使用的规则感到困惑。例如，如果我有df = pd.DataFrame(np.random.randn(8,8), columns=list('ABCDEFGH'), index=range(1,9)) 我理解 aquer...

问题描述：

在决定数据框中的选择是原始数据框的副本还是原始数据的视图时，我对 Pandas 使用的规则感到困惑。

例如，如果我有

df = pd.DataFrame(np.random.randn(8,8), columns=list('ABCDEFGH'), index=range(1,9))

我理解 aquery返回一个副本，所以类似

foo = df.query('2 < index <= 5')
foo.loc[:,'E'] = 40

对原始数据框没有影响。df我还了解标量或命名切片会返回一个视图，因此对这些切片的分配，例如

df.iloc[3] = 70

或者

df.ix[1,'B':'E'] = 222

会改变df。但是当遇到更复杂的情况时，我就不知所措了。例如，

df[df.C <= df.B] = 7654321

变化df，但

df[df.C <= df.B].ix[:,'B':'E']

没有。

Pandas 使用的简单规则是否是我遗漏的？在这些特定情况下发生了什么；特别是，如何更改满足特定查询的数据框中的所有值（或值的子集）（正如我在上面的最后一个例子中尝试做的那样）？

注意：这与这个问题不同；我已阅读文档，但并未从中得到启发。我也已阅读了有关此主题的“相关”问题，但我仍然不明白 Pandas 使用的简单规则，以及如何应用它（例如）修改满足特定查询的数据框中的值（或值的子集）。

解决方案 1：

以下是规则，后续将覆盖：

所有操作都会生成副本
如果inplace=True提供，它将就地修改；只有一些操作支持此功能
设置的索引器，例如.loc/.iloc/.iat/.at将就地设置。
获取单一类型对象的索引器几乎总是视图（根据内存布局，它可能不是，这就是为什么它不可靠）。这主要是为了提高效率。（上面的例子是.query；这将始终返回一个副本，因为它由评估numexpr）
获取多类型对象的索引器始终是一个副本。

你的例子chained indexing

df[df.C <= df.B].loc[:,'B':'E']

不能保证一定有效（因此你永远不应该这样做）。

应该这样做：

df.loc[df.C <= df.B, 'B':'E']

因为这样更快并且总是有效

链式索引是 2 个独立的 Python 操作，因此无法被 Pandas 可靠地拦截（您经常会得到一个SettingWithCopyWarning，但这也不是 100% 可检测的）。您指出的开发文档提供了更完整的解释。

解决方案 2：

自 pandas 1.5.0 起，pandas 具有写入时复制 (CoW)模式，该模式使任何从另一个数据框/系列派生的数据框/系列都表现得像视图上的副本。启用该模式后，仅当数据与另一个数据框/系列共享时才会创建副本。禁用 CoW 后，切片等操作会创建一个视图（如果更改了新数据框，则会意外更改原始视图），但使用 CoW 时，会创建一个副本。

pd.options.mode.copy_on_write = False   # disable CoW (this is the default as of pandas 2.0)
df = pd.DataFrame({'A': range(4), 'B': list('abcd')})

df1 = df.iloc[:4]                       # view
df1.iloc[0] = 100
df.equals(df1)                          # True <--- df changes together with df1



pd.options.mode.copy_on_write = True    # enable CoW (this is planned to be the default by pandas 3.0)
df = pd.DataFrame({'A': range(4), 'B': list('abcd')})

df1 = df.iloc[:4]                       # copy because data is shared
df1.iloc[0] = 100
df.equals(df1)                          # False <--- df doesn't change when df1 changes

一个结果是，使用 CoW 时 pandas 操作速度更快。在下面的示例中，在第一种情况下（禁用 CoW 时），所有中间步骤都会创建副本，而在后一种情况下（启用 CoW 时），仅在分配时创建副本（所有中间步骤都在视图上）。您可以看到因此存在运行时差异（在后一种情况下，数据没有被不必要地复制）。

df = pd.DataFrame({'A': range(1_000_000), 'B': range(1_000_000)})

%%timeit
with pd.option_context('mode.copy_on_write', False):  # disable CoW in a context manager
    df1 = df.add_prefix('col ').set_index('col A').rename_axis('index col').reset_index()
# 30.5 ms ± 561 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


%%timeit
with pd.option_context('mode.copy_on_write', True):   # enable CoW in a context manager
    df2 = df.add_prefix('col ').set_index('col A').rename_axis('index col').reset_index()
# 18 ms ± 513 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)

问题描述：

解决方案 1：

解决方案 2：

云端的项目管理软件