如何将数值数据映射到 Pandas 数据框中的类别/箱中-IT科技

如何将数值数据映射到 Pandas 数据框中的类别/箱中

2025-02-20 09:25:00

admin

原创

摘要：问题描述：我有一个熊猫数据框：它有大约 3m 行。有 3 种类型age_units：Y、D、W，分别表示年、日和周。任何超过 1 岁的个体的年龄单位都是 Y，我想要的第一个分组是 <2 岁，所以我要测试的年龄单位就是 Y...我想创建一个新列AgeRange并填充以下范围：<22 - 1818 -...

问题描述：

我有一个熊猫数据框：

样本熊猫

它有大约 3m 行。有 3 种类型age_units：Y、D、W，分别表示年、日和周。任何超过 1 岁的个体的年龄单位都是 Y，我想要的第一个分组是 <2 岁，所以我要测试的年龄单位就是 Y...

我想创建一个新列AgeRange并填充以下范围：

<2
2 - 18
18 - 35
35 - 65
65 岁以上

所以我写了一个函数

def agerange(values):
    for i in values:
        if complete.Age_units == 'Y':
            if complete.Age > 1 AND < 18 return '2-18'
            elif complete.Age > 17 AND < 35 return '18-35'
            elif complete.Age > 34 AND < 65 return '35-65'
            elif complete.Age > 64 return '65+'
        else return '< 2'

我想如果我将数据框作为一个整体传递，我就会得到我需要的东西，然后可以创建我想要的列，如下所示：

agedetails['age_range'] = ageRange(agedetails)

但是当我尝试运行第一个代码来创建函数时，我得到了：

  File "<ipython-input-124-cf39c7ce66d9>", line 4
    if complete.Age > 1 AND complete.Age < 18 return '2-18'
                          ^
SyntaxError: invalid syntax

显然它不接受 AND - 但我记得在课堂上我听过我可以像这样使用 AND？我肯定搞错了，但正确的做法是什么呢？

因此，在收到该错误后，我甚至不确定传入数据框的方法是否会引发错误。我猜可能是的。在这种情况下 - 我该如何让它也能正常工作？

我正在寻找学习最好的方法，但对我来说最好的方法的一部分是保持简单，即使这意味着分几个步骤完成事情......

解决方案 1：

使用 Pandas 时，应避免逐行操作，因为这些操作通常涉及低效的 Python 级循环。以下是几种替代方案。

熊猫：`pd.cut`

正如@JonClements 所建议的，您可以使用pd.cut它，这样做的好处是您的新列将成为Categorical。

您只需定义您的边界（包括np.inf）和类别名称，然后应用pd.cut到所需的数字列。

bins = [0, 2, 18, 35, 65, np.inf]
names = ['<2', '2-18', '18-35', '35-65', '65+']

df['AgeRange'] = pd.cut(df['Age'], bins, labels=names)

print(df.dtypes)

# Age             int64
# Age_units      object
# AgeRange     category
# dtype: object

NumPy的：`np.digitize`

np.digitize提供了另一种简洁的解决方案。其思路是定义您的边界和名称，创建一个字典，然后将其应用于np.digitize您的 Age 列。最后，使用您的字典来映射您的类别名称。

请注意，对于边界情况，下限用于映射到箱子。

import pandas as pd, numpy as np

df = pd.DataFrame({'Age': [99, 53, 71, 84, 84],
                   'Age_units': ['Y', 'Y', 'Y', 'Y', 'Y']})

bins = [0, 2, 18, 35, 65]
names = ['<2', '2-18', '18-35', '35-65', '65+']

d = dict(enumerate(names, 1))

df['AgeRange'] = np.vectorize(d.get)(np.digitize(df['Age'], bins))

结果

   Age Age_units AgeRange
0   99         Y      65+
1   53         Y    35-65
2   71         Y      65+
3   84         Y      65+
4   84         Y      65+

解决方案 2：

此任务也可以使用 numpy 方法完成。特别是，numpy.select可以在这里使用将数字数据转换为分类数据。它与 OP 中的 if-else 阶梯非常相似；只有条件在一个列表中，返回值在另一个列表中。

import numpy as np
conds = [df['Age']<2, df['Age'].between(2, 18), df['Age'].between(19, 35), df['Age'].between(36, 65)]
names = ['<2', '2-18', '18-35', '35-65', '65+']
df['AgeRange'] = np.select(conds, names[:-1], names[-1])

另一种方法是numpy.searchsorted。事实上，在底层，pd.cut也实现了这个方法。基本思想是找到每个年龄应该插入的位置bins以保持顺序（这本质上就是分箱）并从中选择相应的标签names。

bins = [0, 2, 18, 35, 65, np.inf]
names = np.array(['<2', '2-18', '18-35', '35-65', '65+'])
df['AgeRange'] = names[np.searchsorted(bins, df['Age'])-1]

问题描述：

解决方案 1：

熊猫：pd.cut

NumPy的：np.digitize

结果

解决方案 2：

云端的项目管理软件

熊猫：`pd.cut`

NumPy的：`np.digitize`