如何将数值数据映射到 Pandas 数据框中的类别/箱中
- 2025-02-20 09:25:00
- admin 原创
- 26
问题描述:
我有一个熊猫数据框:
它有大约 3m 行。有 3 种类型age_units
:Y、D、W,分别表示年、日和周。任何超过 1 岁的个体的年龄单位都是 Y,我想要的第一个分组是 <2 岁,所以我要测试的年龄单位就是 Y...
我想创建一个新列AgeRange
并填充以下范围:
<2
2 - 18
18 - 35
35 - 65
65 岁以上
所以我写了一个函数
def agerange(values):
for i in values:
if complete.Age_units == 'Y':
if complete.Age > 1 AND < 18 return '2-18'
elif complete.Age > 17 AND < 35 return '18-35'
elif complete.Age > 34 AND < 65 return '35-65'
elif complete.Age > 64 return '65+'
else return '< 2'
我想如果我将数据框作为一个整体传递,我就会得到我需要的东西,然后可以创建我想要的列,如下所示:
agedetails['age_range'] = ageRange(agedetails)
但是当我尝试运行第一个代码来创建函数时,我得到了:
File "<ipython-input-124-cf39c7ce66d9>", line 4
if complete.Age > 1 AND complete.Age < 18 return '2-18'
^
SyntaxError: invalid syntax
显然它不接受 AND - 但我记得在课堂上我听过我可以像这样使用 AND?我肯定搞错了,但正确的做法是什么呢?
因此,在收到该错误后,我甚至不确定传入数据框的方法是否会引发错误。我猜可能是的。在这种情况下 - 我该如何让它也能正常工作?
我正在寻找学习最好的方法,但对我来说最好的方法的一部分是保持简单,即使这意味着分几个步骤完成事情......
解决方案 1:
使用 Pandas 时,应避免逐行操作,因为这些操作通常涉及低效的 Python 级循环。以下是几种替代方案。
熊猫:pd.cut
正如@JonClements 所建议的,您可以使用pd.cut
它,这样做的好处是您的新列将成为Categorical。
您只需定义您的边界(包括np.inf
)和类别名称,然后应用pd.cut
到所需的数字列。
bins = [0, 2, 18, 35, 65, np.inf]
names = ['<2', '2-18', '18-35', '35-65', '65+']
df['AgeRange'] = pd.cut(df['Age'], bins, labels=names)
print(df.dtypes)
# Age int64
# Age_units object
# AgeRange category
# dtype: object
NumPy的:np.digitize
np.digitize
提供了另一种简洁的解决方案。其思路是定义您的边界和名称,创建一个字典,然后将其应用于np.digitize
您的 Age 列。最后,使用您的字典来映射您的类别名称。
请注意,对于边界情况,下限用于映射到箱子。
import pandas as pd, numpy as np
df = pd.DataFrame({'Age': [99, 53, 71, 84, 84],
'Age_units': ['Y', 'Y', 'Y', 'Y', 'Y']})
bins = [0, 2, 18, 35, 65]
names = ['<2', '2-18', '18-35', '35-65', '65+']
d = dict(enumerate(names, 1))
df['AgeRange'] = np.vectorize(d.get)(np.digitize(df['Age'], bins))
结果
Age Age_units AgeRange
0 99 Y 65+
1 53 Y 35-65
2 71 Y 65+
3 84 Y 65+
4 84 Y 65+
解决方案 2:
此任务也可以使用 numpy 方法完成。特别是,numpy.select
可以在这里使用将数字数据转换为分类数据。它与 OP 中的 if-else 阶梯非常相似;只有条件在一个列表中,返回值在另一个列表中。
import numpy as np
conds = [df['Age']<2, df['Age'].between(2, 18), df['Age'].between(19, 35), df['Age'].between(36, 65)]
names = ['<2', '2-18', '18-35', '35-65', '65+']
df['AgeRange'] = np.select(conds, names[:-1], names[-1])
另一种方法是numpy.searchsorted
。事实上,在底层,pd.cut
也实现了这个方法。基本思想是找到每个年龄应该插入的位置bins
以保持顺序(这本质上就是分箱)并从 中选择相应的标签names
。
bins = [0, 2, 18, 35, 65, np.inf]
names = np.array(['<2', '2-18', '18-35', '35-65', '65+'])
df['AgeRange'] = names[np.searchsorted(bins, df['Age'])-1]
- 2024年20款好用的项目管理软件推荐,项目管理提效的20个工具和技巧
- 2024年开源项目管理软件有哪些?推荐5款好用的项目管理工具
- 2024年常用的项目管理软件有哪些?推荐这10款国内外好用的项目管理工具
- 项目管理软件有哪些?推荐7款超好用的项目管理工具
- 项目管理软件有哪些最好用?推荐6款好用的项目管理工具
- 项目管理软件哪个最好用?盘点推荐5款好用的项目管理工具
- 项目管理软件排行榜:2024年项目经理必备5款开源项目管理软件汇总
- 项目管理必备:盘点2024年13款好用的项目管理软件
- 项目管理软件有哪些,盘点推荐国内外超好用的7款项目管理工具
- 2024项目管理软件排行榜(10类常用的项目管理工具全推荐)