如何将数值数据映射到 Pandas 数据框中的类别/箱中

2025-02-20 09:25:00
admin
原创
26
摘要:问题描述:我有一个熊猫数据框:它有大约 3m 行。有 3 种类型age_units:Y、D、W,分别表示年、日和周。任何超过 1 岁的个体的年龄单位都是 Y,我想要的第一个分组是 <2 岁,所以我要测试的年龄单位就是 Y...我想创建一个新列AgeRange并填充以下范围:<22 - 1818 -...

问题描述:

我有一个熊猫数据框:

样本熊猫

它有大约 3m 行。有 3 种类型age_units:Y、D、W,分别表示年、日和周。任何超过 1 岁的个体的年龄单位都是 Y,我想要的第一个分组是 <2 岁,所以我要测试的年龄单位就是 Y...

我想创建一个新列AgeRange并填充以下范围:

  • <2

  • 2 - 18

  • 18 - 35

  • 35 - 65

  • 65 岁以上

所以我写了一个函数

def agerange(values):
    for i in values:
        if complete.Age_units == 'Y':
            if complete.Age > 1 AND < 18 return '2-18'
            elif complete.Age > 17 AND < 35 return '18-35'
            elif complete.Age > 34 AND < 65 return '35-65'
            elif complete.Age > 64 return '65+'
        else return '< 2'

我想如果我将数据框作为一个整体传递,我就会得到我需要的东西,然后可以创建我想要的列,如下所示:

agedetails['age_range'] = ageRange(agedetails)

但是当我尝试运行第一个代码来创建函数时,我得到了:

  File "<ipython-input-124-cf39c7ce66d9>", line 4
    if complete.Age > 1 AND complete.Age < 18 return '2-18'
                          ^
SyntaxError: invalid syntax

显然它不接受 AND - 但我记得在课堂上我听过我可以像这样使用 AND?我肯定搞错了,但正确的做法是什么呢?

因此,在收到该错误后,我甚至不确定传入数据框的方法是否会引发错误。我猜可能是的。在这种情况下 - 我该如何让它也能正常工作?

我正在寻找学习最好的方法,但对我来说最好的方法的一部分是保持简单,即使这意味着分几个步骤完成事情......


解决方案 1:

使用 Pandas 时,应避免逐行操作,因为这些操作通常涉及低效的 Python 级循环。以下是几种替代方案。

熊猫:pd.cut

正如@JonClements 所建议的,您可以使用pd.cut它,这样做的好处是您的新列将成为Categorical。

您只需定义您的边界(包括np.inf)和类别名称,然后应用pd.cut到所需的数字列。

bins = [0, 2, 18, 35, 65, np.inf]
names = ['<2', '2-18', '18-35', '35-65', '65+']

df['AgeRange'] = pd.cut(df['Age'], bins, labels=names)

print(df.dtypes)

# Age             int64
# Age_units      object
# AgeRange     category
# dtype: object

NumPy的:np.digitize

np.digitize提供了另一种简洁的解决方案。其思路是定义您的边界和名称,创建一个字典,然后将其应用于np.digitize您的 Age 列。最后,使用您的字典来映射您的类别名称。

请注意,对于边界情况,下限用于映射到箱子。

import pandas as pd, numpy as np

df = pd.DataFrame({'Age': [99, 53, 71, 84, 84],
                   'Age_units': ['Y', 'Y', 'Y', 'Y', 'Y']})

bins = [0, 2, 18, 35, 65]
names = ['<2', '2-18', '18-35', '35-65', '65+']

d = dict(enumerate(names, 1))

df['AgeRange'] = np.vectorize(d.get)(np.digitize(df['Age'], bins))

结果

   Age Age_units AgeRange
0   99         Y      65+
1   53         Y    35-65
2   71         Y      65+
3   84         Y      65+
4   84         Y      65+

解决方案 2:

此任务也可以使用 numpy 方法完成。特别是,numpy.select可以在这里使用将数字数据转换为分类数据。它与 OP 中的 if-else 阶梯非常相似;只有条件在一个列表中,返回值在另一个列表中。

import numpy as np
conds = [df['Age']<2, df['Age'].between(2, 18), df['Age'].between(19, 35), df['Age'].between(36, 65)]
names = ['<2', '2-18', '18-35', '35-65', '65+']
df['AgeRange'] = np.select(conds, names[:-1], names[-1])

另一种方法是numpy.searchsorted。事实上,在底层,pd.cut也实现了这个方法。基本思想是找到每个年龄应该插入的位置bins以保持顺序(这本质上就是分箱)并从 中选择相应的标签names

bins = [0, 2, 18, 35, 65, np.inf]
names = np.array(['<2', '2-18', '18-35', '35-65', '65+'])
df['AgeRange'] = names[np.searchsorted(bins, df['Age'])-1]
相关推荐
  为什么项目管理通常仍然耗时且低效?您是否还在反复更新电子表格、淹没在便利贴中并参加每周更新会议?这确实是耗费时间和精力。借助软件工具的帮助,您可以一目了然地全面了解您的项目。如今,国内外有足够多优秀的项目管理软件可以帮助您掌控每个项目。什么是项目管理软件?项目管理软件是广泛行业用于项目规划、资源分配和调度的软件。它使项...
项目管理软件   1267  
  IPD(Integrated Product Development)即集成产品开发,是一套先进的、成熟的产品开发管理理念、模式和方法。随着市场竞争的日益激烈,企业对于提升产品开发效率、降低成本、提高产品质量的需求愈发迫切,IPD 项目管理咨询市场也迎来了广阔的发展空间。深入探讨 IPD 项目管理咨询的市场需求与发展,...
IPD集成产品开发流程   27  
  IPD(Integrated Product Development)产品开发流程是一套先进的、被广泛应用的产品开发管理体系,它涵盖了从产品概念产生到产品推向市场并持续优化的全过程。通过将市场、研发、生产、销售等多个环节紧密整合,IPD旨在提高产品开发的效率、质量,降低成本,增强企业的市场竞争力。深入了解IPD产品开发...
IPD流程中TR   31  
  IPD(Integrated Product Development)测试流程是确保产品质量、提升研发效率的关键环节。它贯穿于产品从概念到上市的整个生命周期,对企业的成功至关重要。深入理解IPD测试流程的核心要点,有助于企业优化研发过程,打造更具竞争力的产品。以下将详细阐述IPD测试流程的三大核心要点。测试策略规划测试...
华为IPD   26  
  华为作为全球知名的科技企业,其成功背后的管理体系备受关注。IPD(集成产品开发)流程作为华为核心的产品开发管理模式,在创新管理与技术突破方面发挥了至关重要的作用。深入剖析华为 IPD 流程中的创新管理与技术突破,对于众多企业探索自身发展路径具有重要的借鉴意义。IPD 流程概述IPD 流程是一种先进的产品开发管理理念和方...
TR评审   26  
热门文章
项目管理软件有哪些?
云禅道AD
禅道项目管理软件

云端的项目管理软件

尊享禅道项目软件收费版功能

无需维护,随时随地协同办公

内置subversion和git源码管理

每天备份,随时转为私有部署

免费试用