使用值列表从 Pandas 数据框中选择行

2024-11-28 08:37:00
admin
原创
6
摘要:问题描述:假设我有以下 Pandas 数据框:df = DataFrame({'A': [5,6,3,4], 'B': [1,2,3,5]}) df A B 0 5 1 1 6 2 2 3 3 3 4 5 我可以根据特定值进行子集:x = df[df['...

问题描述:

假设我有以下 Pandas 数据框:

df = DataFrame({'A': [5,6,3,4], 'B': [1,2,3,5]})
df

     A   B
0    5   1
1    6   2
2    3   3
3    4   5

我可以根据特定值进行子集:

x = df[df['A'] == 3]
x

     A   B
2    3   3

但是我如何根据值列表进行子集化?- 如下所示:

list_of_values = [3, 6]

y = df[df['A'] in list_of_values]

要得到:

     A    B
1    6    2
2    3    3

解决方案 1:

您可以使用isin以下方法:

In [1]: df = pd.DataFrame({'A': [5,6,3,4], 'B': [1,2,3,5]})

In [2]: df
Out[2]:
   A  B
0  5  1
1  6  2
2  3  3
3  4  5

In [3]: df[df['A'].isin([3, 6])]
Out[3]:
   A  B
1  6  2
2  3  3

并获得相反的用途~

In [4]: df[~df['A'].isin([3, 6])]
Out[4]:
   A  B
0  5  1
3  4  5

解决方案 2:

您可以使用方法查询:

df.query('A in [6, 3]')
# df.query('A == [6, 3]')

或者

lst = [6, 3]
df.query('A in @lst')
# df.query('A == @lst')

解决方案 3:

list_of_values不一定是list;它可以是set、、、numpy 数组、pandas 系列、生成器tuple等。并且和仍然可以工作。dictionary`rangeisin()query()`

备注query()

  • 您也可以isin()在内部调用query()

list_of_values = [3, 6]
df.query("A.isin(@list_of_values)")
  • 您可以将值作为local_dict参数传递以进行搜索,如果您不想在函数调用链中预先创建过滤列表,这将很有用:

df.query("A == @lst", local_dict={'lst': [3, 6]})

选择行时的一些常见问题

1.list_of_values是一个范围

如果需要在某个范围内进行过滤,可以使用between()方法 或query()

list_of_values = [3, 4, 5, 6] # a range of values

df[df['A'].between(3, 6)]  # or
df.query('3<=A<=6')

df2.按以下顺序返回list_of_values

在 OP 中, 中的值list_of_values未按 中的顺序出现df。如果要按df它们在 中的出现顺序返回list_of_values,即按 进行“排序” list_of_values,请使用loc

list_of_values = [3, 6]
df.set_index('A').loc[list_of_values].reset_index()

如果要保留旧索引,可以使用以下命令。

list_of_values = [3, 6, 3]
df.reset_index().set_index('A').loc[list_of_values].reset_index().set_index('index').rename_axis(None)

3. 不要使用apply

一般来说,isin()query()是完成这项任务的最佳方法;没有必要apply()。例如,对于f(A) = 2*A - 5列 上的函数Aisin()和都query()工作得更有效率:

df[(2*df['A']-5).isin(list_of_values)]         # or
df[df['A'].mul(2).sub(5).isin(list_of_values)] # or
df.query("A.mul(2).sub(5) in @list_of_values")

4. 选择不在list_of_values

要选择不在的行list_of_values,请对isin()/取反in

df[~df['A'].isin(list_of_values)]
df.query("A not in @list_of_values")  # df.query("A != @list_of_values")

5. 选择包含多列的行list_of_values

如果您想要使用两列(或多列)进行过滤,则可以根据需要使用any()all()减少列( )。axis=1

  1. 选择至少有一个AB位于 的行list_of_values

df[df[['A','B']].isin(list_of_values).any(1)]
df.query("A in @list_of_values or B in @list_of_values")
  1. 选择A和都B位于 的行list_of_values

df[df[['A','B']].isin(list_of_values).all(1)] 
df.query("A in @list_of_values and B in @list_of_values")

解决方案 4:

您可以将您的值存储在列表中,如下所示:

lis = [3,6]

然后

df1 = df[df['A'].isin(lis)]

解决方案 5:

另一种方法;

df.loc[df.apply(lambda x: x.A in [3,6], axis=1)]

与isin方法不同,该方法在确定列表是否包含列的函数时特别有用A。例如,f(A) = 2*A - 5作为函数;

df.loc[df.apply(lambda x: 2*x.A-5 in [3,6], axis=1)]

需要注意的是,这种方法比该isin方法要慢。

解决方案 6:

使用 f-Strings 比较棘手

list_of_values = [3,6]


df.query(f'A in {list_of_values}')

解决方案 7:

上述答案是正确的,但是如果您仍然无法按预期过滤行,请确保两个 DataFrames 的列具有相同的dtype

source = source.astype({1: 'int64'})
to_rem = to_rem.astype({'some col': 'int64'})

works = source[~source[1].isin(to_rem['some col'])]

我花了足够长的时间。

解决方案 8:

就速度而言,可比较的非熊猫解决方案可能是:

filtered_column = set(df.A) - set(list_list_of_values)
相关推荐
  为什么项目管理通常仍然耗时且低效?您是否还在反复更新电子表格、淹没在便利贴中并参加每周更新会议?这确实是耗费时间和精力。借助软件工具的帮助,您可以一目了然地全面了解您的项目。如今,国内外有足够多优秀的项目管理软件可以帮助您掌控每个项目。什么是项目管理软件?项目管理软件是广泛行业用于项目规划、资源分配和调度的软件。它使项...
项目管理软件   642  
  引言在当今快速变化的科技市场中,企业要想保持竞争力,就必须具备高效的产品开发流程。小米作为一家以创新驱动的科技公司,其集成产品开发(IPD)流程在业界颇受关注。其中,技术路线图规划作为IPD流程的核心环节,对于确保产品技术领先、满足市场需求以及实现长期战略目标至关重要。本文将深入探讨小米IPD流程中的技术路线图规划,分...
华为IPD是什么   0  
  在当今快速变化的商业环境中,项目管理的高效执行是企业成功的关键。为了应对日益复杂的产品开发挑战,企业纷纷寻求将产品开发流程(Product Development Process, PDCP)与集成产品开发(Integrated Product Development, IPD)流程相结合的策略,以实现更高效、更协同的...
IPD管理   0  
  在当今竞争激烈的市场环境中,提高客户满意度是企业持续发展和成功的关键。为了实现这一目标,企业需要不断优化其产品开发和管理流程。IPD(Integrated Product Development,集成产品开发)流程图作为一种高效的项目管理工具,能够帮助企业实现跨部门协作、优化资源配置,并最终提升客户满意度。本文将深入探...
IPD流程是谁发明的   0  
  在项目管理领域,集成产品开发(IPD, Integrated Product Development)流程被视为提升项目成功率的关键框架。IPD通过其系统化的方法,将产品开发过程中的各个阶段紧密连接,确保从概念到市场的每一步都经过深思熟虑和高效执行。本文将深入探讨IPD流程的六个核心阶段如何深刻影响项目成功,并为项目管...
IPD流程中CDCP   0  
热门文章
项目管理软件有哪些?
云禅道AD
禅道项目管理软件

云端的项目管理软件

尊享禅道项目软件收费版功能

无需维护,随时随地协同办公

内置subversion和git源码管理

每天备份,随时转为私有部署

免费试用