使用值列表从 Pandas 数据框中选择行

2024-11-28 08:37:00
admin
原创
146
摘要:问题描述:假设我有以下 Pandas 数据框:df = DataFrame({'A': [5,6,3,4], 'B': [1,2,3,5]}) df A B 0 5 1 1 6 2 2 3 3 3 4 5 我可以根据特定值进行子集:x = df[df['...

问题描述:

假设我有以下 Pandas 数据框:

df = DataFrame({'A': [5,6,3,4], 'B': [1,2,3,5]})
df

     A   B
0    5   1
1    6   2
2    3   3
3    4   5

我可以根据特定值进行子集:

x = df[df['A'] == 3]
x

     A   B
2    3   3

但是我如何根据值列表进行子集化?- 如下所示:

list_of_values = [3, 6]

y = df[df['A'] in list_of_values]

要得到:

     A    B
1    6    2
2    3    3

解决方案 1:

您可以使用isin以下方法:

In [1]: df = pd.DataFrame({'A': [5,6,3,4], 'B': [1,2,3,5]})

In [2]: df
Out[2]:
   A  B
0  5  1
1  6  2
2  3  3
3  4  5

In [3]: df[df['A'].isin([3, 6])]
Out[3]:
   A  B
1  6  2
2  3  3

并获得相反的用途~

In [4]: df[~df['A'].isin([3, 6])]
Out[4]:
   A  B
0  5  1
3  4  5

解决方案 2:

您可以使用方法查询:

df.query('A in [6, 3]')
# df.query('A == [6, 3]')

或者

lst = [6, 3]
df.query('A in @lst')
# df.query('A == @lst')

解决方案 3:

list_of_values不一定是list;它可以是set、、、numpy 数组、pandas 系列、生成器tuple等。并且和仍然可以工作。dictionary`rangeisin()query()`

备注query()

  • 您也可以isin()在内部调用query()

list_of_values = [3, 6]
df.query("A.isin(@list_of_values)")
  • 您可以将值作为local_dict参数传递以进行搜索,如果您不想在函数调用链中预先创建过滤列表,这将很有用:

df.query("A == @lst", local_dict={'lst': [3, 6]})

选择行时的一些常见问题

1.list_of_values是一个范围

如果需要在某个范围内进行过滤,可以使用between()方法 或query()

list_of_values = [3, 4, 5, 6] # a range of values

df[df['A'].between(3, 6)]  # or
df.query('3<=A<=6')

df2.按以下顺序返回list_of_values

在 OP 中, 中的值list_of_values未按 中的顺序出现df。如果要按df它们在 中的出现顺序返回list_of_values,即按 进行“排序” list_of_values,请使用loc

list_of_values = [3, 6]
df.set_index('A').loc[list_of_values].reset_index()

如果要保留旧索引,可以使用以下命令。

list_of_values = [3, 6, 3]
df.reset_index().set_index('A').loc[list_of_values].reset_index().set_index('index').rename_axis(None)

3. 不要使用apply

一般来说,isin()query()是完成这项任务的最佳方法;没有必要apply()。例如,对于f(A) = 2*A - 5列 上的函数Aisin()和都query()工作得更有效率:

df[(2*df['A']-5).isin(list_of_values)]         # or
df[df['A'].mul(2).sub(5).isin(list_of_values)] # or
df.query("A.mul(2).sub(5) in @list_of_values")

4. 选择不在list_of_values

要选择不在的行list_of_values,请对isin()/取反in

df[~df['A'].isin(list_of_values)]
df.query("A not in @list_of_values")  # df.query("A != @list_of_values")

5. 选择包含多列的行list_of_values

如果您想要使用两列(或多列)进行过滤,则可以根据需要使用any()all()减少列( )。axis=1

  1. 选择至少有一个AB位于 的行list_of_values

df[df[['A','B']].isin(list_of_values).any(1)]
df.query("A in @list_of_values or B in @list_of_values")
  1. 选择A和都B位于 的行list_of_values

df[df[['A','B']].isin(list_of_values).all(1)] 
df.query("A in @list_of_values and B in @list_of_values")

解决方案 4:

您可以将您的值存储在列表中,如下所示:

lis = [3,6]

然后

df1 = df[df['A'].isin(lis)]

解决方案 5:

另一种方法;

df.loc[df.apply(lambda x: x.A in [3,6], axis=1)]

与isin方法不同,该方法在确定列表是否包含列的函数时特别有用A。例如,f(A) = 2*A - 5作为函数;

df.loc[df.apply(lambda x: 2*x.A-5 in [3,6], axis=1)]

需要注意的是,这种方法比该isin方法要慢。

解决方案 6:

使用 f-Strings 比较棘手

list_of_values = [3,6]


df.query(f'A in {list_of_values}')

解决方案 7:

上述答案是正确的,但是如果您仍然无法按预期过滤行,请确保两个 DataFrames 的列具有相同的dtype

source = source.astype({1: 'int64'})
to_rem = to_rem.astype({'some col': 'int64'})

works = source[~source[1].isin(to_rem['some col'])]

我花了足够长的时间。

解决方案 8:

就速度而言,可比较的非熊猫解决方案可能是:

filtered_column = set(df.A) - set(list_list_of_values)
相关推荐
  为什么项目管理通常仍然耗时且低效?您是否还在反复更新电子表格、淹没在便利贴中并参加每周更新会议?这确实是耗费时间和精力。借助软件工具的帮助,您可以一目了然地全面了解您的项目。如今,国内外有足够多优秀的项目管理软件可以帮助您掌控每个项目。什么是项目管理软件?项目管理软件是广泛行业用于项目规划、资源分配和调度的软件。它使项...
项目管理软件   1265  
  IPD(Integrated Product Development)即集成产品开发,是一套先进的、成熟的产品开发管理理念、模式和方法。随着市场竞争的日益激烈,企业对于提升产品开发效率、降低成本、提高产品质量的需求愈发迫切,IPD 项目管理咨询市场也迎来了广阔的发展空间。深入探讨 IPD 项目管理咨询的市场需求与发展,...
IPD集成产品开发流程   17  
  IPD(Integrated Product Development)产品开发流程是一套先进的、被广泛应用的产品开发管理体系,它涵盖了从产品概念产生到产品推向市场并持续优化的全过程。通过将市场、研发、生产、销售等多个环节紧密整合,IPD旨在提高产品开发的效率、质量,降低成本,增强企业的市场竞争力。深入了解IPD产品开发...
IPD流程中TR   21  
  IPD(Integrated Product Development)测试流程是确保产品质量、提升研发效率的关键环节。它贯穿于产品从概念到上市的整个生命周期,对企业的成功至关重要。深入理解IPD测试流程的核心要点,有助于企业优化研发过程,打造更具竞争力的产品。以下将详细阐述IPD测试流程的三大核心要点。测试策略规划测试...
华为IPD   18  
  华为作为全球知名的科技企业,其成功背后的管理体系备受关注。IPD(集成产品开发)流程作为华为核心的产品开发管理模式,在创新管理与技术突破方面发挥了至关重要的作用。深入剖析华为 IPD 流程中的创新管理与技术突破,对于众多企业探索自身发展路径具有重要的借鉴意义。IPD 流程概述IPD 流程是一种先进的产品开发管理理念和方...
TR评审   16  
热门文章
项目管理软件有哪些?
云禅道AD
禅道项目管理软件

云端的项目管理软件

尊享禅道项目软件收费版功能

无需维护,随时随地协同办公

内置subversion和git源码管理

每天备份,随时转为私有部署

免费试用