如何重置 Pandas 数据框中的索引?

2025-01-13 08:53:00
admin
原创
116
摘要:问题描述:我有一个数据框,我从中删除了一些行。结果,我得到了一个数据框,其中的索引类似于[1,5,6,10,11],我想将其重置为[0,1,2,3,4]。我该怎么做?以下似乎有效:df = df.reset_index() del df['index'] 以下操作无效:df = df.reindex() 解决...

问题描述:

我有一个数据框,我从中删除了一些行。结果,我得到了一个数据框,其中的索引类似于[1,5,6,10,11],我想将其重置为[0,1,2,3,4]。我该怎么做?


以下似乎有效:

df = df.reset_index()
del df['index']

以下操作无效:

df = df.reindex()

解决方案 1:

DataFrame.reset_index就是您要找的内容。如果您不想将其保存为列,请执行以下操作:

df = df.reset_index(drop=True)

如果您不想重新分配:

df.reset_index(drop=True, inplace=True)

解决方案 2:

另一个解决方案是分配RangeIndexrange

df.index = pd.RangeIndex(len(df.index))

df.index = range(len(df.index))

速度更快:

df = pd.DataFrame({'a':[8,7], 'c':[2,4]}, index=[7,8])
df = pd.concat([df]*10000)
print (df.head())

In [298]: %timeit df1 = df.reset_index(drop=True)
The slowest run took 7.26 times longer than the fastest. This could mean that an intermediate result is being cached.
10000 loops, best of 3: 105 µs per loop

In [299]: %timeit df.index = pd.RangeIndex(len(df.index))
The slowest run took 15.05 times longer than the fastest. This could mean that an intermediate result is being cached.
100000 loops, best of 3: 7.84 µs per loop

In [300]: %timeit df.index = range(len(df.index))
The slowest run took 7.10 times longer than the fastest. This could mean that an intermediate result is being cached.
100000 loops, best of 3: 14.2 µs per loop

解决方案 3:

data1.reset_index(inplace=True)

解决方案 4:

df.reset_index(drop=True)有效地用默认的 RangeIndex 替换索引。执行相同操作的另一种方法是直接使用分配新索引set_axis()(我相信这是 OP 尝试的reindex)。因此,以下两个返回相同的输出:

df1 = df.set_axis(range(len(df)))

df2 = df.reset_index(drop=True)

请注意,pandas 中大多数删除/修改行的方法/函数(例如drop_duplicates()、、等)都有参数,当传递 True 时,它​​会在单个函数调用中将索引重置为 RangeIndex。因此,如果您要删除sort_values()/添加数据框中的行,请留意此参数。示例:dropna()`pd.concat()`ignore_index

df.dropna().reset_index(drop=True)    # <--- instead of this

df.dropna(ignore_index=True)          # <--- use this

这样,您inplace也可以使用参数。

df1 = df.dropna().reset_index(drop=True)     # <--- must assign to dataframe
df.dropna(ignore_index=True, inplace=True)   # <--- `df` modified in-place

如果您使用groupby并希望将索引替换为默认的 RangeIndex,则在同一个函数调用中,当传递 False 时,参数会将索引重置为 RangeIndex。因此,不要使用 ,as_index而要使用。df.groupby('col1').mean().reset_index()`df.groupby('col1', as_index=False).mean()`

相关推荐
  政府信创国产化的10大政策解读一、信创国产化的背景与意义信创国产化,即信息技术应用创新国产化,是当前中国信息技术领域的一个重要发展方向。其核心在于通过自主研发和创新,实现信息技术应用的自主可控,减少对外部技术的依赖,并规避潜在的技术制裁和风险。随着全球信息技术竞争的加剧,以及某些国家对中国在科技领域的打压,信创国产化显...
工程项目管理   2379  
  为什么项目管理通常仍然耗时且低效?您是否还在反复更新电子表格、淹没在便利贴中并参加每周更新会议?这确实是耗费时间和精力。借助软件工具的帮助,您可以一目了然地全面了解您的项目。如今,国内外有足够多优秀的项目管理软件可以帮助您掌控每个项目。什么是项目管理软件?项目管理软件是广泛行业用于项目规划、资源分配和调度的软件。它使项...
项目管理软件   1510  
  PLM(产品生命周期管理)系统在企业项目管理中扮演着至关重要的角色,它能够整合产品从概念设计到退役的全流程信息,提升协同效率,降低成本。然而,项目范围蔓延是项目管理过程中常见且棘手的问题,在PLM系统环境下也不例外。范围蔓延可能导致项目进度延迟、成本超支、质量下降等一系列不良后果,严重影响项目的成功交付。因此,如何在P...
plm项目经理是做什么   16  
  PLM(产品生命周期管理)系统在现代企业的产品研发与管理过程中扮演着至关重要的角色。它不仅仅是一个管理产品数据的工具,更能在利益相关者分析以及沟通矩阵设计方面提供强大的支持。通过合理运用PLM系统,企业能够更好地识别、理解和管理与产品相关的各类利益相关者,构建高效的沟通机制,从而提升产品开发的效率与质量,增强企业的市场...
plm是什么   20  
  PLM(产品生命周期管理)项目管理对于企业产品的全生命周期规划、执行与监控至关重要。在项目推进过程中,监控进度偏差是确保项目按时、按质量完成的关键环节。五维健康检查指标体系为有效监控PLM项目进度偏差提供了全面且系统的方法,涵盖了项目的多个关键维度,有助于及时发现问题并采取针对性措施。需求维度:精准把握项目基石需求维度...
plm项目管理软件   18  
热门文章
项目管理软件有哪些?
曾咪二维码

扫码咨询,免费领取项目管理大礼包!

云禅道AD
禅道项目管理软件

云端的项目管理软件

尊享禅道项目软件收费版功能

无需维护,随时随地协同办公

内置subversion和git源码管理

每天备份,随时转为私有部署

免费试用