通过字典有效地替换熊猫系列中的值
- 2024-12-25 08:50:00
- admin 原创
- 208
问题描述:
如何s
通过字典替换 Pandas 系列中的值d
已被多次询问。
推荐的方法(1、2、3、4)是使用s.replace(d)
,或者偶尔使用,s.map(d)
如果所有系列值都在字典键中找到。
然而,使用性能s.replace
通常不合理地慢,通常比简单的列表理解慢 5-10 倍。
另一种选择s.map(d)
具有良好的性能,但仅当在字典中找到所有键时才推荐使用。
为什么s.replace
这么慢?如何提高性能?
import pandas as pd, numpy as np
df = pd.DataFrame({'A': np.random.randint(0, 1000, 1000000)})
lst = df['A'].values.tolist()
##### TEST 1 #####
d = {i: i+1 for i in range(1000)}
%timeit df['A'].replace(d) # 1.98s
%timeit [d[i] for i in lst] # 134ms
##### TEST 2 #####
d = {i: i+1 for i in range(10)}
%timeit df['A'].replace(d) # 20.1ms
%timeit [d.get(i, i) for i in lst] # 243ms
注意:此问题未标记为重复,因为它寻求的是有关何时针对不同数据集使用不同方法的具体建议。答案中对此有明确说明,而这在其他问题中通常不会涉及。
解决方案 1:
一个简单的解决方案是选择一种依赖于字典键对值的覆盖程度的估计的方法。
一般情况
如果所有值都已映射则使用
df['A'].map(d)
;或df['A'].map(d).fillna(df['A']).astype(int)
如果映射的值 >5%,则使用。
d 中的值很少,例如 < 5%
使用
df['A'].replace(d)
约 5% 的“交叉点”特定于下面的基准测试。
有趣的是,简单的列表理解map
在两种情况下通常表现不佳。
基准测试
import pandas as pd, numpy as np
df = pd.DataFrame({'A': np.random.randint(0, 1000, 1000000)})
lst = df['A'].values.tolist()
##### TEST 1 - Full Map #####
d = {i: i+1 for i in range(1000)}
%timeit df['A'].replace(d) # 1.98s
%timeit df['A'].map(d) # 84.3ms
%timeit [d[i] for i in lst] # 134ms
##### TEST 2 - Partial Map #####
d = {i: i+1 for i in range(10)}
%timeit df['A'].replace(d) # 20.1ms
%timeit df['A'].map(d).fillna(df['A']).astype(int) # 111ms
%timeit [d.get(i, i) for i in lst] # 243ms
解释
它之所以s.replace
如此缓慢是因为它所做的远不止映射字典那么简单。它处理一些边缘情况和可以说是罕见的情况,这些情况通常无论如何都值得更加小心。
replace()
这是的摘录pandasgeneric.py
。
items = list(compat.iteritems(to_replace))
keys, values = zip(*items)
are_mappings = [is_dict_like(v) for v in values]
if any(are_mappings):
# handling of nested dictionaries
else:
to_replace, value = keys, values
return self.replace(to_replace, value, inplace=inplace,
limit=limit, regex=regex)
其中似乎涉及很多步骤:
将字典转换为列表。
遍历列表并检查嵌套字典。
将键和值的迭代器输入到替换函数中。
map()
这可以与中的更精简的代码进行比较pandasseries.py
:
if isinstance(arg, (dict, Series)):
if isinstance(arg, dict):
arg = self._constructor(arg, index=arg.keys())
indexer = arg.index.get_indexer(values)
new_values = algos.take_1d(arg._values, indexer)
相关推荐
热门文章
项目管理软件有哪些?
- 2024年20款好用的项目管理软件推荐,项目管理提效的20个工具和技巧
- 2024年开源项目管理软件有哪些?推荐5款好用的项目管理工具
- 2024年常用的项目管理软件有哪些?推荐这10款国内外好用的项目管理工具
- 项目管理软件有哪些?推荐7款超好用的项目管理工具
- 项目管理软件有哪些最好用?推荐6款好用的项目管理工具
- 项目管理软件哪个最好用?盘点推荐5款好用的项目管理工具
- 项目管理软件排行榜:2024年项目经理必备5款开源项目管理软件汇总
- 项目管理软件有哪些,盘点推荐国内外超好用的7款项目管理工具
- 项目管理必备:盘点2024年13款好用的项目管理软件
- 2024项目管理软件排行榜(10类常用的项目管理工具全推荐)
热门标签
云禅道AD