如何从熊猫数据框中删除方括号
- 2025-03-25 08:46:00
- admin 原创
- 22
问题描述:
list
在应用于 pandas 数据框的列后,我得到了方括号中的值(更像) str.findall()
。如何删除方括号?
print df
id value
1 [63]
2 [65]
3 [64]
4 [53]
5 [13]
6 [34]
解决方案 1:
如果列中的值value
有类型list
,则使用:
df['value'] = df['value'].str[0]
或者:
df['value'] = df['value'].str.get(0)
文檔。
样本:
df = pd.DataFrame({'value':[[63],[65],[64]]})
print (df)
value
0 [63]
1 [65]
2 [64]
#check type if index 0 exist
print (type(df.loc[0, 'value']))
<class 'list'>
#check type generally, index can be `DatetimeIndex`, `FloatIndex`...
print (type(df.loc[df.index[0], 'value']))
<class 'list'>
df['value'] = df['value'].str.get(0)
print (df)
value
0 63
1 65
2 64
如果strings
使用str.strip
,然后通过以下方式转换为数字astype
:
df['value'] = df['value'].str.strip('[]').astype(int)
样本:
df = pd.DataFrame({'value':['[63]','[65]','[64]']})
print (df)
value
0 [63]
1 [65]
2 [64]
#check type if index 0 exist
print (type(df.loc[0, 'value']))
<class 'str'>
#check type generally, index can be `DatetimeIndex`, `FloatIndex`...
print (type(df.loc[df.index[0], 'value']))
<class 'str'>
df['value'] = df['value'].str.strip('[]').astype(int)
print (df)
value
0 63
1 65
2 64
解决方案 2:
如果是字符串,我们也可以使用 string.replace 方法
import pandas as pd
df =pd.DataFrame({'value':['[63]','[65]','[64]']})
print(df)
value
0 [63]
1 [65]
2 [64]
df['value'] = df['value'].apply(lambda x: x.replace('[','').replace(']',''))
#convert the string columns to int
df['value'] = df['value'].astype(int)
#output
print(df)
value
0 63
1 65
2 64
print(df.dtypes)
value int32
dtype: object
解决方案 3:
如果一个列表中有多个成员,jezrael 的“列值中的值具有类型列表”解决方案将不起作用。您可以使用 qaiser 和 sumit 的“lambda”解决方案。但在应用该方法之前,请将其转换为“str”。完整代码:
import pandas as pd
df = pd.DataFrame({'value':[[70,63],[12,65],[64,39]]}).astype(str) #list converted into string, so we can use str.replace
df=df['value'].apply(lambda x: x.replace("[","").replace("]",""))
输出:
0 70, 63
1 12, 65
2 64, 39
Name: value, dtype: object
解决方案 4:
从数据框列中删除[
和字符的通用解决方案是]
string
df['value'] = df['value'].str.replace(r'[][]', '', regex=True) # one by one
df['value'] = df['value'].str.replace(r'[][]+', '', regex=True) # by chunks of one or more [ or ] chars
是正则表达式中的字符类[][]
,与或字符匹配。使正则表达式引擎按顺序匹配这些字符一次或多次。]
`[`+
参见正则表达式演示。
但是,在本例中,方括号标记了结果字符串列表Series.str.findall
。很明显,您想要提取一个,即列值中的第一个匹配项。
当你需要第一个匹配项时,使用
Series.str.extract
当您需要所有匹配项时,使用
Series.str.findall
因此,在这种情况下,为了避免遇到的麻烦,您可以使用
df['value'] = df['source_column'].str.extract(r'my regex with one set of (parentheses)')
请注意,str.extract
至少需要一组捕获括号才能真正起作用并返回一个值(str.findall
即使没有捕获组也能起作用)。
请注意,如果您要使用 获得多个匹配项findall
,并且想要单个字符串作为输出,则可以进行str.join
以下匹配:
df['value'] = df['source_column'].str.findall(pattern).str.join(', ')
解决方案 5:
如果一个列表中有多个成员,jezrael 给出的答案将不起作用。在这种情况下,replace 方法有效。
df['column_name'] = df['column_name'].apply(lambda x: x.replace('[','').replace(']',''))
如果列表中的成员不是整数,则必须转换它们。
df['column_name'] = df['column_name'].astype(int)
相关推荐
热门文章
项目管理软件有哪些?
热门标签
云禅道AD