将 Pandas 列转换为日期时间
- 2024-11-21 08:33:00
- admin 原创
- 6
问题描述:
我在 pandas DataFrame 中有一个字段以字符串格式导入。
它应该是一个日期时间变量。如何将其转换为日期时间列,然后根据日期进行过滤?
例子:
raw_data = pd.DataFrame({'Mycol': ['05SEP2014:00:00:00.000']})
解决方案 1:
使用该to_datetime
函数,指定与您的数据匹配的格式。
df['Mycol'] = pd.to_datetime(df['Mycol'], format='%d%b%Y:%H:%M:%S.%f')
解决方案 2:
如果有多个列需要转换,您可以执行以下操作:
df[["col1", "col2", "col3"]] = df[["col1", "col2", "col3"]].apply(pd.to_datetime)
解决方案 3:
编辑:建议使用pd.to_datetime()
而不是这个,因为.apply()
通常比较慢。
可以使用DataFrame方法.apply()
对Mycol中的值进行操作:
>>> df = pd.DataFrame(['05SEP2014:00:00:00.000'], columns=['Mycol'])
>>> df
Mycol
0 05SEP2014:00:00:00.000
>>> import datetime as dt
>>> df['Mycol'] = df['Mycol'].apply(lambda x:
... dt.datetime.strptime(x, '%d%b%Y:%H:%M:%S.%f'))
>>> df
Mycol
0 2014-09-05
解决方案 4:
使用 pandasto_datetime
函数将列解析为 DateTime。此外,通过使用infer_datetime_format=True
,它将自动检测格式并将提到的列转换为 DateTime。
import pandas as pd
raw_data['Mycol'] = pd.to_datetime(raw_data['Mycol'], infer_datetime_format=True)
解决方案 5:
节省时间:
raw_data['Mycol'] = pd.to_datetime(raw_data['Mycol'])
解决方案 6:
设置正确的format=
比让熊猫发现要快得多1
长话短说,像chrisb 的帖子format=
中那样从一开始就传递正确的格式比让 pandas 找出格式要快得多,尤其是当格式包含时间组件时。对于大于 10k 行的数据帧,运行时间差异很大(快约 25 倍,所以我们说的是几分钟 vs 几秒钟)。所有有效的格式选项都可以在https://strftime.org/找到。
errors='coerce'
有用
如果某些行的格式不正确或根本不是日期时间,则errors=
参数非常有用,以便您可以转换有效行并稍后处理包含无效值的行。
df['date'] = pd.to_datetime(
df['date'], format='%d%b%Y:%H:%M:%S.%f', errors='coerce')
# for multiple columns
df[['start', 'end']] = df[['start', 'end']].apply(
pd.to_datetime, format='%d%b%Y:%H:%M:%S.%f', errors='coerce')
沉默SettingWithCopyWarning
顺便提一下,如果您收到此警告,则意味着您的数据框可能是通过过滤另一个数据框创建的。启用写时复制,您就可以开始了。(有关更多信息,请参阅此帖子)。
pd.set_option('copy_on_write', True)
df['date'] = pd.to_datetime(df['date'], format='%d%b%Y:%H:%M:%S.%f')
1用于生成 timeit 测试图的代码。
import perfplot
from random import choices
from datetime import datetime
mdYHMSf = range(1,13), range(1,29), range(2000,2024), range(24), *[range(60)]*2, range(1000)
perfplot.show(
kernels=[lambda x: pd.to_datetime(x),
lambda x: pd.to_datetime(x, format='%m/%d/%Y %H:%M:%S.%f'),
lambda x: pd.to_datetime(x, infer_datetime_format=True),
lambda s: s.apply(lambda x: datetime.strptime(x, '%m/%d/%Y %H:%M:%S.%f'))],
labels=["pd.to_datetime(df['date'])",
"pd.to_datetime(df['date'], format='%m/%d/%Y %H:%M:%S.%f')",
"pd.to_datetime(df['date'], infer_datetime_format=True)",
"df['date'].apply(lambda x: datetime.strptime(x, '%m/%d/%Y %H:%M:%S.%f'))"],
n_range=[2**k for k in range(20)],
setup=lambda n: pd.Series([f"{m}/{d}/{Y} {H}:{M}:{S}.{f}"
for m,d,Y,H,M,S,f in zip(*[choices(e, k=n) for e in mdYHMSf])]),
equality_check=pd.Series.equals,
xlabel='len(df)'
)
如果列包含多种格式,请参阅将混合格式字符串的列转换为日期时间 Dtype。
解决方案 7:
就像我们将对象数据类型转换为浮点数或整数一样,使用astype()。
raw_data['Mycol'] = raw_data['Mycol'].astype('datetime64[ns]')
相关推荐
热门文章
项目管理软件有哪些?
- 2024年20款好用的项目管理软件推荐,项目管理提效的20个工具和技巧
- 2024年开源项目管理软件有哪些?推荐5款好用的项目管理工具
- 项目管理软件有哪些?推荐7款超好用的项目管理工具
- 项目管理软件哪个最好用?盘点推荐5款好用的项目管理工具
- 项目管理软件有哪些最好用?推荐6款好用的项目管理工具
- 项目管理软件有哪些,盘点推荐国内外超好用的7款项目管理工具
- 2024项目管理软件排行榜(10类常用的项目管理工具全推荐)
- 项目管理软件排行榜:2024年项目经理必备5款开源项目管理软件汇总
- 2024年常用的项目管理软件有哪些?推荐这10款国内外好用的项目管理工具
- 项目管理必备:盘点2024年13款好用的项目管理软件
热门标签
云禅道AD