将 DataFrame 列类型从字符串转换为日期时间
- 2024-12-04 08:56:00
- admin 原创
- 159
问题描述:
如何将 DataFrame 字符串列(dd/mm/yyyy格式)转换为 datetime dtype?
解决方案 1:
最简单的方法是使用to_datetime
:
df['col'] = pd.to_datetime(df['col'])
它还dayfirst
为欧洲时代提供了一个论据(但请注意这并不严格)。
实际操作如下:
In [11]: pd.to_datetime(pd.Series(['05/23/2005']))
Out[11]:
0 2005-05-23 00:00:00
dtype: datetime64[ns]
您可以传递特定的格式:
In [12]: pd.to_datetime(pd.Series(['05/23/2005']), format="%m/%d/%Y")
Out[12]:
0 2005-05-23
dtype: datetime64[ns]
解决方案 2:
如果您的日期列是格式为“2017-01-01”的字符串,则可以使用 pandas astype 将其转换为日期时间。
df['date'] = df['date'].astype('datetime64[ns]')
或者使用 datetime64[D] 如果你想要天精度而不是纳秒
print(type(df['date'].iloc[0]))
产量
<class 'pandas._libs.tslib.Timestamp'>
与使用 pandas.to_datetime 时相同
您可以尝试使用“%Y-%m-%d”以外的其他格式,但至少这是可行的。
解决方案 3:
如果您想指定棘手的格式,可以使用以下命令:
df['date_col'] = pd.to_datetime(df['date_col'], format='%d/%m/%Y')
更多详细信息请参见format
此处:
Python 2 https://docs.python.org/2/library/datetime.html#strftime-strptime-behavior
Python 3 https://docs.python.org/3.7/library/datetime.html#strftime-strptime-behavior
解决方案 4:
如果您的日期混合了多种格式,请不要忘记设置infer_datetime_format=True
以使生活更轻松。
df['date'] = pd.to_datetime(df['date'], infer_datetime_format=True)
来源:pd.to_datetime
或者如果您想要一种定制的方法:
def autoconvert_datetime(value):
formats = ['%m/%d/%Y', '%m-%d-%y'] # formats to try
result_format = '%d-%m-%Y' # output format
for dt_format in formats:
try:
dt_obj = datetime.strptime(value, dt_format)
return dt_obj.strftime(result_format)
except Exception as e: # throws exception when format doesn't match
pass
return value # let it be if it doesn't match
df['date'] = df['date'].apply(autoconvert_datetime)
解决方案 5:
多个日期时间列
如果您想将多个字符串列转换为日期时间,那么使用apply()
会很有用。
df[['date1', 'date2']] = df[['date1', 'date2']].apply(pd.to_datetime)
您可以将参数传递给to_datetime
kwargs。
df[['start_date', 'end_date']] = df[['start_date', 'end_date']].apply(pd.to_datetime, format="%m/%d/%Y")
传递给apply
而不指定axis
,仍会将值转换为每个列 的向量。apply
这里需要 ,因为pd.to_datetime
只能在单个列上调用 。如果必须在多个列上调用它,则选项是使用显式for-loop
,或将其传递给apply
。另一方面,如果您在列上调用pd.to_datetime
使用(例如,则不会被矢量化,应避免使用。apply
`df['date'].apply(pd.to_datetime))`
使用format=
加速
如果列包含时间部分,并且您知道日期时间/时间的格式,那么明确传递格式将显著加快转换速度。但如果列只有日期,则几乎没有任何区别。在我的项目中,对于包含 500 万行的列,差异很大:~2.5 分钟 vs 6 秒。
事实证明,明确指定格式大约快 25 倍。以下运行时图显示,根据是否传递格式,性能存在巨大差距。
用于生成图表的代码:
import perfplot
import random
mdYHM = range(1, 13), range(1, 29), range(2000, 2024), range(24), range(60)
perfplot.show(
kernels=[lambda x: pd.to_datetime(x), lambda x: pd.to_datetime(x, format='%m/%d/%Y %H:%M')],
labels=['pd.to_datetime(x)', "pd.to_datetime(x, format='%m/%d/%Y %H:%M')"],
n_range=[2**k for k in range(19)],
setup=lambda n: pd.Series([f"{m}/{d}/{Y} {H}:{M}"
for m,d,Y,H,M in zip(*[random.choices(e, k=n) for e in mdYHM])]),
equality_check=pd.Series.equals,
xlabel='len(df)'
)
解决方案 6:
尝试这个解决方案:
改变
'2022–12–31 00:00:00' to '2022–12–31 00:00:01'
然后运行此代码:
pandas.to_datetime(pandas.Series(['2022–12–31 00:00:01']))
输出:
2022–12–31 00:00:01
解决方案 7:
print(df1.shape)
(638765, 95)
%timeit df1['Datetime'] = pd.to_datetime(df1['Date']+" "+df1['HOUR'])
473 ms ± 8.33 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)
%timeit df1['Datetime'] = pd.to_datetime(df1['Date']+" "+df1['HOUR'], format='mixed')
688 ms ± 3.14 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)
%timeit df1['Datetime'] = pd.to_datetime(df1['Date']+" "+df1['HOUR'], format='%Y-%m-%d %H:%M:%S')
470 ms ± 7.31 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)