我应该如何在 Python 中逐行读取文件?
- 2025-02-21 08:48:00
- admin 原创
- 21
问题描述:
在史前时期(Python 1.4),我们做过:
fp = open('filename.txt')
while 1:
line = fp.readline()
if not line:
break
print(line)
在 Python 2.1 之后,我们这样做:
for line in open('filename.txt').xreadlines():
print(line)
在 Python 2.3 中我们有了方便的迭代器协议,可以这样做:
for line in open('filename.txt'):
print(line)
我见过一些使用更详细的例子:
with open('filename.txt') as fp:
for line in fp:
print(line)
这是今后的首选方法吗?
[编辑] 我知道 with 语句确保关闭文件。为什么文件对象的迭代器协议中没有包含它?
解决方案 1:
之所以选择以下方案,原因只有一个:
with open('filename.txt') as fp:
for line in fp:
print(line)
我们都被 CPython 相对确定性的垃圾收集引用计数方案宠坏了。with
如果 Python 的其他假设实现使用其他方案来回收内存,则它们不一定能在不使用块的情况下“足够快地”关闭文件。
在这样的实现中,如果您的代码打开文件的速度比垃圾收集器对孤立文件句柄调用终结器的速度快,您可能会收到来自操作系统的“打开的文件过多”错误。通常的解决方法是立即触发 GC,但这是一种令人讨厌的黑客行为,每个可能遇到错误的函数(包括库中的函数)都必须这样做。真是一场噩梦。
或者您也可以只使用with
块。
奖励问题
(如果只对问题的客观方面感兴趣,请立即停止阅读。)
为什么它没有包含在文件对象的迭代器协议中?
这是一个关于 API 设计的主观问题,因此我的主观答案分为两部分。
从直觉上讲,这感觉不对,因为它使迭代器协议执行两件独立的事情——遍历行并关闭文件句柄——而让一个看似简单的函数执行两个操作通常不是一个好主意。在这种情况下,感觉尤其糟糕,因为迭代器以准函数、基于值的方式与文件内容相关,但管理文件句柄是一项完全独立的任务。将两者无形地压缩为一个操作,对于阅读代码的人来说是令人惊讶的,并且使得推断程序行为变得更加困难。
其他语言基本上也得出了同样的结论。Haskell 曾短暂尝试过所谓的“惰性 IO”,它允许您迭代文件并在到达流末尾时自动关闭它,但如今几乎普遍不鼓励在 Haskell 中使用惰性 IO,Haskell 用户大多已转向更明确的资源管理,例如 Conduit,其行为更像with
Python 中的块。
从技术层面上讲,您可能想在 Python 中使用文件句柄执行某些操作,但如果迭代关闭了文件句柄,这些操作将无法正常工作。例如,假设我需要对文件进行两次迭代:
with open('filename.txt') as fp:
for line in fp:
...
fp.seek(0)
for line in fp:
...
虽然这是一个不太常见的用例,但请考虑这样一个事实:我可能只是将底部的三行代码添加到原来包含顶部三行代码的现有代码库中。如果迭代关闭了文件,我就无法做到这一点。因此,将迭代和资源管理分开可以更轻松地将代码块组合成更大、可运行的 Python 程序。
可组合性是语言或 API 最重要的可用性特性之一。
解决方案 2:
是的,
with open('filename.txt') as fp:
for line in fp:
print(line)
是正确的做法。
它并不会更冗长,而是更安全。
解决方案 3:
如果你对多余的一行不感兴趣,你可以使用如下包装函数:
def with_iter(iterable):
with iterable as iter:
for item in iter:
yield item
for line in with_iter(open('...')):
...
在 Python 3.3 中,该yield from
语句会使其更短:
def with_iter(iterable):
with iterable as iter:
yield from iter
解决方案 4:
这里还有一个fileinput模块可以提供帮助。用法如下:
import fileinput
for line in fileinput.input(files=['filename.txt'], encoding="utf-8"):
process(line)
但是,如果您不传递它,它会非常有用,因为如果前者为空,files=
它会默认为或 stdin。sys.argv[1:]
- 2025年20款好用的项目管理软件推荐,项目管理提效的20个工具和技巧
- 2024年开源项目管理软件有哪些?推荐5款好用的项目管理工具
- 2024年常用的项目管理软件有哪些?推荐这10款国内外好用的项目管理工具
- 项目管理软件有哪些?推荐7款超好用的项目管理工具
- 项目管理软件有哪些最好用?推荐6款好用的项目管理工具
- 项目管理软件哪个最好用?盘点推荐5款好用的项目管理工具
- 项目管理软件排行榜:2024年项目经理必备5款开源项目管理软件汇总
- 项目管理必备:盘点2024年13款好用的项目管理软件
- 项目管理软件有哪些,盘点推荐国内外超好用的7款项目管理工具
- 2024项目管理软件排行榜(10类常用的项目管理工具全推荐)