我应该如何在 Python 中逐行读取文件?

2025-02-21 08:48:00
admin
原创
21
摘要:问题描述:在史前时期(Python 1.4),我们做过:fp = open('filename.txt') while 1: line = fp.readline() if not line: break print(line) 在 Python 2.1 之后,我们这样...

问题描述:

在史前时期(Python 1.4),我们做过:

fp = open('filename.txt')
while 1:
    line = fp.readline()
    if not line:
        break
    print(line)

在 Python 2.1 之后,我们这样做:

for line in open('filename.txt').xreadlines():
    print(line)

在 Python 2.3 中我们有了方便的迭代器协议,可以这样做:

for line in open('filename.txt'):
    print(line)

我见过一些使用更详细的例子:

with open('filename.txt') as fp:
    for line in fp:
        print(line)

这是今后的首选方法吗?

[编辑] 我知道 with 语句确保关闭文件。为什么文件对象的迭代器协议中没有包含它?


解决方案 1:

之所以选择以下方案,原因只有一个:

with open('filename.txt') as fp:
    for line in fp:
        print(line)

我们都被 CPython 相对确定性的垃圾收集引用计数方案宠坏了。with如果 Python 的其他假设实现使用其他方案来回收内存,则它们不一定能在不使用块的情况下“足够快地”关闭文件。

在这样的实现中,如果您的代码打开文件的速度比垃圾收集器对孤立文件句柄调用终结器的速度快,您可能会收到来自操作系统的“打开的文件过多”错误。通常的解决方法是立即触发 GC,但这是一种令人讨厌的黑客行为,每个可能遇到错误的函数(包括库中的函数)都必须这样做。真是一场噩梦。

或者您也可以只使用with块。

奖励问题

(如果只对问题的客观方面感兴趣,请立即停止阅读。)

为什么它没有包含在文件对象的迭代器协议中?

这是一个关于 API 设计的主观问题,因此我的主观答案分为两部分。

从直觉上讲,这感觉不对,因为它使迭代器协议执行两件独立的事情——遍历行关闭文件句柄——而让一个看似简单的函数执行两个操作通常不是一个好主意。在这种情况下,感觉尤其糟糕,因为迭代器以准函数、基于值的方式与文件内容相关,但管理文件句柄是一项完全独立的任务。将两者无形地压缩为一个操作,对于阅读代码的人来说是令人惊讶的,并且使得推断程序行为变得更加困难。

其他语言基本上也得出了同样的结论。Haskell 曾短暂尝试过所谓的“惰性 IO”,它允许您迭代文件并在到达流末尾时自动关闭它,但如今几乎普遍不鼓励在 Haskell 中使用惰性 IO,Haskell 用户大多已转向更明确的资源管理,例如 Conduit,其行为更像withPython 中的块。

从技术层面上讲,您可能想在 Python 中使用文件句柄执行某些操作,但如果迭代关闭了文件句柄,这些操作将无法正常工作。例如,假设我需要对文件进行两次迭代:

with open('filename.txt') as fp:
    for line in fp:
        ...
    fp.seek(0)
    for line in fp:
        ...

虽然这是一个不太常见的用例,但请考虑这样一个事实:我可能只是将底部的三行代码添加到原来包含顶部三行代码的现有代码库中。如果迭代关闭了文件,我就无法做到这一点。因此,将迭代和资源管理分开可以更轻松地将代码块组合成更大、可运行的 Python 程序。

可组合性是语言或 API 最重要的可用性特性之一。

解决方案 2:

是的,

with open('filename.txt') as fp:
    for line in fp:
        print(line)

是正确的做法。

它并不会更冗长,而是更安全。

解决方案 3:

如果你对多余的一行不感兴趣,你可以使用如下包装函数:

def with_iter(iterable):
    with iterable as iter:
        for item in iter:
            yield item

for line in with_iter(open('...')):
    ...

在 Python 3.3 中,该yield from语句会使其更短:

def with_iter(iterable):
    with iterable as iter:
        yield from iter

解决方案 4:

这里还有一个fileinput模块可以提供帮助。用法如下:

import fileinput
for line in fileinput.input(files=['filename.txt'], encoding="utf-8"):
    process(line)

但是,如果您不传递它,它会非常有用,因为如果前者为空,files=它会默认为或 stdin。sys.argv[1:]

相关推荐
  为什么项目管理通常仍然耗时且低效?您是否还在反复更新电子表格、淹没在便利贴中并参加每周更新会议?这确实是耗费时间和精力。借助软件工具的帮助,您可以一目了然地全面了解您的项目。如今,国内外有足够多优秀的项目管理软件可以帮助您掌控每个项目。什么是项目管理软件?项目管理软件是广泛行业用于项目规划、资源分配和调度的软件。它使项...
项目管理软件   1325  
  IPD(Integrated Product Development)流程作为一种先进的产品开发管理模式,在众多企业中得到了广泛应用。它涵盖了从产品概念产生到产品退市的整个生命周期,通过整合跨部门团队、优化流程等方式,显著提升产品开发的效率和质量,进而为项目的成功奠定坚实基础。深入探究IPD流程的五个阶段与项目成功之间...
IPD流程分为几个阶段   4  
  华为作为全球知名的科技企业,其成功背后的管理体系备受关注。IPD(集成产品开发)流程作为华为核心的产品开发管理模式,其中的创新管理与实践更是蕴含着丰富的经验和深刻的智慧,对众多企业具有重要的借鉴意义。IPD流程的核心架构IPD流程旨在打破部门墙,实现跨部门的高效协作,将产品开发视为一个整体的流程。它涵盖了从市场需求分析...
华为IPD是什么   3  
  IPD(Integrated Product Development)研发管理体系作为一种先进的产品开发模式,在众多企业的发展历程中发挥了至关重要的作用。它不仅仅是一套流程,更是一种理念,一种能够全方位提升企业竞争力,推动企业持续发展的有效工具。深入探究IPD研发管理体系如何助力企业持续发展,对于众多渴望在市场中立足并...
IPD管理流程   3  
  IPD(Integrated Product Development)流程管理旨在通过整合产品开发流程、团队和资源,实现产品的快速、高质量交付。在这一过程中,有效降低成本是企业提升竞争力的关键。通过优化IPD流程管理中的各个环节,可以在不牺牲产品质量和性能的前提下,实现成本的显著降低,为企业创造更大的价值。优化产品规划...
IPD流程分为几个阶段   4  
热门文章
项目管理软件有哪些?
云禅道AD
禅道项目管理软件

云端的项目管理软件

尊享禅道项目软件收费版功能

无需维护,随时随地协同办公

内置subversion和git源码管理

每天备份,随时转为私有部署

免费试用