如何将文件逐行读入列表?
- 2024-11-18 08:41:00
- admin 原创
- 14
问题描述:
如何在 Python 中读取文件的每一行并将每一行作为元素存储到列表中?
我想逐行读取文件并将每行附加到列表末尾。
解决方案 1:
此代码将把整个文件读入内存并从每行末尾删除所有空白字符(换行符和空格):
with open(filename) as file:
lines = [line.rstrip() for line in file]
如果您正在处理大型文件,那么您应该逐行读取并处理它:
with open(filename) as file:
for line in file:
print(line.rstrip())
在 Python 3.8 及更高版本中,你可以使用带有海象运算符的 while 循环,如下所示:
with open(filename) as file:
while line := file.readline():
print(line.rstrip())
根据您计划对文件执行的操作以及文件的编码方式,您可能还需要手动设置访问模式和字符编码:
with open(filename, 'r', encoding='UTF-8') as file:
while line := file.readline():
print(line.rstrip())
解决方案 2:
参见输入和输出:
with open('filename') as f:
lines = f.readlines()
或者去掉换行符:
with open('filename') as f:
lines = [line.rstrip('
') for line in f]
解决方案 3:
这比必要的更明确,但却能满足您的要求。
with open("file.txt") as file_in:
lines = []
for line in file_in:
lines.append(line)
解决方案 4:
这将产生文件中行的“数组”。
lines = tuple(open(filename, 'r'))
open
返回一个可以迭代的文件。迭代文件时,您将从该文件中获取行。tuple
可以采用迭代器并从您提供的迭代器中实例化一个元组实例。lines
是根据文件的行创建的元组。
解决方案 5:
根据 Python 的文件对象方法,将文本文件转换为的最简单方法list
是:
with open('file.txt') as f:
my_list = list(f)
# my_list = [x.rstrip() for x in f] # remove line breaks
演示
如果您只需要遍历文本文件行,则可以使用:
with open('file.txt') as f:
for line in f:
...
旧答案:
使用with
和readlines()
:
with open('file.txt') as f:
lines = f.readlines()
如果你不关心关闭文件,那么这个单行代码就可以起作用:
lines = open('file.txt').readlines()
传统方式:
f = open('file.txt') # Open file on read mode
lines = f.read().splitlines() # List with stripped line-breaks
f.close() # Close file
解决方案 6:
如果您想要`
`包含:
with open(fname) as f:
content = f.readlines()
如果你不想`
`包含:
with open(fname) as f:
content = f.read().splitlines()
解决方案 7:
您可以简单地执行以下操作,如建议的那样:
with open('/your/path/file') as f:
my_lines = f.readlines()
请注意,这种方法有两个缺点:
1) 将所有行存储在内存中。一般情况下,这是一个非常糟糕的主意。文件可能非常大,您可能会耗尽内存。即使文件不大,也只是浪费内存。
2) 这不允许在阅读时处理每一行。因此,如果您在此之后处理每行,则效率不高(需要两次传递,而不是一次)。
对于一般情况,更好的方法如下:
with open('/your/path/file') as f:
for line in f:
process(line)
您可以按照自己想要的方式定义流程函数。例如:
def process(line):
if 'save the world' in line.lower():
superman.save_the_world()
(该类的实现Superman
留给您作为练习)。
这对于任何文件大小都适用,您只需 1 次即可浏览文件。这通常是通用解析器的工作方式。
解决方案 8:
具有文本文件内容:
line 1
line 2
line 3
我们可以在上面的 txt 的同一目录中使用这个 Python 脚本
>>> with open("myfile.txt", encoding="utf-8") as file:
... x = [l.rstrip("
") for l in file]
>>> x
['line 1','line 2','line 3']
使用附加:
x = []
with open("myfile.txt") as file:
for l in file:
x.append(l.strip())
或者:
>>> x = open("myfile.txt").read().splitlines()
>>> x
['line 1', 'line 2', 'line 3']
或者:
>>> x = open("myfile.txt").readlines()
>>> x
['linea 1
', 'line 2
', 'line 3
']
或者:
def print_output(lines_in_textfile):
print("lines_in_textfile =", lines_in_textfile)
y = [x.rstrip() for x in open("001.txt")]
print_output(y)
with open('001.txt', 'r', encoding='utf-8') as file:
file = file.read().splitlines()
print_output(file)
with open('001.txt', 'r', encoding='utf-8') as file:
file = [x.rstrip("
") for x in file]
print_output(file)
输出:
lines_in_textfile = ['line 1', 'line 2', 'line 3']
lines_in_textfile = ['line 1', 'line 2', 'line 3']
lines_in_textfile = ['line 1', 'line 2', 'line 3']
解决方案 9:
在 Python 3.4 中引入了pathlib
一种非常方便的从文件读取文本的方法,如下所示:
from pathlib import Path
p = Path('my_text_file')
lines = p.read_text().splitlines()
(该splitlines
调用将其从包含文件全部内容的字符串转换为文件中的行列表。)
pathlib
有很多方便的功能。read_text
简洁明了,您不必担心打开和关闭文件。如果您需要对文件进行的操作只是一次性读取所有内容,那么这是一个不错的选择。
解决方案 10:
要将文件读入列表,您需要做三件事:
打开文件
读取文件
将内容存储为列表
幸运的是,Python 可以很容易地完成这些事情,因此将文件读入列表的最短方法是:
lst = list(open(filename))
不过我会补充一些解释。
打开文件
我假设您想要打开一个特定的文件,并且不直接处理文件句柄(或类似文件的句柄)。在 Python 中打开文件的最常用函数是open
,它在 Python 2.7 中需要一个强制参数和两个可选参数:
文件名
模式
缓冲(在这个答案中我将忽略这个论点)
文件名应该是一个表示文件路径的字符串。例如:
open('afile') # opens the file named afile in the current working directory
open('adir/afile') # relative path (relative to the current working directory)
open('C:/users/aname/afile') # absolute path (windows)
open('/usr/local/afile') # absolute path (linux)
请注意,需要指定文件扩展名。这对于 Windows 用户尤其重要,因为在资源管理器中查看时,文件扩展名(.txt
如 或等)默认.doc
是隐藏的。
第二个参数是mode
,默认情况下,它r
表示“只读”。这正是您所需要的。
但如果您确实想创建文件和/或写入文件,则需要不同的参数。如果您需要概述,这里有一个很好的答案。
为了读取文件,您可以省略mode
或明确传入:
open(filename)
open(filename, 'r')
两者都将以只读模式打开文件。如果您想在 Windows 上读取二进制文件,则需要使用以下模式rb
:
open(filename, 'rb')
在其他平台上,'b'
(二进制模式)会被忽略。
既然我已经展示了如何访问open
文件,让我们来谈谈你总是需要再次访问它的事实close
。否则它将保持文件的打开文件句柄,直到进程退出(或 Python 垃圾化文件句柄)。
你可以使用:
f = open(filename)
# ... do stuff with f
f.close()
open
当和之间发生异常时,将无法关闭文件close
。您可以使用try
和来避免这种情况finally
:
f = open(filename)
# nothing in between!
try:
# do stuff with f
finally:
f.close()
但是 Python 提供了具有更漂亮语法的上下文管理器(但open
它几乎与上面的try
和相同finally
):
with open(filename) as f:
# do stuff with f
# The file is always closed after the with-scope ends.
最后一种方法是使用 Python 打开文件的推荐方法!
读取文件
好的,您已经打开了文件,现在如何读取它?
该open
函数返回一个file
对象,它支持 Python 的迭代协议。每次迭代都会给你一行:
with open(filename) as f:
for line in f:
print(line)
`这将打印文件的每一行。但请注意,每行末尾都会包含一个换行符(您可能需要检查您的 Python 是否内置了通用换行符支持- 否则您可能
在 Windows 或
`Mac 上也使用换行符)。如果您不想这样,您可以简单地删除最后一个字符(或 Windows 上的最后两个字符):
with open(filename) as f:
for line in f:
print(line[:-1])
但最后一行不一定有尾随换行符,所以不应该使用它。可以检查它是否以尾随换行符结尾,如果是,则将其删除:
with open(filename) as f:
for line in f:
if line.endswith('
'):
line = line[:-1]
print(line)
`
`但是您可以简单地从字符串末尾删除所有空格(包括字符) ,这也会删除所有其他尾随空格,因此如果这些空格很重要,您必须小心:
with open(filename) as f:
for line in f:
print(f.rstrip())
但是如果行以`(Windows“换行符”) 结尾,那么
.rstrip()也会处理
`!
将内容存储为列表
现在您已经知道如何打开并读取文件,是时候将内容存储在列表中了。最简单的选择是使用以下函数list
:
with open(filename) as f:
lst = list(f)
如果您想要删除尾随的换行符,则可以使用列表推导:
with open(filename) as f:
lst = [line.rstrip() for line in f]
或者更简单:.readlines()
对象的方法file
默认返回list
以下几行:
with open(filename) as f:
lst = f.readlines()
这还将包括尾随的换行符,如果您不想要它们,我会推荐这种[line.rstrip() for line in f]
方法,因为它避免在内存中保留包含所有行的两个列表。
还有一个附加选项可以获得所需的输出,但它不是“次优的”:read
将完整的文件放在一个字符串中,然后在换行符处拆分:
with open(filename) as f:
lst = f.read().split('
')
或者:
with open(filename) as f:
lst = f.read().splitlines()
由于不包含字符,因此这些方法会自动处理尾随的换行符split
。但是它们并不理想,因为您将文件保存为字符串和内存中的行列表!
概括
在打开文件时使用
with open(...) as f
,因为您不需要自己关闭文件,即使发生某些异常它也会关闭文件。file
对象支持迭代协议,因此逐行读取文件就像 一样简单for line in the_file_object:
。始终浏览文档以查找可用的函数/类。大多数时候,任务都有完美匹配的函数或至少一两个不错的函数。在这种情况下,显而易见的选择是,
readlines()
但是如果您想在将行存储在列表中之前处理它们,我建议使用简单的列表理解。
解决方案 11:
以简洁、Python 的方式将文件行读入列表
首先,你应该专注于以高效且符合 Python 的方式打开文件并读取其内容。下面是我个人不喜欢的方式的示例:
infile = open('my_file.txt', 'r') # Open the file for reading.
data = infile.read() # Read the contents of the file.
infile.close() # Close the file since we're done using it.
相反,我更喜欢下面打开文件进行读写的方法,因为它非常简洁,并且在使用完毕后不需要额外的步骤来关闭文件。在下面的语句中,我们打开文件进行读取,并将其分配给变量“infile”。此语句中的代码运行完成后,文件将自动关闭。
# Open the file for reading.
with open('my_file.txt', 'r') as infile:
data = infile.read() # Read the contents of the file into memory.
现在我们需要专注于将这些数据放入Python 列表中,因为它们是可迭代、高效且灵活的。就您而言,期望的目标是将文本文件的每一行放入单独的元素中。为此,我们将使用splitlines()方法,如下所示:
# Return a list of the lines, breaking at line boundaries.
my_list = data.splitlines()
最终产品:
# Open the file for reading.
with open('my_file.txt', 'r') as infile:
data = infile.read() # Read the contents of the file into memory.
# Return a list of the lines, breaking at line boundaries.
my_list = data.splitlines()
测试我们的代码:
文本文件的内容:
A fost odatã ca-n povesti,
A fost ca niciodatã,
Din rude mãri împãrãtesti,
O prea frumoasã fatã.
打印语句以进行测试:
print my_list # Print the list.
# Print each line in the list.
for line in my_list:
print line
# Print the fourth element in this list.
print my_list[3]
输出(由于unicode字符而看起来不同):
['A fost odatxc3xa3 ca-n povesti,', 'A fost ca niciodatxc3xa3,',
'Din rude mxc3xa3ri xc3xaempxc3xa3rxc3xa3testi,', 'O prea
frumoasxc3xa3 fatxc3xa3.']
A fost odatã ca-n povesti, A fost ca niciodatã, Din rude mãri
împãrãtesti, O prea frumoasã fatã.
O prea frumoasã fatã.
解决方案 12:
这里还有一种选择,即使用文件列表推导;
lines = [line.rstrip() for line in open('file.txt')]
这应该是更有效的方式,因为大部分工作是在 Python 解释器内部完成的。
解决方案 13:
f = open("your_file.txt",'r')
out = f.readlines() # will append in the list out
现在变量 out 是您想要的列表(数组)。您可以执行以下操作:
for line in out:
print (line)
或者:
for line in f:
print (line)
您将获得相同的结果。
解决方案 14:
另一个选择是numpy.genfromtxt
,例如:
import numpy as np
data = np.genfromtxt("yourfile.dat",delimiter="
")
这将创建data
一个 NumPy 数组,其行数与文件中的行数一样多。
解决方案 15:
使用 Python 2 和 Python 3 读写文本文件;它适用于 Unicode
#!/usr/bin/env python3
# -*- coding: utf-8 -*-
# Define data
lines = [' A first string ',
'A Unicode sample: €',
'German: äöüß']
# Write text file
with open('file.txt', 'w') as fp:
fp.write('
'.join(lines))
# Read text file
with open('file.txt', 'r') as fp:
read_lines = fp.readlines()
read_lines = [line.rstrip('
') for line in read_lines]
print(lines == read_lines)
注意事项:
with
是所谓的上下文管理器。它确保再次关闭已打开的文件。这里的所有解决方案都只是简单地使
.strip()
或.rstrip()
将无法重现,lines
因为它们也会剥离空白。
常见文件结尾
.txt
更高级的文件写入/读取
CSV:超级简单格式(读写)
JSON:适合编写人类可读的数据;非常常用(读取和写入)
YAML:YAML 是 JSON 的超集,但更易于阅读(读写,JSON 和 YAML 的比较)
pickle:一种 Python 序列化格式(读写)
MessagePack(Python 包):更紧凑的表示(读取和写入)
HDF5(Python 包):适用于矩阵(读写)
XML:也存在 叹息 (读写)
对于您的应用程序,以下内容可能很重要:
其他编程语言的支持
读写性能
紧凑性(文件大小)
另请参阅:数据序列化格式比较
如果您正在寻找一种制作配置文件的方法,您可能需要阅读我的短文《Python 中的配置文件》。
解决方案 16:
如果您想从命令行或标准输入读取文件,您也可以使用该fileinput
模块:
# reader.py
import fileinput
content = []
for line in fileinput.input():
content.append(line.strip())
fileinput.close()
像这样将文件传递给它:
$ python reader.py textfile.txt
在这里阅读更多: http: //docs.python.org/2/library/fileinput.html
解决方案 17:
最简单的方法
一个简单的方法是:
将整个文件读取为字符串
逐行分割字符串
只需一行即可:
lines = open('C:/path/file.txt').read().splitlines()
然而,这是非常低效的方式,因为这会在内存中存储 2 个版本的内容(对于小文件来说可能不是什么大问题,但仍然如此)。[感谢 Mark Amery]。
有两种更简单的方法:
使用文件作为迭代器
lines = list(open('C:/path/file.txt'))
# ... or if you want to have a list without EOL characters
lines = [l.rstrip() for l in open('C:/path/file.txt')]
如果您使用的是 Python 3.4 或更高版本,最好
pathlib
为您的文件创建一个路径,以便用于程序中的其他操作:
from pathlib import Path
file_path = Path("C:/path/file.txt")
lines = file_path.read_text().split_lines()
# ... or ...
lines = [l.rstrip() for l in file_path.open()]
解决方案 18:
只需使用 splitlines() 函数。以下是示例。
inp = "file.txt"
data = open(inp)
dat = data.read()
lst = dat.splitlines()
print lst
# print(lst) # for python 3
在输出中你将看到行列表。
解决方案 19:
如果您面临一个非常大/巨大的文件并且想要更快地读取(想象一下您正在参加TopCoder或HackerRank编码竞赛),您可能会一次将相当大块的行读入内存缓冲区,而不是仅仅在文件级别逐行迭代。
buffersize = 2**16
with open(path) as f:
while True:
lines_buffer = f.readlines(buffersize)
if not lines_buffer:
break
for line in lines_buffer:
process(line)
解决方案 20:
实现这一目标的最简单方法及其一些额外的好处如下:
lines = list(open('filename'))
或者
lines = tuple(open('filename'))
或者
lines = set(open('filename'))
在的情况下set
,我们必须记住我们没有保留行顺序并摆脱重复的行。
下面我添加了@MarkAmery的重要补充:
由于您没有调用
.close
文件对象也没有使用with
语句,在某些Python实现中,文件在读取后可能不会关闭,并且您的进程将泄漏打开的文件句柄。在CPython(大多数人使用的普通Python实现)中,这不是问题,因为文件对象将立即被垃圾收集并关闭文件,但通常认为最佳做法是执行以下操作:
with open('filename') as f: lines = list(f)
以确保无论您使用什么Python实现,文件都会被关闭。
解决方案 21:
使用这个:
import pandas as pd
data = pd.read_csv(filename) # You can also add parameters such as header, sep, etc.
array = data.values
data
是 DataFrame 类型,使用 values 获取 ndarray。也可以使用 获取列表array.tolist()
。
解决方案 22:
如果文档中也有空行,我喜欢读取内容并将其传递下去,filter
以防止出现空字符串元素
with open(myFile, "r") as f:
excludeFileContent = list(filter(None, f.read().splitlines()))
解决方案 23:
提纲和摘要
使用filename
从对象处理文件Path(filename)
,或直接使用open(filename) as f
,执行以下操作之一:
list(fileinput.input(filename))
使用
with path.open() as f
,调用f.readlines()
list(f)
path.read_text().splitlines()
path.read_text().splitlines(keepends=True)
逐行迭代
fileinput.input
或f
逐行list.append
迭代传递
f
给绑定list.extend
方法f
在列表推导中使用
我在下面解释每个用例。
在 Python 中,如何逐行读取文件?
这个问题问得非常好。首先,让我们创建一些示例数据:
from pathlib import Path
Path('filename').write_text('foo
bar
baz')
文件对象是惰性迭代器,因此只需对其进行迭代。
filename = 'filename'
with open(filename) as f:
for line in f:
line # do something with the line
或者,如果您有多个文件,请使用fileinput.input
另一个惰性迭代器。只有一个文件:
import fileinput
for line in fileinput.input(filename):
line # process the line
或者对于多个文件,传递一个文件名列表:
for line in fileinput.input([filename]*2):
line # process the line
再次强调,以上两个f
都是fileinput.input
/返回惰性迭代器。您只能使用迭代器一次,因此为了提供功能代码同时避免冗长,我将fileinput.input(filename)
在此处使用略微更简洁的代码。
在 Python 中,如何将文件逐行读入列表?
啊,但出于某种原因,你想把它放在列表中?如果可能的话,我会避免这样做。但如果你坚持……只需将结果传递fileinput.input(filename)
给list
:
list(fileinput.input(filename))
另一个直接的答案是调用f.readlines
,它返回文件的内容(最多可选的hint
字符数,因此您可以通过这种方式将其分成多个列表)。
您可以通过两种方式获取此文件对象。一种方法是将文件名传递给open
内置函数:
filename = 'filename'
with open(filename) as f:
f.readlines()
或者使用模块中的新 Path 对象pathlib
(我已经非常喜欢它,并且将从现在开始使用它):
from pathlib import Path
path = Path(filename)
with path.open() as f:
f.readlines()
list
还将使用文件迭代器并返回一个列表——这也是一种非常直接的方法:
with path.open() as f:
list(f)
Path
如果您不介意在拆分之前将整个文本作为单个字符串读入内存,则可以使用对象和字符串方法将其作为一行代码执行splitlines()
。默认情况下,splitlines
删除换行符:
path.read_text().splitlines()
如果您想保留换行符,请传递keepends=True
:
path.read_text().splitlines(keepends=True)
我想逐行读取文件并将每行附加到列表末尾。
现在这个要求有点愚蠢,因为我们已经用几种方法轻松演示了最终结果。但您可能需要在制作列表时过滤或操作行,所以让我们满足这个要求。
使用list.append
将允许您在附加每一行之前对其进行过滤或操作:
line_list = []
for line in fileinput.input(filename):
line_list.append(line)
line_list
使用list.extend
会更直接一些,如果你有一个预先存在的列表,也许会很有用:
line_list = []
line_list.extend(fileinput.input(filename))
line_list
或者更惯用的方式,我们可以改用列表推导,并在其中进行映射和过滤(如果需要):
[line for line in fileinput.input(filename)]
或者更直接地,为了闭合循环,只需将其传递给列表即可直接创建一个新列表,而无需对以下行进行操作:
list(fileinput.input(filename))
结论
您已经了解了多种将文件中的行放入列表的方法,但我建议您避免将大量数据放入列表中,而是尽可能使用 Python 的惰性迭代来处理数据。
也就是说,优先选择fileinput.input
或with path.open() as f
。
解决方案 24:
我会尝试下面提到的方法之一。我使用的示例文件名为。您可以在此处dummy.txt
找到该文件。我假设该文件与代码位于同一目录中(您可以更改为包含正确的文件名和文件夹路径)。fpath
在下面提到的两个例子中,您想要的列表均由给出lst
。
1.第一种方法
fpath = 'dummy.txt'
with open(fpath, "r") as f: lst = [line.rstrip('
') for line in f]
print lst
>>>['THIS IS LINE1.', 'THIS IS LINE2.', 'THIS IS LINE3.', 'THIS IS LINE4.']
2.在第二种方法中,可以使用Python 标准库中的csv.reader模块:
import csv
fpath = 'dummy.txt'
with open(fpath) as csv_file:
csv_reader = csv.reader(csv_file, delimiter=' ')
lst = [row[0] for row in csv_reader]
print lst
>>>['THIS IS LINE1.', 'THIS IS LINE2.', 'THIS IS LINE3.', 'THIS IS LINE4.']
您可以使用这两种方法中的任意一种。这两种方法创建所需的时间lst
几乎相同。
解决方案 25:
我喜欢使用以下内容。立即阅读这些行。
contents = []
for line in open(filepath, 'r').readlines():
contents.append(line.strip())
或者使用列表推导:
contents = [line.strip() for line in open(filepath, 'r').readlines()]
解决方案 26:
您也可以在 NumPy 中使用 loadtxt 命令。这比 genfromtxt 检查的条件更少,因此速度可能更快。
import numpy
data = numpy.loadtxt(filename, delimiter="
")
解决方案 27:
下面是我用来简化文件 I/O 的Python(3) 帮助库类:
import os
# handle files using a callback method, prevents repetition
def _FileIO__file_handler(file_path, mode, callback = lambda f: None):
f = open(file_path, mode)
try:
return callback(f)
except Exception as e:
raise IOError("Failed to %s file" % ["write to", "read from"][mode.lower() in "r rb r+".split(" ")])
finally:
f.close()
class FileIO:
# return the contents of a file
def read(file_path, mode = "r"):
return __file_handler(file_path, mode, lambda rf: rf.read())
# get the lines of a file
def lines(file_path, mode = "r", filter_fn = lambda line: len(line) > 0):
return [line for line in FileIO.read(file_path, mode).strip().split("
") if filter_fn(line)]
# create or update a file (NOTE: can also be used to replace a file's original content)
def write(file_path, new_content, mode = "w"):
return __file_handler(file_path, mode, lambda wf: wf.write(new_content))
# delete a file (if it exists)
def delete(file_path):
return os.remove() if os.path.isfile(file_path) else None
然后你可以FileIO.lines
像这样使用该函数:
file_ext_lines = FileIO.lines("./path/to/file.ext"):
for i, line in enumerate(file_ext_lines):
print("Line {}: {}".format(i + 1, line))
请记住,mode
("r"
默认)和filter_fn
(默认检查空行)参数是可选的。
您甚至可以删除read
、write
和delete
方法并保留FileIO.lines
、甚至将其转变为名为的单独方法read_lines
。
解决方案 28:
命令行版本
#!/bin/python3
import os
import sys
abspath = os.path.abspath(__file__)
dname = os.path.dirname(abspath)
filename = dname + sys.argv[1]
arr = open(filename).read().split("
")
print(arr)
运行:
python3 somefile.py input_file_name.txt
- 2024年20款好用的项目管理软件推荐,项目管理提效的20个工具和技巧
- 2024年开源项目管理软件有哪些?推荐5款好用的项目管理工具
- 项目管理软件有哪些?推荐7款超好用的项目管理工具
- 项目管理软件哪个最好用?盘点推荐5款好用的项目管理工具
- 项目管理软件有哪些最好用?推荐6款好用的项目管理工具
- 项目管理软件有哪些,盘点推荐国内外超好用的7款项目管理工具
- 2024项目管理软件排行榜(10类常用的项目管理工具全推荐)
- 项目管理软件排行榜:2024年项目经理必备5款开源项目管理软件汇总
- 2024年常用的项目管理软件有哪些?推荐这10款国内外好用的项目管理工具
- 项目管理必备:盘点2024年13款好用的项目管理软件