使用 csv 模块从 csv 文件中读取特定列？-IT科技

摘要：问题描述：我正在尝试解析 csv 文件并仅从特定列中提取数据。示例 csv：ID | Name | Address | City | State | Zip | Phone | OPEID | IPEDS | 10 | C... | 130 W.. | Mo.. | AL... | 3.. | 334.. |...

问题描述：

我正在尝试解析 csv 文件并仅从特定列中提取数据。

示例 csv：

ID | Name | Address | City | State | Zip | Phone | OPEID | IPEDS |
10 | C... | 130 W.. | Mo.. | AL... | 3.. | 334.. | 01023 | 10063 |

我正在尝试仅捕获特定的列，例如ID，Name和。Zip`Phone`

我看过的代码让我相信我可以通过其对应的数字来调用特定的列，因此，即：Name将对应2并遍历每一行使用row[2]将产生第 2 列中的所有项目。但事实并非如此。

以下是我目前所做的：

import sys, argparse, csv
from settings import *

# command arguments
parser = argparse.ArgumentParser(description='csv to postgres',\n fromfile_prefix_chars="@" )
parser.add_argument('file', help='csv file to import', action='store')
args = parser.parse_args()
csv_file = args.file

# open csv file
with open(csv_file, 'rb') as csvfile:

    # get number of columns
    for line in csvfile.readlines():
        array = line.split(',')
        first_item = array[0]

    num_columns = len(array)
    csvfile.seek(0)

    reader = csv.reader(csvfile, delimiter=' ')
        included_cols = [1, 2, 6, 7]

    for row in reader:
            content = list(row[i] for i in included_cols)
            print content

并且我希望这将只打印出我想要的每一行的特定列，但是它没有，我只得到了最后一列。

解决方案 1：

从此代码中获取最后一列的唯一方法是不在循环中包含打印语句for。

这很可能是你的代码的结尾：

for row in reader:
    content = list(row[i] for i in included_cols)
print content

您希望它是这样的：

for row in reader:
        content = list(row[i] for i in included_cols)
        print content

现在我们已经解决了您的错误，我想借此机会向您介绍pandas模块。

Pandas 在处理 csv 文件方面非常出色，下面的代码就可以读取 csv 并将整列保存到变量中：

import pandas as pd
df = pd.read_csv(csv_file)
saved_column = df.column_name #you can also use df['column_name']

因此，如果您想将列中的所有信息保存Names到变量中，您需要做的就是：

names = df.Names

这是一个很棒的模块，我建议你研究一下。如果出于某种原因，你的打印语句处于for循环状态，并且仍然只打印出最后一列，这不应该发生，但如果我的假设是错误的，请告诉我。你发布的代码有很多缩进错误，所以很难知道什么应该放在哪里。希望这对你有帮助！

解决方案 2：

import csv
from collections import defaultdict

columns = defaultdict(list) # each value in each column is appended to a list

with open('file.txt') as f:
    reader = csv.DictReader(f) # read rows into a dictionary format
    for row in reader: # read a row as {column1: value1, column2: value2,...}
        for (k,v) in row.items(): # go over each column name and value 
            columns[k].append(v) # append the value into the appropriate list
                                 # based on column name k

print(columns['name'])
print(columns['phone'])
print(columns['street'])

使用如下文件

name,phone,street
Bob,0893,32 Silly
James,000,400 McHilly
Smithers,4442,23 Looped St.

将输出

>>> 
['Bob', 'James', 'Smithers']
['0893', '000', '4442']
['32 Silly', '400 McHilly', '23 Looped St.']

或者如果您想要对列进行数字索引：

with open('file.txt') as f:
    reader = csv.reader(f)
    next(reader)
    for row in reader:
        for (i,v) in enumerate(row):
            columns[i].append(v)
print(columns[0])

>>> 
['Bob', 'James', 'Smithers']

要更改分隔符，请添加delimiter=" "到适当的实例中，即reader = csv.reader(f,delimiter=" ")

解决方案 3：

使用熊猫：

import pandas as pd
my_csv = pd.read_csv(filename)
column = my_csv.column_name
# you can also use my_csv['column_name']

在解析时丢弃不需要的列：

my_filtered_csv = pd.read_csv(filename, usecols=['col1', 'col3', 'col7'])

PS 我只是简单地汇总了其他人所说的内容。实际答案取自这里和这里。

解决方案 4：

您可以使用numpy.loadtext(filename)。例如，如果这是您的数据库.csv：

ID | Name | Address | City | State | Zip | Phone | OPEID | IPEDS |
10 | Adam | 130 W.. | Mo.. | AL... | 3.. | 334.. | 01023 | 10063 |
10 | Carl | 130 W.. | Mo.. | AL... | 3.. | 334.. | 01023 | 10063 |
10 | Adolf | 130 W.. | Mo.. | AL... | 3.. | 334.. | 01023 | 10063 |
10 | Den | 130 W.. | Mo.. | AL... | 3.. | 334.. | 01023 | 10063 |

你想要的Name列是：

import numpy as np 
b=np.loadtxt(r'filepath
ame.csv',dtype=str,delimiter='|',skiprows=1,usecols=(1,))

>>> b
array([' Adam ', ' Carl ', ' Adolf ', ' Den '], 
      dtype='|S7')

您可以更轻松地使用genfromtext：

b = np.genfromtxt(r'filepath
ame.csv', delimiter='|', names=True,dtype=None)
>>> b['Name']
array([' Adam ', ' Carl ', ' Adolf ', ' Den '], 
      dtype='|S7')

解决方案 5：

使用pandas时你可以使用read_csv参数usecols：

df = pd.read_csv(filename, usecols=['col1', 'col3', 'col7'])

例子：

import pandas as pd
import io

s = '''
total_bill,tip,sex,smoker,day,time,size
16.99,1.01,Female,No,Sun,Dinner,2
10.34,1.66,Male,No,Sun,Dinner,3
21.01,3.5,Male,No,Sun,Dinner,3
'''

df = pd.read_csv(io.StringIO(s), usecols=['total_bill', 'day', 'size'])
print(df)

   total_bill  day  size
0       16.99  Sun     2
1       10.34  Sun     3
2       21.01  Sun     3

解决方案 6：

背景：对于这种类型的工作，您应该使用出色的 Python Petl 库。这将为您节省大量工作，并避免使用标准 CSV 模块“手动”执行操作所带来的潜在挫败感。据我所知，唯一仍在使用 CSV 模块的人是那些尚未发现更好的表格数据处理工具（Pandas、petl 等）的人，这很好，但如果您计划在职业生涯中处理来自各种奇怪来源的大量数据，那么学习像 Petl 这样的东西是您可以做的最好的投资之一。完成 pip install petl 后，只需 30 分钟即可开始使用。文档非常出色。

答案：假设您在 csv 文件中有第一个表（您也可以使用 petl 直接从数据库加载）。然后您只需加载它并执行以下操作。

from petl import fromcsv, look, cut, tocsv 

#Load the table
table1 = fromcsv('table1.csv')
# Alter the colums
table2 = cut(table1, 'Song_Name','Artist_ID')
#have a quick look to make sure things are ok. Prints a nicely formatted table to your console
print look(table2)
# Save to new file
tocsv(table2, 'new.csv')

解决方案 7：

我认为有一个更简单的方法

import pandas as pd

dataset = pd.read_csv('table1.csv')
ftCol = dataset.iloc[:, 0].values

所以在这里iloc[:, 0]，:表示所有值，0表示列的位置。在下面的例子ID中将被选中

ID | Name | Address | City | State | Zip | Phone | OPEID | IPEDS |
10 | C... | 130 W.. | Mo.. | AL... | 3.. | 334.. | 01023 | 10063 |

解决方案 8：

import pandas as pd 
csv_file = pd.read_csv("file.csv") 
column_val_list = csv_file.column_name._ndarray_values

解决方案 9：

由于你可以对 pandas 数据框进行索引和子集化，因此可以从 csv 文件中提取单个列到变量中的一个非常简单的方法是：

myVar = pd.read_csv('YourPath', sep = ",")['ColumnName']

需要考虑的几件事：

上面的代码片段将生成一个 pandasSeries而不是dataframe。如果速度是一个问题，ayhan 的建议usecols也会更快。%timeit在 2122 KB 大小的 csv 文件上使用这两种不同的方法进行测试，结果22.8 ms为 usecols 方法和53 ms我建议的方法。

别忘了import pandas as pd

解决方案 10：

如果您需要单独处理列，我喜欢使用zip(*iterable)模式对列进行解构（有效地“解压缩”）。因此，对于您的示例：

ids, names, zips, phones = zip(*(
  (row[1], row[2], row[6], row[7])
  for row in reader
))

解决方案 11：

import pandas as pd

dataset = pd.read_csv('Train.csv')
X = dataset.iloc[:, 1:-1].values
y = dataset.iloc[:, -1].values

X是一组列，如果你想要阅读更多列，请使用它
y是单列，使用它来读取一列
[:, 1:-1]是[row_index : to_row_index, column_index : to_column_index]

解决方案 12：

import csv

with open('input.csv', encoding='utf-8-sig') as csv_file:
    # the below statement will skip the first row
    next(csv_file)
    reader= csv.DictReader(csv_file)
   
    Time_col ={'Time' : []}
    #print(Time_col)
    for record in reader :
        Time_col['Time'].append(record['Time'])
        print(Time_col)

解决方案 13：

您可以从CSV 文件读写中导入 csv 并使用此代码：

with open('names.csv', newline='') as csvfile:
    reader = csv.DictReader(csvfile)
    for row in reader:
        print(row['first_name'], row['last_name'])

解决方案 14：

SAMPLE.CSV
a, 1, +
b, 2, -
c, 3, *
d, 4, /
column_names = ["Letter", "Number", "Symbol"]
df = pd.read_csv("sample.csv", names=column_names)
print(df)
OUTPUT
  Letter  Number Symbol
0      a       1      +
1      b       2      -
2      c       3      *
3      d       4      /

letters = df.Letter.to_list()
print(letters)
OUTPUT
['a', 'b', 'c', 'd']

解决方案 15：

要获取列名，最好使用readline()而不是readlines()来避免循环和读取完整文件并将其存储在数组中。

with open(csv_file, 'rb') as csvfile:

    # get number of columns

    line = csvfile.readline()

    first_item = line.split(',')