如何在 Bash 中解析 CSV 文件?

2024-10-09 09:10:00
admin
原创
254
摘要:问题描述:我正在编写一个很长的 Bash 脚本。我想将 CSV 文件中的单元格读入 Bash 变量。我可以解析行和第一列,但不能解析任何其他列。这是我目前的代码: cat myfile.csv|while read line do read -d, col1 col2 < &am...

问题描述:

我正在编写一个很长的 Bash 脚本。我想将 CSV 文件中的单元格读入 Bash 变量。我可以解析行和第一列,但不能解析任何其他列。这是我目前的代码:


  cat myfile.csv|while read line
  do
    read -d, col1 col2 < <(echo $line)
    echo "I got:$col1|$col2"
  done

它只打印第一列。作为附加测试,我尝试了以下操作:

read -d, x y < <(echo a,b,)

而 $y 是空的。所以我尝试:

read x y < <(echo a b)

而 $y 是b。为什么?


解决方案 1:

您需要使用IFS而不是-d

while IFS=, read -r col1 col2
do
    echo "I got:$col1|$col2"
done < myfile.csv

要跳过指定数量的标题行:

skip_headers=3
while IFS=, read -r col1 col2
do
    if ((skip_headers))
    then
        ((skip_headers--))
    else
        echo "I got:$col1|$col2"
    fi
done < myfile.csv

请注意,对于通用的 CSV 解析,您应该使用专门的工具来处理带有内部逗号的引号字段,以及 Bash 本身无法处理的其他问题。此类工具的示例包括cvstoolcsvkit

解决方案 2:

如何在 Bash 中解析 CSV 文件?

这个问题来晚了,而且狂欢确实提供了新功能,因为这个问题是关于狂欢并且因为已经发布的答案中没有一个能够显示出这种强大且合规的方法。

bash使用可加载模块解析下的 CSV 文件

符合RFC 4180 ,类似以下示例CSV 行的字符串:

12,22.45,"Hello, ""man"".","A, b.",42

应拆分为

1  12
2  22.45
3  Hello, "man".
4  A, b.
5  42

bash可加载.C 编译模块。

在下面狂欢,您可以创建、编辑和使用可加载的丙已编译的模块。一旦加载,它们便像任何其他内置模块一样工作!!(您可以在源代码树中找到更多信息。;)

当前源代码树(2021 年 10 月 15 日,bash V5.1-rc3)确实包含大量示例:

accept        listen for and accept a remote network connection on a given port
asort         Sort arrays in-place
basename      Return non-directory portion of pathname.
cat           cat(1) replacement with no options - the way cat was intended.
csv           process one line of csv data and populate an indexed array.
dirname       Return directory portion of pathname.
fdflags       Change the flag associated with one of bash's open file descriptors.
finfo         Print file info.
head          Copy first part of files.
hello         Obligatory "Hello World" / sample loadable.
...
tee           Duplicate standard input.
template      Example template for loadable builtin.
truefalse     True and false builtins.
tty           Return terminal name.
uname         Print system information.
unlink        Remove a directory entry.
whoami        Print out username of current user.

目录中有一个完整cvs可用的解析器examples/loadablescsv.c!!

在基于Debian GNU/Linux的系统下,你可能需要通过以下方式安装bash-builtins包

apt install bash-builtins

使用可加载的 bash-builtins

然后:

enable -f /usr/lib/bash/csv csv

从那里,您可以将其用作csvbash内置命令

使用我的样本:12,22.45,"Hello, ""man"".","A, b.",42

csv -a myArray '12,22.45,"Hello, ""man"".","A, b.",42'
printf "%s
" "${myArray[@]}" | cat -n
     1      12
     2      22.45
     3      Hello, "man".
     4      A, b.
     5      42

然后在循环中处理文件。

while IFS= read -r line;do
    csv -a aVar "$line"
    printf "First two columns are: [ '%s' - '%s' ]
" "${aVar[0]}" "${aVar[1]}"
done <myfile.csv

这种方法显然比使用任何其他组合都要快、最有效狂欢内置命令或者分叉至任何二进制文件。

不幸的是,根据您的系统实现,如果您的版本狂欢编译时没有loadable,这可能无法工作......

使用多行 CSV 字段完成示例。

符合RFC 4180 ,类似以下单个 CSV 行的字符串:

12,22.45,"Hello ""man"",
This is a good day, today!","A, b.",42

应拆分为

1  12
2  22.45
3  Hello "man",
   This is a good day, today!
4  A, b.
5  42

解析包含多行字段的 CSV 的完整示例脚本

这是一个包含1 个标题、4列和3行的小型示例文件。由于两个字段包含换行符,因此文件长度为6行。

Id,Name,Desc,Value
1234,Cpt1023,"Energy counter",34213
2343,Sns2123,"Temperatur sensor
to trigg for alarm",48.4
42,Eye1412,"Solar sensor ""Day /
Night""",12199.21

还有一个小脚本可以正确解析此文件:

#!/bin/bash

enable -f /usr/lib/bash/csv csv

file="sample.csv"
exec {FD}<"$file"

read -ru $FD line
csv -a headline "$line"
printf -v fieldfmt '%-8s: "%%q"\n' "${headline[@]}"
numcols=${#headline[@]}

while read -ru $FD line;do
    while csv -a row "$line" ; (( ${#row[@]} < numcols )) ;do
        read -ru $FD sline || break
        line+=$'
'"$sline"
    done
    printf "$fieldfmt\n" "${row[@]}"
done

这可能会呈现:(我曾经将换行符printf "%q"等不可打印字符表示为)`$'
'`

Id      : "1234"
Name    : "Cpt1023"
Desc    : "Energy counter"
Value   : "34213"

Id      : "2343"
Name    : "Sns2123"
Desc    : "$'Temperatur sensor
to trigg for alarm'"
Value   : "48.4"

Id      : "42"
Name    : "Eye1412"
Desc    : "$'Solar sensor "Day /
Night"'"
Value   : "12199.21"

您可以在那里找到完整的工作示例:csvsample.sh.txt或
csvsample.sh。

笔记:

在此示例中,我使用标题行来确定行宽(列数)。如果您的标题行可以容纳换行符(或者您的 CSV 使用多于 1 个标题行)。您必须将数字或列作为参数传递给脚本(以及标题行的数量)。

警告:

当然,用这个来解析 CSV 并不完美!这适用于许多简单的 CSV 文件,但要注意编码和安全性!!例如,此模块无法处理二进制字段!

仔细阅读csv.c 源代码注释和RFC 4180!

关于引用的多行字段的注意事项

特别是如果多行字段位于最后一列,则此方法将无法正确循环到第二个引用。

为此,您必须在$line使用模块解析之前检查引号奇偶校验csv

解决方案 3:

man页面:

-d delim delim 的第一个字符用于终止输入行,而不是换行符。

您使用的-d,将在逗号处终止输入行。它不会读取该行的其余部分。这就是 $y 为空的原因。

解决方案 4:

我们可以使用以下代码解析带有引号字符串并以 | 分隔的 csv 文件

while read -r line
do
    field1=$(echo "$line" | awk -F'|' '{printf "%s", $1}' | tr -d '"')
    field2=$(echo "$line" | awk -F'|' '{printf "%s", $2}' | tr -d '"')

    echo "$field1 $field2"
done < "$csvFile"

awk将字符串字段解析为变量并tr删除引号。

由于每个字段的执行速度都稍慢awk

解决方案 5:

除了@Dennis Williamson 的回答之外,当第一行包含 CSV 的标题时,跳过第一行可能会有所帮助:

{
  read
  while IFS=, read -r col1 col2
  do
    echo "I got:$col1|$col2"
  done 
} < myfile.csv

解决方案 6:

如果您想读取包含几行的 CSV 文件,那么这就是解决方案。

while IFS=, read -ra line
do 
    test $i -eq 1 && ((i=i+1)) && continue
    for col_val in ${line[@]}
    do
        echo -n "$col_val|"                 
    done
    echo        
done < "$csvFile"
相关推荐
  政府信创国产化的10大政策解读一、信创国产化的背景与意义信创国产化,即信息技术应用创新国产化,是当前中国信息技术领域的一个重要发展方向。其核心在于通过自主研发和创新,实现信息技术应用的自主可控,减少对外部技术的依赖,并规避潜在的技术制裁和风险。随着全球信息技术竞争的加剧,以及某些国家对中国在科技领域的打压,信创国产化显...
工程项目管理   1565  
  为什么项目管理通常仍然耗时且低效?您是否还在反复更新电子表格、淹没在便利贴中并参加每周更新会议?这确实是耗费时间和精力。借助软件工具的帮助,您可以一目了然地全面了解您的项目。如今,国内外有足够多优秀的项目管理软件可以帮助您掌控每个项目。什么是项目管理软件?项目管理软件是广泛行业用于项目规划、资源分配和调度的软件。它使项...
项目管理软件   1354  
  信创国产芯片作为信息技术创新的核心领域,对于推动国家自主可控生态建设具有至关重要的意义。在全球科技竞争日益激烈的背景下,实现信息技术的自主可控,摆脱对国外技术的依赖,已成为保障国家信息安全和产业可持续发展的关键。国产芯片作为信创产业的基石,其发展水平直接影响着整个信创生态的构建与完善。通过不断提升国产芯片的技术实力、产...
国产信创系统   21  
  信创生态建设旨在实现信息技术领域的自主创新和安全可控,涵盖了从硬件到软件的全产业链。随着数字化转型的加速,信创生态建设的重要性日益凸显,它不仅关乎国家的信息安全,更是推动产业升级和经济高质量发展的关键力量。然而,在推进信创生态建设的过程中,面临着诸多复杂且严峻的挑战,需要深入剖析并寻找切实可行的解决方案。技术创新难题技...
信创操作系统   27  
  信创产业作为国家信息技术创新发展的重要领域,对于保障国家信息安全、推动产业升级具有关键意义。而国产芯片作为信创产业的核心基石,其研发进展备受关注。在信创国产芯片的研发征程中,面临着诸多复杂且艰巨的难点,这些难点犹如一道道关卡,阻碍着国产芯片的快速发展。然而,科研人员和相关企业并未退缩,积极探索并提出了一系列切实可行的解...
国产化替代产品目录   28  
热门文章
项目管理软件有哪些?
云禅道AD
禅道项目管理软件

云端的项目管理软件

尊享禅道项目软件收费版功能

无需维护,随时随地协同办公

内置subversion和git源码管理

每天备份,随时转为私有部署

免费试用