与 cat 相比，Bash 的读取循环非常慢，为什么？-IT科技

与 cat 相比，Bash 的读取循环非常慢，为什么？

2024-10-09 09:11:00

admin

原创

207

摘要：问题描述：这里有一个简单的测试脚本：while read LINE; do LINECOUNT=$(($LINECOUNT+1)) if [[ $(($LINECOUNT % 1000)) -eq 0 ]]; then echo $LINECOUNT; fi done 当我这样...

问题描述：

这里有一个简单的测试脚本：

while read LINE; do
        LINECOUNT=$(($LINECOUNT+1))
        if [[ $(($LINECOUNT % 1000)) -eq 0 ]]; then echo $LINECOUNT; fi
done

当我这样做时，cat my450klinefile.txt | myscriptCPU 锁定在 100%，它每秒可以处理大约 1000 行。处理cat my450klinefile.txt >/dev/null半秒内完成的工作大约需要 5 分钟。

有没有更有效的方法来实现这一点？我只需要从 stdin 读取一行，计算字节数，然后将其写入命名管道。但即使是这个例子的速度也慢得令人难以置信。

每 1Gb 的输入行我都需要执行一些更复杂的脚本操作（关闭和打开一些输入数据的管道）。

解决方案 1：

速度如此缓慢的原因while read是 shell 需要对每个字节进行系统调用。它无法从管道读取大缓冲区，因为 shell 不能从输入流读取多行，因此必须将每个字符与换行符进行比较。如果您strace在while read循环中运行，就会看到这种行为。这种行为是可取的，因为它可以可靠地执行以下操作：

while read size; do test &quot;$size&quot; -gt 0 || break; dd bs=&quot;$size&quot; count=1 of=file$(( i++ )); done

其中循环内的命令与 shell 读取的是同一个流。如果 shell 通过读取大型缓冲区消耗了大量数据，内部命令将无法访问这些数据。不幸的是，这样做的副作用是read速度非常慢。

解决方案 2：

这是因为bash在这种情况下，脚本是解释性的，并没有真正针对速度进行优化。通常，最好使用以下外部工具之一：

awk &#039;NR%1000==0{print}&#039; inputFile

这与“每 1000 行打印一次”示例相匹配。

如果您希望（对于每一行）输出字符数，然后输出行本身，并通过另一个进程将其传输，那么您也可以这样做：

awk &#039;{print length($0)&quot; &quot;$0}&#039; inputFile | someOtherProcess

与解释型 shell 脚本相比，awk诸如sed、、、等更强大的工具更适合这些任务。grep`cut`perl

解决方案 3：

计算每个字符串的字节数的 perl 解决方案：

perl -p -e &#039;
use Encode;
print length(Encode::encode_utf8($_)).&quot;
&quot;;$_=&quot;&quot;&#039;

例如：

dd if=/dev/urandom bs=1M count=100 |
   perl -p -e &#039;use Encode;print length(Encode::encode_utf8($_)).&quot;
&quot;;$_=&quot;&quot;&#039; |
   tail

对我来说是 7.7Mb/s

比较一下使用了多少脚本：

dd if=/dev/urandom bs=1M count=100 >/dev/null

运行速度为 9.1Mb/s

看来脚本不是那么慢:)

解决方案 4：

不太确定你的脚本应该做什么。所以这可能不是对你问题的回答，而是一个通用提示。

不要cat将您的文件通过管道传输到您的脚本，而是在使用 bash 脚本从文件读取时执行以下操作：

while read line    
do    
    echo $line
done &lt;file.txt

问题描述：

解决方案 1：

解决方案 2：

解决方案 3：

解决方案 4：

云端的项目管理软件