计算终端中非二进制文件(如 CSV 或 TXT)文件的行数[关闭]
- 2024-10-25 08:42:00
- admin 原创
- 53
问题描述:
我有一个文本文件,我想在不打开它的情况下知道总行数。我的文档是这样的,我想知道实际上有多少行...
09:16:39 AM all 2.00 0.00 4.00 0.00 0.00 0.00 0.00 0.00 94.00
09:16:40 AM all 5.00 0.00 0.00 4.00 0.00 0.00 0.00 0.00 91.00
09:16:41 AM all 0.00 0.00 4.00 0.00 0.00 0.00 0.00 0.00 96.00
09:16:42 AM all 3.00 0.00 1.00 0.00 0.00 0.00 0.00 0.00 96.00
09:16:43 AM all 0.00 0.00 1.00 0.00 1.00 0.00 0.00 0.00 98.00
09:16:44 AM all 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 100.00
09:16:45 AM all 2.00 0.00 6.00 0.00 0.00 0.00 0.00 0.00 92.00
有没有办法在 Linux 终端中计数?
解决方案 1:
使用wc
:
wc -l <filename>
这将输出行数<filename>
:
$ wc -l /dir/file.txt
3272485 /dir/file.txt
<filename>
或者,从结果中省略使用wc -l < <filename>
:
$ wc -l < /dir/file.txt
3272485
您还可以通过管道将数据传输到wc
:
$ cat /dir/file.txt | wc -l
3272485
$ curl yahoo.com --silent | wc -l
63
解决方案 2:
要计算所有行,请使用:
$ wc -l file
要过滤并仅计算具有模式的行数,请使用:
$ grep -w "pattern" -c file
或者使用 -v 来反转匹配:
$ grep -w "pattern" -c -v file
请参阅 grep 手册页来查看 -e、-i 和 -x 参数...
解决方案 3:
wc -l
不算行。
是的,这个答案可能有点晚了,但我还没有发现有人在答案中记录更为强大的解决方案。
与普遍的看法相反,POSIX 根本不要求文件以换行符结尾。是的,POSIX 3.206 行的定义如下:
零个或多个非 <newline> 字符加上终止字符的序列。
然而很多人不知道的是,POSIX 还将POSIX 3.195 不完整行定义为:
文件末尾的一个或多个非 <newline> 字符序列。
因此,没有尾随的文件LF
完全符合 POSIX 标准。
如果您选择不支持两种 EOF 类型,则您的程序不符合 POSIX 标准。
作为示例,让我们看一下以下文件。
1 This is the first line.
2 This is the second line.
无论 EOF 是什么,我相信您都会同意有两行。您是通过查看已开始的行数而不是已终止的行数来得出这一点的。换句话说,根据 POSIX,这两个文件的行数相同:
1 This is the first line.
2 This is the second line.
1 This is the first line.
2 This is the second line.
手册页对wc
换行符的计数相对清楚,换行符只是一个0x0a
字符:
NAME
wc - print newline, word, and byte counts for each file
因此,wc
甚至不会尝试计算所谓的“行”。使用wc
计算行数很可能会导致错误计数,具体取决于输入文件的 EOF。
符合 POSIX 的解决方案
您可以使用grep
来计算行数,就像上面的示例一样。此解决方案更加强大和精确,并且支持文件中每行可能包含的所有不同内容:
POSIX 3.75 空行
POSIX 3.145 空行
POSIX 3.195 不完整行
POSIX 3.206 行
$ grep -c ^ FILE
解决方案 4:
wc -l <file.txt>
或者
command | wc -l
解决方案 5:
方法有很多。使用wc
就是其中之一。
wc -l file
其他包括
awk 'END{print NR}' file
sed -n '$=' file
(GNU sed)
grep -c ".*" file
解决方案 6:
该工具wc
是 UNIX 和类 UNIX 操作系统中的“字数统计器”,但您也可以通过添加-l
选项来使用它来计算文件中的行数。
wc -l foo
将计算 中的行数foo
。您还可以像这样通过管道输出程序的输出:ls -l | wc -l
,它将告诉您当前目录中有多少个文件(加一)。
解决方案 7:
如果要检查目录中所有文件的总行数,可以使用 find 和 wc:
find . -type f -exec wc -l {} +
解决方案 8:
使用wc
:
wc -l <filename>
解决方案 9:
如果您想要的只是行数(而不是行数和返回的愚蠢的文件名):
wc -l < /filepath/filename.ext
如前所述,这些方法也有效(但由于其他原因,效果较差):
awk 'END{print NR}' file # not on all unixes
sed -n '$=' file # (GNU sed) also not on all unixes
grep -c ".*" file # overkill and probably also slower
解决方案 10:
使用方式nl
如下:
nl filename
从man nl
:
将每个 FILE 写入标准输出,并添加行号。如果没有 FILE,或者 FILE 为 -,则读取标准输入。
解决方案 11:
我一直在用这个:
cat myfile.txt | wc -l
与接受的答案相比,我更喜欢它,因为它不会打印文件名,而且您不必使用它awk
来解决这个问题。接受的答案:
wc -l myfile.txt
但我认为最好的是GGB667的回答:
wc -l < myfile.txt
从现在起我可能会用这个。它比我的方法略短。我把以前的方法放上来,以防有人喜欢。这两种方法的输出是一样的。
解决方案 12:
以上是首选方法,但“cat”命令也可能有用:
cat -n <filename>
将显示带有行号的文件的全部内容。
解决方案 13:
我在寻找一种计算多个文件行数的方法时看到了这个问题,所以如果你想计算 .txt 文件的多个文件行数,你可以这样做,
cat *.txt | wc -l
它也将在一个.txt文件上运行;)
解决方案 14:
wc -l 文件名
例如:wc -l file.txt
它将给出该文件的总行数
要获取最后一行,请使用tail -1 file_name
解决方案 15:
wc -l <filename>
这将为您提供输出中的行数和文件名。
例如。
wc -l 24-11-2019-04-33-01-url_creator.log
输出
63 24-11-2019-04-33-01-url_creator.log
使用
wc -l <filename>|cut -d -f 1
仅获取输出中的行数。
例如。
wc -l 24-11-2019-04-33-01-url_creator.log|cut -d -f 1
输出
63
解决方案 16:
cat file.log | wc -l | grep -oE 'd+'
grep -oE 'd+'
:为了仅返回数字。
解决方案 17:
计算行数并将结果存储在变量中使用此命令:
`count=$(wc -l < file.txt)
echo "Number of lines: $count"`
解决方案 18:
我尝试使用 wc -l 从文件名中获取行数
要进行更多过滤,例如想要计算文件中注释行的数量,请使用 grep '#' Filename.txt | wc -l
echo "No of files in the file $FILENAME"
wc -l < $FILENAME
echo total number of commented lines
echo $FILENAME
grep '#' $FILENAME | wc -l
解决方案 19:
Awk 节省了时间(也节省了行数):
awk '{c++};END{print c}' < file
如果你想确保没有计算空行,你可以这样做:
awk '{/^./ && c++};END{print c}' < file
解决方案 20:
以防万一。使用find命令可以对许多文件执行此操作。
find . -name '*.java' | xargs wc -l
解决方案 21:
wc -l file.txt | cut -f3 -d" "
仅返回行数
解决方案 22:
将文件的输出重定向/管道化wc -l
就足够了,如下所示:
cat /etc/fstab | wc -l
然后它将仅提供行数。
解决方案 23:
或者计算具有文件名模式的子目录中的所有行(例如,文件名中带有时间戳的日志文件):
wc -l ./**/*_SuccessLog.csv
解决方案 24:
这个嵌入式便携式 shell 函数[ℹ] 非常有效。只需将以下代码片段添加到您的.bashrc
文件中(或您的 shell 环境的等效代码段)即可。
# ---------------------------------------------
# Count lines in a file
#
# @1 = path to file
#
# EXAMPLE USAGE: `count_file_lines $HISTFILE`
# ---------------------------------------------
count_file_lines() {
local subj=$(wc -l $1)
subj="${subj//$1/}"
echo ${subj//[[:space:]]}
}
除了bash和zsh之外,这还应该与所有符合 POSIX 的 shell完全兼容。
解决方案 25:
我知道这很老了,但仍然如此:计算过滤后的行数
我的文件如下所示:
Number of files sent
Company 1 file: foo.pdf OK
Company 1 file: foo.csv OK
Company 1 file: foo.msg OK
Company 2 file: foo.pdf OK
Company 2 file: foo.csv OK
Company 2 file: foo.msg Error
Company 3 file: foo.pdf OK
Company 3 file: foo.csv OK
Company 3 file: foo.msg Error
Company 4 file: foo.pdf OK
Company 4 file: foo.csv OK
Company 4 file: foo.msg Error
如果我想知道有多少个文件发送成功了:
grep "OK" <filename> | wc -l
或者
grep -c "OK" filename
解决方案 26:
正如其他人所说,wc -l
这是最好的解决方案,但是为了将来参考,您可以使用 Perl:
perl -lne 'END { print $. }'
$.
包含行号并且END
块将在脚本末尾执行。
解决方案 27:
我刚刚编写了一个程序来执行此操作(使用node
)
npm install gimme-lines
gimme-lines verbose --exclude=node_modules,public,vendor --exclude_extensions=html
https://github.com/danschumann/gimme-lines/tree/master
解决方案 28:
如果你使用的是某种基于 BSD 的系统,比如 macOS,我推荐使用 gnu 版本的 wc。它不会像 BSD wc 那样在某些二进制文件上出错。至少它的性能还是相当不错的。另一方面,BSD tail 的速度很慢,............zzzzzzzzzz...........
至于 AWK,只有一个小警告 - 因为它在默认的行假设下运行,这意味着`,如果您的文件恰好没有尾随的新行分隔符,与 BSD 或 GNU wc 相比,AWK 会将其多计 1。此外,如果您在管道中输入完全没有新行的内容,例如,则取决于您是在部分还是在部分
echo -n进行测量,NR 会有所不同。
END { }`FNR==1
- 2024年20款好用的项目管理软件推荐,项目管理提效的20个工具和技巧
- 2024年开源项目管理软件有哪些?推荐5款好用的项目管理工具
- 项目管理软件有哪些?推荐7款超好用的项目管理工具
- 项目管理软件哪个最好用?盘点推荐5款好用的项目管理工具
- 项目管理软件有哪些最好用?推荐6款好用的项目管理工具
- 项目管理软件有哪些,盘点推荐国内外超好用的7款项目管理工具
- 2024项目管理软件排行榜(10类常用的项目管理工具全推荐)
- 项目管理软件排行榜:2024年项目经理必备5款开源项目管理软件汇总
- 2024年常用的项目管理软件有哪些?推荐这10款国内外好用的项目管理工具
- 项目管理必备:盘点2024年13款好用的项目管理软件