在Bash中遍历文件内容的方法

技术背景

在Bash脚本编程中，经常需要遍历文件的每一行内容以进行相应的处理，如数据提取、格式转换等。然而，由于文件内容的多样性（如存在空白行、特殊字符等）以及Bash的语法特性，实现正确的文件遍历并不总是简单直接的。因此，了解不同的文件遍历方法及其优缺点是很有必要的。

实现步骤

1. 使用 `while read` 循环

这是最常用的方法，适用于大多数场景。基本语法如下：

while read p; do
    # 处理每一行内容
    echo "$p"
done < peptides.txt

此方法的优点是代码简洁，易于理解。但它有一些潜在问题，如会去除行首的空白字符、解释反斜杠序列，并且如果文件的最后一行没有换行符，会跳过最后一行。为了解决这些问题，可以使用以下改进版本：

while IFS="" read -r p || [ -n "$p" ]
do
    printf '%s\n' "$p"
done < peptides.txt

这里的 IFS="" 表示不修改内部字段分隔符，-r 选项防止解释反斜杠序列，|| [ -n "$p" ] 确保即使最后一行没有换行符也能被处理。

2. 使用 `cat` 结合管道

cat peptides.txt | while read line 
do
    # 处理每一行内容
    echo "$line"
done

此方法的优点是易于记忆，并且可以与其他命令结合使用。但它也有一些缺点，如效率较低，因为会额外启动一个 cat 进程；并且由于 while 循环在子shell中运行，循环内部设置的变量在循环结束后会丢失。为了避免跳过最后一行，可以添加额外的条件判断：

cat peptides.txt | while read line || [[ -n $line ]];
do
    # 处理每一行内容
    echo "$line"
done

3. 使用 `for` 循环

1
2
3

for word in $(cat peptides.txt); do 
    echo $word
done

这种方法适用于文件内容中没有空格的情况。如果文件内容包含空格，需要修改内部字段分隔符：

OLDIFS=$IFS; IFS=$'\n'; 
for line in $(cat peptides.txt); do 
    cmd_a.sh $line; cmd_b.py $line; 
done > outfile.txt; 
IFS=$OLDIFS

但使用 for 循环遍历文件内容会使输入的行受到shell扩展的影响，通常不建议这样做。

4. 从分隔文件中读取

while IFS=: read -r field1 field2 field3; do
    # 处理字段
    echo "$field1 $field2 $field3"
done < input.txt

这里 : 是分隔符，每行文件中有三个字段。如果行中的字段少于三个，缺失的字段将被设置为空字符串；如果行中的字段多于三个，field3 将获取所有剩余的值。

5. 从另一个命令的输出中读取

while read -r line; do
    # 处理行
    echo "$line"
done < <(command ...)

这种方法比 command ... | while read -r line; do ... 更好，因为这里的 while 循环在当前shell中运行，而不是在子shell中。

6. 从以空字符分隔的输入中读取

while read -r -d '' line; do
    # 逻辑处理
    echo "$line"
done < <(find /path/to/dir -print0)

适用于处理文件名包含换行符、空格或两者的情况。

7. 同时从多个文件中读取

while read -u 3 -r line1 && read -u 4 -r line2; do
    # 处理行
    echo "$line1 $line2"
done 3< input1.txt 4< input2.txt

这里使用了文件描述符，注意循环会在任何一个文件到达文件末尾时结束。

8. 将整个文件读入数组（Bash 4.x 及更高版本）

readarray -t my_array < my_file
# 或者
mapfile -t my_array < my_file

for line in "${my_array[@]}"; do
    # 处理行
    echo "$line"
done

对于早期的Bash版本，可以使用 while 循环逐行读取并添加到数组中：

1
2
3

while read -r line; do
    my_array+=("$line")
done < my_file

如果文件的最后一行没有换行符，需要添加额外的条件判断：

1
2
3

while read -r line || [[ $line ]]; do
    my_array+=("$line")
done < my_file

核心代码

以下是一个综合示例，展示了如何使用 while read 循环遍历文件内容并处理：

#!/bin/bash
filename='peptides.txt'
echo "Start!"
while IFS="" read -r p || [ -n "$p" ]
do
    # 这里可以进行更复杂的处理，例如调用其他脚本
    echo "$p"
done < "$filename"

最佳实践

避免使用 for 循环遍历文件内容：除非你确定文件内容中没有空格，否则 for 循环会将每行内容按空格分割，导致意外的结果。
使用 IFS 和 -r 选项：IFS 用于控制字段分隔符，-r 选项防止解释反斜杠序列，确保正确处理文件内容。
处理最后一行没有换行符的情况：在 while 循环条件中添加 || [ -n "$p" ] 或 || [[ $line ]] 可以确保最后一行也能被处理。

常见问题

丢失最后一行：如果文件的最后一行没有换行符，默认的 while read 循环会跳过最后一行。可以通过添加额外的条件判断来解决。
行首空白字符丢失：默认情况下，while read 循环会去除行首的空白字符。可以使用 IFS="" 来避免这种情况。
反斜杠序列被解释：如果文件内容中包含反斜杠序列，默认情况下会被解释。使用 -r 选项可以防止这种情况。
子shell问题：使用管道（如 cat file | while ...）会使 while 循环在子shell中运行，导致循环内部设置的变量在循环结束后丢失。可以使用进程替换（如 < <(command ...)）来避免。

后端开发 > Shell脚本编程

#后端开发 #Bash #Shell脚本 #文件遍历 #循环结构

在Bash中遍历文件内容的方法

https://119291.xyz/posts/2025-04-23.traversing-file-content-in-bash/

作者

发布于

2025年4月23日

许可协议

在Unix/Linux中如何创建目录副本上一篇

使用sudo将输出重定向到无写入权限的位置下一篇

在Bash中遍历文件内容的方法

在Bash中遍历文件内容的方法

技术背景

实现步骤

1. 使用 while read 循环

2. 使用 cat 结合管道

3. 使用 for 循环

4. 从分隔文件中读取

5. 从另一个命令的输出中读取

6. 从以空字符分隔的输入中读取

7. 同时从多个文件中读取

8. 将整个文件读入数组（Bash 4.x 及更高版本）

核心代码

最佳实践

常见问题

1. 使用 `while read` 循环

2. 使用 `cat` 结合管道

3. 使用 `for` 循环