使用正则表达式匹配不包含特定单词的行

技术背景

在文本处理中，有时需要筛选出不包含特定单词的行。虽然可以通过其他工具（如 grep -v）先匹配单词再反转匹配结果，但直接使用正则表达式来实现这一需求会更加高效和灵活。正则表达式在各种编程语言和文本处理工具中广泛应用，掌握其反向匹配的方法能提升文本处理的能力。

可以使用负向前瞻 (?!...) 来实现反向匹配。以下正则表达式可以匹配不包含 hede 的字符串：

1	`^((?!hede).)*$`

解释如下：

如果需要匹配包含换行符的字符串，可以使用 DOT - ALL 修饰符：

1	`/^((?!hede).)*$/s`

或者内联使用：

1	`/(?s)^((?!hede).)*$/`

如果 DOT - ALL 修饰符不可用，可以使用字符类 [\s\S] 来模拟：

1	`/^((?!hede)[\s\S])*$/`

可以将负向前瞻放在开头，让其检查整个文本是否不包含 hede，然后再匹配整个文本：

1	`/^(?!.?hede).$/`

这里的 *? 是惰性量词，根据数据情况也可以使用贪婪量词 *。如果 hede 出现在文本的前半部分，惰性量词可能更快；否则，贪婪量词可能更快。如果 hede 不存在，两者速度相同。

对于 POSIX grep，由于基本正则表达式（BREs）缺乏子表达式的交替功能，不能直接满足需求。但 GNU grep 实现了扩展功能，以下是匹配不包含 hede 的正则表达式：

1	`grep "^$[^h]\\|h\(h\\|eh\\|edh$$[^eh]\\|e[^dh]\\|ed[^eh]$\)$\\|h\(h\\|eh\\|edh$*$\\|e\\|ed$\)$" input`

也可以使用扩展正则表达式（EREs），如 egrep：

1	`egrep "^([^h]\|h(h\|eh\|edh)([^eh]\|e[^dh]\|ed[^eh]))(\|h(h\|eh\|edh)*(\|e\|ed))$" input`

1	`^hede$(SKIP)(F)\|^.*$`

这个正则表达式会跳过包含 hede 的行，匹配其余所有行。

const text = `hoho
hihi
haha
hede`;
const regex = /^(?!.*hede).*$/gm;
const matches = text.match(regex);
console.log(matches);

require 'set'

strings = ["hoho", "hihi", "haha", "hede"]
result = strings.select { |s| /^(?~hede)$/.match(s) }
puts result

如果正则表达式引擎不支持负向前瞻，可以考虑使用其他方法，如 POSIX grep 的替代方案。

某些正则表达式可能会导致性能问题，特别是在处理长文本时。可以通过性能测试来选择最优的正则表达式。

当要匹配的单词包含特殊字符时，需要对这些字符进行转义，以确保正则表达式的正确性。

使用正则表达式匹配不包含特定单词的行

https://119291.xyz/posts/2025-04-17.regular-expression-to-match-lines-without-specific-word/

作者

发布于

2025年4月17日

许可协议