Python Regex 转义运算符 \ 在替换和原始字符串中-IT科技

摘要：问题描述：我不明白 Python 正则表达式中的 scape 运算符 \ 与原始字符串的 r' 一起起作用的逻辑。如能得到帮助，我将不胜感激。代码：import re text=' esto .es 10 . er - 12 .23 with [ and.Other ] here is more ; ...

问题描述：

我不明白 Python 正则表达式中的 scape 运算符 \ 与原始字符串的 r' 一起起作用的逻辑。如能得到帮助，我将不胜感激。

代码：

import re
text=' esto  .es  10  . er - 12 .23 with [  and.Other ] here is more ; puntuation'
print('text0=',text)
text1 = re.sub(r'(s+)([;:.-])', r'', text)
text2 = re.sub(r's+.', '.', text)
text3 = re.sub(r's+.', r'.', text)
print('text1=',text1)
print('text2=',text2)
print('text3=',text3)

理论说：反斜杠字符（'\'）表示特殊形式或允许使用特殊字符而不调用其特殊含义。

而据本问题末尾提供的链接所解释，r' 代表原始字符串，即没有特殊符号含义，保持原样。

因此，在上面的正则表达式中，我期望 text2 和 text3 不同，因为文本 2 中的替换文本是 '.'，即句点，而（原则上）文本 3 中的替换文本是 r'.'，它是一个原始字符串，即字符串应该按原样显示，反斜杠和句点。但它们的结果相同：

结果是：

text0=  esto  .es  10  . er - 12 .23 with [  and.Other ] here is more ; puntuation
text1=  esto.es  10. er- 12.23 with [  and.Other ] here is more; puntuation
text2=  esto.es  10. er - 12.23 with [  and.Other ] here is more ; puntuation
text3=  esto.es  10. er - 12.23 with [  and.Other ] here is more ; puntuation
#text2=text3 but substitutions are not the same r'.' vs '.'

在我看来，r' 在替换部分的工作方式不同，反斜杠也不一样。另一方面，我的直觉告诉我，我在这里漏掉了一些东西。

编辑 1：根据 @Wiktor Stribiżew 的评论。他指出（点击他的链接）：

import re
print(re.sub(r'(.)(.)(.)(.)(.)(.)', 'ab', '123456'))
print(re.sub(r'(.)(.)(.)(.)(.)(.)', r'ab', '123456'))
# in my example the substitutions were not the same and the result were equal
# here indeed r' changes the results

其结果为：

ab
a6b

这让我更加困惑。

注意：我读过这个关于原始字符串的 Stack Overflow 问题，它非常完整。尽管如此，它并没有提到替换

解决方案 1：

首先，

replacement patterns ≠ regular expression patterns

我们使用正则表达式模式来搜索匹配项，使用替换模式来替换用正则表达式找到的匹配项。

注意：替换模式中唯一的特殊字符是反斜杠, ``。只有反斜杠必须双写。

Python 中的替换模式语法

这些re.sub文档令人困惑，因为它们提到了可以在替换模式中使用的字符串转义序列（如`
，
）和正则表达式转义序列（）以及可以用作正则表达式和字符串转义序列的字符串转义序列（&`）。

我使用术语正则表达式转义序列来表示由文字反斜杠 + 字符组成的转义序列，即或'\X'，r'X'以及字符串转义序列`来表示和字符或某个序列的序列，它们一起形成有效的字符串转义序列。它们仅在常规字符串文字中被识别。在原始字符串文字中，您只能转义"（这就是为什么您不能用结束原始字符串文字的原因"`，但反斜杠仍然是字符串的一部分）。

因此，在替换模式中，您可以使用反向引用：

re.sub(r'D(d)D', r'', 'a1b')    # => 1
re.sub(r'D(d)D', '\\1', 'a1b')    # => 1
re.sub(r'D(d)D', 'g<1>', 'a1b')  # => 1
re.sub(r'D(d)D', r'g<1>', 'a1b') # => 1

您可能会看到r''和'\1'是相同的替换模式。如果使用''，它将被解析为字符串转义序列，即具有八进制值的字符001。如果您忘记使用r具有明确反向引用的前缀，则不会出现问题，因为g不是有效的字符串转义序列，并且``转义字符仍保留在字符串中。请阅读我链接到的文档：

与标准 C 不同，所有无法识别的转义序列都保留在字符串中不变，即反斜杠保留在结果中。

因此，当您传递'.'替换字符串时，您实际上发送了.两个字符的组合作为替换字符串，这就是您得到.结果的原因。

``是 Python 替换模式中的特殊字符

如果您使用，您将获得与和情况re.sub(r's+.', r'\.', text)相同的结果，请参阅此演示。text2`text3`

发生这种情况的原因是\，两个文字反斜杠在替换模式中表示单个反斜杠。如果您的正则表达式模式中没有 Group 2，但传入r''替换以实际替换为`和2`字符组合，则会出现错误。

因此，当您有动态的、用户定义的替换模式时，您需要将替换模式中所有要作为文字字符串传递的反斜杠加倍：

re.sub(some_regex, some_replacement.replace('\\', '\\\\'), input_string)

解决方案 2：

解决所有这些字符串转义问题的一个简单方法是使用函数/lambda 作为repl参数，而不是字符串。例如：

output = re.sub(
    pattern=find_pattern,
    repl=lambda _: replacement,
    string=input,
)

替换字符串根本不会被解析，而只是替换匹配项。

解决方案 3：

来自文档（我强调）：

re.sub(pattern, repl, string, count=0, flags=0) 返回用替换 repl 替换 string 中最左边不重叠的 pattern 后得到的字符串。如果未找到模式，则返回未改变的 string。repl 可以是字符串或函数；如果是字符串，则处理其中的任何反斜杠转义。也就是说，\n 转换为单个换行符，\r 转换为回车符，等等。未知的 ASCII 字母转义保留以备将来使用并视为错误。其他未知转义（如 \&）则保留。反向引用（如 \6）将替换为模式中第 6 组匹配的子字符串。

repl参数不仅仅是纯文本。它还可以是函数的名称或引用组中的位置（例如g<quote>，，g<1>）。

另外，从这里：