如何使用正则表达式找到重叠匹配？[重复]-IT科技

如何使用正则表达式找到重叠匹配？[重复]

2024-12-04 08:56:00

admin

原创

131

摘要：问题描述：>>> match = re.findall(r'ww', 'hello') >>> print match ['he', 'll'] 由于 \w\w 表示两个字符，因此预期为“he”和“ll”。但为什么“el”和“lo”与正则表达式不匹配？>>>...

问题描述：

>>> match = re.findall(r'ww', 'hello')
>>> print match
['he', 'll']

由于 \w\w 表示两个字符，因此预期为“he”和“ll”。但为什么“el”和“lo”与正则表达式不匹配？

>>> match1 = re.findall(r'el', 'hello')
>>> print match1
['el']
>>>

解决方案 1：

findall默认情况下不会产生重叠匹配。但是，此表达式会产生重叠匹配：

>>> re.findall(r'(?=(ww))', 'hello')
['he', 'el', 'll', 'lo']

以下(?=...)是一个前瞻断言：

(?=...)如果...接下来匹配，但不消耗任何字符串，则匹配。这称为前瞻断言。例如，
只有当其后跟时Isaac (?=Asimov)才会匹配。'Isaac '`'Asimov'`

解决方案 2：

您可以使用新的 Python regex 模块，它支持重叠匹配。

>>> import regex as re
>>> match = re.findall(r'ww', 'hello', overlapped=True)
>>> print match
['he', 'el', 'll', 'lo']

解决方案 3：

除了零长度断言，输入中的字符总是会在匹配中被消耗。如果您曾经遇到过想要多次捕获输入字符串中的某个字符的情况，则需要正则表达式中的零长度断言。

有几种零长度断言（例如^（输入/行的开始）、$（输入/行的结束）、（单词边界）），但环视（(?<=)正向后视和(?=)正向前视）是从输入中捕获重叠文本的唯一方法。负向环视（(?<!)负向后视、(?!)负向前视）在这里不是很有用：如果它们断言为真，则内部捕获失败；如果它们断言为假，则匹配失败。这些断言是零长度（如前所述），这意味着它们将在不消耗输入字符串中的字符的情况下进行断言。如果断言通过，它们实际上将匹配空字符串。

应用上述知识，适合您的情况的正则表达式是：