如何使用正则表达式找到重叠匹配?[重复]
- 2024-12-04 08:56:00
- admin 原创
- 131
问题描述:
>>> match = re.findall(r'ww', 'hello')
>>> print match
['he', 'll']
由于 \w\w 表示两个字符,因此预期为“he”和“ll”。但为什么“el”和“lo”与正则表达式不匹配?
>>> match1 = re.findall(r'el', 'hello')
>>> print match1
['el']
>>>
解决方案 1:
findall
默认情况下不会产生重叠匹配。但是,此表达式会产生重叠匹配:
>>> re.findall(r'(?=(ww))', 'hello')
['he', 'el', 'll', 'lo']
以下(?=...)
是一个前瞻断言:
(?=...)
如果...
接下来匹配,但不消耗任何字符串,则匹配。这称为前瞻断言。例如,
只有当其后跟 时Isaac (?=Asimov)
才会匹配。'Isaac '
`'Asimov'`
解决方案 2:
您可以使用新的 Python regex 模块,它支持重叠匹配。
>>> import regex as re
>>> match = re.findall(r'ww', 'hello', overlapped=True)
>>> print match
['he', 'el', 'll', 'lo']
解决方案 3:
除了零长度断言,输入中的字符总是会在匹配中被消耗。如果您曾经遇到过想要多次捕获输入字符串中的某个字符的情况,则需要正则表达式中的零长度断言。
有几种零长度断言(例如^
(输入/行的开始)、$
(输入/行的结束)、(单词边界)),但环视(
(?<=)
正向后视和(?=)
正向前视)是从输入中捕获重叠文本的唯一方法。负向环视((?<!)
负向后视、(?!)
负向前视)在这里不是很有用:如果它们断言为真,则内部捕获失败;如果它们断言为假,则匹配失败。这些断言是零长度(如前所述),这意味着它们将在不消耗输入字符串中的字符的情况下进行断言。如果断言通过,它们实际上将匹配空字符串。
应用上述知识,适合您的情况的正则表达式是:
(?=(ww))
解决方案 4:
我不是正则表达式专家,但我想回答类似的问题。
如果您想使用带有前瞻的捕获组:
正则表达式示例:(d)(?=.)
细绳:5252
这将匹配前 5 个以及前 2 个
是(d)
创建一个捕获组,(?=d)
是匹配捕获组 1 后面跟着的任何数字而不消耗字符串,从而允许重叠
相关推荐
热门文章
项目管理软件有哪些?
热门标签
云禅道AD