云计算、AI、云原生、大数据等一站式技术学习平台

网站首页 > 教程文章 正文

如何使用正则表达式和 Python 匹配不以模式开头的字符串

jxf315 2025-03-13 16:42:27 教程文章 34 ℃

需要在 Python 中使用正则表达式来匹配不以给定模式开头的字符串吗?

如果是这样,你可以使用下面的语法来查找所有的字符串,除了那些不以https 开始的字符串。

r"^(?!https).*"
复制代码

第一步:匹配不以模式开头的字符串

在这个例子中,我们有一个 URL 的列表。假设你想得到所有不以https 开始的网址。

为了这个目的,我们将使用负数查找。

import re
texts = [
'https://en.wikipedia.org/wiki/Main_Page/',
'http://en.wikipedia.org/wiki/National_Park_Service/',
'https://en.wikipedia.org/wiki/Hoover_Dam/',
'http://en.wikipedia.org/wiki/United_States_Bureau_of_Reclamation/',
'https://en.wikipedia.org/wiki/Central_African_Republic/',
'en.wikipedia.org/wiki/Africa/',
'ftp://en.wikipedia.org/wiki/Central_African_Republic/',
]
for text in texts:
    print(re.findall(r"^(?!https).*", text))
复制代码

其结果是。

[]
['http://en.wikipedia.org/wiki/National_Park_Service/']
[]
['http://en.wikipedia.org/wiki/United_States_Bureau_of_Reclamation/']
[]
['en.wikipedia.org/wiki/Africa/']
['ftp://en.wikipedia.org/wiki/Central_African_Republic/']
复制代码

它是如何工作的?

  • ^ - 断定位置在字符串的开头
  • (?!https) - 负向查找 - 断言重码不匹配 - https
  • .* - 匹配0到无限次之间的任何字符

第2步:匹配不以几个模式开始的字符串

现在,让我们试着找到所有不以......开头的字符串。

  • https
  • ftp

我们可以使用| ,也就是在regex语法中 -r"^(?!https|ftp).*" 。

for text in texts:
    print(re.findall(r"^(?!https|ftp).*", text))
复制代码

结果是。

[]
['http://en.wikipedia.org/wiki/National_Park_Service/'] [
]
['http://en.wikipedia.org/wiki/United_States_Bureau_of_Reclamation/']

[
]
['en.wikipedia.org/wiki/Africa/' ]
[]

注意:你可以用| 添加许多模式。

第3步:匹配不以列表中的字符开始的字符串

最后让我们看看如何匹配所有不以几个字符开头的字符串,比如。

  • f
  • h

这次我们要列出方括号内的所有字符:[^hf] 。语句[hf] 意味着匹配字母 -f 或h ,而^ 则否定匹配。

换句话说,匹配列表中不存在的单个字符 -[hf] 。

所以我们可以使用。

for text in texts:
    print(re.findall(r"^[^hf].*", text))
复制代码

这将给我们带来。

[]
[]
[]
[]
[]
['en.wikipedia.org/wiki/Africa/']
[]
最近发表
标签列表