正则表达式即 regular expression ,描述了一种字符串匹配的模式(pattern),可以用来检查一个字符串是否含有某种子串,也可以将匹配的子串替换,还可以从某个字符串中取出符合某个条件的子串等。
模式和被搜索的字符串既可以是 Unicode 字符串 (str) ,也可以是 8 位字节串 (bytes)。 但是 Unicode 字符串与 8 位字节串不能混用:也就是说,你不能用一个字节串模式去匹配 Unicode 字符串,反之亦然;类似地,当进行替换操作时,替换字符串的类型也必须与所用的模式和搜索字符串的类型一致。
正则表达式并不是 Python 语言独有的,在其他语言也很广泛地使用到正则表达式。Python 自 1.5 版本起增加了re 模块,它提供 Perl 风格的正则表达式模式。
正则表达式语法
普通字符
普通字符,即所有大写和小写字母、所有数字、所有标点符号和一些其他符号。
表达式 | 待匹配字符 | 匹配结果 | 说明 |
---|---|---|---|
[0123456789] |
8 | True | 在一个字符组里枚举合法的所有字符,字符组里的任意一个字符和”待匹配字符”相同都视为可以匹配 |
[0123456789] |
a | False | 由于字符组中没有 a 字符,所以不能匹配 |
[0-9] |
7 | True | 也可以用 - 表示范围,[0-9] 就等同于 [0123456789] |
[a-z] |
s | True | 同样的如果要匹配小写字母,直接用 [a-z] 就可以表示 |
[A-Z] |
A | True | [A-Z] 就表示匹配大写字母 |
[0-9a-fA-F] |
e | True | 可以匹配数字,大小写形式的 a~f ,用来验证十六进制字符 |
元字符
元字符 | 匹配内容 |
---|---|
. |
匹配除换行符以外的任意单个字符 |
\w |
匹配 字母 或 数字 或 下划线 |
\s |
匹配任意的空白符,包括空格和制表符 |
\d |
匹配一个数字 |
\n |
匹配一个换行符 |
\t |
匹配一个制表符 |
\bhello |
匹配以 hello 为词首 |
hello\b |
匹配以 hello 为词尾 |
\bhello\\b |
精确匹配一个单词 hello |
^ |
锚定开始 |
$ |
锚定结尾 |
\W |
匹配非 字母 或 数字 或 下划线 |
\D |
匹配一个非数字的字符 |
\S |
匹配一个非空白符的字符 |
() |
匹配括号内的表达式,也表示一个组 |
[...] |
匹配字符组中的字符 |
[^...] |
匹配除了字符组中字符的所有字符 |
1 | a|b 匹配 a 或 b |
量词
量词 | 用法说明 |
---|---|
* | 其前面的字符出现任意次 |
+ | 其前面的字符出现一次或多次 |
? | 其前面的字符出现一次或零次 |
{n} | 其前面的字符出现 n 次 |
{n,} | 其前面的字符至少出现 n 次 |
{n,m} | 其前面的字符至少出现 n 次,最多出现 m 次 |
分组及其捕获和后向引用
(…)
除了简单地判断是否匹配之外,正则表达式还有利用分组来提取子字符串的强大功能。用 ()
表示的就是要提取的分组(Group)。匹配完成后,组合的内容可以被获取,并可以在之后用 \number
转义序列进行后向引用再次匹配。要匹配字符 (
或者 )
, 用 \(
或 \)
,或者把它们包含在字符集合里: [(]
, [)]
。
如果正则表达式中定义了组,就可以在 match
对象 或 search
对象上用 group()
或 groups()
方法提取出子字符串来。group(1)
、group(2)
……表示第1、2、……个个组匹配到的子字符串。 例如 ^(\d{3})-(\d{3,8})$
分别定义了两个组,可以直接从匹配的字符串中提取出区号和本地号码:
1 | import re |
但是需要注意如果没有定义组 group(0)
(等价于 group()
)返回的将永远是正则匹配到的所有内容,而不会有子字符串。group(1)
、group(2)
……表示第1、2、……个个组匹配到的子字符串串。
1 | import re |
(?:…)
这将禁止正则捕获分组。它匹配在括号内的任何正则表达式,但该分组所匹配的子字符串 不能 在执行匹配后被获取或是之后在模式中被引用。
1 | import re |
(?P\<name>…)
(命名组合)类似正则组合,但是匹配到的子字符串组在外部是通过定义的 name 来获取的。组合名必须是有效的 Python 标识符,并且每个组合名只能用一个正则表达式定义,只能定义一次。
1 | import re |
命名组合可以在三种上下文中引用。如果样式是 (?P<quote>['"]).*?(?P=quote)
(也就是说,匹配单引号或者双引号括起来的字符串):
引用组合 “quote” 的上下文 | 引用方法 |
---|---|
在正则式自身内 | (?P=quote) 或 \1 |
处理匹配对象 m | m.group('quote') 或 m.end('quote') 等 |
传递到 re.sub() 里的 repl 参数中 |
\g<quote> 或 \g<1> 或 \1 |
(?P=name)
后向引用一个命名组合;它匹配和前面那个叫 name 的命名组中匹配到的字符串一模一样的字符串。
1 | import re |
转义符 \
正则表达式使用反斜杠(\
)来表示特殊形式,或者把特殊字符转义成普通字符。 而反斜杠在普通的 Python 字符串里也有相同的作用,所以就产生了冲突。比如说,要匹配一个字面上的反斜 杠\
,正则表达式模式不得不写成 \\\\
,因为正则表达式里匹配一个反斜杠必须是 \\
,而每个反斜杠在普通的 Python 字符串里都要写成 \\
。
这样就太麻烦了,比较人性化的解决办法是对于正则表达式样式使用 Python 的原始字符串表示法;在带有 r
前缀的字符串字面值中,反斜杠就不必做任何特殊处理。也就是说这种方法会让字符串中的 \
失去转义功能,仅仅代表 \
这个字符。 因此 r"\n"
表示包含 \
和 n
两个字符的字符串,而 "\n"
则表示只包含一个换行符的字符串。
贪婪匹配
在满足匹配时,匹配尽可能长的字符串,这种匹配模式就是贪婪匹配。当在量词之后加一个问号 ?
,则尽可能少的匹配,这就是懒惰匹配。在 Python 中默认情况下,采用是贪婪匹配。
正则 | 待匹配字符 | 匹配 结果 | 说明 |
---|---|---|---|
<.*> |
<script>...<script> |
<script>...<script> |
默认为贪婪匹配模式,会匹配尽量长的字符串 |
<.*?> |
<script>...<script> |
<script> <script> |
加上? 则将贪婪匹配模式转为非贪婪匹配模式,会匹配尽量短的字符串 |
几个常用的非贪婪匹配 Pattern
1 | *? 重复任意次,但尽可能少重复 |
对于正则表达式 .*?
,其中 .
是任意字符,*
是取任意长度,?
是非贪婪模式。合在一起就是匹配尽量少的任意字符,一般不会这么单独写。比如 .*?x
就是取前面任意长度的字符,直到一个字符 x
出现。
模块内容
re 模块定义了几个函数,有些函数是编译后的正则表达式方法的简化版本(少了一些特性)。绝大部分重要的应用,当我们在使用正则表达式时,re 模块内部会做两件事情:
编译正则表达式,如果正则表达式的字符串本身不合法,会报错;
用编译后的正则表达式去匹配字符串
在 Python 的交互式解释器中先导入 re 模块,然后输入 re._all__
命令,即可看到该模块所包含的全部属性和函数。
1 | re.__all__ |
compile
1 | re.compile(pattern, flags=0) |
将正则表达式的样式 pattern 编译为一个 正则表达式对象 (正则对象),通过这个对象的 match()
, search()
等方法来用于匹配。
这个表达式的行为可以通过 flags 指定 标记 的值来改变。具体的请参照本文最后 正则标志位 flags 相关内容。
对于如下正则
1 | import re |
其实等价于:
1 | import re |
如果一个正则表达式要重复使用几千次,使用 re.compile()
方法预编译保存这个正则对象以便复用,接下来重复使用时就不需要编译这个步骤了,直接匹配,可以让程序更加高效。
注意: 通过 re.compile()
编译后的样式,和模块级的函数会被缓存, 所以少数的正则表达式使用无需考虑编译的问题。
findall
1 | re.findall(pattern, string, flags=0) |
在 string 中从左到右进行扫描,找到 pattern 所匹配到的所有子字符串,并按照找到的顺序返回一个列表,如果没有找到匹配的就返回一个空列表。例如:
1 | import re |
注意: 如果 pattern 中有分组,findall 会优先把分组匹配到的内容返回,如果想要整个正则的匹配结果,则使用 (?:)
取消优先权即可。
1 | import re |
finditer
1 | re.finditer(pattern, string, flags=0) |
和 findall 类似,在字符串中找到正则表达式所匹配的所有子字符串,并把匹配到的内容保存到一个迭代器后返回。例如:
1 | import re |
对于匹配到的内容特别多的情况,这种方法可以节省内存空间。
search
1 | re.search(pattern, string, flags=0) |
扫描整个 string 寻找第一个被 pattern 匹配的位置后不再匹配, 并返回一个相应的匹配对象。如果没有匹配,就返回 None。注意这和找到一个零长度的匹配是不同的,比如 (abc)?
去匹配字符串 123
可以匹配到一个空字符串,而不是没有匹配到。
1 | import re |
match
1 | re.match(pattern, string, flags=0) |
从字符串 string 的起始位置进行匹配,匹配到第一个则不再匹配 并返回一个对象,如果不是起始位置匹配成功的话,就返回 None 。注意这和找到一个零长度的匹配是不同的,比如 (abc)?
去匹配字符串 123
可以匹配到一个空字符串,而不是没有匹配到。
1 | import re |
split
1 | re.split(pattern, string[, maxsplit=0, flags=0]) |
用 pattern 分开 string 。如果 maxsplit 非零, 最多进行 maxsplit 次分隔, 剩下的字符全部返回到列表的最后一个元素。默认情况下 maxsplit 值为 0 ,即不限制分割次数。对于一个没有被 pattern 匹配的字符串而言,split 不会对其作出分割。
如果在 pattern 中没有出现括号 ()
(捕获组合),那么只会返回被 pattern 分隔的结果,不会保留 pattern 所匹配到的内容:
1 | import re |
如果在 pattern 中有括号 ()
(捕获组合),那么所有的组合里的文字也会包含在列表里,对于结尾的地方也是一样:
1 | r'(\d+)', s) re.split( |
这样的话,分隔组中的文字将会出现在结果列表中同样的位置。
sub
1 | re.sub(pattern, repl, string, count=0, flags=0) |
在 string 中使用 pattern 进行匹配,将所有被匹配到的内容使用 repl 将其替换掉,并将替换掉的字符串返回。如果整个 string 没有被 pattern 匹配到,则不加改变的返回 string 。
1 | import re |
其中 repl 参数可以是字符串,也可以是函数。如果是字符串,则其中任何反斜杠转义序列都会被处理。 也就是说,\n
会被转换为一个换行符,\r
会被转换为一个回车符,依此类推。 未知的 ASCII 字符转义序列保留在未来使用,会被当作错误来处理。 其他未知转义序列例如 \&
会保持原样。 向后引用像是 \6
会使用 pattern 中第 6 组所匹配到的子字符串来替换。
在字符串类型的 repl 参数里,如上所述的转义和向后引用中,\g<name>
会使用命名组合 name
(在 (?P<name>…)
语法中定义), \g<number>
会使用数字组;\g<2>
就是 \2
,但它避免了二义性,如 \g<2>0
。 \20
就会被解释为组 20,而不是组 2 后面跟随一个字符 0
。后向引用 \g<0>
把 pattern 作为一整个组进行引用。
1 | import re |
可选参数 count 是要替换的最大次数。count 必须是非负整数。如果忽略这个参数,或者设置为0,所有被匹配到的内容都会被替换。空匹配只在不相临连续的情况被更替,所以 sub('x*', '-', 'abxd')
返回 -a-b--d-
。
1 | import re |
subn
1 | re.subn(pattern, repl, string, count=0, flags=0) |
用法与 sub()
相同,但是会返回一个元组 (字符串, 替换次数):
1 | import re |
正则表达式对象
编译后的正则表达式对象支持以下方法和属性:
search
1 | Pattern.search(string[, pos[, endpos]]) |
扫描整个 string 寻找第一个被 pattern 匹配的位置后不再匹配, 并返回一个相应的匹配对象。如果没有匹配,就返回 None。注意这和找到一个零长度的匹配是不同的,比如 (abc)?
去匹配字符串 123
可以匹配到一个空字符串,而不是没有匹配到。
1 | "d") pattern = re.compile( |
可选的第二个参数 pos 给出了字符串中开始搜索的位置索引;默认为 0,它不完全等价于字符串切片;
1 | import re |
^
样式字符匹配字符串真正的开头,和换行符后面的第一个字符,但不会匹配索引规定开始的位置。
1 | import re |
可选参数 endpos 限定了字符串搜索的结束;它假定字符串长度到 endpos , 所以只有从 pos 到 endpos - 1 的字符会被匹配。如果 endpos 小于 pos,就不会有匹配产生;
1 | r'\d{3}') r = re.compile( |
另外,如果 rx 是一个编译后的正则对象, rx.search(string, 0, 50)
等价于 rx.search(string[:50], 0)
。
1 | r'\d{3}') rx = re.compile( |
match
1 | Pattern.match(string[, pos[, endpos]]) |
从字符串 string 的起始位置进行匹配,匹配到第一个则不再匹配 并返回一个对象,如果不是起始位置匹配成功的话,就返回 None 。注意这和找到一个零长度的匹配是不同的,比如 (abc)?
去匹配字符串 123
可以匹配到一个空字符串,而不是没有匹配到。
1 | "o") pattern = re.compile( |
可选参数 pos 和 endpos 与 search() 中的含义相同。
split
1 | Pattern.split(string, maxsplit=0) |
等价于 split() 函数,使用了编译后的样式。
findall
1 | Pattern.findall(string[, pos[, endpos]]) |
类似函数 findall() , 使用了编译后样式,但也可以接收可选参数 pos 和 endpos ,限制搜索范围,就像 search()。
finditer
1 | Pattern.finditer(string[, pos[, endpos]]) |
类似函数 finiter() , 使用了编译后样式,但也可以接收可选参数 pos 和 endpos ,限制搜索范围,就像 search()。对于匹配到的内容特别多的情况,这种方法可以节省内存空间。
sub
1 | Pattern.sub(repl, string, count=0) |
等价于 sub() 函数,使用了编译后的样式。
subn
1 | Pattern.subn(repl, string, count=0) |
等价于 subn() 函数,使用了编译后的样式。
flags
1 | Pattern.flags |
正则匹配标记。这是可以传递给 compile() 的参数,任何 (?…) 内联标记,隐性标记比如 UNICODE 的结合。
groups
1 | Pattern.groups |
捕获组合的数量。
pattern
1 | Pattern.pattern |
编译对象的原始样式字符串。
匹配对象
匹配对象总是有一个布尔值 True。如果没有匹配的话 match()
和 search()
返回 None 。所以你可以简单的用 if
语句就能来判断是否匹配:
1 | match = re.search(pattern, string) |
下面列举了匹配对象常用的方法和属性。
group
1 | Match.group([group1, ...]) |
返回一个或者多个匹配的子字符串分组。如果只有一个参数,结果就是一个字符串,如果有多个参数,结果就是一个元组(每个参数对应一个项)。当要获得整个匹配的子串时,可直接使用 group()
或 group(0)
。 如果它是 1 到 99 内的一个数字,结果就是相应的括号组字符串。
1 | import re |
如果正则表达式使用了 (?P<name>…)
语法, groupN
参数就也可能是命名组合的名字:
1 | r"(?P<first_name>\w+) (?P<last_name>\w+)", "Malcolm Reynolds") m = re.match( |
命名组合同样可以通过索引值引用:
1 | 1) m.group( |
如果一个组匹配成功多次,就只返回最后一个匹配:
1 | r"(..)+", "a1b2c3") # Matches 3 times. m = re.match( |
__getitem__
这个等价于 m.group(g)
。这允许更方便地引用一个匹配:
1 | r"(\w+) (\w+)", "Isaac Newton, physicist") m = re.match( |
groups
1 | Match.groups(default=None) |
返回一个元组,包含所有匹配的子字符串分组。 default 参数用于某个分组没有匹配到的情况,默认为 None 。
1 | r'(\d+)\.(\d+)', '3.1415926') m = re.match( |
如果我们使小数点可选,那么不是所有的组都能匹配到内容。对于这些没有匹配到的分组默认会返回一个 None ,除非指定了 default 参数。
1 | r"(\d+)\.?(\d+)?", "24") m = re.match( |
start 和 end
1 | Match.start([group]) |
用于获取分组匹配的子串在整个字符串中的起始位置(子串第一个字符的索引),参数默认值为 0;
1 | Match.end([group]) |
用于获取分组匹配的子串在整个字符串中的结束位置(子串最后一个字符的索引+1),参数默认值为 0;
这两个方法中, group 默认都为 0,意思是针对正则匹配到的整个子字符串取其所在位置。
1 | '01234567_abc_' s = |
如果正则中使用了分组,没有指定参数就返回分组所匹配到的字符串的开始索引和结束索引标号,指定了参数就返回对应分组匹配到的字符串的开始索引和结束索引标号。
1 | 'hello world, one world one dream' s = |
如果正则中使用了分组,但未产生匹配,就返回 -1 。
1 | '01234567_abc_' s = |
注意,如果分组匹配到的是一个空字符串的话 m.start(group)
将会等于 m.end(group)
。
1 | 'b(c?)', 'cba') m = re.search( |
这个例子会从 email 地址中移除掉 remove_this
:
1 | "tony@tiremove_thisger.net" email = |
span
1 | Match.span([group]) |
对于一个匹配对象 m , 返回一个二元组 (m.start(group), m.end(group))
。 注意如果对应的分组没有成功匹配,就返回 (-1, -1) 。group 默认为0,也就是整个匹配。
1 | r'(\d+)\.(\d+)(\w+)([A-Z]+)?', '3.1415926') m = re.search( |
正则标志位 flags
正则函数中的 flags 是可选标志位,用于控制正则表达式的匹配方式,比如是否区分大小写,是否进行多行匹配等等。标志可以使用两种名字,一种是全名如 IGNORECASE
,一种是缩写如 I
。多个标志可以通过按位 OR(|) 它们来指定。如 re.I | re.M
被设置成 I
和 M
标志。
re.I
re.IGNORECASE
进行忽略大小写匹配;表达式如 [A-Z]
也会匹配小写字符。Unicode 匹配(比如 Ü
匹配 ü
)同样有用,除非设置了 re.ASCII
标记来禁用非 ASCII
匹配。当前语言区域不会改变这个标记,除非设置了 re.LOCALE
标记。这个相当于内联标记 (?i)
。
1 | import re |
re.L
re.LOCALE
由当前语言区域决定 \w
, \W
, \b
, \B
, 和大小写敏感匹配。举个例子,如果你正在处理法文文本,想用 w+
来匹配文字,但 w
只匹配字符类 [A-Za-z]
,它并不能匹配 é
或 ?
。如果你的系统配置适当且本地化设置为法语,那么内部的 C 函数将告诉程序 é
也应该被认为是一个字母。当在编译正则表达式时使用 LOCALE 标志会得到用这些 C 函数来处理 w
后的编译对象;这会更慢,但也会像你希望的那样可以用 w+
来匹配法文文本。
这个标记只能对 byte 样式有效,并且不推荐使用,因为语言区域机制很不可靠,它一次只能处理一个 “习惯”,而且只对 8 位字节有效。Unicode 匹配在 Python 3 里默认启用,并可以处理不同语言。
这个对应内联标记 (?L)
。
re.M
re.MULTILINE
使用 ^
只匹配以某个字符串为开头,而 $
则只匹配以某个字符串为结尾。设置了此标志将会改变 ^
和 $
的行为,此时 ^
匹配以某个字符串为开头,还匹配每一行的开始(换行符后面紧跟的内容,如果有的话);并且 $
匹配以某个字符串为结尾,还匹配每一行的结尾(换行符前面的内容,如果有的话)。说地直白点,就是开启多行模式的匹配。对应内联标记 (?m)
。例如:
1 | import re |
re.S
re.DOTALL
默认情况下 .
会匹配除了换行符外的任何单个字符,如果设置了此标志将会使 .
匹配任何一个字符,包括换行符。对应内联标记 (?s)
。例如:
1 | import re |
re.X
re.VERBOSE
该标志通过给予你更灵活的格式以便你将正则表达式写得更容易理解。当设置了这个标志后,在 正则表达式 字符串中的空白符被忽略,除非该空白符在字符类中或在反斜杠之后;这可以让你更清晰地组织和缩进 正则表达式。它也可以允许你将注释写入 正则表达式,这些注释会被正则引擎忽略;注释用 #
号 来标识,不过该符号不能在字符串或反斜杠之后。对应内联标记 (?x)
。例如:
1 | import re |
re.DEBUG
显示编译时的 debug 信息,没有内联标记。
正则表达式例子
给定赋值操作 aline = '<title>Python的正则练习-获取tag间的内容</title>'
,利用 re 模块取出标记 <title
</title
之间的内容 Python的正则练习-获取tag间的内容
。
1 | #!/usr/bin/env python3 |
在爬虫时 Python 利用正则的分组十分广泛,例如我们要爬取豆瓣网站的 top250 电影信息:
1 | from urllib.request import urlopen |
爬取的结果:
1 | {'id': '2', 'title': '霸王别姬'} |
加强版:
1 | #!/usr/bin/env python3 |