快捷搜索:  汽车  科技

python 正则表达式入门(Python中正则表达式的语法详解)

python 正则表达式入门(Python中正则表达式的语法详解)^One该表达式表示要匹配字符串One的开始位置是行头,如One is All就可以匹配,而All is One则不匹配。但如果使用:例如:One is AllAll is One

欢迎你来到站长在线的站长学堂学习Python知识,本文学习的是《Python中正则表达式的语法详解》。本知识点主要内容有9点:行定位符、元字符、限定符、字符集、排除字符、选择字符、转义字符、分组、在Python中使用正则表达式语法。

python 正则表达式入门(Python中正则表达式的语法详解)(1)

关于Python中的正则表达式,准备分两个知识点讲完,今天来讲解正则表达式的语法。

正则表达式的概念:正则表达式(regular expression,简称regex或者RE),也称为归则表达式。通常用来检索、替换符合某些规则的文本。正则表达式就是记录文本规则的代码。

1、行定位符

行定位符就是用来描述字符串的边界。“^”表示行的开始;“$”表示行的结尾。

例如:

One is All

All is One



^One该表达式表示要匹配字符串One的开始位置是行头,如One is All就可以匹配,而All is One则不匹配。但如果使用:

One$则All is One可以匹配,而One is All不能匹配。如果要匹配的字符串可以出现在字符串的任意部分,那么可以直接写成:

One这样,两个字符串就都可以匹配了。

2、元字符

元字符就是在正则表达式中具有特殊意义的专用字符。

刚才我们所说的“^”和“$”就是元字符,在Python有下面常用元字符:.、\w、\W、\s、\S、\d、\D、\b、^、$。

各种元字符及其说明如下:

.:匹配除换行符以外的任意字符

\w:匹配字母或数字或下划线或汉字

\W:匹配特殊字符,即非字母、非数字、非汉字

\s:匹配任意的空白符

\S:匹配非空白

\d:匹配数字

\D:匹配非数字,即不是数字

\b:匹配单词的开始或结束

^:匹配字符串的开始

$:匹配字符串的结束

我们来看一个例子:

\byi\w*\b

匹配以字母yi开头的单词,先匹配单词开始处(\b),然后匹配字母yi,接着匹配任意数量的字母或数字(\w*),最后匹配单词结束处(\b)。该表达式可以匹配如“yibenshu”“saneryi”“haoyige”“yi12345”等。

3、限定符

在上面的元字符的例子中,使用“\w*”匹配任意数量的字母或数字。如果想匹配特定数量的数字,该如何表示呢?正则表达式为我们提供了限定符(指定数量的字符)来实现该功能。

例如,匹配6位QQ号可用如下表达式:

^\d{6}$

常用的限定符如下所示:*、 、?、{n} 、{n }、{n m}、[] 。

各种限定符及说明及举例如下:

* :匹配前面的字符零次或更多次。例如“zo*”能匹配“z” “zo”以及“zoo”,“*”等效于“{0 }”

:匹配前面的字符一次或更多次。例如“zo ”能匹配“zo”以及“zoo”,但不能匹配“z”,“ ”等效于"{1 }”

? :匹配前面的字符零次或一次。例如“do(es)?”可以匹配 “do”或 “does”中的“do”,“?”等效 于 “{0 1}”

{n} :匹配前面的字符n次。例如“o{2}”不能匹配“Bob”中的“o”,但是能匹配“food” 中的两个 o

{n } :匹配前面的字符n次或更多次。例如“o{2 }”不能匹配“Bob”中的“o”,但能匹配“foooood”中的所有o 等效于“o ”,“o{0 }”则等效于“o*”

{n m} :匹配前面的字符n到m次。其中 n<=m。最少匹配 n 次且最多匹配 m 次。例如“o{1 3}”将匹配“fooooood" 中的前三个“o”,“o{0 l}”等效于“0?”。注意在逗号和两个数之间不能有空格

4、字符集

正则表达式查找数字和字母是很简单的,因为已经有了对应这些字符集合的元字符(如\d,\w),但是如果要匹配没有预定义元字符的字符集合(比如元音字母a e i o u),应该怎么办?很简单,只需要在方括号里列出它们就行了,像[aeiou]就匹配任何一个英文元音字母。

[xyz]表示匹配里面的任意一个字符。

[a-z]字符范围,匹配指定范围内的任意字符。例如“[a-z]”可以匹配“a”到“z”范围内的任意小写字母字符

[.?!]匹配标点符号“.”、“?”或“!”。也可以轻松地指定一个字符范围,像[0-9]代表的含义与\d就是完全一致的:代表一位数字;同理,[a-z0-9A-Z_]也完全等同于\w(如果只考虑英文的话)。

要想匹配给定字符串中任意一个汉字,可以使用[\u4e00-\u9fa5];如果要匹配连续多个汉字,可以使用[\u4e00-\u9fa5] 。

5、排除字符

上方的字符集是匹配符合指定字符集的字符串。这里的排除字符,刚刚相反。排除字符就是匹配不符合指定字符集的字符串。在正则表达式中用“^”表示。我们在最开始的行定位符中也说到了“^”,放在开头,在这里放在方括号[]里面,表示排除的意思。如:

[^a-zA-Z]表示用于一个匹配非字母的字符。

6、选择字符

Python中的选择字符,包含着条件选择的逻辑,在这里使用“|”来表示。该字符可以理解为“或”。

如中国人的身份证号码长度为15位或者18位。如果为15位,则全为数字;如果为18位,前17位为数字,最后一位是校验位,可能为数字或字符X。

匹配身份证的表达式可以写出如下方式:

(^\d{15}$)|(^\d{18}$)|(^\d{17})(\d|X|x)$

该表达式的意思是可以匹配15位数字,或者18位数字,或者17位数字和最后一位。最后一位可以是数字或者是X或者是x。

7、转移字符

正则表达式中的转义字符(\)和Python中的大同小异,都是将特殊字符(如“.”“?”“\”等)变为普通的字符。

举一个IP地址的实例,用正则表达式匹配如127.0.0.1这样格式的IP地址。如果直接使用点字符,格式为:

[1-9]{1 3}.[0-9]{1 3}.[0-9]{1 3}.[0-9]{1 3}

这显然不对,因为“.”可以匹配一个任意字符。这时,不仅是127.0.0.1这样的IP,连127101011这样的字串也会被匹配出来。所以在使用“.”时,需要使用转义字符(\)。修改后,上面的正则表达式格式为:

[1-9]{1 3}\.[0-9]{1 3}\.[0-9]{1 3}\.[0-9]{1 3}

站长在线提醒你:括号在正则表达式中也算是一个元字符。

8、分组

通过上面选择字符中的例子,可以看见小括号的作用有了一定的了解。

小括号字符的第一个作用就是可以改变限定符的作用范围,如“|”“*”“^”等。来看下面的一个表达式。

(mon|ma)th

这个表达式的意思是匹配单词month或math,如果不使用小括号,那么就变成了匹配单词mon和math了。

小括号的第二个作用是分组,也就是子表达式。例如(\.[0-9]{1 3}){3},就是对分组(\.[0-9]{1 3})进行重复操作。



9、在Python中使用正则表达式语法

在Python中使用正则表达式时,是将其作为模式字符串使用的。例如,将匹配不是字母的一个字符的正则表达式表示为模式字符串,可以使用下面的代码:

'[^a-zA-Z]'

而如果将匹配以字母m开头的单词的正则表达式转换为模式字符串,则不能直接在其两侧添加引号定界符,例如,下面的代码是不正确的。

'\bm\w*\b'

而是需要将其中的“\”进行转义,转换后的代码为:

'\\bm\\w*\\b'

由于模式字符串中可能包括大量的特殊字符和反斜杠,所以需要写为原生字符串,即在模式字符串前加r或R。例如,上面的模式字符串采用原生字符串表示就是:

r'\bm\w*\b'

在编写模式字符串时,并不是所有的反斜杠都需要进行转换。例如,前面编写的正则表达式“^\d{6}$”中的反斜杠就不需要转义,因为其中的\d并没有特殊意义。不过,为了编写方便,本教程所写正则表达式都采用原生字符串表示。

到此为止,本文学习的《Python中正则表达式的语法详解》中的主要内容有9点:行定位符、元字符、限定符、字符集、排除字符、选择字符、转义字符、分组、在Python中使用正则表达式语法。就全部讲解完毕了。有问题,可以给我留言哦!

下一个知识点,我们讲解《在Python中使用re模块实现正则表达式操作详解》。欢迎你对站长在线进行关注,评论,点赞,分享、转发!

猜您喜欢: