Python re模块与正则表达式详解
Python 中使用re模块处理正则表达式,正则表达式主要用来处理文本中的查找,匹配,替换,分割等问题;我们先来看一个问题,切入正则表达式。
问题:匹配字符串,最少以3个数字开头。使用Python代码如何实现?
检查条件:
1>字符串长度判断;
2>判断前三个字符是否是数字;
这样实现起来有点啰嗦,我们可以使用正则表达式,先来看正则表达式基本语法。
1 正则表达式基本语法. 匹配任意字符(不包括换行符)^ 匹配开始位置,多行模式下匹配每一行的开始$ 匹配结束位置,多行模式下匹配每一行的结束* 匹配前一个元字符0到多次+ 匹配前一个元字符1到多次? 匹配前一个元字符0到1次{m,n} 匹配前一个元字符m到n次\ 转义字符,例如\.只能匹配.[] 字符集,一个字符的集合,可匹配其中任意一个字符\d 匹配一个数字, 相当于 [0-9]\D 匹配非数字,相当于 [^0-9]\s 匹配任意空白字符, 相当于 [ \t\n\r\f\v]\S 匹配非空白字符,相当于 [^ \t\n\r\f\v]\w 匹配数字、字母、下划线中任意一个字符, 相当于 [a-zA-Z0-9_]\W 匹配非数字、字母、下划线中的任意字符,相当于 [^a-zA-Z0-9_]| 逻辑表达式 或 ,比如 a|b 代表可匹配 a 或者 b(...) 分组
给一坨这个玩意,怎么用,都需要记住吗?
如果能记住就记住,如果很久不使用,就忘记吧;
等使用的时候直接查资料,理解能使用即可。
下面我们结合re模块,看正则表达式如何使用。
Python中正则表达式执行过程:根据表达式编译生成Pattern对象,然后进行相关处理;
如果高频率使用一个固定的正则表达式,我们可以提前生成Pattern对象,提高效率。
compile方法:
import rere.compile(pattern, flags=0) #pattern为正则表达式
参数:
pattern:正则表达式,是指为字符串;为了防止转义推荐使用原字符串(r'xxx');
flags:编译标志位,修改正则表达式的匹配方式,例如:大小写区分,换行处理等;
例子:匹配任意一个数字开头字符串:
import repobj = re.compile(r'\d')type(pobj)
输出结果:re.Pattern对象;
问题:如何来匹配呢?
re.match方法:从起始位置开始匹配,返回None或者re.Match对象;
#re模块match方法,参数:pattern:正则表达式,string:处理字符串re.match(pattern, string, flags=0)#re.Pattern对象中match方法,参数:string:处理字符串re.Pattern.match(string, pos=0, endpos=...)
练习:匹配一个数字开头字符串:
import rema = re.match(r'\d', '123')print(ma)
输出结果:
<re.Match object; span=(0, 1), match='1'>
match方法匹配过程:生成Pattern对象,然后进行匹配;
如何获取匹配结果?来看Match对象相关方法。
实际操作下,理解起来就容易了:
import reimport re#正则表达式:匹配内容:数字+a~z+数字,并且进行分组ma = re.match(r'(\d)\w*(\d)', '1c3')#匹配结果:'1c3'print('group():', ma.group())#获取指定分组:1print('group(1):', ma.group(1)) #获取多个分组:('1', '3')print('group(1,2):', ma.group(1,2))#获取所有分组:('1', '3')print('groups():', ma.groups())#获取匹配结果索引:(0, 3)print('span():', ma.span())#获取指定分组索引:(0, 1)print('span(1):',ma.span(1))
输出结果:
group(): 1c3group(1): 1group(1,2): ('1', '3')groups(): ('1', '3')span(): (0, 3)span(1): (0, 1)
match方法只能用于从头匹配,如何在整个字符串中查找?
使用search方法。
search方法用于在字符串中查找,返回Match对象或者None;
search(pattern, string, flags=0);参数与match类似。
练习:查找第一次出现的数字组成的字串,例如:
在字符串:'pay:2000 date:2019-03-04',找到支付价格:2000;
分析:
1>支付前固定值:'pay:'
2>支付金额:数字字符串
对应正则表达式逻辑:'pay:'+匹配数字直到非数字字符;具体实现:
s = 'pay:2000 date:2019-03-04'#\d+:匹配数字一次或者多次ma = re.search(r'pay:\d+', s)print(ma)
输出结果:
<re.Match object; span=(0, 8), match='pay:2000'>
如何获取2000这个值?增加一个分组,代码实现:
s = 'pay:2000 date:2019-03-04'#\d+:匹配数字一次或者多次,使用分组ma = re.search(r'pay:(\d+)', s)print(ma)#获取分组1对应值print(ma.group(1))
输出结果:
<re.Match object; span=(0, 8), match='pay:2000'>2000
5 re.findall/finditer方法
re.findall:在字符串中根据正则表达式查找所有匹配,返回查找结果组成列表;
re.finditer与findall功能相同,返回自迭代器;
re.findall(pattern, string, flags=0)
练习:查找字符串中所有数字字符串,
例如:'pay:2000 date:2019-03-04' 查找数字结果:['2000', '2019', '03', '04']
实现如下:
import res = 'pay:2000 date:2019-03-04'result = re.findall(r'\d+', s)print(result)
结果为列表:['2000', '2019', '03', '04'];
6 re.split方法re.split:字符串中根据正则表达式查找匹配字符串,然后进行切分,返回字串列表;
re.split(pattern, string, maxsplit=0, flags=0)#maxsplit:切分次数,默认所有匹配都切分
练习:
info = 'system:linux, cpu:x64 memory 8G'整理格式:dinfo = {'system':'linux', 'cpu':'x64', 'memory':'8G'}
分析:
1>对info使用非字母,数字进行切分;
2>切分后将其整理成字典;
第一步切分:
info = 'system:linux, cpu:x64 memory 8G'#正则表达式:\W+,匹配1个或多个s = re.split(r'\W+',info)print(s)
切分结果:['system', 'linux', 'cpu', 'x64', 'memory', '8G'];
第二步整理字典:
info = 'system:linux, cpu:x64 memory 8G's = re.split(r'\W+',info)dinfo = {}for index in range(0, len(s), 2): dinfo[s[index]] = s[index+1]print(dinfo)
输出结果:{'system': 'linux', 'cpu': 'x64', 'memory': '8G'}
7 re.sub与re.subnre.sub与re.subn实现的字符串替换功能;
re.sub(pattern, repl, string, count=0, flags=0)re.subn(pattern, repl, string, count=0, flags=0)
re.sub方法根据正则表达式将匹配子串替换成设置值并返回新字符串;参数如下:
re.subn与re.sub类似,返回替换数量与新字符串;
练习:
s = "user:sun,pwd:222222",将密码:222222 替换为:******;
可以直接使用字符串替换方法:
s.replace('222222', '******')#结果:'user:sun,pwd:******'
如果密码为不一样数字如何替换?例如:
s = "user:sun,pwd:234567"
使用re.sub方法:
#将pwd:xxxx替换成******re.sub(r'pwd:(\d+)', "******", s)#结果:'user:sun,******'
问题:pwd:去哪里了?如何处理?使用分组。
#pattern使用两个分组#repl为原字符串,\1代表第一个分组内容,re.sub(r'(pwd:)(\d+)', r"\1******", s)
替换结果:
'user:sun,pwd:******'
大家可以理解下这个题目。
新的问题来了,一组考试成绩:
s = 'math:90, chinese:90, english:50'
大于等于60,替换成Pass,否则替换成Faild;推荐使用正则。
我们可以使用函数功能,先来看匹配分数,将其替换为空字符串;
re.sub(r'\d+', '', s)
结果:'math:, chinese:, english:';
我们将repl替换成函数,函数有一个参数,返回值为空字符串;
def func(arg): print(arg) return ''re.sub(r'\d+', func, s)
输出结果:
<_sre.SRE_Match object; span=(5, 7), match='90'><_sre.SRE_Match object; span=(17, 19), match='90'><_sre.SRE_Match object; span=(29, 31), match='50'>'math:, chinese:, english:'
可以看到func中参数为每个匹配的match对象,我们可以获取这个值,并对其处理。
def func(arg): #获取分数 score = int(arg.group()) #重置返回结果 if score <60: return 'Faild' return 'Pass're.sub(r'\d+', func, s)
输出结果:
'math:Pass, chinese:Pass, english:Faild'
8 flags标志位:
match,split等方法中都有一个标志位,主要设置值如下:
这些标志位可以结合使用,例如:re.M | re.S。
每个标志使用案例与对比如下:
ma = re.match(r'name:\w+', 'Name:sun age:10')print(ma)#添加re.I标志ma = re.match(r'name:\w+', 'Name:sun age:10', re.I)print(ma)
结果:
None<re.Match object; span=(0, 8), match='Name:sun'>
re.M:多行匹配
找到字符串中与户名
#注意,中间的换行\ns = 'Name:sun age:10\nname:liu, age:9'#正则表达式:每行开头开始匹配,默认处理第一行result = re.findall(r'^name:\w+', s, re.I)print(result)
输出结果:['Name:sun'];我们想要找到所有用户名?添加re.M,代码如下:
s = 'Name:sun age:10\nname:liu, age:9'#re.I | re.M,支持设置多个标志位result = re.findall(r'^name:\w+', s, re.I|re.M)print(result)
结果:['Name:sun', 'name:liu']
re.S 修改'.'的行为字符串:
what = 'I Say:"No!\nNo!"'
找出我说的话:"No!\nNo!"
匹配规则,双引号中间字符串,实现:
what = 'I Say:"No!\nNo!"'ma = re.search(r'\".+\"', what)print(ma)
输出结果:None;因为'.'不能匹配'\n',设置标志re.S,实现:
what = 'I Say:"No!\nNo!"'ma = re.search(r'\".+\"', what, re.S)print(ma)
输出结果:
<re.Match object; span=(6, 15), match='"No!\nNo!"'>
以上这些就是re模块常用使用方法及正则表达式基本语法,后面文章我们在介绍正则表达式更高级使用。
声明:本站所有文章资源内容,如无特殊说明或标注,均为采集网络资源。如若本站内容侵犯了原著者的合法权益,可联系本站删除。