Python3 正则表达式

2024-11-07 技术教程

Python3 正则表达式正则表达式是一个特殊的字符序列，它能帮助我们方便的检查一个字符串是否与某种模式匹配。模式字符串使用特殊的语法来表示一个正则表达式下面列出了正则表达式模式语法中的特殊元素模式含义^匹配字符串的开头$匹配字符串的末尾。.匹配任意字符，除了换行符，当re.DOTALL标记被指定时，则可以匹配包括换行符的任意字符。[...]用来表示一组字符,单独列出：[amk] 匹配 'a'，'m'或'k'[^...]不在[]中的字符：[^abc] 匹配除了a,b,c之外的字符。re*匹配0个或多个的表达式。re+匹配1个或多个的表达式。re?匹配0个或1个由前面的正则表达式定义的片段，非贪婪方式re{ n}精确匹配 n 个前面表达式。例如， o{2} 不能匹配 "Bob" 中的 "o"，但是能匹配 "food" 中的两个 o。re{ n,}匹配 n 个前面表达式。例如， o{2,} 不能匹配"Bob"中的"o"，但能匹配 "foooood"中的所有 o。"o{1,}" 等价于 "o+"。"o{0,}" 则等价于 "o*"。re{ n, m}匹配 n 到 m 次由前面的正则表达式定义的片段，贪婪方式a|b匹配a或b\n(re)匹配括号内的表达式，也表示一个组(?imx)正则表达式包含三种可选标志：i, m, 或 x 。只影响括号中的区域。(?-imx)正则表达式关闭 i, m, 或 x 可选标志。只影响括号中的区域。(?: re)类似 (...), 但是不表示一个组(?imx: re)在括号中使用i, m, 或 x 可选标志(?-imx: re)在括号中不使用i, m, 或 x 可选标志(?#...)注释.(?= re)前向肯定界定符。如果所含正则表达式，以 ... 表示，在当前位置成功匹配时成功，否则失败。但一旦所含表达式已经尝试，匹配引擎根本没有提高；模式的剩余部分还要尝试界定符的右边。(?! re)前向否定界定符。与肯定界定符相反；当所含表达式不能在字符串当前位置匹配时成功(?> re)匹配的独立模式，省去回溯。\w匹配字母数字及下\W匹配非字母数字及下划线\s匹配任意空白字符，等价于 [\t\n\r\f].\S匹配任意非空字符\d匹配任意数字，等价于 [0-9].\D匹配任意非数字\A匹配字符串开始\Z匹配字符串结束，如果是存在换行，只匹配到换行前的结束字符串。\z匹配字符串结束\G匹配最后匹配完成的位置。\b匹配一个单词边界，也就是指单词和空格间的位置。例如， 'er\b' 可以匹配"never" 中的 'er'，但不能匹配 "verb" 中的 'er'。\B匹配非单词边界。'er\B' 能匹配 "verb" 中的 'er'，但不能匹配 "never" 中的 'er'。\n, \t, 等.匹配一个换行符。匹配一个制表符。等\1...\9匹配第n个分组的内容。\10匹配第n个分组的内容，如果它经匹配。否则指的是八进制字符码的表达式。match()和search()的区别match() 方法只从开始找，开始第一个字符不匹配就找不到了,返回nonesearch()查找整个字符串，找到第一个为止
示例代码1：

#!/usr/bin/python3import re# 使用 match对象 match = re.match('yhyang','aayhyang正在学习正则表达式')print(match) # 最开始匹配不到返回none输出：Nonematch = re.search('yhyang','aayhyang正在学习正则表达式')print(match.group()) # 直到找到匹配的字符串输出：yhyang

示例代码2：

#!/usr/bin/python3import reimport res = """1234-1234-113133-1234-2123125-4567-3456yhyang@foxmail.comlilei@qq.comhmm.lee@google.comhttp://baidu.comhttps://github.comhttp://taobao.com"""target = '\d{4}' # \d 匹配数字 {4} 表示4个代表找到4个数字target = '\d{4}-\d{4}-\d{3}'target = '\d{3}-\d{4}-\d{4}'target = '\d+-\d+-\d+' # \d匹配数字，+ 表示1个或多个，search 找到第一个就停下来了target = '[\d+-?]+' # ？表示后面跟0个或多个 [] 表示一个字符集如：[a-z]查找小写字母target = '\w{5}@\w{2}.com' # \w 匹配字符match = re.search(target,s)if match: print('找到，',target,s) print(match.group())else: print('啥都没找到')输出：找到， \w{5}@\w{2}.com 1234-1234-113133-1234-2123125-4567-3456yhyang@foxmail.comlilei@qq.comhmm.lee@google.comhttp://baidu.comhttps://github.comhttp://taobao.comlilei@qq.com分组() 括号分组| 管道符号匹配多个分组？选择出现0次或1次re.x 换行，注释findall有分组，返回元组列表无分组，返回字符串列表 split返回用正则分割后的列表 compile 函数

compile 函数用于编译正则表达式，生成一个正则表达式（ Pattern ）对象，供 match() 和 search() 这两个函数使用。
语法格式为：
re.compile(pattern[, flags])<br/>
参数：

pattern : 一个字符串形式的正则表达式flags 可选，表示匹配模式，比如忽略大小写，多行模式等，具体参数为： re.I 忽略大小写 re.L 表示特殊字符集 \w, \W, \b, \B, \s, \S 依赖于当前环境 re.M 多行模式 re.S 即为' . '并且包括换行符在内的任意字符（' . '不包括换行符） re.U 表示特殊字符集 \w, \W, \b, \B, \d, \D, \s, \S 依赖于 Unicode 字符属性数据库 re.X 为了增加可读性，忽略空格和' # '后面的注释

示例代码1：

#!/usr/bin/python3import reregex = re.compile(r'yhyang') # r 表示raw 原始的regex.findall('asdfasdfasfyhyang,235346747,yhyang')

输出：
['yhyang', 'yhyang']

示例代码2：

#!/usr/bin/python3import reregex = re.compile(r'(yhyang)') # () 分割，分组regex.split('asdfasdfasfyhyang,235346747,yhyang')

输出：
['asdfasdfasf', 'yhyang', ',235346747,', 'yhyang', '']

匹配IP地址

#!/usr/bin/python3import reparten = ((2[0-4]\d|25[0-5]|[01]?\d\d?)\.){3}(2[0-4]\d|25[0-5]|[01]?\d\d?)# 2[0-4]\d 匹配 24x x为0-9# 25[0-5] 匹配 25x x为0-5# [01]?\d\d? [01]? 匹配0个或是一个0或1，\d？表示0个或1个数字# \. 转义 . # {3} 前面的规则匹配3次# 注意命名 re开头re_ip = re.compile(r'((2[0-4]\d|25[0-5]|[01]?\d\d?)\.){3}(2[0-4]\d|25[0-5]|[01]?\d\d?)')match = re_ip.match('1.2.3.4')print(match)print(match.group())

输出：
<_sre.SRE_Match object; span=(0, 7), match='1.2.3.4'>
1.2.3.4
示例代码2：

#!/usr/bin/python3import rere_ip = re.compile(r''' ((2[0-4]\d|25[0-5]|[01]?\d\d?)\.) # IP表示一组数字包括后边的点 {3} # 表示3组数字 (2[0-4]\d|25[0-5]|[01]?\d\d?) # 最后一组数字 ''',re.X) # 正则可以换行，注释match = re_ip.match('192.168.3.4')print(match)print(match.group())

输出：
<_sre.SRE_Match object; span=(0, 11), match='192.168.3.4'>
192.168.3.4

匹配要不要贪心一点模式含义示例{m,n}?对于前一个字符重复m到n次，并取尽可能少的情况在字符串‘aaaaaa’中，a{2,4}会匹配4个a，但a{2,4}?只会匹配2个a.*与？的搭配默认贪心，有多少要多少，？给加上限制，表示非贪心匹配，？把*匹配的字符限制到最少r'"(.)"'与 r'"(.?)"'*？重复任意次，但尽可能少重复+？重复1次或多次，但尽可能少重复？？重复0次或1次，但尽可能少重复{n,}？重复n次以上，但尽可能少重复
示例代码1：

#!/usr/bin/python3import re# 只匹配双引号中的内容，包括双引号re_quote = re.compile(r'"(.*)"')text1 = 'Computer says "no"'find1 = re_quote.findall(text1)print(find1)text2 = 'Computer says "no" Phone says "yes"'find2 = re_quote.findall(text2)print(find2)

输出：
['no']
['no" Phone says "yes']

示例代码2：

#!/usr/bin/python3import rere_quote = re.compile(r'"(.*?)"')text1 = 'Computer says "no"'find1 = re_quote.findall(text1)print(find1)text2 = 'Computer says "no" Phone says "yes"'find2 = re_quote.findall(text2)print(find2)

输出：
['no']
['no', 'yes']

正则替换

示例代码：

#!/usr/bin/python3import res = 'sadfasfasdfasdfyhyangdsafasf2352'ss = s.replace('yhyang','******') # 替换print(ss)regex = re.compile(r'yhyang') # 生成规则对象regex.sub('******',s) # 替换

输出：
sadfasfasdfasdf**dsafasf2352
'sadfasfasdfasdf**dsafasf2352'

下边例子分组标号\1，\2，\3 类似于awk的列分组 $1 ……

示例代码1：

#!/usr/bin/python3import re# 通过分组替换字符串格式，mm/dd/yy -> yy-mm-dds = '替换日期格式：10/01/2018,12/25/2018're_date = re.compile(r'(\d+)/(\d+)/(\d+)') # 此处给(\d+)/(\d+)/(\d+)按/分为三组，标号为\1，\2，\3re_date.sub(r'\3-\1-\2',s) # 将上边的\1，\2，\3位置按要求重新排列

输出：
'替换日期格式：2018-10-01,2018-12-25'
示例代码2：

#!/usr/bin/python3import re# 替换字符串中间的多余空格s = ' yhyang 正则 python 好难学，坚持一下吧，没几个了's.strip() # 只去掉最前边的re_blank = re.compile(r'\s+') # \s 代表空格re_blank.sub('',s)

输出：
'yhyang正则python好难学，坚持一下吧，没几个了'