正则表达式(regular expression,regex,RE)

正则表达式常用操作符

操作符	说明	实例
.	表示任意单个字符	py. 可以匹配pyc,pyy,py!等等
[ ]	字符集，对单个字符给出取值范围	[abc]可以匹配a或b或c；[0-9a-zA-z\_]可以匹配一个数字、一个字母或者一个下划线
[^ ]	非字符集，对单个字符给出排除范围	[^abc]可以匹配非a或非b或非c的单个字符
*	前一个字符0次或多次扩展	abc* 可以匹配ab、abc、abcc、abccc等等
+	前一个字符的1次或多次扩展	abc+可以匹配abc、abcc、abccc等等
?	前一个字符0次或1次扩展	abc?可以匹配ab、abc
\|	左右表达式任意一个	abc\|def表示abc、def
	扩展前一个字符m次	ab{2}c匹配abbc
	扩展前一个字符m至n次数（含n）	ab{1，2}c可以匹配abc、abbc
^	匹配字符串开头	^{abc表示abc且在一个字符串的开头,}\d表示必须以数字开头
$	匹配字符串结尾	abc表示abc且在一个字符串的结尾、\d$白哦是必须以数字结尾
( )	分组标记,内部只能使用\|操作符	(abc\|def)表示abc、def
\d	可以匹配一个数字，相当于[0-9]	\d{3}表示匹配3个数字，如010
\w	可以匹配一个字母或者数字或者下划线，相当于[a-zA-Z0-9_]	\w\w\d可以匹配’py3’
\s	可以匹配一个空格（也包括Tab等空白字符）	\s+表示至少有一个空格，如’ ‘、’ ’

在正则表达式中，如果直接给出字符，就是精确匹配

函数	说明
re.search()	在一个字符串中搜索匹配正则表达式的第一个位置，返回match对象
re.match()	从一个字符串的开始位置起匹配正则表达式，返回match对象
re.findall()	搜索字符串，以列表类型返回全部能匹配的子串
re.split()	将一个字符串按照正则表达式匹配结果进行分割，返回列表类型
re.finditer	搜索字符串，返回一个匹配结果的迭代类型，每个迭代元素是match对象
re.sub()	在字符串中替换所有匹配正则表达式的子串，返回替换后的字符串

1. re.search(pattern,string,flags=0)

在一个字符串中搜索匹配正则表达式的第一个位置，返回match对象

常用标记	说明
re.I re.IGNORECASE	忽略正则表达式的大小写，[A-Z]能够匹配小写字符
re.M re.MULTILINE	正则表达式中的^操作符能够将给定字符串的每行当做匹配开始
re.s re.DOTALL	正则表达式中的.操作符能够匹配所有字符串，默认匹配除换行外的所有字符串

2. re.match(pattern,string,flags=0)

从一个字符串的开始位置起匹配正则表达式，返回match对象

3. re.findall(pattern,string,flags=0)

搜索字符串，以列表类型返回全部能匹配的字符串

4. re.split(pattern,string,maxsplit=0,flags=0)

将一个字符串按照正则匹配结果进行分割，返回列表类型

5. re.finditer(pattern,string,flags=0)

搜索字符串，返回一个匹配结果的迭代类型，每个迭代类型是match对象

6. re.sub(pattern,repl,string,cout=0,flags=0)

在一个字符串中替换所有匹配正则表达式的子串，返回替换后的字符串

在python中使用正则表达式的时候，re模块内部会做两件事：

compile后生成了regular expression对象，由于该1对象包含了正则表达式，所以调用对应的方法不用给出正则字符串

re库默认使用贪婪匹配，即匹配最长的子串

最小匹配

** 最小匹配操作符 **