正则表达式(Regular Expressions,简称 RegEx)是一种强大的文本匹配和搜索工具,它在数据处理、文本解析和字符串操作中发挥着关键作用。Python 提供了内置的 re
模块,用于处理正则表达式,能够进行高级的模式匹配和搜索。本文将深入探讨 Python 中的正则表达式,包括基本语法、常用函数和高级应用。
什么是正则表达式?
正则表达式是一种用于匹配字符串的模式,它由一系列字符和特殊符号组成,用于定义搜索模式。
正则表达式可以用于:
-
检查字符串是否符合特定格式 -
从文本中提取信息 -
替换文本中的字符串 -
过滤文本中的数据
正则表达式的基本语法
1. 基本字符匹配
-
字符匹配:普通字符会与自身匹配。例如,正则表达式 cat
将匹配字符串中的cat
。 -
点号( .
):匹配除换行符外的任何单个字符。例如,正则表达式c.t
可以匹配cat
、cut
和cot
。 -
字符集合( []
):用于匹配字符中的一个字符。例如,正则表达式[aeiou]
可以匹配任何元音字母。 -
范围( -
):用于定义字符集合的范围。例如,正则表达式[a-z]
可以匹配任何小写字母。 -
反向字符集合( [^]
):用于匹配字符集合之外的任何字符。例如,正则表达式[^0-9]
可以匹配任何非数字字符。
2. 重复和数量限定符
-
星号( *
):匹配前一个字符零次或多次。例如,正则表达式ca*t
可以匹配ct
、cat
、caat
等。 -
加号( +
):匹配前一个字符一次或多次。例如,正则表达式ca+t
可以匹配cat
、caat
等,但不能匹配ct
。 -
问号( ?
):匹配前一个字符零次或一次。例如,正则表达式ca?t
可以匹配ct
或cat
。 -
花括号( {m,n}
):匹配前一个字符至少 m 次,最多 n 次。例如,正则表达式ca{2,4}t
可以匹配caat
、caaat
或caaaat
。
3. 特殊字符
正则表达式中有一些特殊字符,它们具有特殊的含义:
-
反斜杠( \
):用于转义特殊字符。例如,\.
匹配点号,而\\
匹配反斜杠本身。 -
开始锚点( ^
):匹配字符串的开头。 -
结束锚点( $
):匹配字符串的结尾。 -
单词边界锚点( \b
):匹配单词的边界。例如,\bword\b
可以匹配word
,但不匹配words
或keyword
。
Python 中的re
模块
Python 中的 re
模块提供了一组函数,用于执行正则表达式操作。
以下是一些常用的函数:
-
re.match(pattern, string)
:从字符串的开头开始匹配,如果匹配成功返回一个匹配对象,否则返回None
。 -
re.search(pattern, string)
:在字符串中搜索匹配项,如果找到任何匹配项则返回一个匹配对象,否则返回None
。 -
re.findall(pattern, string)
:返回字符串中所有与模式匹配的项的列表。 -
re.finditer(pattern, string)
:返回一个迭代器,迭代器中的每个元素都是一个匹配对象。 -
re.split(pattern, string)
:根据模式的匹配项拆分字符串,并返回拆分后的列表。 -
re.sub(pattern, replacement, string)
:使用替换字符串替换模式的匹配项,并返回新字符串。
示例:基本匹配
import re
# 使用 re.match() 匹配字符串开头的模式
pattern = r"hello"
string = "hello world"
match = re.match(pattern, string)
if match:
print("Match found:", match.group())
else:
print("Match not found")
# 使用 re.search() 搜索字符串中的模式
pattern = r"world"
string = "hello world"
search = re.search(pattern, string)
if search:
print("Search found:", search.group())
else:
print("Search not found")
在上述示例中,使用 re.match()
和 re.search()
函数分别查找了模式 "hello"
和 "world"
是否存在于字符串中。 match
和 search
都返回匹配对象,可以使用 group()
方法获取匹配的文本。
示例:字符集合和范围
import re
# 使用字符集合匹配元音字母
pattern = r"[aeiou]"
string = "hello world"
matches = re.findall(pattern, string)
print("Vowels:", matches)
# 使用范围匹配小写字母
pattern = r"[a-z]"
string = "Hello World"
matches = re.findall(pattern, string, re.IGNORECASE) # 忽略大小写
print("Lowercase letters:", matches)
在这两个示例中,使用字符集合匹配元音字母和范围匹配小写字母。re.IGNORECASE
标志用于忽略大小写。
示例:数量限定符
import re
# 使用 * 匹配零次或多次
pattern = r"ca*t"
strings = ["ct", "cat", "caat", "cot", "cut"]
for string in strings:
if re.match(pattern, string):
print("Match found for", string)
# 使用 + 匹配一次或多次
pattern = r"ca+t"
strings = ["ct", "cat", "caat", "cot", "cut"]
for string in strings:
if re.match(pattern, string):
print("Match found for", string)
# 使用 ? 匹配零次或一次
pattern = r"ca?t"
strings = ["ct", "cat", "caat", "cot", "cut"]
for string in strings:
if re.match(pattern, string):
print("Match found for", string)
# 使用 {m,n} 匹配特定次数范围
pattern = r"ca{2,4}t"
strings = ["cat", "caat", "caaat", "caaaat", "ct", "cut"]
for string in strings:
if re.match(pattern, string):
print("Match found for", string)
在这些示例中,使用 *
、+
、?
和 {m,n}
来匹配不同次数的字符。
示例:特殊字符和锚点
import re
# 使用反斜杠转义特殊字符
pattern = r"\."
string = "www.example.com"
match = re.search(pattern, string)
if match:
print("Dot found:", match.group())
# 使用开始锚点匹配字符串开头
pattern = r"^Hello"
strings = ["Hello world", "Hi Hello"]
for string in strings:
if re.match(pattern, string):
print("Match found for", string)
# 使用结束锚点匹配字符串结尾
```python
pattern = r"world$"
strings = ["Hello world", "world peace"]
for string in strings:
if re.search(pattern, string):
print("Match found for", string)
# 使用单词边界锚点匹配单词边界
pattern = r"\bword\b"
strings = ["word", "words", "keyword"]
for string in strings:
if re.search(pattern, string):
print("Match found for", string)
在这些示例中,演示了如何使用反斜杠转义特殊字符,以及如何使用开始锚点、结束锚点和单词边界锚点来匹配特定的位置。
示例:使用 re.findall()
提取信息
import re
# 提取所有邮箱地址
text = "Email me at john@example.com or jane@example.net"
pattern = r"\S+@\S+"
matches = re.findall(pattern, text)
print("Email addresses:", matches)
在这个示例中,使用正则表达式 r"\S+@\S+"
来提取文本中的邮箱地址。\S+
匹配非空白字符,@
匹配 “@” 符号,再次跟着 \S+
匹配非空白字符,这样就可以提取出所有的邮箱地址。
示例:使用 re.sub()
替换文本
import re
# 替换文本中的日期
text = "Today is 2022-12-25. Tomorrow is 2022-12-26."
pattern = r"\d{4}-\d{2}-\d{2}"
replacement = "YYYY-MM-DD"
new_text = re.sub(pattern, replacement, text)
print("Modified text:", new_text)
在这个示例中,使用正则表达式 r"\d{4}-\d{2}-\d{2}"
匹配日期格式(例如 2022-12-25
),然后使用 "YYYY-MM-DD"
替换所有匹配的日期。
总结
正则表达式是处理文本数据的强大工具,Python 的 re
模块使其在编程中易于使用。本文介绍了正则表达式的基本语法和常见函数,并提供了示例代码,希望能帮助大家更好地理解和使用正则表达式,从而处理文本数据的各种需求。