掌握Python中的正则表达式，轻松应对文本处理难题！

网摘文苑 2023-04-27 发布于新疆

展开全文

当今软件开发中，正则表达式是一个非常重要的工具，能够帮助我们在字符串中查找、匹配和替换文本。Python是一种功能强大的编程语言，提供了内置的正则表达式模块re，可以方便地使用正则表达式进行文本处理。本文将介绍Python中的正则表达式，以及如何使用re模块进行字符串匹配和替换。

1.基本介绍

正则表达式是一种描述字符串模式的语言，可以用于匹配、搜索和替换字符串。在Python中，可以使用re模块来处理正则表达式。下面是一些基本的正则表达式元字符：

元字符	描述
.	匹配任何字符（除了换行符）
^	匹配字符串的开头
$	匹配字符串的结尾
*	匹配前一个字符的零个或多个实例
+	匹配前一个字符的一个或多个实例
?	匹配前一个字符的零个或一个实例
{n}	匹配前一个字符的n个实例
{m,n}	匹配前一个字符的m到n个实例
[...]	匹配方括号中的任何一个字符
[^...]	不匹配方括号中的任何一个字符
( )	标记一个子表达式，并返回匹配结果的子字符串

2.匹配邮箱的正则表达式

现在，让我们来看一个简单的例子，假设我们有一个包含电子邮件地址的字符串列表，我们想要从中提取所有的邮件地址。我们可以使用re模块的findall()函数来实现这个功能：

  import re    text = 'To contact me, please email john@example.com or info@example.com'  emails = re.findall(r'\b\w+@\w+\.\w+\b', text)  print(emails)

输出结果：

    ['john@example.com', 'info@example.com']

如下图所示。

在上面的代码中，我们使用了正则表达式\b\w+@\w+\.\w+\b，它可以匹配所有的电子邮件地址。下面是这个正则表达式的分解：

\b 表示单词边界，确保电子邮件地址前面没有其他字符。
\w+ 表示匹配一个或多个字母、数字或下划线字符。
@ 表示匹配一个 @ 符号。
\w+ 表示匹配一个或多个字母、数字或下划线字符。
\. 表示匹配一个点号。
\w+ 表示匹配一个或多个字母、数字或下划线字符。
\b 表示单词边界，确保电子邮件地址后面没有其他字符。

3.一些函数介绍

除了findall()函数，re模块还提供了其他一些有用的函数，包括search()、match()、sub()和split()。接下来，我们将一一介绍它们。

search()函数用于在文本中查找第一个匹配的子字符串。如果找到匹配的子字符串，则返回一个匹配对象；否则返回None。下面是一个使用search()函数的例子：

    import re    text = 'The quick brown fox jumps over the lazy dog'  match = re.search(r'fox', text)  if match:      print('Found a match:', match.group())  else:      print('No match')

输出结果：

    Found a match: fox

在上面的代码中，我们使用了正则表达式fox来查找文本中的子字符串。因为文本中存在'fox'，所以search()函数返回了一个匹配对象，我们可以使用group()方法来获取匹配的子字符串。

match()函数用于在文本的开头查找第一个匹配的子字符串。如果找到匹配的子字符串，则返回一个匹配对象；否则返回None。下面是一个使用match()函数的例子：

    import re    text = 'The sun was just beginning to rise over the distant hills, casting a warm orange glow across the landscape. '  match = re.match(r'the', text)  if match:      print('Found a match:', match.group())  else:      print('No match')

输出结果：

  No match

运行结果如下所示，在上面的代码中，我们使用了正则表达式the来查找文本开头的子字符串。虽然文本开头是'The'，但是区分大小写，同时虽然整句话中有小些的“the”，但是match函数不进行匹配。

注意match和search的区别如下所示。

前者是对给定的字符串的起始位置 就进行匹配判断，如果不符合返回None。

后者是对给定的字符串整体进行匹配判断 ，如果无符合条件的返回None。

举例如下：

    import re    text = 'The sun was just beginning to rise over the distant hills, casting a warm orange glow across the landscape. '  search = re.search(r'the', text)  if search:      print('Found a match:', search.group())  else:      print('No match')

最后运行结果如下所示，找到匹配的字符“the”。

sub()函数用于替换文本中的子字符串。它可以将一个正则表达式匹配到的子字符串替换为另一个字符串。下面是一个使用sub()函数的例子：

    import re    text = 'The quick brown fox1 and fox2  jumps over the lazy dog'  new_text = re.sub(r'fox', 'cat', text)  print(new_text)

输出结果：

The quick brown cat1 and cat2 jumps over the lazy dog

在上面的代码中，我们使用了正则表达式fox来查找文本中的子字符串，并将其替换为字符串'cat'。在上面匹配到了两个fox,sub()函数返回一个新的字符串，其中所有的匹配子字符串都被替换为了新的字符串。

split()函数用于根据正则表达式分割文本。它可以将一个字符串分割为多个子字符串，每个子字符串都是由正则表达式匹配到的部分。下面是一个使用split()函数的例子：

    import re    text = 'The sun was just beginning to rise over the distant hills, casting a warm orange glow across the landscape. '  words = re.split(r'\s+', text)  print(words)

输出结果：

['The', 'sun', 'was', 'just', 'beginning', 'to', 'rise', 'over', 'the',  'distant', 'hills,', 'casting', 'a', 'warm', 'orange', 'glow', 'across', 'the', 'landscape.', '']

在上面的代码中，我们使用了正则表达式\s+来匹配所有的空白字符。

4.匹配特殊字符的正则表达式

正则表达式还可以使用特殊的字符类来匹配特定类型的字符。下面是一些常用的特殊字符类：

\d：匹配任意数字字符（0-9）
\D：匹配任意非数字字符
\w：匹配任意字母、数字或下划线字符
\W：匹配任意非字母、数字或下划线字符
\s：匹配任意空白字符（空格、制表符、换行符等）
\S：匹配任意非空白字符

下面是一个使用特殊字符类的例子：

    import re    text = 'The sun was just beginning to rise over the distant hills, casting a warm orange glow across the landscape. 123'  numbers = re.findall(r'\d+', text)  print(numbers)

输出结果：

['123']

在上面的代码中，我们使用了正则表达式\d+来匹配文本中的数字。因为文本中只有一个数字'123'，所以findall()函数返回一个包含一个元素的列表。

5.匹配特定长度字母

除了特殊字符类之外，还有一些常用的限定符可以用来限制匹配的数量。下面是一些常用的限定符：

*：匹配0个或多个前面的字符
+：匹配1个或多个前面的字符
?：匹配0个或1个前面的字符
{n}：匹配前面的字符恰好n次
{m,n}：匹配前面的字符至少m次，最多n次

下面是一个使用限定符的例子：

    import re    text = 'The sun was just beginning to rise over the distant hills'  words = re.findall(r'\w+', text)  short_words = re.findall(r'\b\w{1,3}\b', text)  print(words)  print(short_words)

输出结果：

    ['The', 'sun', 'was', 'just', 'beginning', 'to', 'rise', 'over', 'the', 'distant', 'hills']  ['The', 'sun', 'was', 'to', 'the']

在上面的代码中，我们使用了正则表达式\w+来匹配文本中的单词。然后，我们使用了正则表达式\b\w{1,3}\b来匹配长度为1到3的单词,使用\b来匹配单词的边界，\w来匹配单词中的字母，{1,3}来表示重复1到3次。这将匹配所有长度为1到3的单词，例如 The, sun, 和 the。由于这个限定符只匹配了长度为1到3的单词，所以findall()函数返回了一个包含部分单词的列表。 注意若直接写成\w{1,3}会出错，把长度大于3的单词截断，取其中每个单词的前三个字符。如下所示错误。