分享

Python:教你使用正则表达式 (RegEx) 验证电子邮件地址

 知识情报院 2022-02-21

正则表达式,或简称RegEx,是可用于文本搜索和替换操作、验证、字符串拆分等的模式表达式。这些模式由字符、数字和特殊字符组成,其形式使模式与我们正在搜索的某些文本段相匹配。
正则表达式广泛用于模式匹配,各种编程语言都有用于表示它们以及与匹配结果交互的接口。

在本文中,我们将看看如何使用正则表达式在Python 中验证电子邮件地址。

通用电子邮件正则表达式

值得注意的是,没有这样的正则表达式可以匹配每个可能的有效电子邮件地址。虽然,有些表达式可以匹配大多数有效的电子邮件地址。

我们需要定义我们正在寻找什么样的电子邮件地址格式。最常见的电子邮件格式是:

#(用户名)@(域名).(顶级域名)
(username)@(domainname).(top-leveldomain)

因此,我们可以将其归结为@将前缀与域名分开的符号模式。

该前缀是收件人的姓名-这可能包含大写和小写字母,数字和一些特殊字符,如字符串.(点), -(连字符),和_(下划线)。

而域名和顶级域名则由一个.(点符号)划分的。域名可以包含大写和小写字母、数字和-(连字符)符号。此外,顶级域名的长度必须至少为 2 个字符(全部大写或小写)。

简单来说,我们的电子邮件正则表达式可能如下所示:

(string1)@(string2).(2+characters)

这将可以匹配正确的电子邮件地址,例如:

name.surname@gmail.com
anonymous123@yahoo.co.uk
my_email@outlook.co

使用相同的表达式,这些电子邮件地址将匹配失败:

johnsnow@gmail
anonymous123@...uk
myemail@outlook.

值得注意的是,字符串不应包含某些特殊字符,以免再次破坏表单。此外,顶级域不能是... 考虑到这些情况,我们可以将这些规则放入一个具体的表达式中,该表达式考虑了比第一种表示更多的情况:

([A-Za-z0-9]+[.-_])*[A-Za-z0-9]+@[A-Za-z0-9-]+(\.[A-Z|a-z]{2,})+

前缀中的特殊字符不能正好位于@符号之前,前缀也不能以它开头,因此我们确保每个特殊字符前后至少有一个字母数字字符。

至于域名,一封电子邮件可以包含几个用点分隔的顶级域名。

显然,这个正则表达式比第一个更复杂,但它涵盖了我们为电子邮件格式定义的所有规则。但是它有可能正确验证一些我们没有想到的边缘情况。

使用 Python 验证电子邮件地址

Python 中的 re 模块可以导入使用Python的正则表达式的类和方法,因此我们将其导入到我们的脚本中。我们将使用的方法是re.fullmatch(pattern, string, flags)。仅当整个字符串与模式匹配时,此方法才返回匹配对象,在其他情况下,它都返回None。

注意:re.fullmatch()在 Python 3.4 中引入,在此之前,re.match()改为使用。在较新的版本上,fullmatch()首选。

让我们compile()函数使用前面的正则表达式,并定义一个简单的函数来接受电子邮件地址并使用该表达式来验证它:

import re

regex = re.compile(r'([A-Za-z0-9]+[.-_])*[A-Za-z0-9]+@[A-Za-z0-9-]+(\.[A-Z|a-z]{2,})+')

def isValid(email):
    if re.fullmatch(regex, email):
      print("有效的email地址")
    else:
      print("无效的email地址")

re.compile()方法将正则表达式模式编译为正则表达式对象。

现在,让我们在之前看过的一些示例上测试代码:

isValid("name.surname@gmail.com")
isValid("anonymous123@yahoo.co.uk")
isValid("anonymous123@...uk")
isValid("...@domain.us")

输出:

有效的email地址
有效的email地址
无效的email地址
无效的email地址

太棒了,我们有了一个正常运行的邮件地址校验系统!

更为强大的电子邮件正则表达式

我们上面使用的表达式适用于大多数情况,并且适用于任何合理的应用程序。但是,如果安全性受到更高的关注,或者如果您喜欢编写正则表达式,您可以选择收紧可能性的范围,同时仍然允许有效的电子邮件地址通过。

更长表达式往往会变得有点复杂且难以阅读,这个表达式也不例外:

(?:[a-z0-9!#$%&'*+/=?^_`{|}~-]+(?:\.[a-z0-9!#$%&'*+/=^_`{|}~-]+)*
|"(?:[\x01-\x08\x0b\x0c\x0e-\x1f\x21\x23-\x5b\x5d-\x7f]
|\\[\x01-\x09\x0b\x0c\x0e-\x7f])*"
)
@
(?:(?:[a-z0-9](?:[a-z0-9-]*[a-z0-9])?\.)+[a-z0-9](?:[a-z0-9-]*[a-z0-9])?
|\[(?:(?:(2(5[0-5]|[0-4][0-9])
|1[0-9][0-9]|[1-9]?[0-9]))\.){3}(?:(2(5[0-5]|[0-4][0-9])
|1[0-9][0-9]|[1-9]?[0-9])|[a-z0-9-]*[a-z0-9]:(?:[\x01-\x08\x0b\x0c\x0e-\x1f\x21-\x5a\x53-\x7f]
|\\[\x01-\x09\x0b\x0c\x0e-\x7f])+)\])

下图是符合RFC5322的正则表达式,涵盖了 99.99% 的输入电子邮件地址。* 用文字来解释它通常是比较困难的,但可以通过图片大致了解它:

结论

Python中使用正则表达式验证电子邮件的方法有很多种,主要取决于我们判断寻找邮件的特定格式。同时,没有一种独特的正则表达式模式适用于所有电子邮件格式,我们只需要定义邮件规则,并相应地构建适合的正则表达式匹配模式。

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多