分享

难倒很多程序员的正则表达式是什么?一文看懂神奇的正则表达式

 曾淼Mark 2019-12-20

持续更新通俗易懂的技术知识,为您护航充电!

本文章节内容

  • 什么是正则表达式?—一个例子看懂

  • 正则符号详解之普通元字符—[a-z]比N行代码好用多了

  • 正则符号详解之特殊字符—简洁版的元字符

  • 正则符号详解之扩展表示法字符—比算法都好用

  • 两个实用的正则表达式—够你写半天的代码

本文将对正则表达式进行完整的介绍,以通俗易懂的语言对正则表达式的每个字符功能进行详细解释并通过具体示例进行补充说明旨在让广大读者朋友们迅速掌握正则表达式这项工作技能并加以出色的运用,助力读者朋友们在脚本语言(Python、JavaScript等)盛行的互联网时代脱颖而出!

难倒很多程序员的正则表达式是什么?一文看懂神奇的正则表达式

正则表达式

一、神奇的正则表达式是什么?

为让读者朋友们先对正则表达式有个大致的概念,本节我们将通过一个非常简单的示例来解释正则表达式到底是什么?如:

正则表达式:[0-9]

表达式解析:[0-9]表示一位0-9之间的任意数字,注意[0-9]只表示一位数字, 号表示前一个正则表达式表示的字符至少重复出现1次以上

表达式功能:表示一位以上的数字,如1,123,,134646757658......除数字外的字符串都不符合该正则表达式

从上例中可以看出,正则表达式其实就是一个描述一种字符串元素组成的符号表达式,字符串只有符合这种格式才是正确的,可以实现一种过滤逻辑功能!

正则表达式虽然描述的是一种字符串元素组成的表达式,但在实际编程应用中是以正则表达式描述的字符串格式来匹配查找对应字符串的。正则表达式可用于各种字符串的检查、验证、查找、提取等程序功能开发,如检查身份证号、密码、账户名等场合

难倒很多程序员的正则表达式是什么?一文看懂神奇的正则表达式

正则表达式

下面我们将对正则表达式的所有符号及其功能进行详细的讲解,保证读者朋友们能够看懂正则表达式并编写简单的正则表达式,待大家融会贯通之后结合扩展正则符号,编写设计复杂且具有强大功能的正则表达式也将不在话下!

难倒很多程序员的正则表达式是什么?一文看懂神奇的正则表达式

神奇的正则表达式

正则表达式是一种由各种符号组成的逻辑公式,本文将把正则符号分为三大类:普通元字符、特殊字符、扩展表示法字符。下面将介绍第一类:正则表达式中的普通元字符!

二、正则符号详解之普通元字符

普通元字符只有十多个,考虑到理解难度问题,我们将对每个元字符以通俗易懂的语言进行再解释,并结合多个示例再说明,让读者朋友们能够理解更深刻。先来看看正则表达式中的普通元字符有哪些?如下图:

难倒很多程序员的正则表达式是什么?一文看懂神奇的正则表达式

普通元字符集

先来看普通元字符功能与示例:

元字符1: value—表示与value字面字符一致的查找功能,如

  • abc:表示匹配查找含abc的字符串,例如可匹配查找123abc456、abcdef中的abc

元字符2:regex1|regex2—表示正则表达式regex1regex2,如

  • abc|123:表示查找含abc或123的字符串,例如可查找123abc456、abcdef123中的abc和123

元字符3:.(点)—表示查找除空格和空行之外的任何单个单字符,如字母,数字,符号等等

元字符4:^ —匹配查找字符串起始部分,如

  • ^abc:匹配查找字符串开头为abc的字符串,例如可匹配查找abcdef中的abc,不可匹配查找ababcdef中的abc

元字符5:$ —匹配查找字符结尾部分,如

  • abc$:匹配查找字符串结尾为abc的字符串,例如匹配查找defabc中的abc,不可匹配查找abcdef中的abc

元字符6:* —*前的第一个正则表达式表示的字符至少出现0次以上,如

  • [0-9]*:[0-9]表示一位数字,那么[0-9]*表示匹配查找出现0次以上的数字字符串

元字符7: — 前的第一个正则表达式表示的字符至少出现1次以上,如

  • [0-9] :[0-9]表示一位数字,那么[0-9] 表示匹配查找出现1次以上的数字字符串

元字符8:? —前的第一个正则表达式表示的字符出现0次或1次

元字符9:{N} —{N}前的第一个正则表达式表示的字符出现N次,如

  • [0-9]{2}:表示匹配查找由2位0-9之间的数字组成的字符串

元字符10:{X,Y} —{X,Y}前的第一个正则表达式表示的字符出现X到Y次,如

  • [0-9]{3,6}:表示匹配查找由3到6位0-9之间的数字组成的字符串

元字符11:[...] —匹配查找...中的任意单个字符,如

  • [abc]:表示匹配查找含a或b或c字母的字符串

元字符12:[p-q] —范围描述,匹配查找p-q范围中任意单个字符,如

  • [0-9]:表示匹配查找0-9之间的任意单个数字

元字符13:[^...] —非描述符匹配查找不属于...表示的任意单个字符,如

  • [^A-Z]:不匹配查找A-Z之间的大写字母

  • [^abc]:不匹配查找字母a或b或c

元字符14:(...) —一个封闭的正则表达式,如

  • ([A-Z]{2}):匹配查找两个大写字母

对于上面的元字符及其功能,读者朋友们可能还是不清楚具体怎么使用,我们举个实际编程应用中的例子为大家说明。要求:编写程序检查用户输入的内容是否是纯数字,下图是编程解决方案:

  • ^[0-9] $ — 开头结尾都是数字,中间也为数字,中间一位数字重复出现1次以上

难倒很多程序员的正则表达式是什么?一文看懂神奇的正则表达式

正则表达式检查数字

三、正则符号详解之特殊字符

正则表达式的第二类正则符号—特殊字符,可以理解为简洁版的普通元字符,常见的特殊字符有:

难倒很多程序员的正则表达式是什么?一文看懂神奇的正则表达式

以下是文字描述,便于读者复制保存:

特殊字符1:\d —表示匹配查找单个数字字符,等价于[0-9]

特殊字符2:\D —表示不匹配查找单个数字字符,等价于[^0-9]

特殊字符3:\w —表示匹配查找单个字母或数字字符,等价于[a-zA-Z0-9]

特殊字符4:\W —表示不匹配查找单个字母或数字字符,等价于[^a-zA-Z0-9]

特殊字符5:\b —表示匹配查找单词(字符到空格直接的字符串)边界,如

  • \bab:表示可匹配查找able、abnormal等单词中的ab,不能匹配cable中的ab

  • y\b:表示可匹配查找enjoy、city等单词中的y,不能匹配ayc_13ab中的y

特殊字符6:\B—表示不匹配查找单词边界,如

  • ew\B:表示可匹配查找yavewafg中的ew,但不能匹配查找new中的ew

特殊字符7:\s—表示匹配查找空字符,等价于[\n\t\r\v\f](换行符/制表符/回车符/垂直制表符/换页符/)

特殊字符8:\S—表示不匹配查找空字符,等价于[^\n\t\r\v\f]

特殊字符9:\A—表示匹配查找字符串开头,等价于 ^

特殊字符10:\Z—表示匹配查找字符串结尾,等价于 $

特殊字符11:\x—类似编程中的转义字符,表示匹配查找特殊字符,如

  • \?:匹配查找问号

  • \.:匹配查找点号

  • \*:匹配查找星号

  • \ :匹配查找加号

  • ......

四、正则符号详解之扩展表示法字符—比算法都好用

提到正则表达式的扩展表示法时,要给大家强调一下,扩展表示法字符实用的只有四个,分别是:(?=…)、(?!…)、(?<=…)、(?<!…)。需要说明的是(?:)与扩展表示法根本就不是一类,尽管很多书籍将其归为扩展表示法,但实际上它只是形式相似而已,所以读者朋友们不必过度在意这个字符,本文也不做赘述。

在详细介绍四种扩展表示法之前,我们先要说明一个概念——断言,又叫预查或环视,先来看术语解释:

难倒很多程序员的正则表达式是什么?一文看懂神奇的正则表达式

四种扩展表示法

什么意思呢?下面我们来看解释,比如说你想提取某个文本中的IP地址,如192.168.***.***,但文本中存在一种情况“56192.168.***.***6564”,虽然这个字符串中存在192.168.***.***,但显然它不是有效的IP地址,也就是说我们在查找IP地址 192.168.***.***的时候,其前后都不能是数字,那么我们就需要提前查看或者环视周围,扩展表示法就起到了这样的作用,如匹配查找office单词:

  • office(?=2003|2007|365):只能匹配查找office2003或者office2007或office365中的office,无法匹配office2010中的office,匹配结果只包含office,称为非获取匹配查找

  • office(?!2003|2007|365):可以匹配查找office2010中的office,而无法匹配office2003或者office2007或office365中的office,匹配结果只包含office,称为非获取匹配查找

  • (?<=上海|北京)人:只能匹配查找上海人或北京人中“人”,而无法匹配广州人中的“人”,匹配结果只包含“人”,称为非获取匹配查找

  • (?<!上海|北京)人:只能匹配查找非上海人或北京人中“人”,如广州人中的“人”,而无法匹配上海人或北京人中“人”,匹配结果只包含“人”,称为非获取匹配查找

关于具体的编程应用案例,感兴趣的读者朋友可以直接用今日头条app上方的搜索框输入:“程序员水平进阶之正则表达式”,进入专栏进行查看:

难倒很多程序员的正则表达式是什么?一文看懂神奇的正则表达式

头条搜索

五、附上两个实用的正则表达式—够你写半天的代码

关于以下两种正则表达式的详细解释可参见文章“程序猿技能进阶:设计一条检查用户名是否合法的正则表达式”与文章“程序猿技能进阶:一条正则表达式检查用户密码的合法性”。

★ 检查用户名是否符合要求的正则表达式:

//要求一:用户名必须以字母开头

//要求二:用户名只能包含大小写字母、数字、下划线

//要求三:总长度为6~16位

//用于检查验证用户名是否符合上述要求的正则表达式: ^[a-zA-Z][a-zA-Z0-9_]{5,15}$

★ 检查用户密码设置是否符合要求的正则表达式:

正则表达式:((?!^[0-9] $)(?!^[A-Z] $)(?!^[a-z] $)(?!^[^A-Za-z0-9] $))^.[^\s]{8,16}$

注:((?!...)(?!...))之间是同时满足的意思

表示由大小写英文字母与数字混合组成的6到16位密码

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多