史上最全正则表达式语法,文末附常用表达式!

您所在的位置:网站首页 英语语法规则大全表格 史上最全正则表达式语法,文末附常用表达式!

史上最全正则表达式语法,文末附常用表达式!

2024-07-05 06:53| 来源: 网络整理| 查看: 265

废话少说,直接开始学习!

一、元字符

元字符是构造正则表达式的一种基本元素。

. :匹配除换行符以外的任意字符

w:匹配字母或数字或下划线或汉字

s:匹配任意的空白符

d:匹配数字

b:匹配单词的开始或结束

^:匹配字符串的开始

$:匹配字符串的结束

匹配有abc开头的字符串:abc或者^abc 匹配8位数字的QQ号码:^dddddddd$ 匹配1开头11位数字的手机号码:^1dddddddddd$ 二、重复限定符

正则没提供办法处理这些重复的元字符吗?答案肯定是有的。

*:重复零次或更多次

+:重复一次或更多次

?:重复零次或一次

{n}:重复n次

{n,}:重复n次或更多次

{n,m}:重复n到m次

有了这些限定符之后,我们就可以对之前的正则表达式进行改造了,比如:

匹配8位数字的QQ号码:^d{8}$ 匹配1开头11位数字的手机号码:^1d{10}$ 匹配银行卡号是14~18位的数字:^d{14,18}$ 匹配以a开头的,0个或多个b结尾的字符串^ab*$ 三、分组()

限定符是作用在与他左边最近的一个字符,那么问题来了,如果我想要ab同时被限定那怎么办呢?

正则表达式中用小括号()来做分组,也就是括号中的内容作为一个整体。

因此当我们要匹配多个ab时,我们可以这样。

如匹配字符串中包含0到多个ab开头:^(ab)* 四、转义

正则提供了转义的方式,也就是要把这些元字符、限定符或者关键字转义成普通的字符,做法很简答,就是在要转义的字符前面加个斜杠,也就是\即可。

匹配字符串中包含0到多个ab开头:^(\(ab\))* 五、条件或 |

回到我们刚才的手机号匹配,我们都知道:国内号码都来自三大网,它们都有属于自己的号段,比如联通有130/131/132/155/156/185/186/145/176等号段,假如让我们匹配一个联通的号码,那按照我们目前所学到的正则,应该无从下手的,因为这里包含了一些并列的条件,也就是“或”,那么在正则中是如何表示“或”的呢?

正则用符号 | 来表示或,也叫做分支条件,当满足正则里的分支条件的任何一种条件时,都会当成是匹配成功。

那么我们就可以用或条件来处理这个问题

^(130|131|132|155|156|185|186|145|176)\d{8}$ 六、区间[ ]

看到上面的例子,是不是看到有什么规律?是不是还有一种想要简化的冲动? 实际是有的

正则提供一个元字符中括号 [] 来表示区间条件。

限定0到9 可以写成[0-9]

限定A-Z 写成[A-Z]

限定某些数字 [165]

那上面的正则我们还改成这样:

^((13[0-2])|(15[56])|(18[5-6])|145|176)\d{8}$ 七、正则进阶之零宽断言

断言:俗话的断言就是“我断定什么什么”,而正则中的断言,就是说正则可以指明在指定的内容的前面或后面会出现满足指定规则的内容, 意思正则也可以像人类那样断定什么什么,比如"ss1aa2bb3",正则可以用断言找出aa2前面有bb3,也可以找出aa2后面有ss1.

零宽:就是没有宽度,在正则中,断言只是匹配位置,不占字符,也就是说,匹配结果里是不会返回断言本身。

我们来举个栗子: 假设我们要用爬虫抓取csdn里的文章阅读量。通过查看源代码可以看到文章阅读量这个内容是这样的结构

"阅读数:641"

其中也就‘641’这个是变量,也就是说不同文章不同的值,当我们拿到这个字符串时,需要获得这里边的‘641’有很多种办法,但如果正则应该怎么匹配呢?下面先来讲几种类型的断言:

正向先行断言(正前瞻):

语法:(?=pattern)

作用:匹配pattern表达式的前面内容,不返回本身。

这样子说,还是一脸懵逼,好吧,回归刚才那个栗子,要取到阅读量,在正则表达式中就意味着要能匹配到‘’前面的数字内容 按照上所说的正向先行断言可以匹配表达式前面的内容,那意思就是:(?=) 就可以匹配到前面的内容了。 匹配什么内容呢?如果要所有内容那就是:

 String reg=".+(?=)";  String test = "阅读数:641";  Pattern pattern = Pattern.compile(reg);  Matcher mc= pattern.matcher(test);  while(mc.find()){    System.out.println("匹配结果:")    System.out.println(mc.group());  } //匹配结果: //阅读数:641

可是老哥我们要的只是前面的数字呀,那也简单咯,匹配数字 \d,那可以改成:

String reg="\\d+(?=)"; String test = "阅读数:641"; Pattern pattern = Pattern.compile(reg); Matcher mc=    pattern.matcher(test); while(mc.find()){   System.out.println(mc.group()); } //匹配结果: //641

大功告成!

正向后行断言(正后顾):

语法:(?

作用:匹配非pattern表达式的后面内容,不返回本身。

八、正则进阶之捕获和非捕获

单纯说到捕获,他的意思是匹配表达式,但捕获通常和分组联系在一起,也就是“捕获组”

捕获组:匹配子表达式的内容,把匹配结果保存到内存中中数字编号或显示命名的组里,以深度优先进行编号,之后可以通过序号或名称来使用这些匹配结果。

而根据命名方式的不同,又可以分为两种组:

数字编号捕获组: 语法:(exp) 解释:从表达式左侧开始,每出现一个左括号和它对应的右括号之间的内容为一个分组,在分组中,第0组为整个表达式,第一组开始为分组。 比如固定电话的:020-85653333 正则表达式为:(0\d{2})-(\d{8}) 按照左括号的顺序,这个表达式有如下分组:

序号编号分组内容00(0\d{2})-(\d{8})020-8565333311(0\d{2})02022(\d{8})85653333

我们用Java来验证一下:

 String test = "020-85653333";          String reg="(0\\d{2})-(\\d{8})";          Pattern pattern = Pattern.compile(reg);          Matcher mc= pattern.matcher(test);          if(mc.find()){              System.out.println("分组的个数有:"+mc.groupCount());              for(int i=0;i


【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3