Python网络爬虫之正则表达式(二)

您所在的位置:网站首页 python正则表达模块的findall方法原型及参数含义 Python网络爬虫之正则表达式(二)

Python网络爬虫之正则表达式(二)

2023-03-22 00:45| 来源: 网络整理| 查看: 265

0 分享至

用微信扫码二维码

分享至好友和朋友圈

1re模块

Python通过re模块提供对正则表达式的支持,使用re的一般步骤是先将正则表达式的字符串形式编译为Pattern实例,然后使用Pattern实例处理文本并获得匹配结果(一个Match实例),最后使用Match实例获得信息,进行其他的操作。

还是直接上代码:

上述代码的输出结果为:hello。

Pattern不能直接实例化,必须使用re.compile()进行构造。Pattern对象是一个编译好的正则表达式,通过Pattern提供的一系列方法可以对文本进行匹配查找。pattern也可以理解为一个匹配模式。

接下来讲解一下Match对象,Match对象是一次匹配的结果,包含了很多关于此次匹配的信息,可以使用Match提供的可读属性或方法来获取这些信息。

属性:

string: 匹配时使用的文本。re: 匹配时使用的Pattern对象。pos: 文本中正则表达式开始搜索的索引。值与Pattern.match()和Pattern.seach()方法的同名参数相同。endpos: 文本中正则表达式结束搜索的索引。值与Pattern.match()和Pattern.seach()方法的同名参数相同。lastindex: 最后一个被捕获的分组在文本中的索引。如果没有被捕获的分组,将为None。lastgroup: 最后一个被捕获的分组的别名。如果这个分组没有别名或者没有被捕获的分组,将为None。

方法:

group([group1, …]): 获得一个或多个分组截获的字符串;指定多个参数时将以元组形式返回。group1可以使用编号也可以使用别名;编号0代表整个匹配的子串;不填写参数时,返回group(0);没有截获字符串的组返回None;截获了多次的组返回最后一次截获的子串。groups([default]): 以元组形式返回全部分组截获的字符串。相当于调用group(1,2,…last)。default表示没有截获字符串的组以这个值替代,默认为None。groupdict([default]): 返回以有别名的组的别名为键、以该组截获的子串为值的字典,没有别名的组不包含在内。default含义同上。

2re.compile(string[,flag])

此方法是通过第一个参数传入正则表达式的原生字符串,就可以编译生成pattern对象,还有另一参数flag是匹配模式,取值可以使用位运算符“|”来表示同时生效,具体的选值及其含义如下:

re.I(全拼:IGNORECASE): 忽略大小写(括号内是完整写法,下同)re.M(全拼:MULTILINE): 多行模式,改变'^'和'$'的行为re.S(全拼:DOTALL): 点任意匹配模式,改变'.'的行为re.L(全拼:LOCALE): 使预定字符类 \w \W \b \B \s \S 取决于当前区域设定re.U(全拼:UNICODE): 使预定字符类 \w \W \b \B \s \S \d \D 取决于unicode定义的字符属性re.X(全拼:VERBOSE): 详细模式。这个模式下正则表达式可以是多行,忽略空白字符,并可以加入注释。

3re.match(pattern, string[, flags])

这个方法将会从string的开头开始,尝试匹配pattern,一直向后匹配,如果遇到无法匹配的字符,立即返回None,如果匹配未结束已经到达string的末尾,也会返回None。两个结果均表示匹配失败,否则匹配pattern成功,同时匹配终止,不再对string向后匹配。

方法使用参考代码如下:

输出为:hello

4 re.search(pattern, string[, flags])

search方法与match方法极其类似,区别在于match()函数只检测re是不是在string的开始位置匹配,search()会扫描整个string查找匹配,match()只有在0位置匹配成功的话才有返回,如果不是开始位置匹配成功的话,match()就返回None。同样,search方法的返回对象同样match()返回对象的方法和属性。

方法使用参考代码如下:

输出为:world

5re.split(pattern, string[, maxsplit])

按照能够匹配的子串将string分割后返回列表。maxsplit用于指定最大分割次数,不指定将全部分割。

方法使用参考代码如下:

输出为:['one', 'two', 'three']

6re.findall(pattern, string[, flags])

搜索string,以列表形式返回全部能匹配的子串。

方法使用参考代码如下:

输出为:['1', '2']

7Re模块的另一种使用方法

上面诸如match、search等方法的调用,还可以通过pattern.match和pattern.search方法来完成,这样就避免了将pattern作为第一个参数传入啦,到底用那种方法,看个人的习惯就好。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

/阅读下一篇/ 返回网易首页 下载网易新闻客户端


【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3