python正则如何匹配中文汉字

您所在的位置:网站首页 正则表达式只能是汉字 python正则如何匹配中文汉字

python正则如何匹配中文汉字

2024-07-09 18:41| 来源: 网络整理| 查看: 265

正则表达式匹配中文汉字,在实际应用中十分常见。 比如:爬虫网页文本提取、验证用户输入标准等。 以下面文本字符串为例,匹配出astr这个字符串中的所有汉字。

import re astr = '''aaaaa何时when 杖尔看see南雪snow,我me与梅花plum blossom两白头'''

下面介绍两种方法(本文环境为python3) 一、使用Unicode编码来匹配中文 常见的中文Unicode编码范围:\u4e00-\u9fa5 实现匹配代码:re.findall(’[\u4e00-\u9fa5]’, astr)

import re astr = '''aaaaa何时when 杖尔看see南雪snow,我me与梅花plum blossom两白头''' res = re.findall('[\u4e00-\u9fa5]', astr) print(res)

匹配结果: 在这里插入图片描述 二、直接使用中文汉字实现中文匹配 没使用过可能还真不知道,中文匹配还可以这样 实现匹配代码:re.findall(’[一-龥]’, astr)

import re astr = '''aaaaa何时when 杖尔看see南雪snow,我me与梅花plum blossom两白头''' res = re.findall('[一-龥]', astr) print(res)

匹配结果: 在这里插入图片描述 注:其实这里“一”对应的Unicode编码就是“\u4e00”,“龥”(yù)对应的Unicode编码就是“\u9fa5”。

常见非英文字符Unicode编码范围: u4e00-u9fa5 (中文) u0800-u4e00 (日文) uac00-ud7ff(韩文)



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3