python正则如何匹配中文汉字

2024-07-09 18:41| 来源: 网络整理| 查看: 265

正则表达式匹配中文汉字，在实际应用中十分常见。比如：爬虫网页文本提取、验证用户输入标准等。以下面文本字符串为例，匹配出astr这个字符串中的所有汉字。

import re astr = '''aaaaa何时when 杖尔看see南雪snow，我me与梅花plum blossom两白头'''

下面介绍两种方法（本文环境为python3）一、使用Unicode编码来匹配中文常见的中文Unicode编码范围：\u4e00-\u9fa5 实现匹配代码：re.findall(’[\u4e00-\u9fa5]’, astr)

import re astr = '''aaaaa何时when 杖尔看see南雪snow，我me与梅花plum blossom两白头''' res = re.findall('[\u4e00-\u9fa5]', astr) print(res)

匹配结果：在这里插入图片描述二、直接使用中文汉字实现中文匹配没使用过可能还真不知道，中文匹配还可以这样实现匹配代码：re.findall(’[一-龥]’, astr)

import re astr = '''aaaaa何时when 杖尔看see南雪snow，我me与梅花plum blossom两白头''' res = re.findall('[一-龥]', astr) print(res)

匹配结果：在这里插入图片描述注：其实这里“一”对应的Unicode编码就是“\u4e00”,“龥”（yù）对应的Unicode编码就是“\u9fa5”。

常见非英文字符Unicode编码范围： u4e00-u9fa5 (中文) u0800-u4e00 (日文) uac00-ud7ff（韩文）

【本文地址】

今日新闻