Linux下grep匹配中文字符

2024-07-09 10:45| 来源: 网络整理| 查看: 265

github地址： https://github.com/longyu109 1.背景

最近在解析.vcf文件，想提取其中的姓名和邮箱地址，发现linux下匹配中文与java下

匹配中文有所不一样，java下匹配格式为[\u4e00-\u9fa5]，注意java下有的特殊字符需要

转义，也就是再加一个\。

但是，当我将此格式用于grep命令中时，发现失效了，出来的是全部的字符，感觉

并没有过滤，此处原因，我也不太清楚。

上网查询时，看到一个网友的回答，觉得挺对的，尽管他没有给出答案，我先使用

sed命令过滤掉所以的字母，数字，特殊字符；剩下的就是中文了。当然此处，不能出现

多种语言混合的情况。

命令如下：#cat 1.txt | sed 's/[a-zA-Z0-9[:punct:]]//g' | grep -v '^$'

后面的grep命令是去掉空白行。

2.正则表达式如何生效

grep正则匹配中文可以考虑：

grep '[^\u4e00-\u9fa5]' test.log （如果不生效，见下面的命令）

注： grep '[\u4e00-\u9fa5]' test.log 命令经常不生效

此外下面命令可生效：

grep -P '[\p{Han}]' test.log

【本文地址】

今日新闻