Java判断字符串是中文还是英文 |
您所在的位置:网站首页 › java判断字符串非法字符是否存在数字符 › Java判断字符串是中文还是英文 |
强烈推荐一个大神的人工智能的教程:http://www.captainbed.net/zhanghan 前言最近项目的短信服务对接外国的第三方发短信通道,第三方对短信内容有限制,不能含中文字符(如果含调用结果肯定失败),所以在发送之前需要对短信内容做校验,看是否含有中文,如果含有则直接将短信发送状态改为失败,不用再去调用第三方; 探索之旅站在巨人的肩膀上, 立马在网上搜索一下关于Java怎么判断字符串中是否含有中文;果然网上有很多实现; 一、最简单的方式字符与字节的长度 依据:一个中文占两个字节,一个英文占一个字节。故若是字符长度与字节长度相等,则判断为英文。否则为中文。 public static boolean isEnglish(String p) { byte[] bytes = p.getBytes(); int i = bytes.length;//i为字节长度 int j = p.length();//j为字符长度 return i == j; } 二、实现方式1针对每个字符判断 public static boolean isChinese(String str) throws UnsupportedEncodingException { int len = str.length(); for(int i = 0; i < len; i ++) { String temp = URLEncoder.encode(str.charAt(i) + "", "utf-8"); if(temp.equals(str.charAt(i) + "")) continue; String[] codes = temp.split("%"); //判断是中文还是字符(下面判断不精确,部分字符没有包括) for(String code : codes) { if(code.compareTo("40") > 0) return true; } } return false; }缺点:效率低【每次都需要循环检测字符串中每个字符】(每次发送都需要检测短信内容,每条内容有很多字符); 优点:不仅能检测出中文汉字还能检测中中文标点; 二、实现方式2利用正则表达式 public static boolean isContainChinese(String str) { Pattern p = Pattern.compile("[\u4e00-\u9fa5]"); Matcher m = p.matcher(str); return m.find(); }缺点:只能检测出中文汉字不能检测中文标点; 优点:利用正则效率高; 三、实现方式3改造正则 /** * 字符串是否包含中文 * * @param str 待校验字符串 * @return true 包含中文字符 false 不包含中文字符 * @throws EmptyException */ public static boolean isContainChinese(String str) throws EmptyException { if (StringUtils.isEmpty(str)) { throw new EmptyException("sms context is empty!"); } Pattern p = Pattern.compile("[\u4E00-\u9FA5|\\!|\\,|\\。|\\(|\\)|\\《|\\》|\\“|\\”|\\?|\\:|\\;|\\【|\\】]"); Matcher m = p.matcher(str); return m.find(); }优点:效率既高又能检测出中文汉字和中文标点; 缺点:目前尚未发现。 总结 站在巨人的肩膀上,多去查,多做比较;针对程序不断的优化,比如第一种方式循环读字符串量大后很容易将服务器CPU搞崩。 |
今日新闻 |
推荐新闻 |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |