Python

您所在的位置:网站首页 epub繁体转简体安卓 Python

Python

2023-09-03 03:38| 来源: 网络整理| 查看: 265

1. OpenCC介绍

Open Chinese Convert(OpenCC)是一个开源的中文简繁转换项目,致力于制作高质量的基于统计预料的简繁转换词库。还提供函数库(libopencc)、命令行简繁转换工具、人工校对工具、词典生成程序、在线转换服务及图形用户界面。

OpenCC具体如下特点

严格区分「一简对多繁」、「一简对多异」和「地域用词差别」。支持异体字转换,兼容陆港澳台等不同地区用字差别。严格审校一简对多繁词条,原则为「能分则不合」,用户可自定义合并。 支持中国大陆、台湾、香港异体字和地区习惯用词转换,如「裏」「裡」、「鼠標」「滑鼠」。词库和函数库完全分离,可以自由修改、导入、扩展。支持C、C++、Python、PHP、Node.js等多种语言API,提供命令行直接调用,以及图形界面。兼容Windows、Linux、Mac等多种平台。 2. OpenCC-python

用法请详细参考OpenCC-python in pypi

2.1 安装 pip install opencc-python 2.2 使用示例 #!/usr/bin/env python #-*- coding: utf8 -*- import opencc cc = opencc.OpenCC('t2s') print cc.convert(u'Open Chinese Convert(OpenCC)「開放中文轉換」,是一個致力於中文簡繁轉換的項目,提供高質量詞庫和函數庫(libopencc)。')

OpenCC有4种转换模式

t2s - 繁体转简体s2t - 简体转繁体mix2t - 混合体转繁体mix2s - 混合体转简体 3. Shell用法

opencc-python的文本处理效率很低。另外一种提高转换效率的方式是直接在linux下安装OpenCC,处理效率会有飞一般的提升。

3.1 OpenCC安装

安装过程及问题主要参考: CentOS安装OpenCC

3.1.1 检查下linux环境下是否已经安装cmake以及git,如果没有,那就通过yum安装好。 $ yum install cmake $ yum install git 3.1.2 克隆下OpennCC开源项目OpennCC开源项目。 git clone https://github.com/BYVoid/OpenCC 3.1.3 编译OpenCC $ cd OpenCC $ make $ make install 3.1.4 创建libopencc.so.2链接

如果不知道libopencc.so.2的路径,可以通过find / -name libopencc.so.2查找。

$ ln -s /usr/lib/libopencc.so.2 /usr/lib64/libopencc.so.2 3.1.5 通过查看 OpenCC 版本,检查OpenCC是否已经安装成功 $ opencc --version 3.2 OpenCC使用 #繁体转简体 $ echo '歐幾里得 西元前三世紀的希臘數學家' | opencc -c t2s 欧几里得 西元前三世纪的希腊数学家 #简体转繁体 $ echo '欧几里得 西元前三世纪的希腊数学家' | opencc -c s2t 歐幾里得 西元前三世紀的希臘數學家 #可以通过以下方式直接对文件进行繁简转换 $ opencc -i zhwiki_raw.txt -o zhwiki_t2s.txt -c t2s.json


【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3