Kana kanji 简单反转库
项目描述
皮卡卡西
概述
pykakasi是一个 Python 自然语言处理 (NLP) 库,用于将平假名、片假名和汉字(日语文本)音译成rōmaji(拉丁/罗马字母)。它可以处理 NFC 形式的字符。
它的算法基于用 C 语言编写的kakasi库。
安装(来自PyPI):pip install pykakasi
支持的python版本
pykakasi 支持 python 3.6、3.7、3.8、3.9 和 pypy3
用法
将日语文本音译为假名、平假名和罗马字:
import pykakasi
kks = pykakasi.kakasi()
text = "かな漢字"
result = kks.convert(text)
for item in result:
print("{}: kana '{}', hiragana '{}', romaji: '{}'".format(item['orig'], item['kana'], item['hira'], item['hepburn']))
かな: kana 'カナ', hiragana: 'かな', romaji: 'kana'
漢字: kana 'カンジ', hiragana: 'かんじ', romaji: 'kanji'
这是一个输出与假名模式类似的示例。
import pykakasi
kks = pykakasi.kakasi()
text = "かな漢字交じり文"
result = kks.convert(text)
for item in result:
print("{}[{}] ".format(item['orig'], item['hepburn'].capitalize()), end='')
print()
かな[Kana] 漢字[Kanji] 交じり[Majiri] 文[Bun]
基准测试结果
您可以在https://github.com/miurahr/pykakasi/issues/123查看各种版本和平台的基准测试结果
版权和许可
- 皮卡卡西::
版权所有 (C) 2010-2021 Hiroshi Miura 和贡献者(见 AUTHORS)
- 卡卡西词典::
版权所有 (C) 2010-2021 Hiroshi Miura 和贡献者(见 AUTHORS)
版权所有 (C) 1992 1993 1994 Hironobu Takahashi、Masahiko Sato、Yukiyoshi Kameyama、Miki Inooka、Akihiko Sasaki、Dai Ando、Junichi Okukawa、Katsushi Sato 和 Nobuhiro Yamagishi
- UniDic::
版权所有 (c) 2011-2021,UniDic 联盟
版权所有。
Unidic 是根据 GPL2、LGPL2.1 或 3 条款 BSD 许可证中的任何一个发布的。(参见 src/data/unidic/BSD.txt)PyKakasi 使用 GPL3+ 重新许可 unidic 的一部分。
本程序是免费软件:您可以根据自由软件基金会发布的 GNU 通用公共许可证条款重新分发和/或修改它,许可证的第 3 版或(由您选择)任何更高版本。
分发此程序的目的是希望它有用,但不提供任何保证;甚至没有对适销性或特定用途适用性的默示保证。有关详细信息,请参阅 GNU 通用公共许可证。
您应该已经收到了一份 GNU 通用公共许可证的副本以及该程序。如果没有,请参阅 < http://www.gnu.org/licenses/ >。
PyKakasi 变更日志
此项目的所有显着更改都将记录在此文件中。
未发布
添加
改变了
固定的
已弃用
已移除
安全
v2.2.1(2021 年 7 月 10 日)
固定的
添加 Zenkaku-Question(uFF1F) 和其他 Zenkaku 标记作为结束标记 (#146)
v2.2.0(2021 年 6 月 22 日)
添加
字典:从 UniDic 中添加名词和形容词(#140)
改变了
重构 convert()(#144) 的主循环逻辑
固定的
与片假名和平假名组合时修复分段(wakati)(#142)
v2.1.1(2021 年 5 月 16 日)
添加
提供 Kakasi.normalize(text) 类方法
将 unidic 数据添加到数据中(尚未使用),并添加解析实用程序。
固定的
将类型提示存根放入包中
版权通知
改变了
将所有字母展开到字典中 (#139)
将主要 kanwadict 索引从 str 更改为 int
测试:将所有遗留测试收集到 test_pykakasi_legacy.py 文件中。
v2.1.0(2021 年 5 月 6 日)
添加
使用旧 api 时的弃用警告(#124)
添加类型提示文件(pyi) (#124)
基准测试代码(#122)
改变了
缓存内部结果并提高性能约 30-40 倍。(#128)
对数据库文件使用标准泡菜(#128)
Exceptions 模块现在是pykakasi,而不是pykakasi.exceptions
已移除
klepto 的依赖(#128)
v2.0.8(2021 年 5 月 4 日)
添加
测试:基准测试和分析 (#122)
改变了
性能:检查long-mark时避免ord(),提速6%左右
用黑色重新格式化代码(#121)
v2.0.7(2021 年 2 月 26 日)
固定的
运行一段时间后无限循环,独立处理HW VOICED SOUND MARK (#115, #118)
v2.0.6(2021 年 2 月 7 日)
固定的
年龄反义词平假名(#116,#117)
v2.0.5(2021 年 2 月 5 日)
改变了
CLI: 使用 argparse 进行选项解析(#113)
固定的
正确处理思った、言った、行った(#114)
CI:修复工作服错误
已弃用
CI:放弃 travis-ci 测试和徽章
v2.0.4(2020 年 11 月 26 日)
固定的
CLI:修复 -v 和 -h 选项在 python 3.7 及之前的版本 (#108) 上崩溃。
v2.0.3(2020 年 11 月 25 日)
固定的
CLI:修复 -v 和 -h 选项崩溃 (#108)。
v2.0.2(2020 年 7 月 23 日)
固定的
修复 convert() 以正确处理片假名。(#103)
v2.0.1(2020 年 7 月 23 日)
改变了
更新 setup.py、setup.cfg、tox.ini(#102)
固定的
修复 convert() 遗漏文本的最后一部分 (#99, #100)
修复 CI、覆盖率和工作服配置 (#101)