Skip to main content

Kana kanji 简单反转库

项目描述

皮卡卡西

概述

文件状态 PyPI 版本 运行毒物测试 Azure-管道 覆盖状态

pykakasi是一个 Python 自然语言处理 (NLP) 库,用于将平假名片假名汉字(日语文本)音译成rōmaji(拉丁/罗马字母)。它可以处理 NFC 形式的字符。

它的算法基于用 C 语言编写的kakasi库。

支持的python版本

  • pykakasi 支持 python 3.6、3.7、3.8、3.9 和 pypy3

用法

将日语文本音译为假名、平假名和罗马字:

import pykakasi
kks = pykakasi.kakasi()
text = "かな漢字"
result = kks.convert(text)
for item in result:
    print("{}: kana '{}', hiragana '{}', romaji: '{}'".format(item['orig'], item['kana'], item['hira'], item['hepburn']))

かな: kana 'カナ', hiragana: 'かな', romaji: 'kana'
漢字: kana 'カンジ', hiragana: 'かんじ', romaji: 'kanji'

这是一个输出与假名模式类似的示例。

import pykakasi
kks = pykakasi.kakasi()
text = "かな漢字交じり文"
result = kks.convert(text)
for item in result:
    print("{}[{}] ".format(item['orig'], item['hepburn'].capitalize()), end='')
print()

かな[Kana] 漢字[Kanji] 交じり[Majiri] [Bun]

基准测试结果

您可以在https://github.com/miurahr/pykakasi/issues/123查看各种版本和平台的基准测试结果

PyKakasi 变更日志

此项目的所有显着更改都将记录在此文件中。

未发布

添加

改变了

固定的

已弃用

已移除

安全

v2.2.1(2021 年 7 月 10 日)

固定的

  • 添加 Zenkaku-Question(uFF1F) 和其他 Zenkaku 标记作为结束标记 (#146)

v2.2.0(2021 年 6 月 22 日)

添加

  • 字典:从 UniDic 中添加名词和形容词(#140)

改变了

  • 重构 convert()(#144) 的主循环逻辑

固定的

  • 与片假名和平假名组合时修复分段(wakati)(#142)

v2.1.1(2021 年 5 月 16 日)

添加

  • 提供 Kakasi.normalize(text) 类方法

  • 将 unidic 数据添加到数据中(尚未使用),并添加解析实用程序。

固定的

  • 将类型提示存根放入包中

  • 版权通知

改变了

  • 将所有字母展开到字典中 (#139)

  • 将主要 kanwadict 索引从 str 更改为 int

  • 测试:将所有遗留测试收集到 test_pykakasi_legacy.py 文件中。

v2.1.0(2021 年 5 月 6 日)

添加

  • 使用旧 api 时的弃用警告(#124)

  • 添加类型提示文件(pyi) (#124)

  • 基准测试代码(#122)

改变了

  • 缓存内部结果并提高性能约 30-40 倍。(#128)

  • 对数据库文件使用标准泡菜(#128)

  • Exceptions 模块现在是pykakasi,而不是pykakasi.exceptions

已移除

  • klepto 的依赖(#128)

v2.0.8(2021 年 5 月 4 日)

添加

  • 测试:基准测试和分析 (#122)

改变了

  • 性能:检查long-mark时避免ord(),提速6%左右

  • 用黑色重新格式化代码(#121)

v2.0.7(2021 年 2 月 26 日)

固定的

  • 运行一段时间后无限循环,独立处理HW VOICED SOUND MARK (#115, #118)

v2.0.6(2021 年 2 月 7 日)

固定的

  • 年龄反义词平假名(#116,#117)

v2.0.5(2021 年 2 月 5 日)

改变了

  • CLI: 使用 argparse 进行选项解析(#113)

固定的

  • 正确处理思った、言った、行った(#114)

  • CI:修复工作服错误

已弃用

  • CI:放弃 travis-ci 测试和徽章

v2.0.4(2020 年 11 月 26 日)

固定的

  • CLI:修复 -v 和 -h 选项在 python 3.7 及之前的版本 (#108) 上崩溃。

v2.0.3(2020 年 11 月 25 日)

固定的

  • CLI:修复 -v 和 -h 选项崩溃 (#108)。

v2.0.2(2020 年 7 月 23 日)

固定的

  • 修复 convert() 以正确处理片假名。(#103)

v2.0.1(2020 年 7 月 23 日)

改变了

  • 更新 setup.py、setup.cfg、tox.ini(#102)

固定的

  • 修复 convert() 遗漏文本的最后一部分 (#99, #100)

  • 修复 CI、覆盖率和工作服配置 (#101)

v2.0.0(2020 年 5 月 31 日)

发布历史 发布通知| RSS订阅