Skip to main content

NLPIR/ICTCLAS 中文分词软件的 Python 包装器。

项目描述

构建状态 最新版本

PyNLPIR 是 NLPIR/ICTCLAS 中文分词软件的 Python 包装器。

关于

使用最受推崇的中文文本分析器之一 NLPIR 轻松分割文本:

import pynlpir
pynlpir.open()

s = '欢迎科研人员、技术工程师、企事业单位与个人参与NLPIR平台的建设工作。'
pynlpir.segment(s)

[('欢迎', 'verb'), ('科研', 'noun'), ('人员', 'noun'), ('、', 'punctuation mark'), ('技术', 'noun'), ('工程师', 'noun'), ('、', 'punctuation mark'), ('企事业', 'noun'), ('单位', 'noun'), ('与', 'conjunction'), ('个人', 'noun'), ('参与', 'verb'), ('NLPIR', 'noun'), ('平台', 'noun'), ('的', 'particle'), ('建设', 'verb'), ('工作', 'verb'), ('。', 'punctuation mark')]

特征

  • 常见用例的辅助函数

  • 英语/汉语词性映射

  • 支持 UTF-8、GBK 和 BIG5 编码字符串(当然还有 unicode!)

  • 通过ctypes访问 NLPIR 的 C 函数

  • 包括 NLPIR 的副本

  • 在 Python 2.7 和 3 上运行

  • 支持 macOS、Linux 和 Windows

入门

更改日志

0.6 (2019-08-20)

  • 为 pynlpir.segment() 的 pos_names添加'raw'选项。

  • 添加缺少的 pos 标签:“mg”、“g”和“j”。

  • 修复了文档中损坏的 NLPIR 项目链接。

0.5.2 (2017-03-24)

  • 修复了在 Windows/Python 3 上打开 PyNLPIR 的错误。修复 #63。

0.5.1 (2017-03-18)

  • 修复了在 Windows/Python 2 上打开 PyNLPIR 的错误。修复 #63。

0.5 (2017-03-11)

  • 添加许可证自动更新程序。

  • 删除包含的许可证文件。

  • 将测试移动到单独的目录。

0.4.6 (2016-08-12)

  • 更新 NLPIR 许可证。

0.4.5 (2016-07-18)

  • 更新 NLPIR 许可证。

0.4.4 (2016-04-09)

  • 更新 NLPIR 许可证。

0.4.3 (2016-03-13)

  • 更新 NLPIR 许可证。

0.4.2 (2016-02-16)

  • 更新 NLPIR 许可证。

0.4.1 (2016-01-22)

  • 更新 NLPIR 许可证。

0.4 (2015-12-21)

  • 更新 NLPIR。

  • 添加 OS X 支持。

0.3.3 (2015-10-21)

  • 使用某些输入修复 NLPIR 冻结。修复 #33。

  • 将 flake8 测试添加到 tox 和 travis-ci。

  • 添加对 Python 3.5 支持的测试。

  • 在 setup.py 中使用 io.open()。修复 #34。

0.3.2 (2015-08-05)

  • 添加 2015-08-05 许可证文件。修复 #31。

0.3.1 (2015-07-12)

  • 修复 RST 渲染错误。

0.3 (2015-07-12)

  • 包括 NLPIR 版本 20150702。修复 #25。

  • 添加编码错误处理方案选项。

  • 添加新单词识别功能和文档。修复 #26。

  • 使~pynlpir.get_key_words与多个 NLPIR 返回值结构一起工作。修复 #23。

  • 无法识别 pos 码时返回None 。修复 #20。

  • 更新教程中过时的链接。修复 #21。

0.2.2 (2015-01-02)

  • 修复了 v0.2.1 的发布问题。

0.2.1 (2015-01-02)

  • 软件包 NLPIR 版本 20141230。修复 #18。

0.2 (2014-12-18)

  • 软件包 NLPIR 版本 20140926。恢复pynlpir.get_key_words功能。修复 #11、#14 和 #15。

  • 更新新 NLPIR 版本的词性映射。修复 #17。

  • 修复了api.rst中的一个错字。修复 #16。

  • 修复了涉及大写部分语音代码的错误。修复 #10。

  • 将 Python 3.4 测试添加到 tox 和 travis。

  • 注意setup.pyCONTRIBUTING.rst中的 Python 3.4 支持。

  • 修复了双斜杠单元测试,使其适用于新的 NLPIR 版本。

  • 添加缺少的逗号。修复 #8。

  • 修复了pynlpir.get_key_words中的缩进。

  • 为空关键字结果添加条件。修复 #9。

0.1.3 (2014-06-12)

  • 修复文档中的拼写错误。修复 #4。

  • license_code参数添加到pynlpir.open。修复 #6。

  • 打包 NLPIR 版本 20131219 并删除版本 20140324。修复了 NLPIR 许可证过期问题。修复 #5。

  • 修复了输入中双斜杠的错误。修复 #7。

0.1.2 (2014-05-01)

  • 将版本信息添加到__init__.py

  • 添加 Travis CI 配置信息。

  • 重新格式化README.rst

  • 添加有关贡献的文档。

  • 修复 #2。修复了用空格分割文本。

  • 修复 #3。修复_encode() / _decode默认编码错误。

0.1.1 (2014-04-07)

  • 修复了包数据的安装问题。

0.1.0 (2014-04-07)

  • 初始发行。

下载文件

下载适用于您平台的文件。如果您不确定要选择哪个,请了解有关安装包的更多信息。

源分布

PyNLPIR-0.6.0.tar.gz (13.1 MB 查看哈希

已上传 source

内置分布

PyNLPIR-0.6.0-py2.py3-none-any.whl (13.1 MB 查看哈希

已上传 py2 py3