语言检测库移植自 Google 的语言检测。

项目描述

语言检测

Nakatani Shuyo 的语言检测库（2014 年 3 月 3 日版本）移植到 Python。

安装

$ pip install langdetect

支持的 Python 版本 2.7、3.4+。

语言

langdetect开箱即用支持 55 种语言（ISO 639-1 代码）：

af, ar, bg, bn, ca, cs, cy, da, de, el, en, es, et, fa, fi, fr, gu, he,
hi, hr, hu, id, it, ja, kn, ko, lt, lv, mk, ml, mr, ne, nl, no, pa, pl,
pt, ro, ru, sk, sl, so, sq, sv, sw, ta, te, th, tl, tr, uk, ur, vi, zh-cn, zh-tw

基本用法

要检测文本的语言：

>>> from langdetect import detect
>>> detect("War doesn't show who's right, just who's left.")
'en'
>>> detect("Ein, zwei, drei, vier")
'de'

要找出顶级语言的概率：

>>> from langdetect import detect_langs
>>> detect_langs("Otec matka syn.")
[sk:0.572770823327, pl:0.292872522702, cs:0.134356653968]

笔记

语言检测算法是非确定性的，这意味着如果您尝试在太短或太模糊的文本上运行它，每次运行它可能会得到不同的结果。

要强制执行一致的结果，请在第一种语言检测之前调用以下代码：

from langdetect import DetectorFactory
DetectorFactory.seed = 0

如何添加新语言？

您需要创建一个新的语言配置文件。最简单的方法是使用langdetect.jar工具，该工具可以从 Wikipedia 抽象数据库文件或纯文本生成语言配置文件。

维基百科摘要数据库文件可以从“维基百科下载”（http://download.wikimedia.org/）中检索。它们形成“（语言代码）wiki-（版本）-abstract.xml”（例如“enwiki-20101004-abstract.xml”）。

用法：java -jar langdetect.jar --genprofile -d [directory path] [language codes]

通过 -d 选项指定具有抽象数据库的目录。
这个工具可以处理 gzip 压缩文件。

注：中文数据库文件名如'zhwiki-(version)-abstract-zh-cn.xml'或zhwiki-(version)-abstract-zh-tw.xml'，必须修改'zh-cnwiki -(version)-abstract.xml' 或 'zh-twwiki-(version)-abstract.xml'。

要从纯文本生成语言配置文件，请使用 genprofile-text 命令。

用法：java -jar langdetect.jar --genprofile-text -l [language code] [text file path]

有关更多详细信息，请参阅语言检测 Wiki。

原始项目

该库是 Google语言检测库从 Java 到 Python 的直接端口。所有的类和方法都没有改变，所以更多信息请参见项目的网站或 wiki。

语言检测算法介绍：http ://www.slideshare.net/shuyo/language-detection-library-for-java 。

项目详情

发布历史发布通知| RSS订阅

这个版本

1.0.9

2021 年 5 月 7 日

1.0.8

2020 年 3 月 5 日

1.0.7

2016 年 10 月 3 日

1.0.6

2016 年 4 月 3 日

1.0.5

2015 年 4 月 1 日

1.0.4

2015 年 3 月 16 日

1.0.3

2015 年 2 月 23 日

1.0.2

2015 年 2 月 16 日

1.0.1

2014 年 5 月 17 日

1.0.0

2014 年 5 月 17 日

0.1.0

2014 年 5 月 14 日

下载文件

下载适用于您平台的文件。如果您不确定要选择哪个，请了解有关安装包的更多信息。

源分布

langdetect-1.0.9.tar.gz （981.5 kB 查看哈希）

已上传 2021 年 5 月 7 日 source

内置分布

langdetect-1.0.9-py2-none-any.whl （993.2 kB 查看哈希）

已上传 2021 年 5 月 7 日 py2

langdetect -1.0.9.tar.gz 的哈希值

langdetect-1.0.9.tar.gz 的哈希值
算法	哈希摘要
SHA256	`cbc1fef89f8d062739774bd51eda3da3274006b3661d199c2655f6b3f6d605a0`
MD5	`6569d39fc69c5b5104ca268ce1a0de51`
布莱克2-256	`0e72a3add0e4eec4eb9e2569554f7c70f4a3c27712f40e3284d483e88094cc0e`

langdetect -1.0.9-py2-none-any.whl 的哈希值

langdetect-1.0.9-py2-none-any.whl 的哈希值
算法	哈希摘要
SHA256	`7cbc0746252f19e76f77c0b1690aadf01963be835ef0cd4b56dddf2a8f1dfc2a`
MD5	`bde70216a07accec2406672e2204fe31`
布莱克2-256	`d00431f2f175c475c0274a7fb20552e18c4f5b1ef04b211dd4d7301ca6bf4534`

langdetect 1.0.9

导航

项目链接

统计数据

Meta

Maintainers

分类

项目描述

语言检测

安装

语言

基本用法

如何添加新语言？

原始项目

项目详情

项目链接

统计数据

元

维护者

分类器

发布历史发布通知| RSS订阅

下载文件

源分布

内置分布

langdetect 1.0.9

导航

项目链接

统计数据

Meta

Maintainers

分类

项目描述

语言检测

安装

语言

基本用法

如何添加新语言？

原始项目

项目详情

项目链接

统计数据

元

维护者

分类器

发布历史 发布通知| RSS订阅

下载文件

源分布

内置分布

发布历史发布通知| RSS订阅