Skip to main content

语言检测库移植自 Google 的语言检测。

项目描述

语言检测

构建状态

Nakatani Shuyo 的语言检测库(2014 年 3 月 3 日版本)移植到 Python。

安装

$ pip install langdetect

支持的 Python 版本 2.7、3.4+。

语言

langdetect开箱即用支持 55 种语言(ISO 639-1 代码):

af, ar, bg, bn, ca, cs, cy, da, de, el, en, es, et, fa, fi, fr, gu, he,
hi, hr, hu, id, it, ja, kn, ko, lt, lv, mk, ml, mr, ne, nl, no, pa, pl,
pt, ro, ru, sk, sl, so, sq, sv, sw, ta, te, th, tl, tr, uk, ur, vi, zh-cn, zh-tw

基本用法

要检测文本的语言:

>>> from langdetect import detect
>>> detect("War doesn't show who's right, just who's left.")
'en'
>>> detect("Ein, zwei, drei, vier")
'de'

要找出顶级语言的概率:

>>> from langdetect import detect_langs
>>> detect_langs("Otec matka syn.")
[sk:0.572770823327, pl:0.292872522702, cs:0.134356653968]

笔记

语言检测算法是非确定性的,这意味着如果您尝试在太短或太模糊的文本上运行它,每次运行它可能会得到不同的结果。

要强制执行一致的结果,请在第一种语言检测之前调用以下代码:

from langdetect import DetectorFactory
DetectorFactory.seed = 0

如何添加新语言?

您需要创建一个新的语言配置文件。最简单的方法是使用langdetect.jar工具,该工具可以从 Wikipedia 抽象数据库文件或纯文本生成语言配置文件。

维基百科摘要数据库文件可以从“维基百科下载”(http://download.wikimedia.org/)中检索。它们形成“(语言代码)wiki-(版本)-abstract.xml”(例如“enwiki-20101004-abstract.xml”)。

用法:java -jar langdetect.jar --genprofile -d [directory path] [language codes]

  • 通过 -d 选项指定具有抽象数据库的目录。
  • 这个工具可以处理 gzip 压缩文件。

注:中文数据库文件名如'zhwiki-(version)-abstract-zh-cn.xml'或zhwiki-(version)-abstract-zh-tw.xml',必须修改'zh-cnwiki -(version)-abstract.xml' 或 'zh-twwiki-(version)-abstract.xml'。

要从纯文本生成语言配置文件,请使用 genprofile-text 命令。

用法:java -jar langdetect.jar --genprofile-text -l [language code] [text file path]

有关更多详细信息,请参阅语言检测 Wiki

原始项目

该库是 Google语言检测库从 Java 到 Python 的直接端口。所有的类和方法都没有改变,所以更多信息请参见项目的网站或 wiki。

语言检测算法介绍:http ://www.slideshare.net/shuyo/language-detection-library-for-java 。

下载文件

下载适用于您平台的文件。如果您不确定要选择哪个,请了解有关安装包的更多信息。

源分布

langdetect-1.0.9.tar.gz (981.5 kB 查看哈希

已上传 source

内置分布

langdetect-1.0.9-py2-none-any.whl (993.2 kB 查看哈希

已上传 py2