语言检测库移植自 Google 的语言检测。
项目描述
语言检测
Nakatani Shuyo 的语言检测库(2014 年 3 月 3 日版本)移植到 Python。
安装
$ pip install langdetect
支持的 Python 版本 2.7、3.4+。
语言
langdetect
开箱即用支持 55 种语言(ISO 639-1 代码):
af, ar, bg, bn, ca, cs, cy, da, de, el, en, es, et, fa, fi, fr, gu, he,
hi, hr, hu, id, it, ja, kn, ko, lt, lv, mk, ml, mr, ne, nl, no, pa, pl,
pt, ro, ru, sk, sl, so, sq, sv, sw, ta, te, th, tl, tr, uk, ur, vi, zh-cn, zh-tw
基本用法
要检测文本的语言:
>>> from langdetect import detect
>>> detect("War doesn't show who's right, just who's left.")
'en'
>>> detect("Ein, zwei, drei, vier")
'de'
要找出顶级语言的概率:
>>> from langdetect import detect_langs
>>> detect_langs("Otec matka syn.")
[sk:0.572770823327, pl:0.292872522702, cs:0.134356653968]
笔记
语言检测算法是非确定性的,这意味着如果您尝试在太短或太模糊的文本上运行它,每次运行它可能会得到不同的结果。
要强制执行一致的结果,请在第一种语言检测之前调用以下代码:
from langdetect import DetectorFactory
DetectorFactory.seed = 0
如何添加新语言?
您需要创建一个新的语言配置文件。最简单的方法是使用langdetect.jar工具,该工具可以从 Wikipedia 抽象数据库文件或纯文本生成语言配置文件。
维基百科摘要数据库文件可以从“维基百科下载”(http://download.wikimedia.org/)中检索。它们形成“(语言代码)wiki-(版本)-abstract.xml”(例如“enwiki-20101004-abstract.xml”)。
用法:java -jar langdetect.jar --genprofile -d [directory path] [language codes]
- 通过 -d 选项指定具有抽象数据库的目录。
- 这个工具可以处理 gzip 压缩文件。
注:中文数据库文件名如'zhwiki-(version)-abstract-zh-cn.xml'或zhwiki-(version)-abstract-zh-tw.xml',必须修改'zh-cnwiki -(version)-abstract.xml' 或 'zh-twwiki-(version)-abstract.xml'。
要从纯文本生成语言配置文件,请使用 genprofile-text 命令。
用法:java -jar langdetect.jar --genprofile-text -l [language code] [text file path]
有关更多详细信息,请参阅语言检测 Wiki。
原始项目
该库是 Google语言检测库从 Java 到 Python 的直接端口。所有的类和方法都没有改变,所以更多信息请参见项目的网站或 wiki。
语言检测算法介绍:http ://www.slideshare.net/shuyo/language-detection-library-for-java 。
项目详情
下载文件
下载适用于您平台的文件。如果您不确定要选择哪个,请了解有关安装包的更多信息。
源分布
内置分布
langdetect -1.0.9.tar.gz 的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | cbc1fef89f8d062739774bd51eda3da3274006b3661d199c2655f6b3f6d605a0 |
|
MD5 | 6569d39fc69c5b5104ca268ce1a0de51 |
|
布莱克2-256 | 0e72a3add0e4eec4eb9e2569554f7c70f4a3c27712f40e3284d483e88094cc0e |
langdetect -1.0.9-py2-none-any.whl 的哈希值
算法 | 哈希摘要 | |
---|---|---|
SHA256 | 7cbc0746252f19e76f77c0b1690aadf01963be835ef0cd4b56dddf2a8f1dfc2a |
|
MD5 | bde70216a07accec2406672e2204fe31 |
|
布莱克2-256 | d00431f2f175c475c0274a7fb20552e18c4f5b1ef04b211dd4d7301ca6bf4534 |