由 FastText 和 langid 提供支持的闪电般的快速语言预测。
项目描述
Whatlangid
该项目建立在whatthelang和langid之上
为什么这个项目存在?
依赖项
可以使用 requirements.txt 文件安装依赖项:
$ pip install -r requirements.txt
安装
来自 github
$ pip install git+https://github.com/bung87/whatlangid
来自 pypi
$ pip install whatlangid
基本用法
预测语言使用whatlangid
>>> from whatlangid import WhatLangId
>>> wtl = WhatLangId()
>>> wtl.predict_lang("Mother")
'en'
>>> wtl.predict_lang("தாய்")
'ta'
>>> wtl.predict_lang("അമ്മ")
'ml'
>>> wtl.predict_lang("पिता")
'hi'
>>> wtl.predict_pro(["English sentence", "അമ്മ"])
[('en', 0.8848170638084412), ('ml', 0.9535570740699768)]
还支持批量预测
>>>wtl.predict_lang(["അമ്മ","पिता","teacher"])
['ml','hi','en']
高级用法
wtl = WhatLangId(custom_model=abs_path)
使用 bin 版本模型,该模型更快且更准确,但文件大小为 126MB
python -m whatlangid.use_bin
支持的语言
支持 176 种语言。对应语言的 ISO 代码如下。
af als am an ar arz as ast av az azb ba bar bcl be bg bh bn bo bpy br bs bxr ca cbk
ce ceb ckb co cs cv cy da de diq dsb dty dv el eml en eo es et eu fa fi fr frr fy ga
gd gl gn gom gu gv he hi hif hr hsb ht hu hy ia id ie ilo io is it ja jbo jv ka kk km
kn ko krc ku kv kw ky la lb lez li lmo lo lrc lt lv mai mg mhr min mk ml mn mr mrj ms
mt mwl my myv mzn nah nap nds ne new nl nn no oc or os pa pam pfl pl pms pnb ps pt qu
rm ro ru rue sa sah sc scn sco sd sh si sk sl so sq sr su sv sw ta te tg th tk tl tr
tt tyv ug uk ur uz vec vep vi vls vo wa war wuu xal xmf yi yo yue zh
模型训练详情
使用 Fasttext 构建的量化模型。fasttext博客中提供了更多详细信息
参考
WhatLangId由FastText和langid
用子词信息丰富词向量
[1] P. Bojanowski*、E. Grave*、A. Joulin、T. Mikolov,用子词信息丰富词向量
@article{bojanowski2016enriching,
title={Enriching Word Vectors with Subword Information},
author={Bojanowski, Piotr and Grave, Edouard and Joulin, Armand and Mikolov, Tomas},
journal={arXiv preprint arXiv:1607.04606},
year={2016}
}
有效文本分类的技巧包
[2] A. Joulin、E. Grave、P. Bojanowski、T. Mikolov,高效文本分类的技巧包
@article{joulin2016bag,
title={Bag of Tricks for Efficient Text Classification},
author={Joulin, Armand and Grave, Edouard and Bojanowski, Piotr and Mikolov, Tomas},
journal={arXiv preprint arXiv:1607.01759},
year={2016}
}
FastText.zip:压缩文本分类模型
[3] A. Joulin, E. Grave, P. Bojanowski, M. Douze, H. Jégou, T. Mikolov, FastText.zip:压缩文本分类模型
@article{joulin2016fasttext,
title={FastText.zip: Compressing text classification models},
author={Joulin, Armand and Grave, Edouard and Bojanowski, Piotr and Douze, Matthijs and J{\'e}gou, H{\'e}rve and Mikolov, Tomas},
journal={arXiv preprint arXiv:1612.03651},
year={2016}
}
项目详情
下载文件
下载适用于您平台的文件。如果您不确定要选择哪个,请了解有关安装包的更多信息。
源分布
whatlangid-1.0.11.tar.gz
(790.1 kB
查看哈希)
内置分布
whatlangid-1.0.11-py3-none-any.whl
(786.1 kB
查看哈希)
关
whatlangid -1.0.11.tar.gz 的哈希值
| 算法 | 哈希摘要 | |
|---|---|---|
| SHA256 | d09105f83fcef93185bf3b4f9a1aaf77886b2fefff818b4e3520f0181ca2ddfa |
|
| MD5 | e9feabb9763aa2dd5e4b8e6edc18527d |
|
| 布莱克2-256 | ede0293d296e4b8b363ad3759d1d754f33f15a3ad8cd44b1baec8a6599bdcd14 |
关
whatlangid -1.0.11-py3-none-any.whl 的哈希值
| 算法 | 哈希摘要 | |
|---|---|---|
| SHA256 | f852cbc68826ae123f0a6937aaba4985ff4dc75d01a57b5b90da4e4af0487709 |
|
| MD5 | c20b44ec1ed14f59fe105c665bce1311 |
|
| 布莱克2-256 | 9dde6c7a11980850f278cc0f6c8f03b1b39731e6455896188d391f02c013858f |