用于管理多种语言的停用词的 Python 库。
项目描述
用于管理 39 种语言的常用停用词的 Python 库。
<nav class="contents" id="contents" role="doc-toc">内容
</nav>用法
简单的
胜过长篇大论,这里直接介绍:
>>> from mots_vides import stop_words
>>> english_stop_words = stop_words('en')
>>> text = """
... Even though using "lorem ipsum" often arouses curiosity
... due to its resemblance to classical Latin,
... it is not intended to have meaning.
... """
>>> print(english_stop_words.rebase(text))
XXXX XXXXXX XXXXX "lorem ipsum" XXXXX arouses curiosity
XXX XX XXX resemblance XX classical Latin,
XX XX XXX intended XX XXXX meaning.
>>> print(english_stop_words.rebase(text, '').split())
['"lorem', 'ipsum"', 'arouses', 'curiosity', 'resemblance',
'classical', 'Latin,', 'intended', 'meaning.']
先进的
Mots vides还提供了两个类来管理您的语言中的停用词。
StopWord,它是一组停用词的容器。默认情况下与语言无关,但可以轻松操作以创建集合:
>>> from mots_vides import StopWord
>>> french_stop_words = StopWord('french', ['le', 'la', 'les'])
>>> french_stop_words += StopWord('french', ['un', 'une', 'des'])
>>> french_stop_words += ['or', 'ni', 'car']
>>> french_stop_words += 'assez'
>>> french_stop_words += u'aussitôt'
>>> print(sorted(french_stop_words))
['assez', u'aussitôt', 'car', 'des', 'la', 'le', 'les', 'ni', 'or', 'un', 'une']
StopWordFactory是一个工厂,用于按语言和适当的停用词集合初始化StopWord对象。
>>> from mots_vides import StopWordFactory
>>> factory = StopWordFactory()
>>> french_stop_words = factory.get_stop_words('french')
>>> print(len(french_stop_words))
577
您还可以使用国际语言代码来查询集合:
>>> french_stop_words = factory.get_stop_words('fr')
>>> print(len(french_stop_words))
577
如果所需的语言不存在,则会引发StopWordError,除非fail_safe参数设置为True:
>>> klingon_stop_words = factory.get_stop_words('klingon')
StopWordError: Stop words are not available in "klingon".
>>> klingon_stop_words = factory.get_stop_words('klingon', fail_safe=True)
>>> print(len(klingon_stop_words))
0
支持的语言
阿拉伯
亚美尼亚语
巴斯克
孟加拉
保加利亚语
加泰罗尼亚语
中国人
捷克语
丹麦语
荷兰语
英语
芬兰
法语
加利西亚语
德语
希腊语
印地语
匈牙利
印度尼西亚
爱尔兰语
意大利语
日本人
韩国人
拉脱维亚语
立陶宛语
马拉地语
挪威
波斯语
抛光
葡萄牙语
罗马尼亚语
俄语
斯洛伐克语
西班牙语
瑞典
泰国
土耳其
乌克兰
乌尔都语
兼容性
使用 Python 2.6、2.7、3.2、3.3、3.4 测试。
笔记
Mots vides在法语中是停用词的意思。
变更日志
2015.5.11
修复 Python 3 的缓存系统
2015.2.6
修复 factory.get_available_languages 中的潜在问题
2015.2.5
修复包装
添加一个 rebaser 命令脚本
2015.2.4
初始发行
2015.1.21.dev0
开发版本
项目详情
关
mots_vides -2015.5.11-py2.py3-none-any.whl 的哈希值
| 算法 | 哈希摘要 | |
|---|---|---|
| SHA256 | 5c00af05234f4021396c6d888c8e34142cfe880fe732ff063f6cfad2d6342dc8 |
|
| MD5 | 609dbfa50fbd094feefcfd2964faaa87 |
|
| 布莱克2-256 | 9534f5a4ec9cfad0e484b087de46e381efc991d5fde07412de51b85f59853ed7 |