Wordnet 接口库
项目描述
用于wordnets的 Python
库 文档
| 常见问题
| 从 NLTK 迁移
| 路线图
Wn 是一个 Python 库,用于探索 wordnet 中的信息。从 PyPI 安装它并下载一些数据:
$ pip install wn
$ python -m wn download oewn:2021 # the Open English WordNet 2021
然后开始探索:
>>> import wn
>>> en = wn.Wordnet('oewn:2021') # Create Wordnet object to query
>>> ss = en.synsets('win')[0] # Get the first synset for 'win'
>>> ss.definition() # Get the synset's definition
'be the winner in a contest or competition; be victorious'
特征
- 多语言设计;对任何语言的 wordnet 的一流支持
- 通过协作跨语索引的跨语查询
- 六个相似度指标
- 探索分类的函数
- 支持词形还原(Morphy for English 是内置的)和 unicode规范化
- 完全支持WN-LMF 1.1格式,包括单词发音和词典扩展
- 基于 SQL 的后端在多种查询上提供非常快速的启动和改进的性能
可用的 Wordnet
任何 WN-LMF 格式的 wordnet 都可以从本地文件或远程 URL 添加到 Wn 的数据库中,但 Wn 还维护可用项目的索引(参见 wn/index.toml),类似于软件的包管理器,以帮助发现和下载新的 wordnet。该指数中的项目如下所列。
英语单词网
有几个英语 wordnets 可用。一般推荐使用最新的Open English Wordnet,但是如果你对兼容性有更严格的要求,比如实验可复制性,你可以试试基于WordNet 3.0的OMW English Wordnet(兼容Princeton WordNet 3.0和NLTK) ,或OpenWordnet-EN(用于葡萄牙语 wordnet OpenWordnet-PT)。
| 姓名 | 说明符 | # 同义词集 | 笔记 |
|---|---|---|---|
| 打开英语 WordNet | oewn:2021ewn:2020ewn:2019 |
120039 120053 117791 |
推荐的 |
| 基于 WordNet 3.0 的 OMW 英语 Wordnet | omw-en:1.4 |
117659 | 包括在omw:1.4 |
| 基于 WordNet 3.1 的 OMW 英语 Wordnet | omw-en31:1.4 |
117791 | |
| OpenWordnet-EN | own-en:1.0.0 |
117659 | 包括在own:1.0.0 |
其他 Wordnet 和集合
这些是独立的非英语 wordnets 和集合。每个集合的 wordnets 在下面列出。
| 姓名 | 说明符 | # 同义词集 | 语 |
|---|---|---|---|
| 打开多语言 Wordnet | omw:1.4 |
不适用 | 多个 [ mul ] |
| 打开德语 WordNet | odenet:1.4odenet:1.3 |
36268 36159 |
德语 [de] |
| 葡萄牙语和英语的开放 Wordnet | own:1.0.0 |
不适用 | 多个 [ mul ] |
| 库尔德网 | kurdnet:1.0 |
2144 | 库尔德语 [ckb] |
打开多语言 Wordnet (OMW) 集合
Open Multilingual Wordnet集合 ( omw:1.4) 安装了以下词典(从
这里),也可以单独下载和安装:
| 姓名 | 说明符 | # 同义词集 | 语 |
|---|---|---|---|
| 阿尔巴内 | omw-sq:1.4 |
4675 | 阿尔巴尼亚语 [sq] |
| 阿拉伯语 WordNet (AWN v2) | omw-arb:1.4 |
9916 | 阿拉伯语 [arb] |
| BulTreeBank Wordnet (BTB-WN) | omw-bg:1.4 |
4959 | 保加利亚语 [bg] |
| 中文开放词网 | omw-cmn:1.4 |
42312 | 普通话(简体)[cmn-Hans] |
| 克罗地亚语词网 | omw-hr:1.4 |
23120 | 克罗地亚语 [小时] |
| 丹网 | omw-da:1.4 |
4476 | 丹麦语 [da] |
| 芬兰语网 | omw-fi:1.4 |
116763 | 芬兰语 [fi] |
| 希腊语词网 | omw-el:1.4 |
18049 | 希腊语 [el] |
| 希伯来语词网 | omw-he:1.4 |
5448 | 希伯来语 [他] |
| 冰字网 | omw-is:1.4 |
4951 | 冰岛语 [是] |
| 意大利语 Wordnet | omw-iwn:1.4 |
15563 | 意大利语 [它] |
| 日语单词网 | omw-ja:1.4 |
57184 | 日语 [ja] |
| 立陶宛语 WordNet | omw-lt:1.4 |
9462 | 立陶宛语 [lt] |
| 多语种中央资料库 | omw-ca:1.4 |
45826 | 加泰罗尼亚语 [ca] |
| 多语种中央资料库 | omw-eu:1.4 |
29413 | 巴斯克 [欧盟] |
| 多语种中央资料库 | omw-gl:1.4 |
19312 | 加利西亚语 [gl] |
| 多语种中央资料库 | omw-es:1.4 |
38512 | 西班牙语 [es] |
| 多词网 | omw-it:1.4 |
35001 | 意大利语 [它] |
| 挪威语词网 | omw-nb:1.4 |
4455 | 挪威语(博克马尔语)[nb] |
| 挪威语词网 | omw-nn:1.4 |
3671 | 挪威语(尼诺斯克)[nn] |
| 基于 WordNet 3.0 的 OMW 英语 Wordnet | omw-en:1.4 |
117659 | 英语 [zh] |
| 打开荷兰语 WordNet | omw-nl:1.4 |
30177 | 荷兰语 [nl] |
| OpenWN-PT | omw-pt:1.4 |
43895 | 葡萄牙语 [pt] |
| plWordNet | omw-pl:1.4 |
33826 | 波兰语 [pl] |
| 罗马尼亚语词网 | omw-ro:1.4 |
56026 | 罗马尼亚语 [ro] |
| 斯洛伐克语 WordNet | omw-sk:1.4 |
18507 | 斯洛伐克语 [sk] |
| 慢网 | omw-sl:1.4 |
42583 | 斯洛文尼亚语 [sl] |
| 瑞典语 (SALDO) | omw-sv:1.4 |
6796 | 瑞典语 [sv] |
| 泰语词网 | omw-th:1.4 |
73350 | 泰语 [日] |
| WOLF(Wordnet Libre du Français) | omw-fr:1.4 |
59091 | 法语 [fr] |
| Wordnet 国语 | omw-id:1.4 |
38085 | 印尼语 [id] |
| Wordnet 国语 | omw-zsm:1.4 |
36911 | 马来西亚人 [zsm] |
打开 Wordnet (OWN) 集合
Open Wordnets for葡萄牙语和英语集合(own:1.0.0)安装了以下词典(从
这里),也可以独立下载和安装:
| 姓名 | 说明符 | # 同义词集 | 语 |
|---|---|---|---|
| OpenWordnet-PT | own-pt:1.0.0 |
52670 | 葡萄牙语 [pt] |
| OpenWordnet-EN | own-en:1.0.0 |
117659 | 英语 [zh] |
协作语际索引
虽然不是 wordnet,但Collaborative Interlingual Index (CILI) 代表了许多 wordnet 的语际骨干。Wn,包括跨语言查询,将在没有加载 CILI 的情况下运行,但是将其添加到数据库中可以获得完整的概念列表、它们的状态(活动、已弃用等)及其定义。
| 姓名 | 说明符 | # 概念 |
|---|---|---|
| 协作语际索引 | cili:1.0 |
117659 |
指数变化
ewn→oewn
2021 年版本的Open English WordNet ( oewn:2021) 已将其词典 ID 从 更改ewn为oewn,因此索引也相应更新。以前的版本仍可用作ewn:2019
和ewn:2020。
pwn→ omw-en,omw-en31
wordnet 以前称为Princeton WordNet ( pwn:3.0,
pwn:3.1),现在称为基于 WordNet 3.0 ( omw-en) 的OMW English Wordnet 和基于 WordNet 3.1
( omw-en31) 的 OMW English Wordnet。这更准确,因为它是原始 WordNet 数据的 OMW 生成的衍生产品,并且还避免了许可或商标问题。
*wn→omw-*对于 OMW wordnets
所有 OMW wordnets 都将其 ID 方案从...wnto更改为omw-..不再包含的版本+omw(例如bulwn:1.3+omwis now omw-bg:1.4)。