Wordnet 接口库
项目描述
用于wordnets的 Python
库 文档
| 常见问题
| 从 NLTK 迁移
| 路线图
Wn 是一个 Python 库,用于探索 wordnet 中的信息。从 PyPI 安装它并下载一些数据:
$ pip install wn
$ python -m wn download oewn:2021 # the Open English WordNet 2021
然后开始探索:
>>> import wn
>>> en = wn.Wordnet('oewn:2021') # Create Wordnet object to query
>>> ss = en.synsets('win')[0] # Get the first synset for 'win'
>>> ss.definition() # Get the synset's definition
'be the winner in a contest or competition; be victorious'
特征
- 多语言设计;对任何语言的 wordnet 的一流支持
- 通过协作跨语索引的跨语查询
- 六个相似度指标
- 探索分类的函数
- 支持词形还原(Morphy for English 是内置的)和 unicode规范化
- 完全支持WN-LMF 1.1格式,包括单词发音和词典扩展
- 基于 SQL 的后端在多种查询上提供非常快速的启动和改进的性能
可用的 Wordnet
任何 WN-LMF 格式的 wordnet 都可以从本地文件或远程 URL 添加到 Wn 的数据库中,但 Wn 还维护可用项目的索引(参见 wn/index.toml),类似于软件的包管理器,以帮助发现和下载新的 wordnet。该指数中的项目如下所列。
英语单词网
有几个英语 wordnets 可用。一般推荐使用最新的Open English Wordnet,但是如果你对兼容性有更严格的要求,比如实验可复制性,你可以试试基于WordNet 3.0的OMW English Wordnet(兼容Princeton WordNet 3.0和NLTK) ,或OpenWordnet-EN(用于葡萄牙语 wordnet OpenWordnet-PT)。
姓名 | 说明符 | # 同义词集 | 笔记 |
---|---|---|---|
打开英语 WordNet | oewn:2021 ewn:2020 ewn:2019 |
120039 120053 117791 |
推荐的 |
基于 WordNet 3.0 的 OMW 英语 Wordnet | omw-en:1.4 |
117659 | 包括在omw:1.4 |
基于 WordNet 3.1 的 OMW 英语 Wordnet | omw-en31:1.4 |
117791 | |
OpenWordnet-EN | own-en:1.0.0 |
117659 | 包括在own:1.0.0 |
其他 Wordnet 和集合
这些是独立的非英语 wordnets 和集合。每个集合的 wordnets 在下面列出。
姓名 | 说明符 | # 同义词集 | 语 |
---|---|---|---|
打开多语言 Wordnet | omw:1.4 |
不适用 | 多个 [ mul ] |
打开德语 WordNet | odenet:1.4 odenet:1.3 |
36268 36159 |
德语 [de] |
葡萄牙语和英语的开放 Wordnet | own:1.0.0 |
不适用 | 多个 [ mul ] |
库尔德网 | kurdnet:1.0 |
2144 | 库尔德语 [ckb] |
打开多语言 Wordnet (OMW) 集合
Open Multilingual Wordnet集合 ( omw:1.4
) 安装了以下词典(从
这里),也可以单独下载和安装:
姓名 | 说明符 | # 同义词集 | 语 |
---|---|---|---|
阿尔巴内 | omw-sq:1.4 |
4675 | 阿尔巴尼亚语 [sq] |
阿拉伯语 WordNet (AWN v2) | omw-arb:1.4 |
9916 | 阿拉伯语 [arb] |
BulTreeBank Wordnet (BTB-WN) | omw-bg:1.4 |
4959 | 保加利亚语 [bg] |
中文开放词网 | omw-cmn:1.4 |
42312 | 普通话(简体)[cmn-Hans] |
克罗地亚语词网 | omw-hr:1.4 |
23120 | 克罗地亚语 [小时] |
丹网 | omw-da:1.4 |
4476 | 丹麦语 [da] |
芬兰语网 | omw-fi:1.4 |
116763 | 芬兰语 [fi] |
希腊语词网 | omw-el:1.4 |
18049 | 希腊语 [el] |
希伯来语词网 | omw-he:1.4 |
5448 | 希伯来语 [他] |
冰字网 | omw-is:1.4 |
4951 | 冰岛语 [是] |
意大利语 Wordnet | omw-iwn:1.4 |
15563 | 意大利语 [它] |
日语单词网 | omw-ja:1.4 |
57184 | 日语 [ja] |
立陶宛语 WordNet | omw-lt:1.4 |
9462 | 立陶宛语 [lt] |
多语种中央资料库 | omw-ca:1.4 |
45826 | 加泰罗尼亚语 [ca] |
多语种中央资料库 | omw-eu:1.4 |
29413 | 巴斯克 [欧盟] |
多语种中央资料库 | omw-gl:1.4 |
19312 | 加利西亚语 [gl] |
多语种中央资料库 | omw-es:1.4 |
38512 | 西班牙语 [es] |
多词网 | omw-it:1.4 |
35001 | 意大利语 [它] |
挪威语词网 | omw-nb:1.4 |
4455 | 挪威语(博克马尔语)[nb] |
挪威语词网 | omw-nn:1.4 |
3671 | 挪威语(尼诺斯克)[nn] |
基于 WordNet 3.0 的 OMW 英语 Wordnet | omw-en:1.4 |
117659 | 英语 [zh] |
打开荷兰语 WordNet | omw-nl:1.4 |
30177 | 荷兰语 [nl] |
OpenWN-PT | omw-pt:1.4 |
43895 | 葡萄牙语 [pt] |
plWordNet | omw-pl:1.4 |
33826 | 波兰语 [pl] |
罗马尼亚语词网 | omw-ro:1.4 |
56026 | 罗马尼亚语 [ro] |
斯洛伐克语 WordNet | omw-sk:1.4 |
18507 | 斯洛伐克语 [sk] |
慢网 | omw-sl:1.4 |
42583 | 斯洛文尼亚语 [sl] |
瑞典语 (SALDO) | omw-sv:1.4 |
6796 | 瑞典语 [sv] |
泰语词网 | omw-th:1.4 |
73350 | 泰语 [日] |
WOLF(Wordnet Libre du Français) | omw-fr:1.4 |
59091 | 法语 [fr] |
Wordnet 国语 | omw-id:1.4 |
38085 | 印尼语 [id] |
Wordnet 国语 | omw-zsm:1.4 |
36911 | 马来西亚人 [zsm] |
打开 Wordnet (OWN) 集合
Open Wordnets for葡萄牙语和英语集合(own:1.0.0
)安装了以下词典(从
这里),也可以独立下载和安装:
姓名 | 说明符 | # 同义词集 | 语 |
---|---|---|---|
OpenWordnet-PT | own-pt:1.0.0 |
52670 | 葡萄牙语 [pt] |
OpenWordnet-EN | own-en:1.0.0 |
117659 | 英语 [zh] |
协作语际索引
虽然不是 wordnet,但Collaborative Interlingual Index (CILI) 代表了许多 wordnet 的语际骨干。Wn,包括跨语言查询,将在没有加载 CILI 的情况下运行,但是将其添加到数据库中可以获得完整的概念列表、它们的状态(活动、已弃用等)及其定义。
姓名 | 说明符 | # 概念 |
---|---|---|
协作语际索引 | cili:1.0 |
117659 |
指数变化
ewn
→oewn
2021 年版本的Open English WordNet ( oewn:2021
) 已将其词典 ID 从 更改ewn
为oewn
,因此索引也相应更新。以前的版本仍可用作ewn:2019
和ewn:2020
。
pwn
→ omw-en
,omw-en31
wordnet 以前称为Princeton WordNet ( pwn:3.0
,
pwn:3.1
),现在称为基于 WordNet 3.0 ( omw-en
) 的OMW English Wordnet 和基于 WordNet 3.1
( omw-en31
) 的 OMW English Wordnet。这更准确,因为它是原始 WordNet 数据的 OMW 生成的衍生产品,并且还避免了许可或商标问题。
*wn
→omw-*
对于 OMW wordnets
所有 OMW wordnets 都将其 ID 方案从...wn
to更改为omw-..
不再包含的版本+omw
(例如bulwn:1.3+omw
is now omw-bg:1.4
)。