用于快速向量空间建模的 Python 框架
项目描述
Gensim 是一个 Python 库,用于主题建模、文档索引和大型语料库的相似性检索。目标受众是自然语言处理(NLP) 和信息检索(IR) 社区。
特征
所有算法都与语料库大小无关(可以处理大于 RAM、流式传输、核外的输入),
直观的界面
易于插入您自己的输入语料库/数据流(简单的流 API)
易于使用其他向量空间算法进行扩展(简单的转换 API)
流行算法的高效多核实现,例如在线潜在语义分析 (LSA/LSI/SVD)、 潜在狄利克雷分配 (LDA)、随机投影 (RP)、分层狄利克雷过程 (HDP) 或word2vec 深度学习。
分布式计算:可以在计算机集群上运行潜在语义分析和潜在狄利克雷分配。
安装
该软件依赖于NumPy 和 Scipy,这两个用于科学计算的 Python 包。您必须在安装gensim之前安装它们。
还建议您在安装 NumPy 之前安装一个快速的 BLAS 库。这是可选的,但已知使用优化的 BLAS(例如ATLAS或OpenBLAS)可以将性能提高一个数量级。在 OS X 上,NumPy 会自动选择随附的 BLAS,因此您无需执行任何特殊操作。
安装gensim的简单方法是:
pip install -U gensim
或者,如果您已经下载并解压缩了源 tar.gz包,您将运行:
python setup.py test python setup.py install
有关替代安装模式(无 root 权限、开发安装、可选安装功能),请参阅安装文档。
此版本已在 Python 2.7、3.5 和 3.6 下测试。在 gensim 1.0.0 中放弃了对 Python 2.6、3.3 和 3.4 的支持。如果必须使用 Python 2.6、3.3 或 3.4,请安装 gensim 0.13.4。在 gensim 0.10.0 中放弃了对 Python 2.5 的支持;如果必须使用 Python 2.5,请安装 gensim 0.9.1)。Gensim 的 github 存储库与 Travis CI 挂钩,用于对每个提交推送请求进行自动化测试。
为什么 gensim 如此快速且内存高效?不就是纯 Python,Python 不是又慢又贪婪吗?
许多科学算法可以用大矩阵运算来表示(参见上面的 BLAS 注释)。Gensim 通过对 NumPy 的依赖利用了这些低级 BLAS 库。因此,虽然 gensim-the-top-level-code 是纯 Python,但它实际上在后台执行高度优化的 Fortran/C,包括多线程(如果您的 BLAS 配置如此)。
在内存方面,gensim 大量使用 Python 的内置生成器和迭代器进行流式数据处理。内存效率是 gensim 的设计目标之一,也是 gensim 的核心特性,而不是事后才添加的东西。
文档
引用gensim
在学术论文和论文中引用 gensim 时,请使用此 BibTeX 条目:
@inproceedings{rehurek_lrec,
title = {{Software Framework for Topic Modelling with Large Corpora}},
author = {Radim {\v R}eh{\r u}{\v r}ek and Petr Sojka},
booktitle = {{Proceedings of the LREC 2010 Workshop on New
Challenges for NLP Frameworks}},
pages = {45--50},
year = 2010,
month = May,
day = 22,
publisher = {ELRA},
address = {Valletta, Malta},
language={English}
}
Gensim 是在GNU LGPLv2.1 许可下发布的开源软件。版权所有 (c) 2009 年至今 Radim Rehurek
项目详情
gensim_bz2_nsml -3.8.0-cp37-cp37m-macosx_10_14_x86_64.whl 的哈希值
| 算法 | 哈希摘要 | |
|---|---|---|
| SHA256 | b88ffe6b156910c36ddf9e13c14f8e22261bfca55fedb42110d0608c2484153b |
|
| MD5 | 67bc1f0029bc008ec60b999f491f2afd |
|
| 布莱克2-256 | 0cd7d7448de3a5ab2ca8a08025fae52f0fa12f258ecb42b754bef46dd4972229 |
gensim_bz2_nsml -3.8.0-cp36-cp36m-macosx_10_14_x86_64.whl 的哈希值
| 算法 | 哈希摘要 | |
|---|---|---|
| SHA256 | ac3853385cd69c697b38b58368d5ebd851f7f7d78ffa14db2df129051bd930b0 |
|
| MD5 | 763921caf91d8cb2a91b36dfa2dffcda |
|
| 布莱克2-256 | 39ce7af0ad544e6d5e31f3c14c1849dcfbd1f59522eb6f25ae7a8eac652966f8 |