Skip to main content

用于快速向量空间建模的 Python 框架

项目描述

特拉维斯 车轮

Gensim 是一个 Python 库,用于主题建模文档索引和大型语料库的相似性检索。目标受众是自然语言处理(NLP) 和信息检索(IR) 社区。

特征

  • 所有算法都与语料库大小无关(可以处理大于 RAM、流式传输、核外的输入),

  • 直观的界面

    • 易于插入您自己的输入语料库/数据流(简单的流 API)

    • 易于使用其他向量空间算法进行扩展(简单的转换 API)

  • 流行算法的高效多核实现,例如在线潜在语义分析 (LSA/LSI/SVD)潜在狄利克雷分配 (LDA)随机投影 (RP)分层狄利克雷过程 (HDP)word2vec 深度学习

  • 分布式计算:可以在计算机集群上运行潜在语义分析潜在狄利克雷分配。

  • 大量文档和 Jupyter Notebook 教程

如果这个功能列表让你摸不着头脑,你可以先阅读更多关于向量空间模型无监督文档分析的维基百科。

安装

该软件依赖于NumPy 和 Scipy,这两个用于科学计算的 Python 包。您必须在安装gensim之前安装它们。

还建议您在安装 NumPy 之前安装一个快速的 BLAS 库。这是可选的,但已知使用优化的 BLAS(例如ATLASOpenBLAS)可以将性能提高一个数量级。在 OS X 上,NumPy 会自动选择随附的 BLAS,因此您无需执行任何特殊操作。

安装gensim的简单方法是:

pip install -U gensim

或者,如果您已经下载并解压缩了源 tar.gz包,您将运行:

python setup.py test
python setup.py install

有关替代安装模式(无 root 权限、开发安装、可选安装功能),请参阅安装文档

此版本已在 Python 2.7、3.5 和 3.6 下测试。在 gensim 1.0.0 中放弃了对 Python 2.6、3.3 和 3.4 的支持。如果必须使用 Python 2.6、3.3 或 3.4,请安装 gensim 0.13.4。在 gensim 0.10.0 中放弃了对 Python 2.5 的支持;如果必须使用 Python 2.5,请安装 gensim 0.9.1)。Gensim 的 github 存储库与 Travis CI 挂钩,用于对每个提交推送请求进行自动化测试。

为什么 gensim 如此快速且内存高效?不就是纯 Python,Python 不是又慢又贪婪吗?

许多科学算法可以用大矩阵运算来表示(参见上面的 BLAS 注释)。Gensim 通过对 NumPy 的依赖利用了这些低级 BLAS 库。因此,虽然 gensim-the-top-level-code 是纯 Python,但它实际上在后台执行高度优化的 Fortran/C,包括多线程(如果您的 BLAS 配置如此)。

在内存方面,gensim 大量使用 Python 的内置生成器和迭代器进行流式数据处理。内存效率是 gensim 的设计目标之一,也是 gensim 的核心特性,而不是事后才添加的东西。

文档

引用gensim

学术论文和论文中引用 gensim 时,请使用此 BibTeX 条目:

@inproceedings{rehurek_lrec,
      title = {{Software Framework for Topic Modelling with Large Corpora}},
      author = {Radim {\v R}eh{\r u}{\v r}ek and Petr Sojka},
      booktitle = {{Proceedings of the LREC 2010 Workshop on New
           Challenges for NLP Frameworks}},
      pages = {45--50},
      year = 2010,
      month = May,
      day = 22,
      publisher = {ELRA},
      address = {Valletta, Malta},
      language={English}
}

Gensim 是在GNU LGPLv2.1 许可下发布的开源软件。版权所有 (c) 2009 年至今 Radim Rehurek

分析

项目详情


下载文件

下载适用于您平台的文件。如果您不确定要选择哪个,请了解有关安装包的更多信息。

源分布

gensim-bz2-nsml-3.8.0.tar.gz (23.4 MB 查看哈希

已上传 source

内置发行版

gensim_bz2_nsml-3.8.0-cp37-cp37m-macosx_10_14_x86_64.whl (24.2 MB 查看哈希

已上传 cp37

gensim_bz2_nsml-3.8.0-cp36-cp36m-macosx_10_14_x86_64.whl (24.2 MB 查看哈希

已上传 cp36