双项主题模型

项目描述

双项主题模型

Bitermplus为闫晓辉、郭家峰、蓝燕燕和程雪琪介绍的短文实现了 Biterm 主题模型。实际上，它是BTM的 cythonized 版本。该软件包还能够计算困惑度和语义连贯性指标。

发展

请注意，bitermplus 正在积极改进。请参阅文档以保持最新状态。

要求

赛通
麻木的
熊猫
scipy
scikit-学习
tqdm

设置

Linux 和 Windows

在这些操作系统下安装bitermplus应该没有问题。您可以直接从 PyPi 安装该软件包。

pip install bitermplus

或者从这个回购：

pip install git+https://github.com/maximtrp/bitermplus.git

苹果系统

首先，您需要安装 XCode CLT 和Homebrew。然后，libomp使用安装brew：

xcode-select --install
brew install libomp
pip3 install bitermplus

例子

模型拟合

import bitermplus as btm
import numpy as np
import pandas as pd

# IMPORTING DATA
df = pd.read_csv(
    'dataset/SearchSnippets.txt.gz', header=None, names=['texts'])
texts = df['texts'].str.strip().tolist()

# PREPROCESSING
# Obtaining terms frequency in a sparse matrix and corpus vocabulary
X, vocabulary, vocab_dict = btm.get_words_freqs(texts)
tf = np.array(X.sum(axis=0)).ravel()
# Vectorizing documents
docs_vec = btm.get_vectorized_docs(texts, vocabulary)
docs_lens = list(map(len, docs_vec))
# Generating biterms
biterms = btm.get_biterms(docs_vec)

# INITIALIZING AND RUNNING MODEL
model = btm.BTM(
    X, vocabulary, seed=12321, T=8, M=20, alpha=50/8, beta=0.01)
model.fit(biterms, iterations=20)
p_zd = model.transform(docs_vec)

# METRICS
perplexity = btm.perplexity(model.matrix_topics_words_, p_zd, X, 8)
coherence = btm.coherence(model.matrix_topics_words_, X, M=20)
# or
perplexity = model.perplexity_
coherence = model.coherence_

# LABELS
model.labels_
# or
btm.get_docs_top_topic(texts, model.matrix_docs_topics_)

结果可视化

您需要先安装tmplot。

import tmplot as tmp
tmp.report(model=model, docs=texts)

报告界面

教程

文档中有一个教程，涵盖了主题建模的重要步骤（包括稳定性测量和结果可视化）。

项目详情

发布历史发布通知| RSS订阅

这个版本

0.6.12

2022 年 3 月 29 日

0.6.11

2022 年 1 月 8 日

0.6.10

2021 年 12 月 16 日

0.6.9

2021 年 8 月 19 日

0.6.8

2021 年 7 月 23 日

0.6.7

2021 年 7 月 1 日

0.6.6

2021 年 6 月 16 日

0.6.5

2021 年 6 月 11 日

0.6.4

2021 年 4 月 18 日

0.6.3

2021 年 4 月 7 日

0.6.2

2021 年 4 月 6 日

0.6.1

2021 年 4 月 5 日

0.6.0

2021 年 4 月 4 日

0.5.10

2021 年 3 月 23 日

0.5.9

2021 年 3 月 22 日

0.5.8

2021 年 3 月 21 日

0.5.7

2021 年 3 月 20 日

0.5.6

2021 年 3 月 20 日

0.5.5

2021 年 3 月 19 日

0.5.4

2021 年 3 月 19 日

0.5.3

2021 年 3 月 19 日

0.5.2

2021 年 3 月 13 日

0.5.1

2021 年 3 月 11 日

0.5.0

2021 年 3 月 7 日

0.4.0

2021 年 2 月 28 日

0.3.2

2021 年 2 月 22 日

0.3.1

2021 年 2 月 22 日

下载文件

下载适用于您平台的文件。如果您不确定要选择哪个，请了解有关安装包的更多信息。

源分布

bitermplus-0.6.12.tar.gz （615.1 kB 查看哈希）

已上传 2022 年 3 月 29 日 source

bitermplus -0.6.12.tar.gz 的哈希值

bitermplus-0.6.12.tar.gz 的哈希值
算法	哈希摘要
SHA256	`ce003535cf44e60bafc46f4f63f1e2d02ce9a43e67b741483df44d43bd32c1ae`
MD5	`71dd874ec265eddc33887c627bfcf3ca`
布莱克2-256	`4f3c141bd2f78bce5dd44bba36cc55c15145fac1d1069cc951137882f54374bc`

bitermplus 0.6.12

导航

项目链接

统计数据

Meta

Maintainers

分类

项目描述

双项主题模型

发展

要求

设置

Linux 和 Windows

苹果系统

例子

模型拟合

结果可视化

教程

项目详情

项目链接

统计数据

元

维护者

分类器

发布历史发布通知| RSS订阅

下载文件

源分布

bitermplus 0.6.12

导航

项目链接

统计数据

Meta

Maintainers

分类

项目描述

双项主题模型

发展

要求

设置

Linux 和 Windows

苹果系统

例子

模型拟合

结果可视化

教程

项目详情

项目链接

统计数据

元

维护者

分类器

发布历史 发布通知| RSS订阅

下载文件

源分布

发布历史发布通知| RSS订阅