Skip to main content

Python中的规模自适应集群

项目描述

<img src=”docs/figs/logo_rc.png” 宽度=400,填充=100>

## 分辨率自适应粗到细集群优化### v 0.5.1

[![GitHub 标记(最新日期)]( https://img.shields.io/github/v/tag/shlienlab/raccoon)](https://github.com/shlienlab/raccoon/releases/tag/ v0.5.1 ) [![PyPI]( https://img.shields.io/pypi/v/raccoon-cluster)](https://pypi.org/project/raccoon-cluster/ ) [![Licence] ( https://img.shields.io/github/license/shlienlab/raccoon)](https://github.com/shlienlab/raccoon/blob/main/LICENSE ) [![GitHub 顶级语言]( https:// /img.shields.io/github/languages/top/shlienlab/raccoon)](https://github.com/shlienlab/raccoon/search?l=python ) [![文档状态]( https://readthedocs. org/projects/raccoon-cluster/badge/?version=latest)](https://raccoon-cluster.readthedocs.io/en/latest/?badge=latest )

RACCOON ( raccoon ) 是一个 Python 3 包,用于自上而下的集群自动化。它通过运行低信息特征删除、非线性降维和集群识别来搜索数据中的最佳集群。这些步骤中的每一个步骤的可调参数都会自动设置以最大化聚类“好”分数。然后在识别的每个集群中迭代地重复此过程。

这个库包括

  • 按方差、MAD 或 t-SVD 过滤的特征

  • 集成无监督/有监督 UMAP 非线性降维

  • 通过 DBSCAN、HDBSCAN、SNN 或 Louvain 进行集群识别

  • 使用网格搜索、差分进化或 TPE 进行优化

  • k-NN分类

  • 使用 RAPIDS 实现 GPU

详细的文档、API 参考、常见问题解答和教程可以在这个 [链接]( https://raccon-cluster.readthedocs.io/en/latest/ ) 中找到。

### 依赖项

除了基本的科学和绘图库外,当前版本还需要

` -scikit-learn - scikit-network - umap-learn -optuna-seaborn`

可选依赖项包括

` - hdbscan -羽毛格式- 急流(见下文)`

### 显卡

raccoon 可以通过利用 RAPIDS 库在 GPU 上运行。由于这些库仍在积极开发中,因此需要最新版本以避免出现问题。

`-cupy v8.60-cuml v0.18-cudf v0.18-cugraph v0.18`

目前,此实现存在一些限制(例如,UMAP 只能以欧式距离运行)。如果这些不影响您的分析,我们建议激活 GPU 选项,尤其是对于可能导致繁琐运行的较大数据集。或者,此选项应仅用于探索性运行。

重要提示:GPU 实现仍在进行中,可能会在即将到来的版本中发生很大变化。请报告您遇到的任何错误或问题。

### 脚本

有用的脚本可以在脚本文件夹中找到。这些包括读取 hdf5 的文件,将输出的 pandas 数据帧存储在 R 中。有关更多详细信息,请参阅文档。

### 安装

Raccoon 版本可以通过 python 标准包管理器 pip install raccoon-cluster轻松安装。

要安装最新(未发布)版本,您可以通过运行从该存储库下载它

git clone https://github.com/shlienlab/raccoon cd raccoon python setup.py install

### 基本用法

给定一个类似 pandas 格式的输入数据集(样本 X 特征), run函数将自动设置一个只有一些基本选项的集群搜索。

将 raccoon 导入为 rc

cluster_membership,tree = rc.cluster(输入,dim=2,pop_cut=25,

优化器='auto', dyn_mesh=True, metric_clu='cosine', metric_map='cosine', save_map=True, chk=True, out_path='./output', gpu=False)

### 引用

使用此库时,请引用

> F. Comitani, JO Nash, S. Cohen-Gogo, A. Chang, TT Wen, A. Maheshwari, B. Goyal, ESL Tio, K. Tabataei, R. Zhao, L. Brunga, JEG Lawrence, P. Balogh , A. Flanagan, S. Teichmann, B. Ho, A. Huang, V. Ramaswamy, J. Hitzler, J. Wasserman, RA Gladdy, BC Dickson, U. Tabori, MJ Cowley, S. Behjati, D. Malkin, A. Villani、MS Irwin 和 A. Shlien,“多尺度转录聚类和异质性分析揭示儿童癌症的诊断类别”(审查中)。

### 贡献

这个库仍在进行中,我们正在努力改进它,增加更多的灵活性并提高代码的内存和时间效率。如果您想参与这项工作,请分叉主分支并从那里开始工作。我们计划在接下来的版本中添加 pytests 和 CI。

贡献总是受欢迎的。

项目详情


下载文件

下载适用于您平台的文件。如果您不确定要选择哪个,请了解有关安装包的更多信息。

源分布

raccoon-cluster-0.5.1.tar.gz (58.4 kB 查看哈希)

已上传 source

内置分布

raccoon_cluster-0.5.1-py3-none-any.whl (63.9 kB 查看哈希

已上传 py3