Python中的规模自适应集群
项目描述
<img src=”docs/figs/logo_rc.png” 宽度=400,填充=100>
## 分辨率自适应粗到细集群优化### v 0.5.1
[](https://github.com/shlienlab/raccoon/releases/tag/ v0.5.1 ) [](https://pypi.org/project/raccoon-cluster/ ) [![Licence] ( https://img.shields.io/github/license/shlienlab/raccoon)](https://github.com/shlienlab/raccoon/blob/main/LICENSE ) [](https://github.com/shlienlab/raccoon/search?l=python ) [](https://raccoon-cluster.readthedocs.io/en/latest/?badge=latest )
RACCOON ( raccoon ) 是一个 Python 3 包,用于自上而下的集群自动化。它通过运行低信息特征删除、非线性降维和集群识别来搜索数据中的最佳集群。这些步骤中的每一个步骤的可调参数都会自动设置以最大化聚类“好”分数。然后在识别的每个集群中迭代地重复此过程。
这个库包括
按方差、MAD 或 t-SVD 过滤的特征
集成无监督/有监督 UMAP 非线性降维
通过 DBSCAN、HDBSCAN、SNN 或 Louvain 进行集群识别
使用网格搜索、差分进化或 TPE 进行优化
k-NN分类
使用 RAPIDS 实现 GPU
详细的文档、API 参考、常见问题解答和教程可以在这个 [链接]( https://raccon-cluster.readthedocs.io/en/latest/ ) 中找到。
### 依赖项
除了基本的科学和绘图库外,当前版本还需要
` -scikit-learn - scikit-network - umap-learn -optuna-seaborn`
可选依赖项包括
` - hdbscan -羽毛格式- 急流(见下文)`
### 显卡
raccoon 可以通过利用 RAPIDS 库在 GPU 上运行。由于这些库仍在积极开发中,因此需要最新版本以避免出现问题。
`-cupy v8.60-cuml v0.18-cudf v0.18-cugraph v0.18`
目前,此实现存在一些限制(例如,UMAP 只能以欧式距离运行)。如果这些不影响您的分析,我们建议激活 GPU 选项,尤其是对于可能导致繁琐运行的较大数据集。或者,此选项应仅用于探索性运行。
重要提示:GPU 实现仍在进行中,可能会在即将到来的版本中发生很大变化。请报告您遇到的任何错误或问题。
### 脚本
有用的脚本可以在脚本文件夹中找到。这些包括读取 hdf5 的文件,将输出的 pandas 数据帧存储在 R 中。有关更多详细信息,请参阅文档。
### 安装
Raccoon 版本可以通过 python 标准包管理器 pip install raccoon-cluster轻松安装。
要安装最新(未发布)版本,您可以通过运行从该存储库下载它
git clone https://github.com/shlienlab/raccoon cd raccoon python setup.py install
### 基本用法
给定一个类似 pandas 格式的输入数据集(样本 X 特征), run函数将自动设置一个只有一些基本选项的集群搜索。
将 raccoon 导入为 rc
- cluster_membership,tree = rc.cluster(输入,dim=2,pop_cut=25,
优化器='auto', dyn_mesh=True, metric_clu='cosine', metric_map='cosine', save_map=True, chk=True, out_path='./output', gpu=False)
### 引用
使用此库时,请引用
> F. Comitani, JO Nash, S. Cohen-Gogo, A. Chang, TT Wen, A. Maheshwari, B. Goyal, ESL Tio, K. Tabataei, R. Zhao, L. Brunga, JEG Lawrence, P. Balogh , A. Flanagan, S. Teichmann, B. Ho, A. Huang, V. Ramaswamy, J. Hitzler, J. Wasserman, RA Gladdy, BC Dickson, U. Tabori, MJ Cowley, S. Behjati, D. Malkin, A. Villani、MS Irwin 和 A. Shlien,“多尺度转录聚类和异质性分析揭示儿童癌症的诊断类别”(审查中)。
### 贡献
这个库仍在进行中,我们正在努力改进它,增加更多的灵活性并提高代码的内存和时间效率。如果您想参与这项工作,请分叉主分支并从那里开始工作。我们计划在接下来的版本中添加 pytests 和 CI。
贡献总是受欢迎的。
项目详情
下载文件
下载适用于您平台的文件。如果您不确定要选择哪个,请了解有关安装包的更多信息。
源分布
内置分布
raccoon_cluster -0.5.1-py3-none-any.whl 的哈希值
| 算法 | 哈希摘要 | |
|---|---|---|
| SHA256 | 9ac9117aef9df5c09ecd4571b9c438567095f95e184052e18a38901c9139def7 |
|
| MD5 | eef7cfbe2272bdda07ac21152e12cc10 |
|
| 布莱克2-256 | a116f4fb69c3b1a87200985f9a692e4b99bc05b6f3821d645de0319dc0d78233 |