具有自监督学习的图像特征提取器
项目描述
细胞自身
cytoself 是我们开发的一个自我监督平台,用于从显微镜图像中学习蛋白质亚细胞定位的特征。该模型在我们最近的预印本[2]中有详细描述。来自细胞自身的表征封装了高度特异性的特征,这些特征可以仅根据蛋白质的定位来获得蛋白质的功能见解。
将 cytoself 应用于最近发布的 OpenCell数据库中的内源性标记蛋白质的图像,创建了一个高分辨率的蛋白质定位图谱 [1]。
[1] Cho,Nathan H.,等人。“OpenCell:蛋白质组规模的内源性标记使人类细胞组织的制图成为可能。” bioRxiv (2021)。
https://www.biorxiv.org/content/10.1101/2021.03.29.437595v1
[2] 小林、博文等人。“自我监督的深度学习编码蛋白质亚细胞定位的高分辨率特征。” bioRxiv (2021)。
https://www.biorxiv.org/content/10.1101/2021.03.29.437595v1
细胞自身如何工作
cytoself 使用图像及其身份信息作为标签来学习蛋白质的定位模式。我们使用标记单个蛋白质的细胞图像和标记蛋白质的 ID 作为身份信息。
这个存储库中有什么
此存储库提供三个主要组件:
DataManager、
cytoself.models和
Analytics.
DataManager
是一个处理训练、验证和测试数据的简单模块。您可能需要修改它以适应您自己的数据结构。该模块位于
cytoself.data_loader.data_manager.
cytoself.models
包含用于 cytoself 模型的三种不同变体的模块:没有拆分量化的模型、没有借口任务的模型和“完整”模型(有关这些变体的详细信息,请参阅我们的预印本)。每个模型变体都有一个子模块,提供构建、编译和训练模型的方法(使用 tensorflow 构建)。
Analytics是一个简单的模块,用于执行降维和绘图等分析过程。您可能也想修改它以执行您自己的分析。该模块位于
cytoself.analysis.analytics.
安装
推荐:从pypi新建一个环境,在环境上安装cytoself
conda create -y -n cytoself python=3.7
conda activate cytoself
pip install cytoself
(可选)安装 TensorFlow GPU
如果您的计算机配备了支持 Tensorflow 1.15 的 GPU,您可以安装 Tensorflow-gpu 以利用 GPU。在 cytoself 之前安装以下软件包,或者卸载现有的 CPU 版本并使用 conda 重新安装 GPU 版本。
conda install -y h5py=2.10.0 tensorflow-gpu=1.15
对于开发者
您还可以从此 GitHub 存储库安装 cytoself。
git clone https://github.com/royerlab/cytoself.git
pip install .
故障排除
如果安装时出错,请在 cytoself 文件夹中运行以下代码以手动安装依赖项。
pip install -r requirements.txt
作为完整依赖项的参考,工作环境的快照可以在
environment.yml
示例脚本
一个最小的示例脚本位于
example/simple_training.py.
使用命令测试此包是否在您的计算机中运行
python examples/simple_example.py
计算资源
强烈建议使用 GPU 运行 cytoself。具有图像形状(100、100、2)和批量大小为 64 的完整模型可能需要约 9GB 的 GPU 内存。
测试环境
谷歌 Colab (CPU/GPU/TPU)
macOS 11.6.1,内存 32GB (CPU)
Windows10 专业版 64 位,内存 32GB (CPU)
Ubuntu 18.04.6 LTS、RTX 2080Ti、CUDA 11.2(CPU/GPU)
项目详情
下载文件
下载适用于您平台的文件。如果您不确定要选择哪个,请了解有关安装包的更多信息。