使用 mOTUs3 对来自不同环境的宏基因组进行分类分析
项目描述
mOTU 分析器
mOTU 分析器是一种计算工具,它使用宏基因组鸟枪法测序数据估计已知和当前未知的微生物群落成员的相对分类丰度。
查看wiki以获取更多信息。
如果您使用的是 mOTU,请引用:
Alessio Milanese, Daniel R Mende, Lucas Paoli, Guillem Salazar, Hans-Joachim Ruscheweyh, Miguelangel Cuenca, Pascal Hingamp, Renato Alves, Paul I Costea, Luis Pedro Coelho, Thomas SB Schmidt, Alexandre Almeida, Alex L Mitchell, Robert D Finn, Jaime Huerta-Cepas、Peer Bork、Georg Zeller 和 Shinichi Sunagawa。 使用 mOTUs2 进行微生物丰度、活性和种群基因组分析;Nature Communications 10,文章编号:1014 (2019)。PMID:30833550;doi: 10.1038/s41467-019-08844-4
先决条件
mOTU 分析器需要:
为了使用snv_call您需要的命令:
- metaSNV v1.0.3,也可在bioconda上使用(我们假设 metaSNV.py 在系统路径中)
检查安装 wiki以了解如何使用 conda 安装依赖项。
安装
mOTU 可以通过使用pip或通过conda. 安装conda的好处是它还会下载和安装依赖项:
# Install in the base environment
conda install motus
# OR, create a new environment
conda create -n motu-env motus
conda activate motu-env
安装pip:
# Download and install mOTUs
pip install motu-profiler
# Download the mOTUs database
motus downloadDB
您可以使用以下方法测试 motus 是否正确安装:
motus profile --test
基本示例
这是一个关于如何从原始读取文件中获取分类分析的简单示例:
motus profile -s metagenomic_sample.fastq > taxonomy_profile.txt
您可以将先前的调用分隔为:
motus map_tax -s metagenomic_sample.fastq -o mapped_reads.sam
motus calc_mgc -i mapped_reads.sam -o mgc_ab_table.count
motus calc_motu -i mgc_ab_table.count > taxonomy_profile.txt
rm mapped_reads.sam mgc_ab_table.count
建议使用多线程 ( -t),因为 bwa 会更快地完成。这是一个带有 Paired-End 读取的示例:
motus profile -f for_sample.fastq -r rev_sample.fastq -s no_pair.fastq -t 6 > taxonomy_profile.txt
您可以合并来自不同样本的分类文件mOTU merge:
motus profile -s metagenomic_sample_1.fastq -o taxonomy_profile_1.txt
motus profile -s metagenomic_sample_2.fastq -o taxonomy_profile_2.txt
motus merge -i taxonomy_profile_1.txt,taxonomy_profile_2.txt > all_sample_profiles.txt
您可以分析已通过不同运行测序的样品:
motus profile -f sample1_run1_for.fastq,sample1_run2_for.fastq -r sample1_run1_rev.fastq,sample1_run2_rev.fastq -s sample1_run1_single.fastq > taxonomy_profile.txt
mOTU 的工作原理
mOTUs 工具对宏基因组学和宏转录组学样本进行分类分析,即它可以识别样本中存在的物种及其相对丰度。它基于 mOTUs 数据库中包含的一组 mOTUs(~species)。mOTUs 数据库是根据参考基因组、宏基因组样本和宏基因组组装基因组 (MAG) 创建的:
mOTUs 数据库由三种类型的 mOTUs 组成:
- ref-mOTUs,代表已知物种,
- meta-mOTUs,代表从宏基因组样本中获得的未知物种,
- ext-mOTUs,代表从 MAG 获得的未知物种。
请注意,meta-和 ext-mOTU 不会有物种级别的注释。
mOTUs 数据库会定期更新,例如最新版本 (2.6.1),通过包含约 600,000 个基因组草图,可分析物种的数量增加了一倍。主要版本如下图所示(其中数字代表三组中每一组的 mOTU 数量,颜色代码与上图相同):
在分析 ( motus profile) 宏基因组样本时,mOTUs 工具将样本中的读数映射到不同 mOTU 中的基因:
变更日志
版本 3.0.3 2022-07-13 由 AlessioMilanese
- 添加命令prep_long以允许分析长读取(更多信息在这里)。
版本 3.0.2 2022-01-31 由 AlessioMilanese
- 将存储库转换为 python 包并提交到 PyPI
版本 3.0.1 2021-07-27 由 AlessioMilanese
- 根据 #76 改进 ref-mOTUs 分类
- -A使用选项解决错误
AlessioMilanese 版本 3.0.0 2021-06-22
- 改进代码库
- 修正了一些小错误
版本 2.6.1 2021-04-27 由 AlessioMilanese
- 修正了一些小错误
- 改进了 32 个 ref-mOTU 的分类(#45)
AlessioMilanese 2.6.0 版 2021-03-08
- 添加 19,358 个新的 mOTU
- 添加 > 11k 宏基因组和宏转录组样本的分类概况。更新后的合并功能可以将它们整合到用户结果中。
- 修正了一些小错误
- 更改-1为unassigned
版本 2.5.1 2019-08-17 由 AlessioMilanese
- 更新分类以参与 CAMI 2 挑战
版本 2.5.0 2019-08-09 由 AlessioMilanese
- 添加 -db 选项以使用另一个目录中的数据库
- 添加 -A 以一起打印所有分类级别
- 使用超过 6 万个新的参考基因组更新数据库。有 11,915 个 ref-mOTU 和 2,297 个 meta-mOTU。
AlessioMilanese 2.1.1 版 2019-03-04
- 使用 conda 安装时纠正 samtools 的问题
版本 2.1.0 2019-03-03 由 AlessioMilanese
- 打印 -C 召回时纠正错误'\t\t'
- 更新数据库(基因坐标)
AlessioMilanese 2.0.1 版 2018-08-23
- 添加 -C 以 CAMI 格式打印结果(BioBoxes 格式 0.9.1)
- 在 snv_call 命令中添加 -K 以保留 metaSNV 生成的所有目录
AlessioMilanese 2.0.0 版 2018-06-12
- 将相对丰度设置为默认值(而不是计数)
- 添加 -B 以 BIOM 格式打印结果
- 添加测试目录
- 不再支持 Python2
- 修正了一些小错误
版本 2.0.0-rc1 2018-05-10 由 AlessioMilanese
- 第一个版本支持所有基本功能。