Skip to main content

大规模比较基因组学工具:注释基因组、做泛基因组、核心/持久基因组、对齐核心/持久家族、推断系统发育树。

项目描述

泛科塔

GitHub 发布 PyPI 版本 Anaconda 服务器徽章

DOI:10.1093/nargab/lqaa106

许可证(AGPL 版本 3) 管道状态 覆盖率报告

此 README 文件提供了一些安装/使用 PanACoTA 的基本信息。但最好阅读完整的文档,提供更多详细信息:

           

PanACoTA (PANgenome with Annotations、COre Identification、Tree 和相应的 Alignments)是一个为大规模细菌比较基因组学提供工具的软件。您可以下载给定物种的所有 refseq 基因组,或使用您的一组完整和/或草图基因组,以:

  • 对您的菌株进行质量控制,以消除质量差的基因组,这不会为比较研究提供任何信息
  • 统一注释所有基因组(根据您的需要使用功能注释或仅句法注释)
  • 做一个泛基因组
  • 做一个核心或持久基因组
  • 对齐所有核心/持久系列
  • 从核心/持久家族推断系统发育树

     

如果您使用 PanACoTA,请引用:

Amandine Perrin、Eduardo PC Rocha、PanACoTA:用于大规模微生物比较基因组学、NAR 基因组学和生物信息学的模块化工具,第 3 卷,第 1 期,2021 年 3 月 DOI:10.1093/nargab/lqaa106

本自述文件的内容:

安装

跑步

发展

安装

依赖项

PanACoTA 是用python3编写的。因此,您需要 python3(和用于安装的 pip3)来运行它。

然后,PanACoTA 有几个外部依赖项。如果您使用singularity安装(例如在集群上运行),则不需要安装任何依赖项。否则,根据您要使用的模块,仅安装您需要的模块:

  • 对于准备模块:mash(过滤基因组)
  • 对于注释模块:prokka和/或prodigal(统一注释您的基因组)
  • 对于泛基因组模块:mmseqs(生成泛基因组)
  • 对于对齐模块:mafft(对齐持久基因组)
  • 对于树模块:这些软件中的至少一个,以推断系统发育树:

为了能够安装依赖项,请确保您已经拥有:

  • tar
  • git
  • wget
  • prokka 所需的 bioperl、java 和其他一些基础包:有关更多信息,请参阅Prokka README

对于 FastTree,我们建议从这里下载 C 代码,并使用以下命令进行编译:

gcc -DOPENMP -fopenmp -DUSE_DOUBLE -Wall -O3 -finline-functions -funroll-loops -o FastTreeMP FastTree-2.1.9.c -lm

然后,您可以将输出添加FastTreeMP到您的$PATH,以便能够从任何地方运行它。

安装PanACoTA和更新

您有不同的安装可能性PanACoTa

警告:如果您打算使用脚本,请选择开发安装(请参阅开发部分)。

从点子

PyPI 版本

安装最新稳定版本的一种非常简单的方法。这将在您的 python 站点包文件夹中安装文件。

pip install panacota

并获得新版本:

pip install panacota --upgrade

如果您有权限问题,您可以在前面的命令行之前使用 'sudo' 以 root 身份安装它,或者添加在--user本地安装它的选项。

来自 github 存储库

这使您可以获取最新版本,并能够在将最后的增强功能上传到其他平台之前对其进行测试。为此,请转到您要安装它的位置(<your_dir>),然后键入:

git clone https://github.com/gem-pasteur/PanACoTA.git

这将创建一个名为 的存储库PanACoTA,其中包含此 github 存储库的内容。要安装 PanACoTA:

cd PanACoTA 
./make

如果您有权限问题,您可以在前面的命令行之前使用 'sudo' 以 root 身份安装它,或者添加在--user本地安装它的选项。

要更新到新版本,请返回您的存储库:

cd <your_dir>/PanACoTA
git pull
./make upgrade

从奇点图像

如果您在计算机上没有权限,例如在集群上,则非常有用。另一个优点是您不需要安装任何依赖项(当然奇异性本身除外)。奇点图像包括所有这些。您只需下载 1 个文件,您的计算机上的任何位置都不会安装任何内容。

首先,下载奇点图像:

singularity pull --name panacota.img docker://gempasteur/panacota[:<version>] 

如果您需要特定版本,例如 1.0 版,请指定docker://gempasteur/panacota:1.0.

要获取最新版本:

singularity pull --name panacota.img docker://gempasteur/panacota

(这与 相同singularity pull --name panacota.img docker://gempasteur/panacota:latest

它会将您的文件 panacota.img 替换为与最新版本相对应的新文件。

从康达

安装 bioconda Anaconda 服务器徽章

使用 conda 时要小心,特别是如果您不熟悉它。我们建议将 PanACoTA 安装在专用的 conda 环境中,以避免与其他软件不必要的交互(例如 conda 自动安装所需版本的依赖项)。要安装软件包,请使用conda install -c bioconda panacota. 但是,如conda 文档中所述,我们建议安装它:

# Create an environment: This creates the 'myenv' environment in '/envs/'. No packages will be installed in this environment.
conda create --name myenv
# Activate the environment
conda activate myenv
# Install PanACoTA
conda install -c bioconda panacota
# When you have finished using PanACoTA, deactivate environment
conda deactivate

要更新到新版本:

conda update panacota

从 zip 版本

对于想要下载特定版本的源代码的人,我们提供版本。你可以在这里下载最后一个:GitHub 发布

卸载PanACoTA

如果您不想PanACoTA再卸载它,请键入:

pip unintall panacota  # If you installed from pip
./make uninstall  # If you installed from github repository

或者,如果您使用了奇异性,只需删除下载的图像:rm -r panacota.img

跑步PanACoTA

快速运行

PanACoTA包含 6 个不同的子命令:

  • prepare(如果您愿意,可以从 refseq 下载基因组,或者提供您的输入数据库,以运行过滤质量控制)。为了帮助您找到您需要的 NCBI 物种,您可以使用他们的分类浏览器
  • annotate(在质量控制之后注释数据集的所有基因组)
  • pangenome(生成泛基因组)
  • corepers(生成核心基因组或持久基因组)
  • align(对齐核心/持久系列)
  • tree(从持久基因组推断系统发育树)

您可以通过键入以下命令运行它们:

PanACoTA <subcommand_name> <arguments_for_subcommand>

每个子命令都有自己的选项和输入。要获取您要运行的子命令的所需参数和其他可用选项的列表,请键入:

PanACoTA <subcommand> -h

使用奇异性时,只需替换PanACoTA./panacota.img

./panacota.img <subcommand_name> <arguments_for_subcommand>  
./panacota.img -h 

它还提供了一个子命令PanACoTA all来连续运行所有模块。

例子

我们提供了一个文件夹 ,Examples其中包含软件的基因组序列 (in Examples/genomes) 和输入文件示例 (in Examples/input_files)。在文档的示例部分,您将找到说明如何PanACoTA使用此数据集运行不同模块的信息,以便您可以试用该软件。我们还描述了每个命令行应该创建的结果。

注意:提供的基因组序列取自真实的基因组,但随后经过修改和大幅缩短,以便有一个示例显示不同的情况,但运行速度非常快。因此,不应从生物学上解释示例结果!

文档

您可以在PanACoTA 文档中找到更多信息!

发展

这部分适用于想要开发PanACoTA包的人。在文档中,有一部分专门用于开发人员

PanACoTA 也托管在 gitlab 中,所有 CI 都在这里完成。这是链接:https ://gitlab.pasteur.fr/aperrin/pipeline_annotation

安装PanACoTA(开发模式)

如果您想PanACoTA在仍然修改脚本的同时进行安装,请在克隆存储库后使用,./make develop而不是使用。./make install

然后将考虑您的更改。安装软件包后,您将能够从计算机中的任何目录运行它。

如果您不想安装该软件,您仍然可以对其进行测试,并通过安装软件所需的库和开发所需的库来为测试和文档做出贡献,方法是运行:

pip3 install -r requirements.txt  # dependencies used by PanACoTA
pip3 install -r requirements-dev.txt  # libraries used to run tests, generate documentation etc.

注意: biopython 仅用于 'tree' 子命令,带有选项--soft fastme--soft quicktree. 如果您不打算使用它,则不需要安装 biopython。您可以在中注释该biopython>=1.60requirements.txt(在行首添加一个#)。

运行测试

如果您想处理脚本,您可以使用随软件提供的测试,用于检查其每个功能。要运行测试,请从项目的根目录运行:

PYTHONPATH+=. py.test test/test_unit
PYTHONPATH+=. py.test test/test_functional

或者,如果您安装了软件包(最终或开发模式):

py.test test/test_unit
py.test test/test_functional

添加-sv以获取有关每个测试的更多详细信息。

为文档做贡献

在这里找到的完整文档是使用sphinx生成的 。你可以添加你的贡献。要在本地生成 html 文档,请转到doc/sources目录,然后运行:

make html

然后,doc/build/html/index.html在浏览器上打开。

在线版本推送到 master 分支时会自动更新。

项目详情


下载文件

下载适用于您平台的文件。如果您不确定要选择哪个,请了解有关安装包的更多信息。

源分布

PanACoTA-1.3.1.tar.gz (249.8 kB 查看哈希

已上传 source