Defense Finder:允许系统搜索所有已知的抗噬菌体系统。
项目描述
文档防御者
DefenseFinder 是一个系统检测已知抗噬菌体系统的程序。DefenseFinder 使用 MacSyFinder。
如果您使用 DefenseFinder,请引用
- “原核生物抗病毒库的系统和定量视图”bioRxiv Tesson F.、Hervé A.、Touchon M.、d'Humières C.、Cury J.、Bernheim A.
- “MacSyFinder:一种用于挖掘分子系统基因组并应用于 CRISPR-Cas 系统的程序。” PloS one 2014 Abby S.、Néron B.、Ménager H.、Touchon M. Rocha EPC。
防御者模型
该存储库包含 DefenseFinder 一个允许系统搜索抗噬菌体系统的工具。基于 MacSyFinder 架构的 DefenseFinder 模型可以在这里
安装 DefenseFinder 命令行界面
安装依赖
DefenseFinder 有一个程序依赖项:Hmmer 程序,版本 3.1 或更高版本 ( http://hmmer.org/ )。应安装 hmmsearch 程序(例如,在 PATH 中)以使用 MacSyFinder。DefenseFinder 还依赖于 Python 库依赖项:
- macsyfinder
- 颜色日志
- pyyaml
- 打包
- 网络x
- 使用 pip 进行安装时,将自动检索并安装这些依赖项(见下文)。
安装 DefenseFinder
DefenseFinder 可通过 pip 安装。在开始之前,如果可以的话,建议将 DefenseFinder 安装在 virtualenv(例如 condas)中。
conda create –name defensefinder
conda activate defensefinder
pip install mdmparis-defense-finder
但是,您也可以仅使用 pip 安装 DefenseFinder。
pip install mdmparis-defense-finder
在这个阶段,如果您遇到问题,这可能是由于您的 pip 安装程序有问题。查看以下网页以获取有关如何解决该问题的详细信息
安装 DefenseFinder 后,您需要检索 DefenseFinder 模型。要检索它,请运行:
defense-finder update
更新 DefenseFinder
如果您最近几天没有使用 DefenseFinder,请确保您拥有最新版本的模型。要验证并在必要时下载最新模型,请运行:
defense-finder update
更新 DefenseFinder 模型时,您只需更新模型而不是工具。但是,如果您的 DefenseFinder 工具版本过时,您可以使用以下行获取最新版本
pip install -U mdmparis-defense-finder
defense-finder update
运行防御查找器
快速运行
如果您想在一小部分基因组(< 30 000 个蛋白质)上运行 DefenseFinder。您可以运行以下命令。
defense-finder run genome.faa
输入。
输入文件,此处为“genome.faa”,必须采用蛋白质 fasta 格式,其中所有蛋白质都按照它们在基因组中的位置顺序排列。事实上,DefenseFinder 考虑了蛋白质的顺序。
在标准笔记本电脑上运行基因组(几千个蛋白质)应该不到两分钟。如果更多,请确保所有内容都已正确安装。在这个配置中,所有的副本都将被命名为 UserReplicon。注意,如果您想在更大的基因组集合上运行 DefenseFinder,您需要按照“更大的数据集和 Gembase 格式”中的说明格式化您的数据集。
输出
DefenseFinder 将生成三种类型的文件(以及保存 MacSyFinder 选项的选项)。所有文件如下所述。
defence_finder_systems.tsv:在这个文件中,每一行对应于给定基因组中的一个系统。这是所发现内容的摘要,并提供以下信息
- sys_id :DefenseFinder 检测到的每个系统都有一个唯一的 ID,基于找到它的副本和系统类型
- type:找到的抗噬菌体系统的类型(如RM、Cas...)
- subtype : 找到的抗噬菌体系统的子类型(如RM_type_I、CAS_Class1-Subtype-IE)
- sys_beg :系统开始的蛋白质(在输入文件中找到的名称)
- sys_end :系统结束的蛋白质(在输入文件中找到的名称)
- protein_in_syst :该系统中存在的所有蛋白质的列表(在输入文件中找到名称)
- genes_count :系统中发现的基因数量
- name_of_profiles_in_sys:命中系统蛋白质的蛋白质谱列表(来自 HMM 的名称)。
defence_finder_genes.tsv:在这个文件中,每一行对应于系统中发现的一个基因。对于每个基因,都有一些信息,例如复制子、位置、系统。所有信息都来自 MacSyFinder 并遵循 MacSyFinder 命名法(best_solution.tsv),更多信息可以在 MacSyFinder Ma文档中找到。
Defense_finder_hmmer.tsv:在这个文件中,每一行对应一个 HMM 命中。这个文件显示了 HMM 的所有命中,无论它们是否在一个完整的系统中。必须谨慎使用这些结果进行深入检查。事实上,从生物学角度来看,只有一个完整的系统才能成为抗噬菌体。该功能可用于在一小部分基因组中发现防御基因。请注意,一个蛋白质可以有多个命中。输出是 HMMer 结果表结果的一部分。
- hit_id :蛋白质名称(在输入文件中找到的名称)
- 复制子:复制子的名称
- position_hit:输入文件中的位置
- Gene_name : HMM 的名称
通过使用参数 --preserve-raw ,您将获得来自 MacSyFinder 的所有结果。这些结果在这里解释
在多个基因组上运行 DefenseFinder
在多个基因组上运行 DefenseFIder 时,例如 MacSyFinder,我们建议采用以下约定来满足“gembase db_type”的要求。任何 fasta 文件和 gembase 格式之间的区别在于蛋白质的名称(蛋白质名称 = fasta 文件中 > 之后的文本)。对于这两种类型,必须对蛋白质进行排序,但在第一种情况下,蛋白质的名称无关紧要(除非没有重复)。在 gembase 格式中,蛋白质名称由两部分组成:复制子和位置。对于用户想要同时分析的所有蛋白质(例如完整的基因组、质粒......),复制子名称都是相同的。第二个组成部分是位置。这两个组件必须用“ ”分隔。可以使用“" 在复制子名称中,只有最后一个实例将用作复制子名称和位置之间的分隔符。使用这种文件格式,MacSyFinder 将能够单独处理每个复制子,以评估大分子系统的存在并减少资源使用。
Example: esco_genomes.faa
> ESCO388_0001
XXXXXXX
> ESCO388_0002
XXXXXXX
…..
> ESCO388_3603
XXXXXXX
> ESCO389_0001
XXXXXXX
> ESCO389_0002
XXXXXXX
…..
> ESCO389_3555
XXXXXXX
在更大的基因组数据集上使用带有 gembase 格式文件的 DefenseFinder
defense-finder run –dbtype gembase esco_genomes.faa
DefenseFinder 选项
要检查不同的 DefenseFinder 选项,请运行
defense-finder run --help
DefenseFinder 有 4 个选项:
- -o, --out-dir_ TEXT 存储结果的目标目录。默认为当前目录。
- -w, --workers_ INTEGER 工人计数。默认情况下,将使用所有内核 (w=0)。
- --db-type_ TEXT macsyfinder --db-type 选项。可能的值是ordered_replicon、gembase、unordered,默认为ordered_replicon。运行 macsyfinder --help 以获取更多详细信息
- --preserve-raw 在输出目录中保留原始 MacSyFinder 输出以及 Defense Finder 结果。
如有问题:您可以联系aude.bernheim@inserm.fr
项目详情
下载文件
下载适用于您平台的文件。如果您不确定要选择哪个,请了解有关安装包的更多信息。
源分布
内置分布
mdmparis_defense_finder -1.0.8-py3-none-any.whl 的哈希值
| 算法 | 哈希摘要 | |
|---|---|---|
| SHA256 | 04ca9f0e57d1bb27ed8c661802a88914ea8b822fa17146cfc0492dafd4524b3e |
|
| MD5 | e40aeaa5f8006984d07228be51fbc70c |
|
| 布莱克2-256 | 3e5a571240294c8da11a54253c32b500ac33dd9892ac27e48456415efdcae8bc |