Skip to main content

特征感知的正交预测工具

项目描述

HaMStR-OneSeq

PyPI 版本 许可证:GPL v3 构建状态

目录

如何安装

HaMStR-oneSeq作为名为h1s的 python 包分发。它与Python ≥ v3.7兼容。

安装h1s包

您可以使用以下命令安装h1spip

python3 -m pip install h1s

或者,如果您没有管理员权限,并且不使用像 Anaconda 这样的软件包系统来管理您需要使用该--user选项的环境:

python3 -m pip install --user h1s

然后将以下行添加到~/.bashrc~/.bash_profile文件的末尾,重新启动当前终端以应用更改(或键入source ~/.bashrc):

export PATH=$HOME/.local/bin:$PATH

设置 HaMStR-oneSeq

安装 h1s 后您需要设置HaMStR-oneSeq以获取其依赖项和预先计算的数据。

您只需运行此命令即可

setup1s -o /output/path/for/oneSeq/data

或者,如果您使用的是 Anaconda

setup1s -o /output/path/for/oneSeq/data --conda

您应该准备好 sudo 密码,否则无法安装一些缺少的依赖项。有关更多信息,请参阅依赖项列表。如果您没有 root 权限,请让您的管理员使用setup1s --lib命令安装这些依赖项。

HaMStR-oneSeq 的预计算数据集将保存在/output/path/for/oneSeq/data. 安装成功后,您可以开始使用HaMStR-oneSeq

为了调试设置,请通过运行设置来创建一个日志文件,例如setup1s | tee log.txtLinux/MacOS 或setup1s --conda | tee log.txtAnaconda 并将该日志文件发送给我们,以便我们解决问题。只需重新运行设置即可解决大多数问题。

用法

如果一切设置正确, HaMStR-oneSeq将使用“infile.fa”中提供的示例输入文件顺利运行。

h1s --seqFile infile.fa --seqName test --refspec HUMAN@9606@3

带有前缀的输出文件test将保存在您当前的工作目录中。您可以使用命令概览所有可用选项

h1s -h

请在我们的 wiki中找到更多信息以了解HaMStR-oneSeq输入和输出文件

HaMStR-oneSeq 数据集

在数据包中,我们提供了一组 78 个参考分类群。它们可以在设置过程中自动下载。该数据与HaMStR-OneSeq框架一起“随时可用” 。物种数据必须存在于下列三个目录中:

  • 基因组目录(包含每个物种的蛋白质组fasta文件的子目录)
  • makeblastdbblast_dir(包含用您的蛋白质组制作的 BLAST 数据库的子目录)
  • weight_dir(包含每个蛋白质组的特征注释文件)

对于每个物种/分类单元,都有一个根据命名模式命名的子目录([Species acronym]@[NCBI ID]@[Proteome version])

HaMStR-oneSeq 不限于这 78 个分类群。如果需要,用户可以使用提供的 python 脚本手动添加更多基因集(multifasta 格式)。

将新基因组添加到 HaMStR-oneSeq

添加一个基因组,请使用以下addTaxon1s函数:

addTaxon1s -f newTaxon.fa -i tax_id [-o /output/directory] [-n abbr_tax_name] [-c] [-v protein_version] [-a]

其中,前 3 个参数是必需的,包括newTaxon.fa需要添加的基因集、tax_id其 NCBI 分类 ID、/output/directory可以找到子目录的位置(基因组目录、爆炸目录权重目录)。如果没有给出,新的分类单元将被添加到预先计算的数据的同一目录中。其他参数是可选的,-n用于指定您自己的分类单元名称(如果未给出,将根据输入的 NCBI 分类单元名称建议一个缩写名称tax_id),-c用于计算 BLAST DB(仅当您需要包含新的分类单元时才需要分类单元到分类单元列表中,用于编译核心集),-v用于识别基因组/蛋白质组版本(默认为 1),以及-a用于关闭注释步骤(不推荐)。

将基因组列表添加到 HaMStR-oneSeq

要添加多个基因集,请使用以下addTaxa1s脚本:

addTaxa1s -i /path/to/newtaxa/fasta -m mapping_file [-o /output/directory] [-c]

其中,/path/to/taxa/fasta是一个文件夹,可以找到所有新分类群的 FASTA 文件。mapping_file是一个制表符分隔的文本文件,您可以在其中提供与 FASTA 文件一致的分类 ID:

#filename	tax_id	abbr_tax_name	version
filename1.fa	12345678
filename2.faa	9606
filename3.fasta	4932	my_fungi
...

标题行(以 # 开头)是必须的。然而,最后 2 列的值(缩写分类单元名称和基因组版本)是可选的。如果要为基因组指定新版本,还需要定义缩写。分类单元名称,因此基因组版本始终位于映射文件的第 4 列。

注意:将新分类单元添加到HaMStR-oneSeq 后,您应该在运行 HaMStR 之前检查新数据的有效性。

错误

非常感谢任何错误报告或评论、建议。请在 GitHub 上打开问题或通过电子邮件联系。

如何引用

Ebersberger, I.、Strauss, S. & von Haeseler, A. HaMStR:基于轮廓隐藏马尔可夫模型的 EST 直系同源物搜索。BMC Evol Biol 9, 157 (2009), doi:10.1186/1471-2148-9-157

贡献者

接触

如需进一步的支持或错误报告,请联系:ebersberger@bio.uni-frankfurt.de

项目详情


下载文件

下载适用于您平台的文件。如果您不确定要选择哪个,请了解有关安装包的更多信息。

源分布

h1s-2.2.18.tar.gz (87.6 kB 查看哈希

已上传 source