特征感知的正交预测工具
项目描述
HaMStR-OneSeq
目录
如何安装
HaMStR-oneSeq作为名为h1s的 python 包分发。它与Python ≥ v3.7兼容。
安装h1s包
您可以使用以下命令安装h1spip:
python3 -m pip install h1s
或者,如果您没有管理员权限,并且不使用像 Anaconda 这样的软件包系统来管理您需要使用该--user选项的环境:
python3 -m pip install --user h1s
然后将以下行添加到~/.bashrc或~/.bash_profile文件的末尾,重新启动当前终端以应用更改(或键入source ~/.bashrc):
export PATH=$HOME/.local/bin:$PATH
设置 HaMStR-oneSeq
安装 h1s 后,您需要设置HaMStR-oneSeq以获取其依赖项和预先计算的数据。
您只需运行此命令即可
setup1s -o /output/path/for/oneSeq/data
或者,如果您使用的是 Anaconda
setup1s -o /output/path/for/oneSeq/data --conda
您应该准备好 sudo 密码,否则无法安装一些缺少的依赖项。有关更多信息,请参阅依赖项列表。如果您没有 root 权限,请让您的管理员使用setup1s --lib命令安装这些依赖项。
HaMStR-oneSeq 的预计算数据集将保存在/output/path/for/oneSeq/data. 安装成功后,您可以开始使用HaMStR-oneSeq。
为了调试设置,请通过运行设置来创建一个日志文件,例如setup1s | tee log.txtLinux/MacOS 或setup1s --conda | tee log.txtAnaconda 并将该日志文件发送给我们,以便我们解决问题。只需重新运行设置即可解决大多数问题。
用法
如果一切设置正确, HaMStR-oneSeq将使用“infile.fa”中提供的示例输入文件顺利运行。
h1s --seqFile infile.fa --seqName test --refspec HUMAN@9606@3
带有前缀的输出文件test将保存在您当前的工作目录中。您可以使用命令概览所有可用选项
h1s -h
请在我们的 wiki中找到更多信息以了解HaMStR-oneSeq的输入和输出文件。
HaMStR-oneSeq 数据集
在数据包中,我们提供了一组 78 个参考分类群。它们可以在设置过程中自动下载。该数据与HaMStR-OneSeq框架一起“随时可用” 。物种数据必须存在于下列三个目录中:
- 基因组目录(包含每个物种的蛋白质组fasta文件的子目录)
makeblastdbblast_dir(包含用您的蛋白质组制作的 BLAST 数据库的子目录)- weight_dir(包含每个蛋白质组的特征注释文件)
对于每个物种/分类单元,都有一个根据命名模式命名的子目录([Species acronym]@[NCBI ID]@[Proteome version])
HaMStR-oneSeq 不限于这 78 个分类群。如果需要,用户可以使用提供的 python 脚本手动添加更多基因集(multifasta 格式)。
将新基因组添加到 HaMStR-oneSeq
添加一个基因组,请使用以下addTaxon1s函数:
addTaxon1s -f newTaxon.fa -i tax_id [-o /output/directory] [-n abbr_tax_name] [-c] [-v protein_version] [-a]
其中,前 3 个参数是必需的,包括newTaxon.fa需要添加的基因集、tax_id其 NCBI 分类 ID、/output/directory可以找到子目录的位置(基因组目录、爆炸目录和权重目录)。如果没有给出,新的分类单元将被添加到预先计算的数据的同一目录中。其他参数是可选的,-n用于指定您自己的分类单元名称(如果未给出,将根据输入的 NCBI 分类单元名称建议一个缩写名称tax_id),-c用于计算 BLAST DB(仅当您需要包含新的分类单元时才需要分类单元到分类单元列表中,用于编译核心集),-v用于识别基因组/蛋白质组版本(默认为 1),以及-a用于关闭注释步骤(不推荐)。
将基因组列表添加到 HaMStR-oneSeq
要添加多个基因集,请使用以下addTaxa1s脚本:
addTaxa1s -i /path/to/newtaxa/fasta -m mapping_file [-o /output/directory] [-c]
其中,/path/to/taxa/fasta是一个文件夹,可以找到所有新分类群的 FASTA 文件。mapping_file是一个制表符分隔的文本文件,您可以在其中提供与 FASTA 文件一致的分类 ID:
#filename tax_id abbr_tax_name version
filename1.fa 12345678
filename2.faa 9606
filename3.fasta 4932 my_fungi
...
标题行(以 # 开头)是必须的。然而,最后 2 列的值(缩写分类单元名称和基因组版本)是可选的。如果要为基因组指定新版本,还需要定义缩写。分类单元名称,因此基因组版本始终位于映射文件的第 4 列。
注意:将新分类单元添加到HaMStR-oneSeq 后,您应该在运行 HaMStR 之前检查新数据的有效性。
错误
非常感谢任何错误报告或评论、建议。请在 GitHub 上打开问题或通过电子邮件联系。
如何引用
Ebersberger, I.、Strauss, S. & von Haeseler, A. HaMStR:基于轮廓隐藏马尔可夫模型的 EST 直系同源物搜索。BMC Evol Biol 9, 157 (2009), doi:10.1186/1471-2148-9-157
贡献者
接触
如需进一步的支持或错误报告,请联系:ebersberger@bio.uni-frankfurt.de