抗体库的质量控制流程
项目描述
目录
介绍
抗体序列
AbSeq是一个全面的生物信息学管道,用于分析从抗体库生成的测序数据集,并且abseqPy是其软件包之一。给定 FASTQ 或 FASTA 文件(成对或单端),abseqPy
生成 csv 和 HDF 文件组合中的克隆型表、V-(D)-J 种系注释、功能率和
多样性估计。更专业的抗体文库分析,如引物特异性、序列基序分析和限制性位点分析也在列表中。
该程序旨在与 .comabseqR生成的数据的报告和统计分析包结合使用abseqPy。尽管没有. abseqPy_ 的项目页面显示了一些分析类型提供的示例;完整的文档可以在's 的小插图中找到。 abseqRabseqRAbSeqabseqR
开发者
AbSeq由 Monther Alhamdoosh 和 JiaHong Fong 开发- 如需意见和建议,请发送电子邮件至 m.hamdoosh <at> gmail <dot> com
先决条件
abseqPy依赖于一些外部软件的工作,它们应该在运行前正确安装和配置abseqPy。
abseqPy在 Python 2.7 上运行。Python 3.6 支持正在进行中。
无缝安装依赖项
这是安装 abseqPy 的外部依赖项的推荐方式。
此处提供了一个 python 脚本,它下载并安装所有必要的外部依赖项。
此脚本假定以下内容已经可用:
要将外部依赖项安装到名为的文件夹中~/.local/abseq:
$ mkdir -p ~/.local/abseq
$ python install_dependencies.py ~/.local/abseq
该脚本不会自行安装
abseqPy,只会安装其外部依赖项。
此脚本适用于 Python 2 和 3,并且~/.local/abseq可以替换为任何目录。然而:
- 这个目录会一直存在,所以要明智地选择
- 安装脚本不仅会转储此目录中的二进制文件,还将包含数据库和内部文件
安装成功后,屏幕上将提示用户更新其环境变量以将已安装的依赖项包含在~/.local/abseq.
手动安装依赖
本节适用于以下情况:
- 发现安装脚本失败
- 感觉很冒险
有关详细指南,请参阅此文档。
abseqPy 安装
本节演示如何安装abseqPy.
从安装pip
$ pip install abseqPy
从源安装
$ git clone https://github.com/malhamdoosh/abseqPy.git
$ cd abseqPy
$ pip install .
$ abseq --version
该abseq命令现在应该在您的命令行上可用。
安装
abseqPy还会安装其他 python 包,考虑使用 python 虚拟环境来防止覆盖现有包。请参阅virtualenv 或conda。
用法
基本用法
要启动并运行,以下命令通常就足够了:
$ abseq -f1 <read 1> -f2 <read 2> -o results --threads 4 --task all
-f2仅当它是双末端测序实验时才需要。
高级用法
除了abseq使用命令行选项调用外,abseq还支持-y <file>或--yaml <file>
读取file. 这使得可以同时分析多个样本,每个样本都具有共享或独立的abseq参数。
的基本 YAML 语法file是key: valwherekey 是一个abseq
“long” 1选项(请参阅abseq --help所有“long”选项名称)并且
val是提供给“long”选项的值。附加的样本一个接一个地被指定,由三个破折号分隔---。
例子
假设一个名为的文件example.yml具有以下内容:
# sample one, PCR1
name: PCR1
file1: fastq/PCR1_R1.fastq.gz
file2: fastq/PCR1_R2.fastq.gz
---
# sample two, PCR2
name: PCR2
file1: fastq/PCR2_R1.fastq.gz
file2: fastq/PCR2_R2.fastq.gz
bitscore: 300 # override the defaults' 350 for this sample only
task: abundance # override the defaults' "all" for this sample only
detailedComposition: ~ # enables detailedComposition (-dc) for this sample only
---
# more samples can go here
---
# "defaults" is the only special key allowed.
# It is not in abseq's options, but is used here
# to denote default values to be used for ALL samples
# if they're not specified.
defaults:
task: all
outdir: results
threads: 7
bitscore: 350
sstart: 1-3
然后执行abseq -y example.yml相当于同时运行 2 个实例,
并将字段abseq中的参数defaults应用于两个样本。这是一个等价物:
$ abseq --task all --outdir results --threads 7 --bitscore 350 --sstart 1-3 \
> --name PCR1 --file1 fastq/PCR1_R1.fastq.gz --file2 fastq/PCR1_R2.fastq.gz
$ abseq --task abundance --outdir results --threads 7 --bitscore 300 --sstart 1-3 \
> --name PCR2 --file1 fastq/PCR2_R1.fastq.gz --file2 fastq/PCR2_R2.fastq.gz \
> --detailedComposition
推荐使用--yaml它,因为它是自记录的、可重现的且易于运行。
陷阱
- 在上面的示例中,
threads: 7在defaultskey 中指定example.yml将使每个样本运行 7 个线程,即,abseqPy将运行 7 *number of samples个总进程。
帮助
在命令行中调用abseq -h将显示abseqPy使用的选项。
支持的平台
abseqPy适用于大多数 Linux 发行版、macOS 和 Windows。
由于软件不兼容,某些功能在Windows中运行时被禁用,它们是:
- 上游聚类
--task 5utr - 序列标识生成
--task diversity
<small> 1 </small><small> 长选项名称是带有双破折号前缀的选项名称,例如,
--help是长选项而-h不是↩ </small>
项目详情
下载文件
下载适用于您平台的文件。如果您不确定要选择哪个,请了解有关安装包的更多信息。