NGS数据链偏差分析工具
项目描述
链偏差分析工具
概述
SBAT 是一个 Python 命令行工具,用于检测链偏差。链偏差是一种情况,即来自一条 DNA 链的信息与来自另一条链的信息相比过多。它是下一代测序数据中出现的一种偏倚类型。如果偏差很大,链偏差可能会导致对从测序数据中获得的结果进行错误评估。该工具提供了一种针对链偏差验证数据质量的方法。可以在 [此处] 找到更多关于链偏向和该工具开发的信息(公开后的学士论文路径)。
该工具使用Jellyfish k-mer 计数工具对 NGS 数据中的 k-mers 进行计数,并比较 k-mers 及其互补序列的频率,从而对链偏差结果进行统计和可视化分析。
安装
首先,必须安装Jellyfish 。
在 Debian 和 Ubuntu 上apt
:
sudo apt update
sudo apt install jellyfish
在 MacOS 上brew
:
brew install jellyfish
在 Arch 上,它可以从AUR获得。
在 Windows 上,最好的选择是使用 WSL。对于其他操作系统或从源代码安装,请参见此处
安装 Jellyfish 后,继续 SBAT 本身:
从 pip 安装
pip install sbat
要从源代码安装,请下载代码并在源代码树的根目录中运行以下命令:
python3 -m pip install --upgrade build
python3 -m build
pip install -e .
用法
为了对一个或多个文件执行分析,请使用命令sbat
后跟您的文件:
sbat my_file.fasta my_file2.fasta my_file3.fastq
以下命令还-o
使用参数指定输出目录并保留部分计算结果-c
。要加快 SBAT 运行时间,请使用-t T
您希望传递给应用程序的指定线程数的参数。要指定要运行分析的 k-mer 的大小,请使用参数-m START END
。如果将一个参数传递给它,则 SBAT 仅针对这个大小的 k 运行。如果传递了两个参数,应用程序会分析 [START, END] 范围内的 k-mers
sbat my_file.fasta my_file2.fasta my_file3.fastq -o output_dir -c -t 10 -m 5 8
如果要分析 Nanopore 数据集,请添加-n
以运行更具体的基于时间的分析。作为该分析的一部分,数据集分为一小时长的箱。然后对它们中的每一个进行单独分析。一个 bin 的持续时间可以通过-i H
参数设置,后跟小时数。如果您希望对数据进行二次抽样,您可以使用参数-r N
或-b N
仅获取每个 bin 的前 N 个读数或碱基。
sbat my_nanopore.fastq -o output_dir -b 500M -i 4 -n
要查看所有可能的选项,请运行:
sbat -h
项目详情
下载文件
下载适用于您平台的文件。如果您不确定要选择哪个,请了解有关安装包的更多信息。