Skip to main content

NGS数据链偏差分析工具

项目描述

链偏差分析工具

概述

SBAT 是一个 Python 命令行工具,用于检测链偏差。链偏差是一种情况,即来自一条 DNA 链的信息与来自另一条链的信息相比过多。它是下一代测序数据中出现的一种偏倚类型。如果偏差很大,链偏差可能会导致对从测序数据中获得的结果进行错误评估。该工具提供了一种针对链偏差验证数据质量的方法。可以在 [此处] 找到更多关于链偏向和该工具开发的信息(公开后的学士论文路径)。

该工具使用Jellyfish k-mer 计数工具对 NGS 数据中的 k-mers 进行计数,并比较 k-mers 及其互补序列的频率,从而对链偏差结果进行统计和可视化分析。

安装

首先,必须安装Jellyfish 。

在 Debian 和 Ubuntu 上apt

sudo apt update
sudo apt install jellyfish

在 MacOS 上brew

brew install jellyfish

在 Arch 上,它可以从AUR获得。

在 Windows 上,最好的选择是使用 WSL。对于其他操作系统或从源代码安装,请参见此处

安装 Jellyfish 后,继续 SBAT 本身:

从 pip 安装

pip install sbat

要从源代码安装,请下载代码并在源代码树的根目录中运行以下命令:

python3 -m pip install --upgrade build
python3 -m build
pip install -e .

用法

为了对一个或多个文件执行分析,请使用命令sbat后跟您的文件:

sbat my_file.fasta my_file2.fasta my_file3.fastq

以下命令还-o使用参数指定输出目录并保留部分计算结果-c。要加快 SBAT 运行时间,请使用-t T您希望传递给应用程序的指定线程数的参数。要指定要运行分析的 k-mer 的大小,请使用参数-m START END。如果将一个参数传递给它,则 SBAT 仅针对这个大小的 k 运行。如果传递了两个参数,应用程序会分析 [START, END] 范围内的 k-mers

sbat my_file.fasta my_file2.fasta my_file3.fastq -o output_dir -c -t 10 -m 5 8

如果要分析 Nanopore 数据集,请添加-n以运行更具体的基于时间的分析。作为该分析的一部分,数据集分为一小时长的箱。然后对它们中的每一个进行单独分析。一个 bin 的持续时间可以通过-i H参数设置,后跟小时数。如果您希望对数据进行二次抽样,您可以使用参数-r N-b N仅获取每个 bin 的前 N ​​个读数或碱基。

sbat my_nanopore.fastq -o output_dir -b 500M -i 4 -n

要查看所有可能的选项,请运行:

sbat -h

项目详情


下载文件

下载适用于您平台的文件。如果您不确定要选择哪个,请了解有关安装包的更多信息。

源分布

sbat-0.0.7.ta​​r.gz (16.4 kB 查看哈希

已上传 source

内置分布

sbat-0.0.7-py3-none-any.whl (16.3 kB 查看哈希

已上传 py3