Skip to main content

令人愉快的pythonic谱系操作

项目描述

快速谱系::VCF QC

peddy 将PED/FAM 文件中报告的家庭关系和性别 与从 VCF 推断的那些进行比较。

它在大约 25000 个站点(加上 chrX)对 VCF 进行采样,以准确估计相关性、IBS0杂合性性别祖先。它使用 250.4 万个基因组样本作为背景来校准相关性计算并进行祖先预测。

它通过采样、对计算密集型部分使用 C 以及并行化来非常快速地完成此操作。

如果您使用 peddy,请引用Pedersen 和 Quinlan,Who's Who?使用 Peddy 检测和解决人类 DNA 测序研究中的样本异常,《美国人类遗传学杂志》(2017 年),http://dx.doi.org/10.1016/j.ajhg.2017.01.017

Anaconda 服务器徽章 PyPI 版本 文件状态

请注意,somalier是 peddy 的更可扩展、更快的替代品,它使用一些与 peddy 相同的方法以及一些新方法。

快速开始

请参阅下面的安装。

大多数用户只需要作为带有 ped 和 VCF 的命令行工具运行,例如:

python -m peddy -p 4 --plot --prefix ceph-1463 data/ceph1463.peddy.vcf.gz data/ceph1463.ped

这将使用 4 个 CPU 来运行各种检查并创建ceph-1463.html,您可以在任何浏览器中打开它以交互式地探索您的数据。

它还将创建 4 个 csv 文件和 4 个 QC 图。这些将表明:

  • ped报告的和基因型推断的关系之间的差异
  • ped报告的性别和基因型推断的性别之间的差异
  • 对于 het 调用,具有更高水平的 HET 调用、更低的深度或 b 等位基因频率 (ref / (ref + alt)) 变化更大的样本。
  • 基于投影到一千个基因组主成分上的祖先预测

最后,它将创建一个新文件 ped files ,其中还列出了和ceph1463.peddy.ped中最有用的列。用户可以首先查看这个扩展的 ped 文件,以了解可能存在的问题het-checksex-check

有关每个情节的演练和详尽解释,请参阅文档

hg38 或自定义站点

默认情况下,peddy 使用 hg19/GRCh37。它可以通过传递来强制使用 hg38 的站点--sites hg38。要创建自定义站点,请查看peddy 附带的站点文件以及相应的 .bin.gz,它只是来自已编写为 uint8 和 gzip 压缩的千个基因组的原始二进制替代计数 (gt_types)。

速度

由于采样方式和并行化,peddy速度非常快。使用 4 个 CPU,在 17 个成员CEPH1643谱系全基因组 VCF 上,peddy 可以在约 8 秒内运行 het-check 和 PCA。比较所有样本与所有样本的谱系检查在 3.6 秒内运行。它在大约 20 秒内完成全套检查。

相比之下, KING运行时间为 14 秒(非常快);包括从 VCF 到二进制 ped 的转换在内的时间是 85 秒。

在具有数百或数千个样本的较大数据集上,添加尽可能多的核心可能是有益的;对于具有数十个样本的较小数据集,大约 4 个处理器可以减少 8 个或更多的计算时间。

验证

peddy 和 KING 之间的结果具有可比性,但 peddy 在大多数样本相关的群组上表现更好。请参见下图,其中 peddy 相关性估计比 KING 更接近实际,而 KING 高估了相关性。

佩迪VS国王

Peddy 使用 KING 算法计算相关性,因此它们匹配得很好。Peddy 还对来自 1000 个基因组的 2504 个样本运行 PCA,然后拟合 SVM 并预测祖先,此外还计算 17 个样本的所有成对组合之间的相关性。

警告和检查

在创建谱系对象时(通过 Ped('some.ped').peddy将酌情向 STDERR 打印警告,例如:

pedigree warning: '101811-101811' is dad but has female sex
pedigree warning: '101897-101897' is dad but has female sex
pedigree warning: '101896-101896' is mom of self
pedigree warning: '102110-102110' is mom but has male sex
pedigree warning: '102110-102110' is mom of self
pedigree warning: '101381-101381' is dad but has female sex
pedigree warning: '101393-101393' is mom but has male sex

unknown sample: 102498-102498 in family: K34175
unknown sample: 11509-11509 in family: K567331
unknown sample: 5180-5180 in family: K8565

安装

康达

几乎所有用户都应该在 anaconda python 发行版中使用 conda 进行安装。这意味着可以通过以下方式轻松安装您自己的 python 版本:

INSTALL_PATH=~/anaconda
wget http://repo.continuum.io/miniconda/Miniconda2-latest-Linux-x86_64.sh
# or wget http://repo.continuum.io/miniconda/Miniconda2-latest-MacOSX-x86_64.sh
bash Miniconda2-latest* -fbp $INSTALL_PATH
PATH=$INSTALL_PATH/bin:$PATH

conda update -y conda
conda config --add channels bioconda

conda install -y peddy

这应该安装所有依赖项,以便您可以使用 4 个进程运行 peddy,如下所示:

python -m peddy --plot -p 4 --prefix mystudy $VCF $PED

Github

git clone https://github.com/brentp/peddy
cd peddy
pip install -r requirements.txt
pip install --editable .

运行

peddy --plot -p 4 --prefix mystudy $VCF $PED

项目详情


下载文件

下载适用于您平台的文件。如果您不确定要选择哪个,请了解有关安装包的更多信息。

源分布

peddy-0.4.8.tar.gz (12.2 MB 查看哈希)

已上传 source