ChIP-R 是一种评估重复 ChIP-seq 类型实验的重现性的方法。它结合了秩积方法、一种新颖的阈值方法,并使用峰碎片返回最可重现的峰。
项目描述
ChIP-R(“削片机”)
ChIP-R 使用等级乘积统计量的调整来评估 ChIP-seq 峰的重现性,方法是结合来自多个 ChIP-seq 复制的信息和“分段”峰位置,以更好地结合复制中存在的信息。
安装
- Python3.x包含以下包:
- 麻木的
- 西皮
要安装 ChIP-R:
pip install ChIP-R
或者,如果您想从源代码安装:
git clone https://github.com/rhysnewell/ChIP-R.git
cd ChIP-R
python3 setup.py install
用法
ChIP-R 只需要一个输入类型:一组任意数量的 BED 文件区域。通常是来自 ChIP-seq 峰值调用转录因子或组蛋白标记样本的峰值调用输出。或者,ChIP-R 也可用于 ATAC-seq 峰,以在 ATAC-seq 实验中检索可重现的峰。
输入
输入 BED 文件必须遵循 ENCODE narrowPeak 或 broadPeak 格式规范。通常,此格式是 MACS2 等峰值调用者的默认格式。
峰值呼叫
ChIP-R 与任何峰调用者的输出峰兼容,只要输出采用正确的窄峰或宽峰格式。此外,在使用您选择的峰值调用者时,无需按照 IDR 的建议调用具有宽松阈值的峰值。
参数
ChIP-R 对用户需要选择的参数相当了解。用户可能想要使用的几个选项是
minentries
和size
。
minentries
确定开始将峰称为“可重现”所需的峰重叠数。默认值 2 通常在我们的基准测试中提供最佳结果,但可能存在用户需要 ChIP-R 在更严格的窗口内调用峰的情况。
size
确定峰值输出期间的最小峰值大小。转录因子通常需要更多的点状峰,因此默认值 20 可能就足够了。但是,组蛋白标记可能需要为此设置更大的值,具体取决于您期望组蛋白标记的宽度。通常,如果您发现 ChIP-R 产生了太多小的噪声峰,则可以增加此值以将它们过滤掉。
例子
$ chipr -i sample1.bed sample2.bed sample3.bed sample4.bed -m 2 -o output_prefix
在命令行中,输入“chipr -h”以了解详细用法。
$ chipr -h
usage: chipr [-h] -i INPUT [INPUT ...] [-o OUTPUT] [-m MINENTRIES]
[--rankmethod RANKMETHOD] [--duphandling DUPHANDLING]
[--seed RANDOM_SEED] [-a ALPHA]
Combine multiple ChIP-seq files and return a union of all peak locations and a
set confident, reproducible peaks as determined by rank product analysis
optional arguments:
-h, --help show this help message and exit
-i INPUT [INPUT ...], --input INPUT [INPUT ...]
ChIP-seq input files. These files must be in either
narrowPeak, broadPeak, or regionPeak format. Multiple
inputs are separeted by a single space
-o OUTPUT, --output OUTPUT
ChIP-seq output filename prefix
-m MINENTRIES, --minentries MINENTRIES
The minimum peaks between replicates required to form
an intersection of the peaks Default: 1
--rankmethod RANKMETHOD
The ranking method used to rank peaks within
replicates. Options: 'signalvalue', 'pvalue',
'qvalue'. Default: pvalue
--duphandling DUPHANDLING
Specifies how to handle entries that are ranked
equally within a replicate Can either take the
'average' ranks or a 'random' rearrangement of the
ordinal ranks Options: 'average', 'random' Default:
'average'
--seed RANDOM_SEED Specify a seed to be used in conjunction with the
'random' option for -duphandling Must be between 0 and
1 Default: 0.5
-a ALPHA, --alpha ALPHA
Alpha specifies the user cut-off value for set of
reproducible peaks The analysis will still produce
results including peaks within the threshold
calculated using the binomial method Default: 0.05
-s SIZE, --size SIZE Sets the default minimum peak size when peaks are
reconnected after fragmentation. Usually the minimum
peak size is determined by the size of surrounding
peaks, but in the case that there are no surrounding
peaks this value will be used Default: 20
输出
重要的结果文件:
- prefixname_ALL.bed:所有相交的峰,从最重要到最不重要(10 列)
- prefixname_T2.bed:第 2 层相交峰,落在二项式阈值内的峰(10 列)
- prefixname_T1.bed:第 1 层相交的峰,落在用户定义的阈值内的峰(10 列)
- prefixname_log.txt:包含每层出现的峰值数量的日志。
prefixname.bed 文件有 10 列。输出遵循床文件的标准峰格式,并添加了第 10 列,指定产生此可能峰的峰的等级。请参阅下面的玩具示例。
chr | 开始 | 结尾 | 姓名 | 分数 | 股 | 信号值 | p 值 | q值 |
---|---|---|---|---|---|---|---|---|
chr1 | 9118 | 10409 | T3_peak_87823 | 491 | . | 15.000000 | 0.113938 | 0.712353 |
引文
bioarxiv 上提供预印本 https://www.biorxiv.org/content/10.1101/2020.11.24.396960v1
接触
作者:Rhys Newell、Michael Piper、Mikael Boden、Alexandra Essebier
联系方式:rhys.newell(AT)hdr.qut.edu.au
项目详情
下载文件
下载适用于您平台的文件。如果您不确定要选择哪个,请了解有关安装包的更多信息。