Prime 编辑器 gRNA 设计工具
项目描述
Easy-Prime:基于梯度提升树优化的 Prime 编辑器 gRNA 设计工具
Easy-Prime 为高效 PE 设计提供优化的 pegRNA 和 ngRNA 组合。
概括
PE 设计包括仔细选择标准 sgRNA、包含所需编辑的 RT 模板、启动 RT 反应的 PBS 和切割非编辑链的 ngRNA。通常有数千种组合可用于一次不受欢迎的编辑。因此,从大量组合中选择最有可能的高效候选者是压倒性的。
Easy-Prime 应用了一种机器学习模型(即 XGboost),该模型从多个已发布的 PE 数据源中学习重要的 PE 设计特征,以帮助研究人员选择最佳候选者。
安装
安装 Easy-Prime 最简单的方法是通过 conda(版本 >=4.9)。
conda create -n genome_editing -c cheng_lab easy_prime
source activate genome_editing
easy_prime -h
easy_prime_vis -h
有关分步安装屏幕截图,请参阅https://easy-prime.readthedocs.io/en/latest/content/Installation.html 。
用法
## Make sure you have installed Easy-Prime before running the commands below
git clone https://github.com/YichaoOU/easy_prime
cd easy_prime/test
easy_prime -h
easy_prime --version
## Please update the genome_fasta in config.yaml, otherwise an error may occur!
easy_prime -c config.yaml -f test.vcf
## Will output results to a folder
Easy-Prime 还提供了一个破折号应用程序。
请在运行 dash 应用程序之前安装 dash。
git clone https://github.com/YichaoOU/easy_prime
cd easy_prime/dash_app
python application.py
AWS 上的 Easy-Prime
请使用此网址:http ://easy-prime.cc/
教程
输入
- vcf 输入示例
VCF 标头将被忽略。仅使用 vcf 文件中的前 5 列;它们是:chr、pos、name/id、ref、alt。
## comment line, will be ignored
chr9 110184636 FIG5G_HEK293T_HEK3_6XHIS G GCACCATCATCACCATCAT
chr1 185056772 FIG5E_U2OS_RNF2_1CG G C
chr1 173878832 rs5878 T C
chr11 22647331 FIG3C_FANCF_7AC_PE3B T G
chr19 10244324 EDFIG5B_DNMT1_dPAM G T
- fasta 输入示例
要指定参考和替代等位基因,您需要两个 fasta 序列;_ref是一个将被识别为参考等位基因_alt的关键字,也是一个目标突变的关键字。
>rs2251964_ref
GTTACCAAAGCAAATGACATCTTGTGAAAGGGGAGGTCTGAAAAAAAAAAACAAGTGGGTGGGTTTTTTCAAAGTAGGCCACCGGGCCTGAGATGACCAGAATTCAAATTAGGATGACAGTGTAGTAGGGGAAGCAACCAGAATCGGACCT
>rs2251964_alt
GTTACCAAAGCAAATGACATCTTGTGAAAGGGGAGGTCTGAAAAAAAAAAACAAGTGGGTGGGTTTTTTCAAAGTAGGCCACCGGGCCTGAGATAACCAGAATTCAAATTAGGATGACAGTGTAGTAGGGGAAGCAACCAGAATCGGACCT
PrimeDesign 格式输入仅在 Easy-Prime Web 服务器中受支持。
参数
基因组:目前仅支持 hg19。
结果
Web 输出包含两部分:
- pegRNA表
在此结果表中,每个预测的 sgRNA/ngRNA/RTT/PBS 配置将提供 4 行,它们将具有相同的变体 ID 和预测效率。
- 序列可视化
默认情况下,顶部预测将自动显示。
输入
包含至少 5 列的 vcf 文件。请参阅test/test.vcf示例。
搜索 PE 设计的参数
默认值显示在以下 yaml 文件中。
genome_fasta: /path/to/genome.fa
scaffold: GTTTTAGAGCTAGAAATAGCAAGTTAAAATAAGGCTAGTCCGTTATCAACTTGAAAAAGTGGCACCGAGTCGGTGC
debug: 0
n_jobs: 4
min_PBS_length: 8
max_PBS_length: 17
min_RTT_length: 10
max_RTT_length: 25
min_distance_RTT5: 3
max_ngRNA_distance: 100
max_target_to_sgRNA: 10
sgRNA_length: 20
offset: -3
PAM: NGG
输出
输出文件夹包含:
- topX_pegRNAs.csv
- rawX_pegRNAs.csv.gz
- X_p_pegRNAs.csv.gz
- 摘要.csv
中提供了最佳候选人topX_pegRNAs.csv。这是一个 rawX 格式的文件。
rawX 格式
X 表示机器学习模型的输入。这里,rawX 基本上是指机器学习特征化之前的文件。具体来说,rawX 包含 11 + 1 列。前 5 列来自输入的 vcf 文件:sample_ID、chr、pos、ref、alt,其中 sample_ID 以 结尾_candidate_xxx,这表示第 N 个组合。接下来的 6 列是基因组坐标:type、seq、chr、start、end、strand,其中type可能是 sgRNA、PBS、RTT 或 ngRNA。因为对于一个 PE 设计,它必须具有这 4 个组件,这意味着对于一个 unique sample_ID,它有 4 行来指定每个组件的序列。第 12 列是可选的,是预测效率;换句话说,机器学习的 Y。
两者都topX_pegRNAs.csv使用rawX_pegRNAs.csv.gz这种格式。
X 格式
X 格式是 rawX 的数字表示。X_p格式将预测效率附加到 X 的最后一列。
主要结果
主要结果(即最佳候选)在 中提供topX_pegRNAs.csv。
PE设计可视化
用户可以使用以下方法可视化预测的组合:
easy_prime_vis -f topX_pegRNAs.csv -s /path/to/genome_fasta.fa
这会将 pdf 文件输出到结果目录。
项目详情
easy_prime -1.2-2.tar.gz 的哈希值
| 算法 | 哈希摘要 | |
|---|---|---|
| SHA256 | f15c3076c5c9956eb1e4b379002a87f98bde85d2d20d110179d47115af31b244 |
|
| MD5 | 1c79892bc7af3c294a830096c6c920d9 |
|
| 布莱克2-256 | 924ba6a4c079b2988c1bf2d1c617b6369e0ad080c6a207b535d1ecee815fa8b9 |
easy_prime -1.2-2-py2.py3-none-any.whl 的哈希值
| 算法 | 哈希摘要 | |
|---|---|---|
| SHA256 | 65670f0932a922225d9db74ebdbe4477a3800cf3e0805d67bafa2946587833ce |
|
| MD5 | 61526368a69af49726b21ee9def7ca71 |
|
| 布莱克2-256 | 7a14b5a7d76940eb31e5e5d89e197928c74e485d28cf7dd69bdcc715478eab11 |