Skip to main content

Prime 编辑器 gRNA 设计工具

项目描述

版本 Python 版本 平台

Easy-Prime:基于梯度提升树优化的 Prime 编辑器 gRNA 设计工具

Easy-Prime 为高效 PE 设计提供优化的 pegRNA 和 ngRNA 组合。

概括

PE 设计包括仔细选择标准 sgRNA、包含所需编辑的 RT 模板、启动 RT 反应的 PBS 和切割非编辑链的 ngRNA。通常有数千种组合可用于一次不受欢迎的编辑。因此,从大量组合中选择最有可能的高效候选者是压倒性的。

Easy-Prime 应用了一种机器学习模型(即 XGboost),该模型从多个已发布的 PE 数据源中学习重要的 PE 设计特征,以帮助研究人员选择最佳候选者。

安装

安装 Easy-Prime 最简单的方法是通过 conda(版本 >=4.9)。


conda create -n genome_editing -c cheng_lab easy_prime

source activate genome_editing

easy_prime -h

easy_prime_vis -h

有关分步安装屏幕截图,请参阅https://easy-prime.readthedocs.io/en/latest/content/Installation.html 。

用法


## Make sure you have installed Easy-Prime before running the commands below

git clone https://github.com/YichaoOU/easy_prime

cd easy_prime/test

easy_prime -h

easy_prime --version

## Please update the genome_fasta in config.yaml, otherwise an error may occur!

easy_prime -c config.yaml -f test.vcf

## Will output results to a folder

Easy-Prime 还提供了一个破折号应用程序。

请在运行 dash 应用程序之前安装 dash。


git clone https://github.com/YichaoOU/easy_prime

cd easy_prime/dash_app

python application.py

截屏

AWS 上的 Easy-Prime

请使用此网址:http ://easy-prime.cc/

教程

输入

  1. vcf 输入示例

VCF 标头将被忽略。仅使用 vcf 文件中的前 5 列;它们是:chr、pos、name/id、ref、alt。

## comment line, will be ignored
chr9	110184636	FIG5G_HEK293T_HEK3_6XHIS	G	GCACCATCATCACCATCAT
chr1	185056772	FIG5E_U2OS_RNF2_1CG	G	C
chr1	173878832	rs5878	T	C
chr11	22647331	FIG3C_FANCF_7AC_PE3B	T	G
chr19	10244324	EDFIG5B_DNMT1_dPAM	G	T

  1. fasta 输入示例

要指定参考和替代等位基因,您需要两个 fasta 序列;_ref是一个将被识别为参考等位基因_alt的关键字,也是一个目标突变的关键字。

>rs2251964_ref
GTTACCAAAGCAAATGACATCTTGTGAAAGGGGAGGTCTGAAAAAAAAAAACAAGTGGGTGGGTTTTTTCAAAGTAGGCCACCGGGCCTGAGATGACCAGAATTCAAATTAGGATGACAGTGTAGTAGGGGAAGCAACCAGAATCGGACCT
>rs2251964_alt
GTTACCAAAGCAAATGACATCTTGTGAAAGGGGAGGTCTGAAAAAAAAAAACAAGTGGGTGGGTTTTTTCAAAGTAGGCCACCGGGCCTGAGATAACCAGAATTCAAATTAGGATGACAGTGTAGTAGGGGAAGCAACCAGAATCGGACCT

PrimeDesign 格式输入仅在 Easy-Prime Web 服务器中受支持。

参数

基因组:目前仅支持 hg19。

结果

Web 输出包含两部分:

  1. pegRNA表

在此结果表中,每个预测的 sgRNA/ngRNA/RTT/PBS 配置将提供 4 行,它们将具有相同的变体 ID 和预测效率。

  1. 序列可视化

默认情况下,顶部预测将自动显示。

输入

包含至少 5 列的 vcf 文件。请参阅test/test.vcf示例。

搜索 PE 设计的参数

默认值显示在以下 yaml 文件中。

genome_fasta: /path/to/genome.fa
scaffold: GTTTTAGAGCTAGAAATAGCAAGTTAAAATAAGGCTAGTCCGTTATCAACTTGAAAAAGTGGCACCGAGTCGGTGC
debug: 0
n_jobs: 4
min_PBS_length: 8
max_PBS_length: 17
min_RTT_length: 10
max_RTT_length: 25
min_distance_RTT5: 3
max_ngRNA_distance: 100
max_target_to_sgRNA: 10
sgRNA_length: 20
offset: -3
PAM: NGG

输出

输出文件夹包含:

  • topX_pegRNAs.csv
  • rawX_pegRNAs.csv.gz
  • X_p_pegRNAs.csv.gz
  • 摘要.csv

中提供了最佳候选人topX_pegRNAs.csv。这是一个 rawX 格式的文件。

rawX 格式

X 表示机器学习模型的输入。这里,rawX 基本上是指机器学习特征化之前的文件。具体来说,rawX 包含 11 + 1 列。前 5 列来自输入的 vcf 文件:sample_ID、chr、pos、ref、alt,其中 sample_ID 以 结尾_candidate_xxx,这表示第 N 个组合。接下来的 6 列是基因组坐标:type、seq、chr、start、end、strand,其中type可能是 sgRNA、PBS、RTT 或 ngRNA。因为对于一个 PE 设计,它必须具有这 4 个组件,这意味着对于一个 unique sample_ID,它有 4 行来指定每个组件的序列。第 12 列是可选的,是预测效率;换句话说,机器学习的 Y。

两者都topX_pegRNAs.csv使用rawX_pegRNAs.csv.gz这种格式。

X 格式

X 格式是 rawX 的数字表示。X_p格式将预测效率附加到 X 的最后一列。

主要结果

主要结果(即最佳候选)在 中提供topX_pegRNAs.csv

PE设计可视化

用户可以使用以下方法可视化预测的组合:

easy_prime_vis -f topX_pegRNAs.csv -s /path/to/genome_fasta.fa

这会将 pdf 文件输出到结果目录。

项目详情


下载文件

下载适用于您平台的文件。如果您不确定要选择哪个,请了解有关安装包的更多信息。

源分布

easy_prime-1.2-2.tar.gz (1.1 MB 查看哈希

已上传 source

内置分布

easy_prime-1.2-2-py2.py3-none-any.whl (1.2 MB 查看哈希

已上传 py2 py3