Nanopore Direct RNA-seq 转录组组装
项目描述
拉菲
低丰度感知全长异构体簇
概述
LAFITE 被指定用于从 Nanopore Direct RNA-seq 数据中识别高度一致的全长异构体。LAFITE 结合了参考注释和 DRS 读取(TSS、TES、剪接点和读取多腺苷酸化事件)的多种特征,并且对低丰度转录本更敏感。
先决条件
安装
为避免潜在的冲突,我们建议在 conda 环境中运行 LAFITE。
conda create -n LAFITE_env -c bioconda python=3.7 bedtools
conda activate LAFITE_env
pip install git+https://github.com/TF-Chan-Lab/LAFITE
用法
-
运行 minimap2 和 samtools 生成 bam 格式的对齐文件
minimap2 -ax splice -u f -k 14 -G 500000 --secondary=no REFERENCE_FA FASTQ > ALIGNMENT_SAM samtools view -bS ALIGNMENT_SAM|samtools sort - > ALIGNMENT_BAMLAFITE 还支持其他可感知剪接的长读对齐工具。
-
运行 Nanopolish polya 以生成读取多聚腺苷酸化结果(可选但推荐)
当前的长读取测序技术(Nanopore cDNA/DRS 或 PacBio Iso-Seq)都旨在捕获带有 poly(A) 尾的 RNA 分子。然而,RNA 片段化和孔阻塞可能会带来相当一部分的截断读数,这会干扰下游分析。因此,LAFITE 利用 Nanopolish 报告的 read 多聚腺苷酸化状态来过滤已完成测序过程的 read。nanopolish index -d PATH_TO_FAST5 -s GUPPY_SEQUENCING_SUMMARY FASTQ nanopolish polya -t NUM_OF_THREADS -r FASTQ -b ALIGNMENT_BAM -g REFERENCE_FA > Nanopolish_PolyA_RESLAFITE 还提供了一种替代方法,通过扫描存在于读取 3' 端的任何 poly(A) 基序来估计读取多腺苷酸化状态。
-
运行拉菲
usage: lafite [-h] -b BAM [-B BEDTOOLS] -g GTF -f GENOME -o OUTPUT [-n MIN_COUNT_TSS_TES] [-i MIS_INTRON_LENGTH] [-c MIN_NOVEL_TRANS_COUNT] [-s MIN_SINGLE_EXON_COVERAGE] [-l MIN_SINGLE_EXON_LEN] [-L LABEL] [-p POLYA] [-m POLYA_MOTIF_FILE] [-r RELATIVE_ABUNDANCE_THRESHOLD] [-j SHORT_SJ_TAB] [-w SJ_CORRECTION_WINDOW] [--no_full_cleanup] [-t THREAD] [-T TSS_PEAK] [-d TSS_CUTOFF] Low-abundance Aware Full-length Isoform clusTEr optional arguments: -h, --help show this help message and exit -b BAM path to the alignment file in bam format -B BEDTOOLS path to the executable bedtools -g GTF path to the reference gene annotation in GTF format -f GENOME path to the reference genome fasta -o OUTPUT path to the output file -n MIN_COUNT_TSS_TES minimum number of reads supporting a alternative TSS or TES, default: 3 -i MIS_INTRON_LENGTH length cutoff for correcting unexpected small intron, default: 150 -c MIN_NOVEL_TRANS_COUNT minimum occurrences required for a isoform from novel loci, default: 3 -s MIN_SINGLE_EXON_COVERAGE minimum read coverage required for a novel single-exon transcript, default: 4 -l MIN_SINGLE_EXON_LEN minimum length for single-exon transcript, default: 100 -L LABEL name prefix for output transcripts, default: LAFT -p POLYA path to the file contains read Polyadenylation event -m POLYA_MOTIF_FILE path to the polya motif file -r RELATIVE_ABUNDANCE_THRESHOLD minimum abundance of the predicted multi-exon transcripts as a fraction of the total transcript assembled at a given locus, default: 0.01 -j SHORT_SJ_TAB path to the short read splice junction file -w SJ_CORRECTION_WINDOW edit distance to reference splicing site for splicing correction, default: 40 --no_full_cleanup keep all intermediate files -t THREAD number of the threads, default: 4 -T TSS_PEAK path to the TSS peak file -d TSS_CUTOFF minimum TSS distance for a transcript to be considered as a novel transcript
-
LAFITE 可以使用以下参数运行:
lafite -b ALIGNMENT_BAM -g REFERENCE_GTF -f REFERENCE_FA -o OUTPUT_GTF -t NUM_OF_THREADS -p Nanopolish_PolyA_RES -
LAFITE 也可以在没有nanoplish polya的结果的情况下运行。然后,必须为相应的物种提供 Poly(A) 基序列表。
我们提供了从Tian等人检索到的人和小鼠的 Poly(A) 基序列表。.lafite -b ALIGNMENT_BAM -g REFERENCE_GTF -f REFERENCE_FA -o OUTPUT_GTF -t NUM_OF_THREADS -m POLYA_MOTIFS_OF_SPECIES -
LAFITE 接受来自 5' 端 CAGE 数据的 TSS 峰,以识别高置信度 TSS。用户可以按以下格式准备 TSS 数据,其中:
- 第一列是染色体名称
- 第二列是 TSS 峰值从 0 开始的起始位置
- 第三列是 TSS 峰从 1 开始的结束位置
- 第四列是股线信息
-
LAFITE 还接受来自 Illumina 短读长 RNA-seq 数据的剪接点来证明长读长。LAFITE 支持来自 STAR aligner 的 SJ.out.tab。用户还可以按以下格式准备拼接点,其中:
- 第一列是染色体名称
- 第二列是拼接点从0开始的起始位置
- 第三列是从 1 开始的拼接点末端位置
- 第四列是股线信息
发展
LAFITE 是按照fastai/nbdev框架开发的。
项目详情
下载文件
下载适用于您平台的文件。如果您不确定要选择哪个,请了解有关安装包的更多信息。