Skip to main content

Nanopore Direct RNA-seq 转录组组装

项目描述

拉菲

低丰度感知全长异构体簇

概述

LAFITE 被指定用于从 Nanopore Direct RNA-seq 数据中识别高度一致的全长异构体。LAFITE 结合了参考注释和 DRS 读取(TSS、TES、剪接点和读取多腺苷酸化事件)的多种特征,并且对低丰度转录本更敏感。

先决条件

安装

为避免潜在的冲突,我们建议在 conda 环境中运行 LAFITE。

conda create -n LAFITE_env -c bioconda python=3.7 bedtools
conda activate LAFITE_env
pip install git+https://github.com/TF-Chan-Lab/LAFITE

用法

  1. 运行 minimap2 和 samtools 生成 bam 格式的对齐文件

    minimap2 -ax splice -u f -k 14 -G 500000 --secondary=no REFERENCE_FA FASTQ > ALIGNMENT_SAM
    samtools view -bS ALIGNMENT_SAM|samtools sort - > ALIGNMENT_BAM
    

    LAFITE 还支持其他可感知剪接的长读对齐工具。

  2. 运行 Nanopolish polya 以生成读取多聚腺苷酸化结果(可选但推荐)
    当前的长读取测序技术(Nanopore cDNA/DRS 或 PacBio Iso-Seq)都旨在捕获带有 poly(A) 尾的 RNA 分子。然而,RNA 片段化和孔阻塞可能会带来相当一部分的截断读数,这会干扰下游分析。因此,LAFITE 利用 Nanopolish 报告的 read 多聚腺苷酸化状态来过滤已完成测序过程的 read。

    nanopolish index -d PATH_TO_FAST5 -s GUPPY_SEQUENCING_SUMMARY FASTQ
    nanopolish polya -t NUM_OF_THREADS -r FASTQ -b ALIGNMENT_BAM -g REFERENCE_FA > Nanopolish_PolyA_RES
    

    LAFITE 还提供了一种替代方法,通过扫描存在于读取 3' 端的任何 poly(A) 基序来估计读取多腺苷酸化状态。

  3. 运行拉菲

    usage: lafite [-h] -b BAM [-B BEDTOOLS] -g GTF -f GENOME -o OUTPUT
              [-n MIN_COUNT_TSS_TES] [-i MIS_INTRON_LENGTH]
              [-c MIN_NOVEL_TRANS_COUNT] [-s MIN_SINGLE_EXON_COVERAGE]
              [-l MIN_SINGLE_EXON_LEN] [-L LABEL] [-p POLYA]
              [-m POLYA_MOTIF_FILE] [-r RELATIVE_ABUNDANCE_THRESHOLD]
              [-j SHORT_SJ_TAB] [-w SJ_CORRECTION_WINDOW] [--no_full_cleanup]
              [-t THREAD] [-T TSS_PEAK] [-d TSS_CUTOFF]
    
    Low-abundance Aware Full-length Isoform clusTEr
    
    optional arguments:
      -h, --help            show this help message and exit
      -b BAM                path to the alignment file in bam format
      -B BEDTOOLS           path to the executable bedtools
      -g GTF                path to the reference gene annotation in GTF format
      -f GENOME             path to the reference genome fasta
      -o OUTPUT             path to the output file
      -n MIN_COUNT_TSS_TES  minimum number of reads supporting a alternative TSS or TES, default: 3
      -i MIS_INTRON_LENGTH  length cutoff for correcting unexpected small intron, default: 150
      -c MIN_NOVEL_TRANS_COUNT
                            minimum occurrences required for a isoform from novel loci, default: 3
      -s MIN_SINGLE_EXON_COVERAGE
                            minimum read coverage required for a novel single-exon transcript, default: 4
      -l MIN_SINGLE_EXON_LEN
                            minimum length for single-exon transcript, default: 100
      -L LABEL              name prefix for output transcripts, default: LAFT
      -p POLYA              path to the file contains read Polyadenylation event
      -m POLYA_MOTIF_FILE   path to the polya motif file
      -r RELATIVE_ABUNDANCE_THRESHOLD
                            minimum abundance of the predicted multi-exon transcripts as a fraction of the
    						total transcript assembled at a given locus, default: 0.01
      -j SHORT_SJ_TAB       path to the short read splice junction file
      -w SJ_CORRECTION_WINDOW
                            edit distance to reference splicing site for splicing correction, default: 40
      --no_full_cleanup     keep all intermediate files
      -t THREAD             number of the threads, default: 4
      -T TSS_PEAK           path to the TSS peak file
      -d TSS_CUTOFF         minimum TSS distance for a transcript to be considered as a novel transcript
    
  • LAFITE 可以使用以下参数运行:

    lafite -b ALIGNMENT_BAM -g REFERENCE_GTF -f REFERENCE_FA -o OUTPUT_GTF -t NUM_OF_THREADS -p Nanopolish_PolyA_RES
    
  • LAFITE 也可以在没有nanoplish polya的结果的情况下运行。然后,必须为相应的物种提供 Poly(A) 基序列表。
    我们提供了从Tian等人检索到的人和小鼠的 Poly(A) 基序列表。.

    lafite -b ALIGNMENT_BAM -g REFERENCE_GTF -f REFERENCE_FA -o OUTPUT_GTF -t NUM_OF_THREADS -m POLYA_MOTIFS_OF_SPECIES
    
  • LAFITE 接受来自 5' 端 CAGE 数据的 TSS 峰,以识别高置信度 TSS。用户可以按以下格式准备 TSS 数据,其中:

    • 第一列是染色体名称
    • 第二列是 TSS 峰值从 0 开始的起始位置
    • 第三列是 TSS 峰从 1 开始的结束位置
    • 第四列是股线信息
  • LAFITE 还接受来自 Illumina 短读长 RNA-seq 数据的剪接点来证明长读长。LAFITE 支持来自 STAR aligner 的 SJ.out.tab。用户还可以按以下格式准备拼接点,其中:

    • 第一列是染色体名称
    • 第二列是拼接点从0开始的起始位置
    • 第三列是从 1 开始的拼接点末端位置
    • 第四列是股线信息

发展

LAFITE 是按照fastai/nbdev框架开发的。

项目详情


下载文件

下载适用于您平台的文件。如果您不确定要选择哪个,请了解有关安装包的更多信息。

源分布

LAFITE-1.0.1.tar.gz (29.3 kB 查看哈希

已上传 source

内置分布

LAFITE-1.0.1-py3-none-any.whl (28.8 kB 查看哈希

已上传 py3