Nanopore Direct RNA-seq 转录组组装

Development Status
- 3 - Alpha
Intended Audience
- Developers
License
- OSI Approved :: Apache Software License
Natural Language
- English
Programming Language
- Python :: 3.7
- Python :: 3.8

项目描述

拉菲

低丰度感知全长异构体簇

概述

LAFITE 被指定用于从 Nanopore Direct RNA-seq 数据中识别高度一致的全长异构体。LAFITE 结合了参考注释和 DRS 读取（TSS、TES、剪接点和读取多腺苷酸化事件）的多种特征，并且对低丰度转录本更敏感。

先决条件

安装

为避免潜在的冲突，我们建议在 conda 环境中运行 LAFITE。

conda create -n LAFITE_env -c bioconda python=3.7 bedtools
conda activate LAFITE_env
pip install git+https://github.com/TF-Chan-Lab/LAFITE

用法

运行 minimap2 和 samtools 生成 bam 格式的对齐文件

minimap2 -ax splice -u f -k 14 -G 500000 --secondary=no REFERENCE_FA FASTQ > ALIGNMENT_SAM
samtools view -bS ALIGNMENT_SAM|samtools sort - > ALIGNMENT_BAM

LAFITE 还支持其他可感知剪接的长读对齐工具。

运行 Nanopolish polya 以生成读取多聚腺苷酸化结果（可选但推荐）
当前的长读取测序技术（Nanopore cDNA/DRS 或 PacBio Iso-Seq）都旨在捕获带有 poly(A) 尾的 RNA 分子。然而，RNA 片段化和孔阻塞可能会带来相当一部分的截断读数，这会干扰下游分析。因此，LAFITE 利用 Nanopolish 报告的 read 多聚腺苷酸化状态来过滤已完成测序过程的 read。
```
nanopolish index -d PATH_TO_FAST5 -s GUPPY_SEQUENCING_SUMMARY FASTQ
nanopolish polya -t NUM_OF_THREADS -r FASTQ -b ALIGNMENT_BAM -g REFERENCE_FA > Nanopolish_PolyA_RES
```
LAFITE 还提供了一种替代方法，通过扫描存在于读取 3' 端的任何 poly(A) 基序来估计读取多腺苷酸化状态。

运行拉菲

usage: lafite [-h] -b BAM [-B BEDTOOLS] -g GTF -f GENOME -o OUTPUT
          [-n MIN_COUNT_TSS_TES] [-i MIS_INTRON_LENGTH]
          [-c MIN_NOVEL_TRANS_COUNT] [-s MIN_SINGLE_EXON_COVERAGE]
          [-l MIN_SINGLE_EXON_LEN] [-L LABEL] [-p POLYA]
          [-m POLYA_MOTIF_FILE] [-r RELATIVE_ABUNDANCE_THRESHOLD]
          [-j SHORT_SJ_TAB] [-w SJ_CORRECTION_WINDOW] [--no_full_cleanup]
          [-t THREAD] [-T TSS_PEAK] [-d TSS_CUTOFF]

Low-abundance Aware Full-length Isoform clusTEr

optional arguments:
  -h, --help            show this help message and exit
  -b BAM                path to the alignment file in bam format
  -B BEDTOOLS           path to the executable bedtools
  -g GTF                path to the reference gene annotation in GTF format
  -f GENOME             path to the reference genome fasta
  -o OUTPUT             path to the output file
  -n MIN_COUNT_TSS_TES  minimum number of reads supporting a alternative TSS or TES, default: 3
  -i MIS_INTRON_LENGTH  length cutoff for correcting unexpected small intron, default: 150
  -c MIN_NOVEL_TRANS_COUNT
                        minimum occurrences required for a isoform from novel loci, default: 3
  -s MIN_SINGLE_EXON_COVERAGE
                        minimum read coverage required for a novel single-exon transcript, default: 4
  -l MIN_SINGLE_EXON_LEN
                        minimum length for single-exon transcript, default: 100
  -L LABEL              name prefix for output transcripts, default: LAFT
  -p POLYA              path to the file contains read Polyadenylation event
  -m POLYA_MOTIF_FILE   path to the polya motif file
  -r RELATIVE_ABUNDANCE_THRESHOLD
                        minimum abundance of the predicted multi-exon transcripts as a fraction of the
						total transcript assembled at a given locus, default: 0.01
  -j SHORT_SJ_TAB       path to the short read splice junction file
  -w SJ_CORRECTION_WINDOW
                        edit distance to reference splicing site for splicing correction, default: 40
  --no_full_cleanup     keep all intermediate files
  -t THREAD             number of the threads, default: 4
  -T TSS_PEAK           path to the TSS peak file
  -d TSS_CUTOFF         minimum TSS distance for a transcript to be considered as a novel transcript

LAFITE 可以使用以下参数运行：

lafite -b ALIGNMENT_BAM -g REFERENCE_GTF -f REFERENCE_FA -o OUTPUT_GTF -t NUM_OF_THREADS -p Nanopolish_PolyA_RES

LAFITE 也可以在没有nanoplish polya的结果的情况下运行。然后，必须为相应的物种提供 Poly(A) 基序列表。
我们提供了从Tian等人检索到的人和小鼠的 Poly(A) 基序列表。.
```
lafite -b ALIGNMENT_BAM -g REFERENCE_GTF -f REFERENCE_FA -o OUTPUT_GTF -t NUM_OF_THREADS -m POLYA_MOTIFS_OF_SPECIES
```
LAFITE 接受来自 5' 端 CAGE 数据的 TSS 峰，以识别高置信度 TSS。用户可以按以下格式准备 TSS 数据，其中：
- 第一列是染色体名称
- 第二列是 TSS 峰值从 0 开始的起始位置
- 第三列是 TSS 峰从 1 开始的结束位置
- 第四列是股线信息
LAFITE 还接受来自 Illumina 短读长 RNA-seq 数据的剪接点来证明长读长。LAFITE 支持来自 STAR aligner 的 SJ.out.tab。用户还可以按以下格式准备拼接点，其中：
- 第一列是染色体名称
- 第二列是拼接点从0开始的起始位置
- 第三列是从 1 开始的拼接点末端位置
- 第四列是股线信息

发展

LAFITE 是按照fastai/nbdev框架开发的。

项目详情

发展状况
- 3 - 阿尔法
目标听众
- 开发者
执照
- OSI 批准 :: Apache 软件许可证
自然语言
- 英语
编程语言
- Python :: 3.7
- Python :: 3.8

发布历史发布通知| RSS订阅

这个版本

1.0.1

2022 年 6 月 3 日

下载文件

下载适用于您平台的文件。如果您不确定要选择哪个，请了解有关安装包的更多信息。

源分布

LAFITE-1.0.1.tar.gz （29.3 kB 查看哈希）

已上传 2022 年 6 月 3 日 source

内置分布

LAFITE-1.0.1-py3-none-any.whl （28.8 kB 查看哈希）

已上传 2022 年 6 月 3 日 py3

LAFITE -1.0.1.tar.gz 的哈希值

LAFITE-1.0.1.tar.gz 的哈希值
算法	哈希摘要
SHA256	`5f241fcfac7961bca2fe80ca955c2d9c6c08b4133f6b46106790be818b29f584`
MD5	`27339fecd2c7bad5471e1f0811e79c96`
布莱克2-256	`88f504984a4e9b7032f8f82d7a736f6980fe145f4121e917b0247e0e9165a048`

LAFITE -1.0.1-py3-none-any.whl 的哈希值

LAFITE-1.0.1-py3-none-any.whl 的哈希值
算法	哈希摘要
SHA256	`c359bb48338e39797f5a995d706ec21b7eee12c4f41f09b15febaf1c9831f974`
MD5	`73835426583fae59c61c703ce2023928`
布莱克2-256	`b5761ff3cae1b51ede47e46cab93be669101e439e9738219e34a5f5281a7a8b2`

LAFITE 1.0.1

导航

项目链接

统计数据

Meta

Maintainers

分类

项目描述

拉菲

概述

先决条件

安装

用法

发展

项目详情

项目链接

统计数据

元

维护者

分类器

发布历史发布通知| RSS订阅

下载文件

源分布

内置分布

LAFITE 1.0.1

导航

项目链接

统计数据

Meta

Maintainers

分类

项目描述

拉菲

概述

先决条件

安装

用法

发展

项目详情

项目链接

统计数据

元

维护者

分类器

发布历史 发布通知| RSS订阅

下载文件

源分布

内置分布

发布历史发布通知| RSS订阅