# 目录
1.Module 1 - Introduction to RNA sequencing
2.Module 2 - RNA-seq Alignment and Visualization
3.Module 3 - Expression and Differential Expression
4.Module 4 - Isoform Discovery and Alternative Expression
- Reference Guided Transcript Assembly
- de novo Transcript Assembly
- Transcript Assembly Merge
- Differential Splicing
- Splicing Visualization
5.Module 5 - De novo transcript reconstruction
6.Module 6 - Functional Annotation of Transcripts
# 4.1 Reference Guided Transcript Assembly
利用 Stringle 和 Ballgown 发现从头组装的转录本和差异表达
在上一个模块中,使用 Stringtie 的 '-G' 和 '-e' 选项在 'reference only' 模式下运行 Stringtie。
在本模块中,我们将以另外两种模式运行 Stringtie:“reference guided” 模式及 (2)“de novo” 模式。在已知转录本的帮助下,Stringtie 可以预测每个文库中存在的转录本。然后,Stringtie 将为每个由数据组装的转录本分配任意的转录本 id,并估计这些转录本的表达。这种方法的一个复杂之处在于,在每个库中,都可能预测出一组不同的转录本。可能有很多相似之处,但是在每个库的输出文件中,转录的数量和它们的确切结构是不同的。因此,在跨库进行比较之前,需要确定哪些转录本在跨库之间相互对应。Stringtie 提供了一个 merge 命令来组合来自不同库的预测文本 GTF 文件。
一旦有了一个合并的 GTF 文件,就可以用它来运行 Stringtie,而不是我们以前使用的已知的 transcripts GTF 文件。合并的 GTF 被用来重新计算表达估计在准备运行 Ballgown 使用合并新转录本。
To run Stringtie in 'reference guided' mode: use the '-G' option WITHOUT '-e'
To run Stringtie in 'de novo' mode do NOT specify either of the '-G' OR '-e' options.
参考 Stringtie 手册获得更详细的说明:https://ccb.jhu.edu/software/stringtie/index.shtml?t=manual
# Running Stringtie in Reference Guided Mode
使用我们在前面模块中生成的对齐,现在只使用 '-G' 选项在 reference guided 模式下运行 Stringtie。
额外选项如下
- '-p 8' tells Stringtie to use eight CPUs
- '-G ' reference annotation to use for guiding the assembly process (GTF/GFF3)
- '-l' name prefix for output transcripts (default: STRG)
- '-o' output path/file name for the assembled transcripts GTF (default: stdout)
首先,创建一个输出目录,然后以 reference guided 模式运行 stringtie。
mkdir ref_guided | |
stringtie -p 1 -G ../chr22_with_ERCC92.gtf -l HBR_Rep1 -o ref_guided/HBR_Rep1/transcripts.gtf HBR_Rep1.bam | |
所有做相同处理 |