# 目录
1.Module 1 - Introduction to RNA sequencing
2.Module 2 - RNA-seq Alignment and Visualization
3.Module 3 - Expression and Differential Expression
4.Module 4 - Isoform Discovery and Alternative Expression
- Reference Guided Transcript Assembly
- de novo Transcript Assembly
- Transcript Assembly Merge
- Differential Splicing
- Splicing Visualization
5.Module 5 - De novo transcript reconstruction
6.Module 6 - Functional Annotation of Transcripts
# 4.5 Transcript Assembly Visualization (Splicing Visualization)
# Visualizing Results at the Command Line
从 “de_novo” 模式查看合并后的 GTF 文件。请记住,这个合并的 GTF 文件结合了 UHR 和 HBR (每个单独的 GTF 也在前面生成)。
cd denovo | |
head stringtie_merged.gtf |
有关该文件格式的细节,请查阅以下链接
- https://ccb.jhu.edu/software/stringtie/gff.shtml#gffcompare
- http://cole-trapnell-lab.github.io/cufflinks/cuffmerge/index.html
- http://cole-trapnell-lab.github.io/cufflinks/cuffcompare/index.html#transfrag-class-codes
在 “de_novo” 结果中,有多少基因至少有一个由 StringTie 组装的转录本?
cat stringtie_merged.gtf | perl -ne 'if ($_ =~ /gene_id\s+\"(\S+)\"\;/){print "$1\n"}' | sort | uniq | wc -l | |
565 |
有多少基因至少组装了一个潜在的新转录本?
head gffcompare.stringtie_merged.gtf.tmap | |
grep "j" gffcompare.stringtie_merged.gtf.tmap | |
grep "j" gffcompare.stringtie_merged.gtf.tmap | cut -f 1 | sort | uniq | wc -l | |
174 |
显示具有最高阅读支持度的基因间区域 (候选新转录区域) 的转录本
cd denovo | |
grep -w "u" gffcompare.stringtie_merged.gtf.tmap | sort -n -k 10 | column -t | |
- - u MSTRG.481 MSTRG.481.1 3 0.000000 0.000000 0.000000 260 MSTRG.481.1 - | |
- - u MSTRG.482 MSTRG.482.1 2 0.000000 0.000000 0.000000 267 MSTRG.482.1 - | |
- - u MSTRG.54 MSTRG.54.1 2 0.000000 0.000000 0.000000 279 MSTRG.54.1 - | |
- - u MSTRG.434 MSTRG.434.1 3 0.000000 0.000000 0.000000 281 MSTRG.434.1 - | |
- - u MSTRG.484 MSTRG.484.1 2 0.000000 0.000000 0.000000 319 MSTRG.484.1 - | |
- - u MSTRG.3 MSTRG.3.1 2 0.000000 0.000000 0.000000 320 MSTRG.3.1 - | |
- - u MSTRG.200 MSTRG.200.1 2 0.000000 0.000000 0.000000 344 MSTRG.200.1 - | |
- - u MSTRG.391 MSTRG.391.1 2 0.000000 0.000000 0.000000 346 MSTRG.391.1 - | |
- - u MSTRG.2 MSTRG.2.1 2 0.000000 0.000000 0.000000 400 MSTRG.2.1 - | |
- - u MSTRG.94 MSTRG.94.1 3 0.000000 0.000000 0.000000 424 MSTRG.94.1 - | |
- - u MSTRG.410 MSTRG.410.1 2 0.000000 0.000000 0.000000 939 MSTRG.410.1 - |
# 使用 RegTools 来注释所有的可变剪切
RegTools 用于帮助描述单个外显子剪接事件,并帮助识别对基因表达或剪接模式有直接影响的新剪接事件。更多细节请参考 RegTools 手册。
使用 RegTools 的基本功能来提取可变剪切。每个 bam 的 bed 文件,它总结了 RNA-seq 数据中所表示的所有不同的外显子 - 外显子剪接事件。我们还将使用 RegTools 对这些连接进行注释,以参考我们的 GTF 转录组文件:
cd align | |
regtools junctions extract -s 0 HBR.bam -o HBR.junctions.bed | |
head HBR.junctions.bed | |
regtools junctions annotate HBR.junctions.bed ../chr22_with_ERCC92.fa ../chr22_with_ERCC92.gtf > HBR.junctions.anno.bed | |
head HBR.junctions.anno.bed | |
regtools junctions extract -s 0 UHR.bam -o UHR.junctions.bed | |
head UHR.junctions.bed | |
regtools junctions annotate UHR.junctions.bed ../chr22_with_ERCC92.fa ../chr22_with_ERCC92.gtf > UHR.junctions.anno.bed | |
head UHR.junctions.anno.bed |
现在从样本中找出任何可能涉及新外显子跳跃、受体位点使用或供体位点使用的连接 (相对于参考转录组 GTF)。
grep -P -w "NDA|A|D" HBR.junctions.anno.bed | perl -ne 'chomp; @l=split("\t",$_); if ($l[4] > 3){print "$_\n"}' | |
grep -P -w "NDA|A|D" UHR.junctions.anno.bed | perl -ne 'chomp; @l=split("\t",$_); if ($l[4] > 3){print "$_\n"}' |
# 转换成 GTF 文件查看
为了更容易比较仅 ref-only, ref-guided, de novo 的结果的输出,我们现在将生成合并后的 GTF 文件的过滤版本,我们将删除转录本,除非有证据表明它们的表达。
wget https://github.com/griffithlab/rnaseq_tutorial/blob/master/scripts/stringtie_filter_gtf.pl | |
perl stringtie_filter_gtf.pl --expression_metric=FPKM --result_dirs='HBR_Rep1,HBR_Rep2,HBR_Rep3,UHR_Rep1,UHR_Rep2,UHR_Rep3' --input_gtf_file='../chr22_with_ERCC92.gtf' --filtered_gtf_file='chr22_with_ERCC92.filtered.gtf' --exp_cutoff=0 --min_sample_count=2 |