# 目录
1.Module 1 - Introduction to RNA sequencing
2.Module 2 - RNA-seq Alignment and Visualization
3.Module 3 - Expression and Differential Expression
4.Module 4 - Isoform Discovery and Alternative Expression
- Reference Guided Transcript Assembly
- de novo Transcript Assembly
- Transcript Assembly Merge
- Differential Splicing
- Splicing Visualization
5.Module 5 - De novo transcript reconstruction
6.Module 6 - Functional Annotation of Transcripts
# 1.3 Annotations
# Obtain known gene/transcript annotations
在本教程中,我们将仅对 22 号染色体使用从 Ensembl (homo_sapiens.grch38.86 . gtl .gz) 获得的注释。
wget http://genomedata.org/rnaseq-tutorial/annotations/GRCh38/chr22_with_ERCC92.gtf |
看看 gtf 文件的内容。按 “q” 退出 “less” 显示。
less -p start_codon -S chr22_with_ERCC92.gtf |
在 gtf 文件中有多少个基因 id ? 我们可以使用 perl 命令行命令来找出答案
perl -ne 'if ($_ =~ /(gene_id\s\"ENSG\w+\")/){print "$1\n"}' chr22_with_ERCC92.gtf | sort | uniq | wc -l | |
1318 |
现在查看 GTF 格式的单个转录本的结构。完成后按 “q” 退出 “less” 显示。
grep ENST00000342247 chr22_with_ERCC92.gtf | less -p "exon\s" -S |
To learn more, see:
- http://perldoc.perl.org/perlre.html#Regular-Expressions
- http://www.perl.com/pub/2004/08/09/commandline.html
# 一些定义
- 参考基因组:一个物种的染色体的核苷酸序列。基因是参考基因组的功能单位,基因注释描述了从这些基因座表达的转录本的结构。
- 基因注释:生物名词对基因组的基因 / 转录模式的描述。转录本模型由参考基因组上转录本外显子的坐标组成。还可以提供其他信息,如生成转录本的链、基因名称、转录本的编码部分、替代转录本起始位点和其他信息。
- GTF (. GTF) 文件:一种常见的文件格式,称为基因转移格式,用于存储基因和转录本注释信息。你可以在这里了解更多关于这个格式的信息:http://genome.ucsc.edu/FAQ/FAQformat#format4
# 基因注释的目的 (gtf 文件)
当运行 HISAT2/StringTie/Ballgown 流程时,已知的基因 / 转录注释被用于以下几个目的:
- 在 HISAT2 索引创建步骤中,可以提供注释来创建表示转录本的本地索引以及整个参考基因组的全局索引。这允许更快的映射和更好的映射跨外显子边界和剪接位点。如果仍然找不到对齐,它将尝试确定读是否对应一个新的外显子 - 外显子连接。有关更多细节,请参阅索引部分。
- 在 StringTie 步骤中,可以使用.gtf 文件指定转录模型,以指导组装过程,并使用 '-G' 和 '-e' 选项将表达估计限制为预定义的转录。“-e” 选项将为您的 gtf 文件中的每个转录本提供一个表达估计数,为您提供一个 “microarray like” 表达结果
- 在 StringTie 步骤中,如果指定了 '-G' 选项而没有指定 '-e' 选项,则 gtf 文件仅用于评估组装结果。不再假设只有已知的转录本模型是正确的,所得到的表达估计将与已知的和新的 / 预测的转录本相对应。
- 在 StringTie 和 gffcompare 步骤期间,将使用.gtf 文件来确定将使用 Ballgown 检查差异表达的转录本。这些可能是您从公共来源下载的已知记录,也可能是 StringTie 从前面的读取数据中预测的.gtf 的记录。
# 注释文件来源
- ENSEMBL FTP SITE
- UCSC TABLE BROWSER
- HISAT2 Precomputed Genome Index
# 注意事项
关于染色体命名的约定:
为了使 RNA-seq 分析工作,gtf 文件中的染色体名称必须与参考基因组 (即参考基因组 fasta 文件) 中的染色体名称相匹配。如果得到一个 StringTie 结果,其中所有转录本的表达式值都为 0,那么可能忽略了这一点。不幸的是,Ensembl、NCBI 和 UCSC 不能在许多物种的染色体命名上达成一致,因此这个问题可能经常出现。你可以通过从相同的来源 (例如,Ensembl) 获得一个完整的参考基因组和基因注释包来避免这种情况。
关于参考基因组构建:
您的注释必须与您的参考基因组 fasta 文件相同的参考基因组构建相对应。例如,两者都对应 UCSC 的 human build 'hg38', NCBI 的 human build 'GRCh38' 等。即使你的参考基因组和注释都来自 UCSC 或 Ensembl,它们仍然可能对应于该基因组的不同版本。这将在任何 RNA-seq 管道中引起问题。