# 目录
1.Module 1 - Introduction to RNA sequencing
2.Module 2 - RNA-seq Alignment and Visualization
3.Module 3 - Expression and Differential Expression
4.Module 4 - Isoform Discovery and Alternative Expression
- Reference Guided Transcript Assembly
- de novo Transcript Assembly
- Transcript Assembly Merge
- Differential Splicing
- Splicing Visualization
5.Module 5 - De novo transcript reconstruction
6.Module 6 - Functional Annotation of Transcripts
# 1.4 Indexing
# 创建 HISAT 索引
为 chr22 和 ERCC spikein 序列创建 HISAT2 索引。HISAT2 可以将外显子和剪接位点合并到索引文件中进行对齐。首先创建一个剪接站点文件,然后创建一个外显子文件。最后制作 FM 索引。
要了解更多关于 HISAT2 索引策略与其他软件的不同之处,请参阅说明书。
hisat2_extract_splice_sites.py chr22_with_ERCC92.gtf >INDEX/splicesites.tsv | |
hisat2_extract_exons.py chr22_with_ERCC92.gtf >INDEX/exons.tsv | |
hisat2-build -p 8 --ss INDEX/splicesites.tsv --exon INDEX/exons.tsv chr22_with_ERCC92.fa INDEX/index |
[可选] 为所有染色体创建索引,而不是仅仅为 chr22,你会做以下操作:
注意:下面的例子没有利用将剪接位点和外显子添加到索引。如果需要,可以使用完整的 GTF 生成这些文件,并使用适当的选项将它们添加到命令中。
警告:为了索引整个人类基因组,HISAT2 需要 160GB 内存。AWS 实例大小将耗尽 RAM。
#cd /home/ubuntu/workspace/data/fasta/GRCh38 | |
#hisat2-build -p 8 Homo_sapiens.GRCh38.dna_sm.primary_assembly.fa Homo_sapiens.GRCh38.dna_sm.primary_assembly |