RNAseq 教程 (2.4) - 生信学习 | Zhou Xiaozhao = 小钊の笔记 = 前天是小兔子，昨天是小鹿，今天是你

# 目录

1.Module 1 - Introduction to RNA sequencing

2.Module 2 - RNA-seq Alignment and Visualization

3.Module 3 - Expression and Differential Expression

4.Module 4 - Isoform Discovery and Alternative Expression

5.Module 5 - De novo transcript reconstruction

De novo RNA-Seq Assembly and Analysis Using Trinity

6.Module 6 - Functional Annotation of Transcripts

Functional Annotation of Assembled Transcripts Using Trinotate

# 2.4 Alignment Visualization

在我们可以在 IGV 浏览器中查看我们的结果之前，我们需要索引我们的 BAM 文件。为此，我们将使用 samtools 索引。为了方便以后，为所有 bam 文件建立索引。

	cd align
	find *.bam -exec echo samtools index {} \; \| sh

# 可视化比对结果

在 IGV 加载 UHR 与 HBR 的 bam 文件

# 练习：

尝试在 RNAseq 数据中找到一个变量位置:

HINT: DDX17 is a highly expressed gene with several variants in its 3 prime UTR.
Other highly expressed genes you might explore are: NUP50, CYB5R3, and EIF3L (all have at least one transcribed variant).
Are these variants previously known (e.g., present in dbSNP)?
How should we interpret the allele frequency of each variant? Remember that we have rather unusual samples here in that they are actually pooled RNAs corresponding to multiple individuals (genotypes).
Take note of the genomic position of your variant. We will need this later.

# BAM read counting

首先，使用 samtools mpileup 来可视化相应的区域。

	mkdir bam_readcount
	cd bam_readcount
	samtools mpileup -f ../chr22_only.fa -r 22:18918457-18918467 ../align/UHR.bam ../align/HBR.bam

每一行由染色体、位点、碱基、覆盖位点的 reads 数、reads base 和 base 质量组成。在 read 碱基列，点表示与正链参考碱基匹配，逗号表示反链匹配，ACGTN 表示正链不匹配，ACGTN 表示反链不匹配。模式 +[0-9]+[ACGTNacgtn]+ 表示在这个参考位置和下一个参考位置之间有一个插入。插入的长度由模式中的整数给出，然后是插入的序列。有关输出的更多解释，请参阅 samtools pileup/mpileup 文档

http://samtools.sourceforge.net/pileup.shtml
http://samtools.sourceforge.net/mpileup.shtml

现在，使用 bam-readcount 来计数。首先，创建一个 bed 文件，其中包含一些感兴趣的位置 (我们将创建一个名为 snvs 的文件。使用 echo 命令 bed)。

它将包含一个单行，指定 chr22 上的变量位置，例如。

	echo "22 38483683 38483683"
	echo "22 38483683 38483683" > snvs.bed

在这个列表上运行 bam-readcount 查看肿瘤和正常合并的 bam 文件

	bam-readcount -l snvs.bed -f ../chr22_only.fa ../align/HBR.bam 2>/dev/null 1>HBR_bam-readcounts.txt
	bam-readcount -l snvs.bed -f ../chr22_only.fa ../align/UHR.bam 2>/dev/null 1>UHR_bam-readcounts.txt

从这个输出中，可以解析每个碱基的 reads 计数

	cat UHR_bam-readcounts.txt \| perl -ne '@data=split("\t", $_); @Adata=split(":", $data[5]); @Cdata=split(":", $data[6]); @Gdata=split(":", $data[7]); @Tdata=split(":", $data[8]); print "UHR Counts\t$data[0]\t$data[1]\tA: $Adata[1]\tC: $Cdata[1]\tT: $Tdata[1]\tG: $Gdata[1]\n";'
	UHR Counts 22 38483683 A: 163 C: 0 T: 0 G: 163
	cat HBR_bam-readcounts.txt \| perl -ne '@data=split("\t", $_); @Adata=split(":", $data[5]); @Cdata=split(":", $data[6]); @Gdata=split(":", $data[7]); @Tdata=split(":", $data[8]); print "HBR Counts\t$data[0]\t$data[1]\tA: $Adata[1]\tC: $Cdata[1]\tT: $Tdata[1]\tG: $Gdata[1]\n";'
	HBR Counts 22 38483683 A: 75 C: 0 T: 0 G: 131

# 目录

# 2.4 Alignment Visualization

# 可视化比对结果

# 练习：

# BAM read counting

RNAseq教程(2.3)

RNAseq教程(2.5)