最近在做小立碗藓的 10X 转录组,最大的问题就是 maker gene,所以要从文献中发掘 maker gene,将其用于自己的细胞注释中,目前选择了 2016 年发表在《Molecular Plant》的一篇文章,主要做了小立碗藓各个组织的转录组,找到一些组织特异性基因,希望对我的注释工作能有帮助。

image-20200924093510305

# 摘要

本研究主要制作了小立碗藓的转录组图谱,涵盖了苔藓植物的生命周期的大部分阶段,包括了孢子体发育的详细进展。研究鉴定了一套完整的孢子体特异性的转录因子,并发现许多这些基因在被子植物中具有同源性,在发育过程中起很多作用,比如开花和分枝。

# 引言

在适应陆地生活的过程中,早期陆地植物的配子体和孢子体世代经历了相当大的形态变化,导致了今天苔藓植物和维管植物典型的世代交替。例如,人们认为孢子体从一个小而简单的结构,在生理上依赖于配子体,进化成复杂的,自由生活的,有时是巨大的生物,支配着今天大多数陆地生态系统。这种转变涉及到新器官和组织系统的产生。目前,有几个转录因子已经被鉴定可能是实现这种转化的关键:例如,class I KNOTTED-LIKE HOMEOBOXKNOX1)基因主要在开花植物中负责调节顶端分生组织的生长,在 P.patens 中局限在孢子体中,可能具有调节孢子体分生组织生长的作用。其他可能在陆地植物进化过程中发挥重要作用的调节孢子体发育的重要家族有 BELLRINGER 1-LIKE HOMEOBOX (BELL1), MADS-box, GRAS 以及 TEOSINTE BRANCHED1/CYCLOIDEA/PROLIFERATING CELL FACTOR1 (TCP).

大规模的比较转录组分析已经被成功地用于根据它们的时间和空间表达谱来确定候选基因。通过识别早期陆地植物的基因调控网络并评估它们在进化过程中是如何变化的,这可以应用到进化研究中。在拟南芥中,已经有大量的转录组数据可供参考。在小立碗藓中目前也在尝试类似的工作,例如,在几种发育条件条件下的原丝体的转录组,配子体和原丝体在几种生物和非生物胁迫下的转录组反应,但是关于孢子体发育进展的详细信息仍然缺失,此外,目前还没有对根茎类或单个生殖器官的转录组数据进行研究,也没有对 P.patens 生命周期的大部分组织的转录组数据进行全面的分析。在识别差异基因时,这是一个问题,因为缺乏相应组织和发育阶段的转录组数据将对后续的研究有巨大的影响。

在本研究中,描述了大部分 P.patens 的生活史阶段的转录数据,包括绿丝体、轴丝体、假根、配子体、孢子、颈卵器和四个不同的孢子体发育阶段。并创建了一个数据集 http://bar.utoronto.ca/efp_physcomitrella/cgi-bin/efpWeb.cgi。将 P.patens 转录组数据与现有的拟南芥的数据进行比较,以提取早期分化的陆地植物类群中具有进化保守性的基因表达特征。结果发现被子植物的孢子体中也有一些重要的同源基因,如与芽器官形态发生和花器官发育有关的基因。此外,通过对孢子体特异性 TCP 转录因子 PpTCP5 的功能表征,推测该基因在控制孢子体结构方面具有进化保守功能,因此,该基因可能在陆地植物进化过程中获得孢子体复杂性方面发挥了重要作用。关于配子体的产生,分析表明,拟南芥和小立碗藓的尖端生长有一个相似的核心转录因子,这些转录因子表达模式的特定修饰可以解释这些远缘物种尖端生长细胞之间的发育差异。

# 结果与讨论

# 生成一个 P. patens 转录组图谱和 eFP 浏览器集成

制作小立碗藓的转录组图谱,选取了大量的组织生长时期,分析的组织包括绿丝体、轴丝体、配子体、假根、原生质体、颈卵器以及四个不同的孢子生长阶段。以孢子体为例,根据形态特征 (如大小、形状和成熟程度) 将发育分为不同阶段。作为指导,根据受精事件的假定时间确定孢子体收集的日期如下:S1:受精后 5-6 天,S2:受精后 9-11 天,S3:受精后 18-20 天,S4:受精后 28-33 天。在所有被分析的组织中,都达到了预期的结果,此外,还可以确定与孢子体密切相关的组织 / 阶段(如轴丝体和绿丝体)或不同孢子体阶段之间的差异。研究还对在多个组织中筛选出的优先表达的基因进行了 qRT PCR 检测,发现转录组结果与 qRT PCR 表达数据高度相关。最后,比较了我们的芯片预测的几个基因家族的表达谱,并将其与已发表的实验数据进行了比较,发现它们之间存在高度相关性。总的来说,这些观察结果验证了转录组的结果。

image-20200924160446766

<center> 在植物生物学生物分析资源 (BAR) 中显示了整合到 Physcomitrella eFP 浏览器中的 P. patens 组织的卡通形象。在孢子体发育阶段,用于 mRNA 分离的组织的代表性图像包括 (底部)。根据受精事件发生后的天数 (d.AF,受精后的天数),分期被称为孢子体 1 (S1)、孢子体 2 (S2)、孢子体 3 (S3) 和成熟 (棕色) 孢子体 (SM)。</center>

image-20200924170438095

<center>
使用标记基因进行 qRT-PCR 检测组织 (A) 检测 PIP2;1 水通道蛋白 (Pp1s8_151V6.1),结果与之相反。在本例中,配子体和孢子体组织均有表达,而在原丝体组织中未检测到转录本。(B) 检测原体组织中有报道的 RM09 基因 (Pp1s407_31V6.1) 的表达。原体根 (轴丝体、绿丝体、原生质体和假根) 中表达丰富,在这些组织中也可以观察到表达水平的差异。(C) 选择组织优先表达的基因进行 qRT-PCR 模式确证。(D) 报告的基因表达值与 PpMKN 转录因子家族转录本存在的实验证据的相关性。组织图上方的圆圈表示了文献中 PpMKN 基因在各自阶段的表达。
</center>

# 整体转录趋势与主要发育转变和生理功能相对应

通过主成分分析 (PCA) 和层次聚类 (HC) 来分析数据集之间的相关关系。在对所有样本的主成分分析中,观察到与发育或生理功能相关的优先分组于配子体或孢子体的身份。HC dendogram 确认了之前在 PCA 中观察到的样本分离。重要的是,相同的生物复制被分组在一起,表明本次研究成功分离了发育阶段,特别是孢子体发育阶段。

# 小立碗藓中的基因表达表明,与在拟南芥中观察到的相比,小立碗藓具有较低的世代偏向化

为了获得所有组织间转录多样性的概述,确定了每个组织中表达、富集和只在特定组织中表达,而在其他组织中没有表达的基因数量。为了计算表达阈值,对一组低表达值的基因进行 qRT PCR 实验。检测与相应基因的转录表达价值报告的数组,建立最小值调用一个基因。发现有一个高和常数被表达的基因数量在所有组织。因此,根据先前在 Funaria hygrometrica 中观察到的,P. patens 中两代基因表达的分化要弱于被子植物 A. thaliana,后者配子体表达的基因数量只有孢子体表达的一半。此外还进行了额外的分析,以确定每一代优先表达基因的数量。发现 P. patens 中配子体的唯一表达基因数量是孢子体的两倍多。在这种情况下,这一观察结果与苔藓中组成配子体世代的较高的组织多样性及其在孢子体中的优势地位是一致的。

image-20200925170125496

<center>
(A) PCA 应用于每个组织三个重复的平均基因表达值。(B) 利用 Pearson s 相关系数进行层次聚类。(C) 组织表达基因相对于基因总数的百分比 (黑色),以及组织富集基因相对于被检测到的富集基因总数的百分比 (红色)。(D) 维恩图,显示配子体和孢子体世代之间共同和唯一表达的基因数目。
</center>

image-20200926141034897

<center>
出现的、富集的和优先表达的每个组织表达转录本
</center>

# 在被子植物中,控制二倍体发育和一般植物结构的转录因子在孢子体的几个阶段都有表达

在维管植物中,孢子体生命周期的优势表现为体计划结构的复杂性增加,这是由一组转录因子控制的,其中 KNOX、BELL1 和 TCP 家族尤为重要。例如,KNOX2 转录因子在苔藓的世代交替中被证明是必不可少的,因为它们阻止了单倍体遗传程序的表达。此外,在维管植物的孢子体中,KNOX 和 BELL1 之间的相互作用是已知的。这种相互作用改变了这些转录因子控制 SAM 活性和维持的方式,最终产生了植物体形态和大小的巨大多样性。表达数据表明,在 P. patens 孢子体发育过程中,KNOX2 类蛋白 MKN1、MKN6 和一个 bell -like 同源物 (Pp1s258_6v6) 表达水平相似,这与这些蛋白在苔藓中相互作用的假设一致。此外,还发现两个 TCP 同源物 (Pp1s332_35v6 和 Pp1s207_110v6) 在孢子体各发育阶段均有很高的表达水平,在 SM 中表达达到峰值。在被子植物中,TCP 基因也是孢子体结构的重要调节器,因为它们控制腋芽的发育、分枝和芽的对称。

image-20200926142344507

<center>
基因标识符 (左) 和基因描述 (右),包括家族、基因名称和拟南芥同源性。转录因子从 S1, S2, S3, SM 的丰富基因列表中选择。寻找至少在三个孢子体发育阶段富集的基因,并与非孢子体组织进行比较。红色代表高表达,黄色代表低表达值。从这个列表中选择了两个 TCP 基因进行进一步分析。
</center>

# 大量表达的 TCP 家族成员抑制孢子体分枝

在孢子体中,PpTCP 转录本的丰度高于其他转录因子的表达;它们几乎和组成性表达的微管蛋白一样丰富。系统发育分析表明,TCP 基因既存在于基底层植物类群的基因组中,也存在于它们的藻类亲缘物种中。它们被分为两个主要亚科:第一类,也被称为 TCP-P,第二类,也被称为 TCP-C。在南芥中,I 类基因促进一般细胞的生长和增殖,II 类基因通过调节组织增殖模式来控制茎的分枝、侧器官的发育和花的对称。利用 A. thaliana 和 P. patens 的 TCP 氨基酸序列进行进一步的系统发育分析,发现 P. patens 有两个 TCP II 类同源物和四个 I 类同源物。II 类基因 PpTCP5 和 PpTCP6 在孢子体中有明显的富集。

为了研究 P. patens 中 II 类基因的功能,通过同源重组生成了 5 个独立的敲除突变株 PpTCP5 (Pp1s332_35V6)。选择 3 个株系进行进一步表型分析 (指定为 PpTCP5 (5)PpTCP5(8) PpTCP5 (27))。在 WT 孢子体中扩增出 PpTCP5 PpTCP6 转录本,但在突变株中未检测到 PpTCP5 转录本。重要的是,与转录组结果 PpTCP6 转录本水平大致相同。热图显示了在孢子体中丰富的转录因子的表达动态。寻找至少在三个孢子体发育阶段富集的基因,并与非孢子体组织进行比较。红色代表高表达,黄色代表低表达值。PpTCP6 转录水平在突变系中并没有增加来弥补 Pptcp5 功能的缺失。

Pptcp5 突变体转移到孢子体诱导条件下,与 WT 进行表型比较。比较了 Pptcp5 突变体和 WT 的孢子体数量和分枝孢子体的百分比。所有突变系的分枝孢子体数量都是 WT 的两倍多。WT 的分枝频率约为 5%,而 Pptcp5 (27) 的分枝频率接近 15%。此外,具有两个或更多分枝的孢子体在 Pptcp5 株系中比野生型更常见,有些个体在一个结构上可产生多达 5 个蒴果。

image-20200926154007899

<center>
(A) 6 个 PpTCP 基因同源物的归一化芯片强度值,以可视化其在不同组织分析中的表达模式。(B) PpTCP5 基因敲除突变显示,在不同发育阶段,出现数个蒴果 (箭头)。(C) RT - PCR 扩增显示突变株和 WT 系中 TCP II 类和 I 类 (PpTCPI) 基因的表达情况。(D) WT 和敲除株系的孢子体分枝平均百分比。
</center>

# 孢子体发育的 GO 分析反映了导致孢子成熟的主要转变

使用 DAVID 功能注释工具进行 GO 富集分析,在 S1 阶段,转录调控是唯一确定的功能类别。这是由于在这个阶段只有 17 个基因表达丰富;然而,它们中的大多数是转录因子,它们可能负责启动孢子体转录程序。在 S2 阶段,相关功能类别是脂质分解代谢、形态发生,以及少部分的转录因子的活动。在 S3 和 SM 阶段,基因的数量和功能类别的多样性大幅增加,由于两个最丰富的分类是配子体发育和减数分裂,这一发现是相关的,并表明在这个特定的阶段,孢子开始发生。此外,脂质生物合成的过程是在 S3 中高度富集,表明脂质代谢对孢子生物起源也很重要,这一发育阶段似乎与能量储备的运输和储存以及孢子的生长和成熟有关。

image-20200926164848753

# 控制春化和气孔发育的转录因子的同源性在孢子体发育的早期得到表达

在 S1 期间,所有被鉴定的注释基因都与转录调控有关。特别值得注意的是,有一种转录因子与 A. thaliana REDUCED VERNALIZATION RESPONSE 1 (VRN1) 基因同源 (Pp1s434_19V6)。拟南芥的 VRN 基因主要负责调节春化作用,植物暴露在寒冷环境中一段时间后加速开花的过程。然而,在谷物中,VRN1 的表达可以在没有春化的情况下增加,这意味着它可以调节分生组织而并不局限于春化。同源基因在 P. patens 孢子体早期阶段的表达表明,它对维持该物种分生组织的活性 / 同一性也很重要。

其他转录因子在这个阶段富集似乎参与水运特殊细胞的分化,如 PpVNS6 PpVNS4, 此外,在 S2 期,发现 bHLH FAMA 的同源基因 PpSMF1 高表达。在 A. thaliana 中,FAMA 和 MUTE 转录因子主要负责控制保护细胞的分化。

# 花粉发育相关的同源基因的表达标志着 S3 期孢子发生的开始

植物的有性生殖依赖于减数分裂细胞产生单倍体细胞,单倍体细胞产生配子体。在 P. patens 中,减数分裂发生在孢子体发育的某个阶段,之后产生孢子。鉴定了一个与 MALE MEIOTIC DEATH 1 (MMD1) 同源的转录因子 (Pp1s271_42V6),该转录因子在孢子体发育的 S2 和 S3 阶段优先表达。在 A. thaliana 中,MMD1 突变体表现出减数分裂的改变,导致雄性减数细胞停止和细胞死亡。该转录因子表达在 S2 和 S3 期间达到一个非常高的表达水平,而且在 SM 阶段之后的其他组织中不会表达。此外,减数分裂重组蛋白 DOSAGE SUPPRESSOR OF MCK1 (DMC1) 的同源基因、SPORULATION 11(SPO11)也优先表达在 S3 阶段。最后,还发现 MALE STERILITY 1 (MS1) 也在 S3 阶段富集。在 A. thaliana 中,MS1 控制着花粉质组分的形成,与 MMD1 属于同一转录因子家族。这些观察结果为减数分裂控制提供了有力的证据,因此表明孢子发生开始于 S3 发育阶段。此外,花粉母细胞控制减数分裂的基因似乎与花粉母细胞控制减数分裂的基因是同源的。

# 顶端生长细胞的转录组揭示了配子体的发育过程

由于顶端生长细胞代表了单倍体产生的一个主要阶段,分析了它们的转录组,以提供重要的配子体发育过程的见解。该研究确定了在每一种末端生长细胞类型中单独富集的一组基因,以评估是否可以识别与特定功能相关的类。假根的 GO 注释都与离子运输相关,包括阳离子和阴离子转运、钾转运和磷代谢,这表明假根参与不同离子的吸收和交换,与提供配子托与无机营养来维持生长相关。与钾、磷和铁转运相关的基因转录本尤其丰富。而绿丝体注释最多的是乙烯介导的信号通路、四吡啶结合、金属离子结合和对光反应,反映了该组织通过光合作用和碳同化产生能量的作用。根据这一分析,乙烯信号可能参与绿丝体的生长与发展。最后,在轴丝体细胞中,发现了叶尖生长相关的生理过程更加活跃;最丰富的分类是细胞壁修饰,细胞大小的调节,葡聚糖代谢过程,碳水化合物分解代谢。根据这一观察,可以发现轴丝体的生长速度明显高于绿丝体。

image-20200927155704258

# 在尖端生长细胞中高表达的基因变成了花粉管或根毛特异性基因

为了确定在 P. patens 中控制一般尖端生长功能的候选转录因子,搜索了在三种尖端生长细胞中高表达的基因:轴丝体,绿丝体和假根。大多数的 tip- growth cell enrichment (TGE) 转录因子属于 bHLH 或 MIKC MADS-box 亚家族的 MIKC 类。已知这些家族的几个成员分别控制根毛和花粉管的发展。在 P. patens 中发现的属于 bHLH 家族的 TGE 转录因子分别有 PpRSL1 和 PpRSL2、RHD6 和 RSL1 以及 LRL-like 转录因子的两个同源基因。这些基因在 P. patens A. thaliana 中的表达模式是不同的,因为在后者中它们的表达仅限于一种顶端生长细胞:根毛。从生物学功能上看,PpRSL1 和 PpRSL2 是 P. patens 植物茎和根茎发育所必需的,而 A. thaliana 的同源基因则是根毛发育所必需的,对花粉管的生长没有作用,也就是说它们的活性仅局限于一种顶端生长细胞。

类似的例子可以在 MIKC 转录因子中找到,因为在 A. thaliana 中,除了一个基因外,所有的 MIKC 基因都只在一种顶端生长细胞中表达:花粉管。同样,发现 P. patens 基因组编码的 11 个 MIKC 蛋白中有 10 个在所有的端生长细胞中表达。尽管有 3 个基因在轴丝体、绿丝体和假根中优先表达,其余 8 个基因在孢子和成熟孢子体中表达的水平也较低。因此,MIKC* mRNA 在成熟的孢子体样本中的存在,可能是分离出 RNA 的孢子囊中含有大量孢子的结果。

综上所述,这些观察结果表明轴丝体、绿丝体和假根的转录组比被子植物顶端生长的细胞更相似。在 P. patens 中,发现 142 个基因转录在所有的顶端生长细胞中同时表达和富集,而在 A.thaliana 中总共发现 49 个。 后者的 TGE 基因数量较少,这可以解释为花粉和根毛没有 P. patens 顶端生长细胞那样表达许多共同基因,然而,在拟南芥中,组织多样性较高,这也会影响 TGE 基因的最终数量。 另一方面,当花粉和根毛分别与其他组织进行比较时,可以获得大量丰富的基因。控制根毛生长的部分基因网络的表达是从配子体世代通过进化而来的,所以可以想象一个可以解释我们观察到的情况,其中根毛仅部分获得祖先顶端生长细胞发育基因网络的表达。这就解释了为什么它们不表达与花粉相同的基因。另一方面,花粉管中可能有几个基因的表达中断,这些基因包括前面提到的 bHLH 转录因子 PpRSL1 和 PpRSL2(假设这些基因也在祖先苔藓植物的所有叶尖生长细胞中表达)。这些观察结果是相关的,因为它们支持陆地植物进化的对立理论。

# 孢子的转录组表明广泛的转录和表观遗传重编程

孢子和花粉在萌发时能产生顶端生长的细胞,在某种程度上可以认为是类似的结构。然而,虽然花粉粒和花粉管的转录组仅显示出中等程度的变化,但成熟孢子的转录组与小立碗藓顶端生长细胞的转录组有很大不同。事实上,孢子在转录上是独一无二的,因为有几个转录因子家族在这个阶段特别丰富。孢子中高度富集的基因转录物主要参与 RNA 代谢。一些相关的分类包括非编码 RNA(ncRNA)加工、ATP 依赖性解旋酶活性、RNA 剪接和 DNA 修复。特别是,一些涉及 mRNA 和 sRNA 处理的基因被高度富集。其中包括一个 HEN1 抑制子 1(HESO1)(Pp1s131 v6)的同源物,此外,还发现了编码与 DNA 染色质修饰和甲基化有关的蛋白质的转录物,这表明这些过程在孢子中是活跃的。综上所述,这些观察结果表明,基因表达修饰所涉及的过程是高度活跃和动态的,包括表观遗传修饰。令人费解的是,在成熟孢子中观察到这种基因表达模式,而不是在任何其他组织或花粉转录组中观察到。一种假设可能是转录程序的广泛变化是实现活跃和休眠代谢状态之间的转换所必需的。在被子植物中,种子也必须经历一个类似的转变,并且已经确定参与染色质重塑过程的基因,包括甲基化,在这种重排中起作用。

image-20200928102940420

<center>
从每代富集的转录因子基因总数中,计算属于特定转录因子家族的基因百分比。有几个转录因子家族在孢子中专一富集。
</center>

# Summary

本文献做了相当大量的工作,可以说为我们以后小立碗藓组织特异性的基因研究提供了一个大纲,该研究中缺乏动态的研究,比如小立碗藓从横向生长转变为立体生长的过程没有涉及,主要的侧重点在孢子体与配子体的比较,如果对转型期(bud-cell)细胞在进行更加深入的研究将更全面。而且文献中并没有所谓的 summary,对一些信息没有汇总。

总之,篇文献对于我目前的细胞类型注释还是很有帮助的,根据文献中的一些组织特异性基因我可以将自己的细胞聚类大体分为了想要的几种,对于转型期的细胞还需要查询相关文献