植物基因高通量分子鉴定(原创解读植物中顺式调控序列的重要性及其鉴定与未来挑战)
植物基因高通量分子鉴定(原创解读植物中顺式调控序列的重要性及其鉴定与未来挑战)识别特异转录因子调控的序列属于热点研究内容。来自于同一TF家族的成员在体外常常被鉴定出非常相似的DNA序列,但它们的DNA结合亲和力却有所不同。DNA结合的偏好性差异是建立体内结合选择性的重要因素。在特定的细胞类型中,预测出哪些特异的TF可以与基因组中的特定CRE结合,仍然是一个挑战。这一预测需要很好地理解TF在什么类型的细胞中表达,其表达水平与靶基因相比如何,它们是先驱TF还是非先驱TF,以及相应的CREs是不是处于开放状态。因此,仍然很难判断特定的CRE在基因组中是发挥激活还是抑制的功能,并且多个CRE通常共同作用形成CRM,这使难度进一步加大。在真核生物中,5-7%的核基因编码转录因子,这是一种以序列特异性方式识别短DNA基序的蛋白质。大多数TF结合位点(TFBS)都很小,一般为6-12个碱基,因此TF在任何真核生物基因组中都至少有数千次的表达。转录因子通常存在一个或多个保守的DNA
在植物生物学中,顺式调控序列的鉴定和表征,以及探明其如何协调地控制发育和环境应答,至关重要。在调控过程中,顺式调控模块(CRMs
),即增强子和沉默子,是关键的顺式调控序列。然而,尽管目前高质量序列组装和基因注释已取得非凡的进步,但对CRMs的鉴定和基础功能解析明显滞后,尤其是对其显著特征和活动状态的挖掘。
2021年11月22日,The Plant Cell在线发表了题为 “Cis-regulatory sequences in plants: Their importance discovery and future challenges” 的综述,总结了我们当前对CRM的认识,以及鉴定、表征和验证CRM的突破性技术,并且比较了不同植物物种之间CRM靶基因在基因组上的分布,讨论了携带CRM的转座子元件(TE)在基因表达进化中的作用。
前言
生物学中的一个基础问题即复杂的基因表达模式是如何受调控的,这一问题的核心是鉴定和表征全基因组的顺式调控元件(CREs)和顺式调控模块(CRMs),这些CREs和CRMs影响着编码蛋白和 lncRNA 的表达。我们在这里将CREs称为单个转录因子(TF)结合位点,而CRMs则是CREs的集合,包括启动子、转录增强子、沉默子和绝缘子元件。CRMs决定了基因在什么细胞、什么时候和多大程度上表达(表1和图1)。在动物中,全基因组染色质和表观基因组图谱的构建,使基因调控序列的识别变得容易,尽管鉴定的这些DNA元件通常位于目的基因的几千甚至几兆bp之外。表观基因组图谱之所以有效,是因为调控序列具有不同的染色质特征。例如,活性的调控序列通常位于染色质开放区域、含TF结合位点、低DNA甲基化修饰以及存在不同的组蛋白甲基化和乙酰化修饰。虽然在植物方面的相关研究落后于模式动物中,但最近在植物方面的研究,揭示了植物与动物相比在顺式调控序列上相似但又不同的分子特征。尽管在基因组较小的植物如拟南芥中,大多数CRM与其所控制的靶基因直线距离相近,但是许多植物基因组的大小和基因间空间距离的扩大与大量可能的远端CRM有关。远端CRM可远在靶基因几十或几百kb之外调控靶基因的表达,这使得CRM的鉴定变得复杂起来。对CRMs及其组成的调控系统的鉴定,是构建和重组现有调控网络以优化植物生长发育、增强抗逆性或产生植物产品的第一步。为了最大限度地利用自然变异,并使合成生物学充分发挥其潜力,对调控模块的深入了解,于促进作物改良至关重要。越来越多的研究者正在开发或进行CRMs的鉴定和功能表征的研究,但目前仍然需要更多的、来自不同细胞类型和生长条件的表观基因组图谱。
转录因子结合位点:重要的CRM组分
CRMs上的CREs作为转录因子的序列特异性结合位点,是真核生物基因组调控系统的关键组分。在特定细胞类型中表达并与CRMs结合的TF,决定了CRMs的活性和最终功能。为了激活CRMs,首先,先驱转录因子结合在核小体DNA上,并招募组蛋白修饰酶和染色质重塑复合物,通过移开连接的组蛋白和排开介导的核小体,将染色质结构打开,即让染色质呈现开放状态;随后,其它非先驱转录因子和共同作用因子结合到这段裸露的DNA上,或者说这个开放的区域(accessible chromatin regions ACRs)上,最终完全激活CRMs,使得CRMs可通过蛋白质-蛋白质互作,与其靶基因发生物理交互作用,从而控制靶基因的转录水平。
在真核生物中,5-7%的核基因编码转录因子,这是一种以序列特异性方式识别短DNA基序的蛋白质。大多数TF结合位点(TFBS)都很小,一般为6-12个碱基,因此TF在任何真核生物基因组中都至少有数千次的表达。转录因子通常存在一个或多个保守的DNA结合和/或二聚体结构域,这使得它们可以分为40个或更多的家族。一般,TF可分为激活因子或抑制因子,但许多TF显然可以同时作为激活因子和抑制因子,这取决于与它们相互作用的蛋白质(辅激活因子或辅抑制因子)(图2a)。例如,拟南芥转录因子WUSCHEL是干细胞增殖的中枢调控因子,主要行使抑制功能,但它却又可以激活小花同源基因AGAMOUS (AG)的转录。
识别特异转录因子调控的序列属于热点研究内容。来自于同一TF家族的成员在体外常常被鉴定出非常相似的DNA序列,但它们的DNA结合亲和力却有所不同。DNA结合的偏好性差异是建立体内结合选择性的重要因素。在特定的细胞类型中,预测出哪些特异的TF可以与基因组中的特定CRE结合,仍然是一个挑战。这一预测需要很好地理解TF在什么类型的细胞中表达,其表达水平与靶基因相比如何,它们是先驱TF还是非先驱TF,以及相应的CREs是不是处于开放状态。因此,仍然很难判断特定的CRE在基因组中是发挥激活还是抑制的功能,并且多个CRE通常共同作用形成CRM,这使难度进一步加大。
对于大多数TF来说,核小体阻碍了其与CREs的结合。与大多数TF相比,先驱TF能够结合到与其同源的、不开放的TFBS上,使得CREs可以通过招募激活因子或抑制因子来激活或抑制转录。第一个被鉴定的先驱转录因子是FoxA(forkhead box A) 在后生动物胚胎器官的发育中发挥重要的作用。先驱转录因子利用各种各样的机制使染色质状态由闭合变为开放,即便是DNA甲基化也可以为先驱转录因子提供靶点,大多数先驱转录因子也的确结合在不开放的、存在DNA甲基化修饰的区域。在植物中,几个先驱转录因子也相继被报告,包括LEAFY COTYLEDON1 LEAFY APETALA1 和 SEPALLATA3 这些基因参与调控拟南芥的开花能力、花分生组织的建立和花器官的分化。
CRM的特性
CRMs及其活性状态的特征是DNA和染色质特征的不同组合,因此启动子和增强子的特征比沉默子的特征更明确。在植物中,绝大多数CREs的DNA序列以一种独立于组织的方式稳定地未甲基化,这些未甲基化区域(UMR)位于染色质开放的、组蛋白乙酰化(HAc)和TF-DNA相互作用的区域。因此,未甲基化区域可能包含了植物基因组中绝大多数的CRM,不论其活性。这与大多数拟南芥转录因子不结合甲基化胞嘧啶的情况一致。然而,一小部分未甲基化的区域表现为组织特异性。事实上,CRMs区域的活性DNA去甲基化在特定的发育过程中发挥重要作用,如番茄果实成熟和植物对逆境的反应。
目前已有部分研究描述了CRM的几种不同的活性状态,但并不是所有这些状态都能被明确定义,我们将我们的描述限定在抑制状态、平稳状态和活跃状态。活跃的CRMs可发生DNA-蛋白质相互作用,并富含HAc,这一修饰可以削弱核小体DNA和组蛋白之间的静电相互作用,提高转录机制的开放性。根据现有知识,受抑制的CRMs的染色质是不开放的,不可被TFs结合,并且富含组蛋白H3赖氨酸K27的三甲基化修饰(H3K27me3)。平衡态CRMs的活动状态介于受抑制和活跃之间,随时可以完全激活或失活,它们是开放的、与少数TF结合、富含H3K27me3和低水平的活性组蛋白修饰,如HAc(图3)。H3K27me3标记转录沉默基因及其邻近侧翼区域和远端基因间区,并与Polycomb Group(PcG)蛋白复合物的存在相关。在动物中,静止和活跃的CRM通常与H3K4me1相关,但这似乎并不适用于植物。
在各种生物中,活性增强子和沉默子可产生转录本,包括增强子RNA (eRNAs)和lncRNAs。关于植物中CRM衍生的RNA的知识还很有限。而在动物中,eRNA通常是不稳定的,并且可在ACR边界双向产生,其水平明显低于由核心启动子介导的单向转录。对于哺乳动物细胞,eRNAs可被用来预测增强子,一些增强子来源的lncRNAs可发挥重要的增强子功能。然而,植物中增强子转录的水平尚不清楚。在拟南芥中,基因间区的转录似乎很少。在玉米中,一些动态表达的与ACR相关的高置信度lncRNAs已有发现,并鉴定出了共表达的lncRNAs-蛋白编码基因对,表明它们之间存在调控关系;并且,有一小部分lncRNAs与在玉米中发现的可能的增强子序列存在重叠。值得注意的是,对于注释较差的基因组,lncRNAs可能被当作了无功能注释的蛋白质编码基因。
大多数特征并不与特定类型的CRM一一对应,或者说不同类型的CRM的特征并不是绝对的,这使得通过使用单一特征对CRM进行识别变得不太可靠。在区分不同类型的CRM时,通常会使用不同的组合。例如,在动物中,H3K4me3/H3K4me1的高和低比例可分别指示核心启动子和增强子。
启动子
由于历史原因,启动子一词通常用来表示转录起始位点(TSS)上游的1-2 kb区域。这些区域可能包含增强子和/或沉默子元件,从而模糊了对不同类型调控元件的讨论。因此,在本综述中,我们将启动子定义为核心启动子,它是直接启动转录所需的最小序列区域,通常跨越TSS周围50-100 bp。对于由RNA聚合酶II转录的基因,这一般是转录因子结合的区域,以帮助RNAPII起始转录。一般的转录因子是通过与核心启动子结合来定位RNAPII。核心启动子仅驱动低(基础)转录水平,这段区域有的还包含TATA-box。TATA-box被TATA-box结合蛋白(TBP)所识别,这是识别核心启动子元件的关键条件。然而,在植物中,大多数核心启动子是不包含TATA-box的,在这些启动子中,其他顺式元件在转录起始过程中发挥作用。除了TATA-box,顺式元件,如CCAAT-box和TC元件被证明有助于转录机制的正确定位和起始高效转录。活性的动物和植物启动子的特征是位于染色质开放区域、存在H3K4me3/HAc/H2A.Z、缺乏DNA甲基化修饰的,以及可被TFs和RNAPII结合,并可产生稳定的、单向的转录本。通常,启动子在转录水平与H3K4me3和HAc水平呈正相关,并与染色质开放性有关;而非活性启动子通常富集H3K27me3,且染色质不开放。其实,我们对植物的启动子知之甚少。它们可能被HAc标记,也可能被RNAPII标记,而动物中发现的H3K27me3与H3K4me3的关系可能不存在或者微弱。另外,通常为了能起始转录,启动子DNA必须是未甲基化的,而不管其活性如何。
增强子
转录增强子是一种CRMs,当与特定的TF和辅助因子结合时,可以提高转录起始率,从而以组织、发育阶段和/或条件特异性的方式表达其靶基因。增强子可以定位在距离靶基因1 Mb以上的位置;平均距离取决于基因组的大小。在植物中发现的第一个远端增强子是玉米 b1(booster1),位于 b1基因TSS上游约100 kb处。目前在植物中发现的最主要的远端增强子是DICE(远端顺式元件),它是玉米bx1(benzoxazinless1)基因高表达所必需的,距离 bx1超过140 kb。增强子也被定义为在基因的上游或下游以一种方向独立的方式增加基因的表达。最近的数据表明,后一种可能并不适用于所有增强子。活性增强子通常通过染色质相互作用来调控其靶基因,与之互作的包括结合在增强子上的转录因子和辅因子,以及启动子上的转录起始复合物,另外,lncRNA也有可能参与其中。
Billboard、增强体和TF集体模型,代表了增强子和TF之间相互作用的三种不同机制(图2B-D)。在billboard模型中,相邻的CREs形成CRM,但单个CRE也可以独立地影响基因表达;转录因子可以与单个CREs结合,结合的转录因子的组成可由基础转录机制解释。这使得相同的CRM在不同的细胞类型中有着不同的效果,取决于其表达和结合的TF。在增强体模型中,增强子使用特定的TF结合motif序列;CREs的特定顺序和方向是特定TF协同结合所必需的,因此也有利于发挥增强子功能。在TF集体模型中,TF的招募是通过与CREs结合和蛋白-蛋白相互作用来完成的(图2)。而不同模型的具体细节在不同研究中有所不同,逐渐出现的情况是,TFs通过附加的或合作的、直接或间接的DNA结合与增强子联系在一起。注意,虽然这些模型已经被提出可以用来解释增强子的作用,但它们可能也适用于沉默子。
基因可以由多种增强子调节,这些增强子互补地、冗余地、多向地、相互依赖或协同地发挥作用(图1)。例如,玉米 b1 基因的不同增强子表现出不同的组织特异性,而拟南芥的SHATTERPROOF2基因受到两个冗余CRM的调控。在番茄茄属植物中,突变候选CRM组合发现,这些CRM组合在子房数量的产生中存在加性和协同作用。类似于基因可以被多个增强子靶向,增强子可以与多个目标基因相互作用,并且能够 “跳过” 基因,与距离最近的基因在线性序列上相互作用。例如,在玉米中,DICE增强了 bx1的表达,而并非调控位于两者之间的 bx8 基因。
与启动子相似,增强子可以处于激活、抑制或平衡状态(图3)。活性增强子的典型特征是与TFs和辅因子结合、缺乏DNA甲基化、染色质开放的、存在HAc(如H3K9ac H3K27ac H3K56ac)修饰、 H2A.Z在核小体侧翼,并且与靶基因存在物理互作。增强子通常是组织特异性的;在组织中,它们不活跃,有可能被抑制或保持平衡。我们提出假设,大多数被抑制的增强子是不开放的,富集抑制型修饰,如H3K27me3,并且需要被先锋的TFs结合,从而变得开放并即将被激活(图3);平衡增强子可能与一些TF结合,位于染色质开放区域,富集H3K27me3和低HAc水平;在激活后,H3K27me3被移除,并添加激活型组蛋白修饰。
除了上述讨论的活性状态外,可能还有其他增强子活性状态。事实上,在各种植物中发现的最大类远端开放的DNA未甲基化区域,其特征是缺乏组蛋白修饰的,然而组蛋白变体H2A.Z仍然存在于这些区域。在玉米中,这些“未修饰区域”在瞬时测定中表现出了增强子活性,尽管其平均水平低于被HAc标记的ACR。对其邻近基因的GO富集分析发现,这些区域可能参与了发育进程。此外,TEs中可能存在被DNA甲基化修饰的CRMs,这些CRMs在特定的细胞类型中,抑或在胁迫处理后去甲基化,从而影响植物抗病相关基因的表达。
这一期,小编先带大家了解到这里,下一期将介绍沉默子、绝缘子,以及如何鉴定并验证这些顺式调控模块。
原文链接
https://academic.oup.com/plcell/advance-article/doi/10.1093/plcell/koab281/6433166?searchresult=1
关注我们
小麦族多组学网站:http://202.194.139.32
投稿、合作等邮箱:13148474750@163.com
微信群:
论文查重、润色
杂志影响因子查询: