高通量测序测定(高通量干湿试验探寻mRNA序列优化设计原则)
高通量测序测定(高通量干湿试验探寻mRNA序列优化设计原则)合成用于体外转录的全长DNA template,每个模板插入了3个附加的特征序列:(1)共有的T7 promoter 序列(2)3'UTR barcode 序列(3)3'UTR 保守序列 ,用来进行高通量PCR和RT PCR。通过这种特征序列设计,研究人员可以利用侧翼序列来进行高通量扩增和分析鉴定mRNA序列。构建的模板序列库,进行体外转录,完成加帽和加尾,转染到细胞内,通过barcode测序定量分析,实现直接测量翻译效率和mRNA降解速率。为找到设计稳定高效表达的mRNA序列设计原则,研究人员构建一系列全长mRNA序列,包含各种5'UTR元件,CDS序列,3'UTR元件构成,并且开发了一种高通量比对RNA测序技术,称为 Pooled Evaluation of mRNA in-solution Stability and In-cell Stabilit
今天分享一篇Rhiju Das上传在BioRxiv上的预印本文章Combinatorial optimization of mRNA structure stability and translation for RNA-based therapeutic,探寻实现mRNA稳定性和高效表达的普适规则。
mRNA therapeutics壁垒
凭借快速的研发能力,广泛的研发管线,特别在传染病和肿瘤领域,mRNA therapeutics成为一种拥有无限前景,可能颠覆现代医学技术的基因治疗平台。与重组蛋白相比,mRNA生产通过体外转录合成,更加快速灵活,低成本。在过去的十几年里,mRNA化学修饰和递送系统的重大进展快速推动该项技术应用于临床研究。另外一方面,mRNA therapeutics面临的技术壁垒也是非常明显的,例如,mRNA固有的化学不稳定性,翻译效率的限制,自身的免疫原性极大地减弱mRNA疫苗的保护效率。
普遍的优化规律?
mRANA技术平台可以分为骨架系统和递送系统。重新设计优化mRNA骨架系统,避免制备,运输,注入机体环境过程所造成的损耗,可以极大提升mRNA稳定性和表达效率。但是,关键问题是,我们并没有搞清楚mRNA序列和结构如何影响稳定性和表达效率?是否存在一个普遍的优化规律?一般认为,携带更加稳定的二级结构会提升mRNA分子在溶液中的稳定性,可是,由于二级结构会提升胞内翻译机器接触mRNA分子的难度或者扫描序列的速度,从而可能造成细胞内mRNA翻译效率下降,细胞内靶蛋白产量低下。不过,此类现象并没有经过严谨的试验数据证实。
因此我们构建成百个携带各种各样UTRs和CDSs元件的全长mRNA序列,通过高通量的试验来比较稳定性和表达效率。
PERSIST-seq technology
为找到设计稳定高效表达的mRNA序列设计原则,研究人员构建一系列全长mRNA序列,包含各种5'UTR元件,CDS序列,3'UTR元件构成,并且开发了一种高通量比对RNA测序技术,称为 Pooled Evaluation of mRNA in-solution Stability and In-cell Stability and Translation RNA-seq (PERSIST-seq),用来系统评估UTR序列,密码子选择,RNA结构对mRNA在人细胞中的翻译效率和mRNA稳定性(溶液内稳定性和胞内稳定性)的影响。
合成用于体外转录的全长DNA template,每个模板插入了3个附加的特征序列:(1)共有的T7 promoter 序列(2)3'UTR barcode 序列(3)3'UTR 保守序列 ,用来进行高通量PCR和RT PCR。通过这种特征序列设计,研究人员可以利用侧翼序列来进行高通量扩增和分析鉴定mRNA序列。构建的模板序列库,进行体外转录,完成加帽和加尾,转染到细胞内,通过barcode测序定量分析,实现直接测量翻译效率和mRNA降解速率。
UTRs变异序列设计
mRNA 序列库总共有233条,各种5'UTR和3'UTR来自细胞或者病毒的基因组。5'UTR序列细胞源自高表达蛋白,调控元件,结构蛋白,以前被鉴定出来的序列等;3'UTR序列总共有22条,长度在60-597nt,源自可以稳定RNA结构和提升翻译的已鉴定序列。此外,还有一些UTR序列来自病毒,比如SARAS-Cov-2 ,登革热病毒,TMV,TEV等。
为了测试UTRs 变异序列的性能,最主要的参照序列构成:选择属于翻译效率最高的哺乳动物mRNA序列之一的 human hemoglobin subunit beta (hHBB) 的5'UTR序列和3'UTR序列;所有的Reporter mRNAs CDS编码区选择Nanoluc luciferase (Nluc)的开放阅读框。对应的,非hHBB UTRs序列称为UTR变异序列。
CDSs变异序列设计
为测定CDS序列和结构对mRNA稳定性和翻译效率的影响,我们将编码靶蛋白的CDS序列和结构的差异最大化。所有的CDS变异序列使用共同的hHBB UTRs,确保交叉比较。
CDS序列变异库的设计方法分为2两种,第1种是邀请Eterna massive open laboratory对CDS序列优化(不设置特异的优化参数)。第2种,使用优化算法,包括优化CAI的成熟的商业算法,GC-rich 算法,权衡CAI和MFE的百度LinearDesign,Ribotree Monte Carlo tree(优化AUP)等。通过这些优化方法,可以产生121条 CDS变异序列。
构建可以高通量评估mRNA性能的携带3'UTR-barcoded mRNA Reporter
UTRs 和CDSs 序列变异对mRNA翻译效率的影响
「把233条mRNA序列转染细胞,表达蛋白,裂解细胞,蔗糖密度梯度离心,分离翻译表达活跃的mRNA和没有翻译表达的mRNA,通过测序barcode 序列鉴定」,结果发现UTRs序列差异造成每个mRNA分子携带的核糖体载量发生高度变化。由于5'UTR序列变异导致的核糖体载量发生变化的范围最大,这说明5'UTRs对靶标mRNA序列翻译效率的影响程度超过3'UTRs和CDS序列。
总的来说,核糖载量最高的mRNA携带的5'UTR序列既有来自细胞的,也有来自病毒的。来自dengue virus 的5'UTR和3'UTR均能独自提升核糖体载量,将两者组合到一起会产生叠加作用。核糖体载量比携带hHBB 5'UTR 序列更高的mRNA,其自身携带的5'UTR均有潜力作为提升mRNA翻译效率的优化手段。更加令人意外的是,与以前的研究报道相反,此文章的研究人员发现高度结构化的5'UTR,例如DEN2,能够增强翻译效率。
「补充:据查,二级结构对翻译效率的影响取决于二级结构在5'UTR序列的位置。如果二级结构位于帽子结构和起始AUG之间,那么会影响43S翻译起始符合物的募集和扫描,从而减弱翻译效率;如果二级结构位于起始AUG之后,那么二级结构造成核糖体亚基扫描速度减弱,给予核糖体更多的识别结合AUG的时间,从而增强翻译效率。」
通过对来源于SARS-Cov-2 基因组RNA的结构化的5'UTR序列进行点突变,区段删除等一系列变化,可以改变携带该5'UTR序列的mRNA核糖体载量,这表明可以通过修改结构化5'UTR序列的不同区段来调节mRNA核糖体载量。
在UTR序列保持不改变的情况下,CDS序列变异造成的mRAN核糖体载量的变化范围远小于UTR序列变异引起的。对于编码相同靶蛋白的CDS序列来说,CDS变异序列携带的核糖体载量与序列本身的特性参数,比如,密码子适应指数(CAI),GC含量,最小自由能(MFE),信号肽的添加,非同义密码的突变等,没有显示出非常明显的联系。
mRNA细胞内稳定性—预测蛋白产量的主要参数
细胞内靶蛋白总产量不仅依赖翻译效率,而且还取决于mRNA进入细胞后,完整的分子能够存在多久。通过测试233条mRNA分子在细胞内的半衰期,发现一个非常有意思的现象,CDSs和5'UTR序列变异引起的细胞内mRNA稳定性的变动范围是最大的,这跟研究人员最初的预估是相反的——3'UTR序列变异造成的mRNA稳定性的变化范围是最大的,原因是3'UTR序列可以调控细胞mRNA的降解。同时,研究人员还注意到核糖体载量越高的mRNA,在细胞内的半衰期越短。携带5'UTR变异序列和5'/3'UTR变异序列的不稳定mRNA,附着的多聚核糖体越多(Polysome)。如果附着的单个核糖体核糖体越多(monosome),核糖体载量有适度增加,那么mRNA稳定性也会增加。
通过分析这些试验数据,找到mRNA序列设计的意外的规则:翻译效率越高,反而会对mRNA稳定性造成负面的影响。换句话说,在mRNA分子上,多聚核糖体载量的增加与一定时间内靶蛋白总产量的最大化之间是相互掣肘的。
为了研究核糖体载量和稳定性之间的博弈,他们设计定量模型来预测两者对于蛋白产量的影响,结果也证实蛋白总产量和mRNA稳定性呈现相关性。然而,对于短时间高表达的蛋白或者半衰期高于蛋白的半衰期来说,翻译效率是决定产量的主要预测指标。因此,根据需要的参数,是想转染后早期高表达还是长时间的蛋白表达,对应的UTR优化的参数是应该发生变化的。
细胞内mRNA稳定性是驱动蛋白表达产量的主要因素
mRNA在溶液中的稳定性影响因素
mRNA在溶液中的降解是运输过程中最主要的障碍,研发人员利用PERSIST-seq技术评估mRNA在水溶液中的稳定性。由于UTR序列,主要是通过细胞内翻译机器或者降解机器来调节mRNA稳定性,而在水溶液中,不存在这些组分,因此UTR序列变异对mRNA在水溶液中的稳定性基本不会造成影响。
CDS序列变异是造成mRNA在溶液中稳定性发生改变的最大因素,CDS序列越短,mRNA在水溶液中半衰期越长。CDS序列高度结构化,mRNA在水溶液中半衰期越长。
假尿嘧啶对in-solution mRNA稳定性的影响
尽管尿嘧啶化学修饰衍生物,如假尿嘧啶,甲基尿嘧啶已经广泛用于提升细胞内mRNA稳定性,但是修饰核苷酸对于mRNA在溶液中的稳定性,并没有相关报道。研究人员利用毛细管电泳测试mRNA在水溶液中的稳定性随时间的变化,发现当把mRNA序列中的尿嘧啶用假尿嘧啶替换以后,mRNA在水溶液中的稳定性得到显著提升。
mRNA序列中假尿嘧啶替换可以提升mRNA在降解环境中的稳定性
叠加mRNA优化策略对稳定性和蛋白产量的影响
高度结构化的5'UTR和3'UTR可以触发高水平的蛋白合成,而且结构化的CDS序列能够提升mRNA在水溶液中的稳定性和细胞蛋白的产量。因此,研究人员想知道把这些优化的序列组合到一起看是否可以设计出高效翻译和稳定的mRNA序列。结果显示,LinearDesign-1优化后的CDS序列搭配hHBB UTR序列24h时,蛋白产量与原始参考序列相比,发生非常显著的增加(2倍)。有意思的是,用假尿嘧啶替换尿嘧啶后,原始参考序列总的蛋白产量没有受到影响,但是LinearDesign-1优化后的CDS序列发生显著下降(2倍),但是相比其他的CDS优化策略而言,依旧维系在一个较高的水平。
研发人员通过不同的CDS优化算法,构建携带相同UTR序列的mRNA,比较这些mRNA优化序列在溶液中的稳定性和细胞内的蛋白产量,结果发现使用LinearDesign和DegScore-guided RiboTree design组合式CDS优化序列,mRNA稳定性和蛋白产量得到显著提升。
组合式CDS优化序列策略对mRNA稳定性和表达产量的影响
此外还测定假尿嘧啶替换对LinearDesign和DegScore-guided RiboTree design组合式CDS优化序列溶液中稳定性和细胞蛋白表达产量的影响。他们首先让原始序列和尿嘧啶替换序列处于一个mRNA容易发生降解的溶液环境中,然后再特定的时间点,纯化回收全部mRNA,转入细胞内,看蛋白表达情况,结果发现用甲基尿嘧啶替换的组合式优化mRNA序列在降解环境中存放2h以后,转入细胞中依然具有表达活性,而不含尿嘧啶未优化的原始序列,存货2h后,转入细胞检测不到蛋白表达。
组合式优化mRNA序列中假尿嘧啶替换对mRNA稳定性和蛋白表达产量的影响
总结
这篇文章通过高通量的干试验和湿试验,探寻影响mRNA稳定性和蛋白产量的因素,分析UTR序列结构,CDS序列和结构优化策略,核苷酸修饰对翻译效率和稳定性的影响,探讨mRNA稳定性,核糖体载量,蛋白产量之间的关系,替我们优化设计mRNA序列提供了许多可以借鉴的思路和成熟的方法。