快捷搜索:  汽车  科技

完整的人类基因组图谱(攻克人类基因组图谱)

完整的人类基因组图谱(攻克人类基因组图谱)2003年4月14日,多国实验室耗费10多年的时间和30亿美元的资金,完成了人类基因组计划的测序工作,首次绘制出了人类基因组的图谱。“人类基因组的破译是人类历史上一个重大标志性事件,就像人类第一次直立行走,这次是我们第一次有了自己的生命密码。”汤波说。1994年,在谈家桢、吴旻、强伯勤、陈竺、沈岩、杨焕明等科学家倡导下,中国“人类基因组计划”也正式启动。1999年9月,中国成为美、英、日、法、德之外,第六个参与“人类基因组计划”的国家。中国负责测定和分析3号染色体短臂上从端粒到标记D3S3610间大约30厘摩尔(相当于3千万个核苷酸)的区域,因此被称为人类基因组计划“1%项目”。2001年8月,中国科学家完成“1%项目”的基因序列图谱。人类基因组计划(Human Genome Project,HGP)是一项规模宏大、跨国跨学科的科学探索工程。其宗旨在于测定组成人类染色体(指单倍体)中所包含

完整的人类基因组图谱(攻克人类基因组图谱)(1)

4月1日凌晨,Science杂志上线了6篇论文,第一次公布了人类基因组的完整序列。因为测序技术的限制,人类基因组图谱缺失部分序列。随着测序技术的发展,人类基因组学研究也迎来了转折点。

最新公布的完整序列补全了哪些内容?它对人类的意义和价值是什么?为此,记者采访了人类基因组学领域相关专家和科普作者。专家认为,研究对于基础研究和医学研究都具有重要意义,可以找到一些与癌症、发育障碍、不孕不育症等疾病相关的重要基因变异,从而为疾病治疗提供新的思路。

缘起▶人类基因组计划为何被称为生命科学的“登月计划”?

“这项工作是人类基因组计划的延续,也是对人类基因组图谱的进一步优化,某种程度上可以叫作人类基因组的补完计划。”深圳华大生命科学研究院群体基因组学领域首席科学家金鑫说。

人类基因组计划(Human Genome Project,HGP)是一项规模宏大、跨国跨学科的科学探索工程。其宗旨在于测定组成人类染色体(指单倍体)中所包含的30亿个碱基对组成的核苷酸序列,从而绘制人类基因组图谱,并且辨识其载有的基因及其序列,达到破译人类遗传信息的最终目的。

1985年,人类基因组计划由美国科学家率先提出,于1990年正式启动,与曼哈顿原子弹计划和阿波罗计划并称为三大科学计划,被誉为生命科学的“登月计划”。

项目启动后,美、法、加拿大等国科学家你追我赶。在分子生物学博士、科普作家汤波《探秘生命密码》手稿里,他写道:“1992年,美国国立卫生研究院和法国人类多态性研究中心合作构建了第一个高密度人类遗传连锁图谱,覆盖了90%以上的人类染色体区域。三年后,美国、法国和加拿大的科学家构建了一个超过15000个位点的人类基因组物理图谱,标志着人类基因组的骨架已搭建完成……”

1994年,在谈家桢、吴旻、强伯勤、陈竺、沈岩、杨焕明等科学家倡导下,中国“人类基因组计划”也正式启动。1999年9月,中国成为美、英、日、法、德之外,第六个参与“人类基因组计划”的国家。中国负责测定和分析3号染色体短臂上从端粒到标记D3S3610间大约30厘摩尔(相当于3千万个核苷酸)的区域,因此被称为人类基因组计划“1%项目”。2001年8月,中国科学家完成“1%项目”的基因序列图谱。

2003年4月14日,多国实验室耗费10多年的时间和30亿美元的资金,完成了人类基因组计划的测序工作,首次绘制出了人类基因组的图谱。“人类基因组的破译是人类历史上一个重大标志性事件,就像人类第一次直立行走,这次是我们第一次有了自己的生命密码。”汤波说。

但最初公布的基因组序列并不完整。“构成人类23对染色体的DNA碱基对太长了,当时测序时总是要切割。切割后我们就遇到一个问题——人类遗传密码中有大量的重复序列。”中国科学院院士、国际人类基因组计划参与者陈润生说。

正是由于这些DNA的重复,使得在人类基因组测序时无法以正确的顺序组装一些DNA片段。另一个障碍则是,大多数细胞包含两个基因组——一个来自父亲,一个来自母亲。当研究人员试图组装所有片段时,来自每个亲本的序列可能混合在一起,从而掩盖了每个单独基因组中的实际变异。

问题▶由于测序技术的限制人类基因组图谱序列有缺失

“人类基因组图谱最终缺失大概8%的序列,只能用字母‘N’进行代替,还有169段重要的重复序列没有能够成功拼接,还有一部分难以拼接的序列没有分析和组装,包括染色体两端的端粒、中间的着丝粒有很多常染色质区域没有成功解析。”华大集团CEO尹烨在其科普公众号里解释称。

这8%的缺失,源于20年前测序技术的限制。当时使用的测序方法是短读长测序技术,一次只能读取很短的一段基因序列。打个比方,如果把基因组的一部分比作段落中的一句话,比如“我今天去学校上课”,通过短读长测序,研究者能得到很多简短的小部件,比如“我”“今天”“去”“学校”“上课”,再经过“拼图”式的分析,科学家就可以拼凑出这句完整的话。

然而,科学家虽然能知道这段基因里含有的简短小序列,却无法知道这段基因被重复了多少次。也就是说,研究者能够拼凑出“我今天去学校上课”这句话,但却不知道这句话在整个段落里是否重复出现、重复了多少次。正因缺少这些信息,在过去的研究里,重复序列一直是基因组学研究的一大难题。

受益于过去十年长读长测序技术的发展,也被称为第三代或第四代测序技术,人类基因组学研究迎来了转折点。“长读长测序技术突破了短读长测序技术的限制,可以一次性读取长达10000—100000个碱基的DNA系列,最长的读长可达200万个碱基以上,辅助以人工智能算法等技术进步,可读取人类基因组中绝大多数重复序列,从而完成人类基因组最后的拼图。”汤波说。

通过这种技术,一个名叫“端粒到端粒联盟”(T2T Consortium)的国际科研团队于近日宣布他们完成最新人类参考基因组T2T-CHM13,填补了过去缺失的空白,揭开了从端粒到端粒真正完整的人类基因组序列。

意义▶为了解人类DNA提供了首个全面视角

新人类基因组序列为什么命名为T2T-CHM13?

这是因为来自T2T联盟的科研人员从CHM13的细胞系里读取到了DNA。“这个细胞系来自一个完全的人类细胞葡萄胎,也就是当一个精子和一个没有细胞核的卵子结合后,在人体内形成的一个组织,这个细胞可以在实验室中培养。”尹烨说。

为什么使用CHM13?因为这个基因组只有精子的一半,被称为单倍体或单倍型的基因组,这就解决了父、母亲基因组交叉组装错误的难题。美中不足的是,由于测序样本是来自单倍体衍生的细胞株,T2T-CHM13没有Y染色体序列,科学家将在后续解决这一问题。

最终,新测序结果得到的序列一共是30.55亿对碱基,在过去基础上增加了约2亿个碱基对和2000多个新基因,也纠正了过去基因组的一些错误。

在汤波看来,此次补上的8%人类基因组序列,对于基础研究和医学研究都具有重要意义。一方面,这些新获取的序列大多位于染色体着丝粒、高密度中间部分和染色体末端,对于理解细胞的功能和不同个体基因组的差异等方面都非常重要;另一方面,通过读取超长重复DNA序列,可以找到一些与癌症、发育障碍、不孕不育症等疾病相关的重要基因变异,从而为疾病治疗提供新的思路。

“应尽快发展测序技术,特别是长读长测序技术,为生物医学产生更为深远的影响,为临床研究、药物开发,包括医疗实践的发展,提供更多具体指引。”中国科学院、北京基因组研究所研究员于军说。

南方日报记者 张秀娟

策划:吕虹

猜您喜欢: