人类基因组计划的内容是什么?
分析:
人类基因组的研究,在生命科学中第一次实现了对遗传信息的整体分析和基因组功能的研究。基因组是生命体遗传信息的总和。
生命信息的存储单位其实就是我们所说的基因,载体是脱氧核糖核酸DNA。在多细胞生物中,信息在不同细胞之间、不同细胞组成的组织之间、不同组织形成的器官之间流动。这就是我们所说的:遗传学的中心法则。基因组是生命体遗传信息的总和。DNA双螺旋的发现可能是20世纪生命科学最大的突破。ATCG的四种不同碱基构成了一种复杂的遗传语言。
事实上,大多数人类疾病是由多个基因控制的。人类基因组计划正式启动的时间是1990,这意味着到2005年完成人类基因组DNA测序需要15年。到目前为止,我们还没有这样的技术,说可以直接对一个染色体进行测序。所以整个人类基因组计划其实就是一个从复杂到简单,再从简单到复杂的过程。人类基因组测序之初,当时使用的DNA序列分析方法主要是凝胶电泳,基本都是手工操作。但是90年代以后,一种新的测序技术产生了,那就是毛细管电泳。从而大大加快了测序速度。一天可以检测出654.38+0万个碱基对的序列。中国也加入了这个测序项目,我们承担了1%的任务。2000年4月,完成了染色体21的草图序列。
现在我们可以点击指甲盖大小的生物芯片上的人类基因组,所有的基因都被点击了。以后想看病,不仅要带病号卡,还要自带芯片。在医生做出诊断之前,先用芯片看看你可能会得什么病。通过比较不同进化阶段生物的基因组学,可以发现基因组结构的功能调控规律。事实上,与人类疾病相关的基因也是人类基因组结构和功能完整性的重要信息。事实上,在过去的几年里,对疾病的研究早已是对人类基因组的研究。
重要计划的一部分。1997提出了两个项目:一个是肿瘤基因组的解剖项目,一个是环境基因组项目。其实都和健康有关。人类基因组计划对医学的贡献一个在诊断,一个在基因治疗。对于我们这样的发展中国家,更应该重视预防。
我们国家的基因组计划是从1994开始的,是从功能基因组学的角度开始的。结构与功能并重,建立跨学科的关键技术,研究基因组多样性和疾病基因。这是一开始的策略。我们可以自豪地说,除了Y染色体,所有的染色体上都覆盖着中国科学家发现并命名的基因。最近,我们开展了一项大规模的中国基因组SNP研究。这项工作已从群体遗传学转向研究疾病发生和发展的遗传信息,这是中国人的特点。因此,如果我们现在能把中国生命元素变异的系统目录和数据库做出来,我们就能获得中国生物医药产业技术创新的知识产权,造福子孙后代,为全人类做贡献。
全文
当然,清华是我们国家最高的大学之一。所以,今天来到这里有点害怕。那我主要是来求教的现在我想给大家介绍一下人类基因组的研究,可以说是第一次。在生命科学中,已经实现了某种大科学的概念。也就是说,从整体上分析遗传信息,研究基因组的功能。所以我说现在生物学的特点从七八十年代到了一个新的平台,主要集中在分析,学科细化,分工细化。这个平台是大合成。其实我们中国的科学从一开始就讲究大合成。你看,我们的艺术是一样的,我们的写意是伟大的综合。这种东西方的融合非常重要。如果把西方的严谨分析和中国几千年前的综合思考结合起来,我觉得可能会带来一些新的突破机会。然后我觉得这张图,恐怕不仅仅是从事生命科学的人,我们非生命科学的学生也非常熟悉遗传学的中心定律。
众所周知,生命活动的本质是信息流。一直有人说,我们都是搞生命科学的。但突然蹦出一句话:“人生是什么”?这能让人思考。我个人认识到,生命信息作为其存储单位,是生命的重要特征之一,具有记忆功能。那么它的储存单位其实就是我们所说的基因。在大多数生物体内,我们知道它的载体是脱氧核糖核酸DNA。但它的执行单位主要是蛋白质。它使用不同的信息语言,一种是核酸的语言,另一种是氨基酸的语言。因此,在这种空间信息流中,需要一些调节机制。众所周知,这个调控的第一步是转录。这个时候,生命信息的语言没有改变,是核酸的语言。只是从DNA到MRNA,这个过程叫做转录。然后语言会变,变,需要翻译。所以,从MRNA上的生命语言到蛋白质的生命语言。当然我们知道这个蛋白质,很多蛋白质都有代谢活性。生物和非生物的一个重要区别就是有代谢和新陈代谢,然后蛋白质才能形成高级空间的构型。所以在这里,细胞的不同部分相互作用,细胞核和细胞质相互作用。那么在一个多细胞生物体内,不同细胞之间,不同细胞组成的组织之间,不同组织形成的器官之间,都是信息流动的。我想这就是我们所说的“遗传学的中心定律”。那么基因的概念大家都很清楚,或者说基本概念很清楚,确切的定义今天可能还不是很清楚。
那么基因组意味着什么呢?基因组是生命体遗传信息的总和。那么我们这里不是单个基因,而是所有基因。它编码的所有氨基酸之间的关系,所以意义是完全不同的。DNA双螺旋结构的发现可能是20世纪生命科学最大的突破。那么A、T、C、G四个不同的碱基,就构成了复杂的遗传语言,也是生命信息最基本的符号。这个基本符号真的让我们觉得很简单。大自然用这简单的四个字,形成了令我们惊叹的广阔世界中无数生命多样性的现象。那么它的遗传信息,在大多数生物中,我刚才说的是DNA的分子。那么它在那里的排列组合就决定了,或者说相当程度上决定了生命在人体内的活动,也就是我们所说的:生、老、病、死等等。所以当我们谈到双螺旋结构的时候,我们都知道碱基对和DNA都是生物大分子。一般来说,我们不用质量单位来表示它的体积,而是用它的长度。那么一个bp在中文里叫做碱基对。但就基因而言,一个基因往往需要成千上万个碱基对。于是我们引入了“千碱基对”的尺度。那么我们做基因组的时候,我们都知道基因组是一个非常大的尺度,所以我们发明了一些新的尺度单位,比如Mb是指百万碱基对。
这是我们在基因组计划之前对人类基因组的了解。我们知道人类基因组的长度。单倍体基因组的长度约为30亿个碱基对。一般教科书上说序列中的编码序列,也就是说我们刚才说的被转录表达的,可以称为基因序列。大概实际上指的是成熟的MRNA,加工过的MRNA中的序列不到5%。换句话说,非编码序列占绝大多数。在人类细胞核中,遗传信息以染色体的形式组织,分布在22条常染色体和2条性染色体中。我们都知道生物科学过去的特点,基本是师傅带徒弟的作坊式操作。到了80年代中期,我觉得一个是生命科学科学思维的大拓展,第二个是技术的进步。比如当时基因工程已经很成熟了,DNA测序也是当时比较成熟的,然后PCR技术也开始在那里出现。于是,科学家和生命科学家的野心就在那里萌发了,他们决心要突破原来那种不被物理甚至化学重视的作坊式运作模式,做出可以称之为大科学的东西。
当然,我觉得科研和思维的条件是一方面。但事实上,如果我们回顾科学的历史,许多重要事件仍然是由那里的需求推动的。我们的一些科学家批评这种做法,这意味着我们应该注意将基础研究与重大社会需求相结合。我觉得这其实有点偏颇,就是说研究的类型多种多样:有的是自由探索,所以这个可以很细致,每个人脑子里都可以有诺贝尔奖的想法。但也有一些研究是真正希望造福人类的。然而,这种研究带来的挑战实际上可能会滋生为不知名的人颁发诺贝尔奖的想法。那么人类基因组计划就是这样一个典型的例子。
先看第一个,可以认为是正式标书。一般来说,我们做这个项目,首先要有标书。那么人类基因组计划的第一次招标,可以认为是诺贝尔奖获得者Dulbecco 1986发表在《科学》杂志上的一篇短文。这篇文章的标题是什么?肿瘤研究的转折点-人类基因组研究。事实上,我们知道一位雄心勃勃的年轻总统肯尼迪在美国上台。当时他在科学上有两大计划:一是把人送上月球,二是战胜癌症。然后随着阿波罗计划的顺利实施,人类在1969年登上了月球。但是征服肿瘤的计划失败了。为什么?原来科学家把问题想得太简单了,以为肿瘤就是一两个基因的问题。但其实绝大多数肿瘤都是多基因问题。涉及到整个基因组的问题,是整个遗传信息的紊乱。就像我刚才说的,不要以为一个融合基因就足以导致小鼠白血病就这么简单。因为那样的话,一打进去就白血病了。事实上,我们有Lola罗拉白血病。将这种融合基因注入受精卵后,需要一年时间才会发生白血病,而且不是每小时都会发生。所以这说明还有其他决定性因素在里面。我们现在知道,有时候几个基因一起感染,白血病的速度会大大加快。
文章Dulbecco说,如果我们想更多地了解肿瘤,我们必须从现在开始关注细胞的基因组。我们应该从哪个物种开始?要想了解人类的肿瘤,就要从人类开始。对DNA的详细了解将极大地促进人类肿瘤研究。事实上,大多数人类疾病是多基因的。人类基因组计划正式启动,现在通用的说法是1990。然后1990,因为是美国国会正式推出了这样的计划。这个雄心勃勃的计划是在15年的2005年完成DNA测序。这个投资是多少?三十亿美元。当时的计算是基于这样一个事实,即测量一个碱基对大约需要一美元。整个计划在这个地方其实是一个狭义的计划,这个计划其实是一个排序计划。其实我们说测序,读天书只是了解人类自身的第一步,最重要的是读天书。但即使这样看一个天书的计划,也会经历很多艰难困苦。也就是说,到今天为止,我们还没有技术说可以直接对一个染色体进行测序,从一端到另一端都做不到这一点。所以整个人类基因组计划其实可以简单的说是从复杂到简单,再从简单到复杂,最后到简单。也就是说,一条不能直接测序的染色体被分解成更小的、可操作的单元。那么如何分解呢?那是画画。可以用遗传法画,也可以用物理法画。我们知道,遗传作图是利用遗传标记来确定DNA标记之间的相对距离。另一个概念是形成一些所谓的DNA连续克隆,这样这些片段,相互重叠,可以覆盖整个染色体从一端到另一端。这样,一个不能直接用于测序的单元就被分析成了一个相对较小的、可操作的单元。最后重组到忠实于原染色体中生命信息的排列,而这样的情况就在其中,识别所有人类基因。所以人类基因组就是作图,或者狭义的人类基因组计划,也就是作图计划,基因图谱,物理图谱,序列图谱,然后基因图谱。
人类基因组计划中有两种大规模测序策略。一个是我刚才提到的想法,其实叫一个一个克隆。我刚才说了,你构建了一个DNA克隆的连续克隆系统,覆盖整个染色体,然后你一条一条克隆,最常用的一条叫BAC——细菌人工染色体,长度大概是100 KB。然后把克隆体一个个挑出来,以后再亚克隆。这个亚克隆是这样的,所以可以测序,测序后再组装还原。这种策略是国际公共领域中排序项目所采用的策略。其实是一个历史的进化,也就是说是从映射、遗传、物理映射进化而来的。我们都知道美国的Siral公司,也知道Quikmart。然后它搞了一个叫全基因组鸟枪法的方法,在一定的作图信息的基础上,直接把基因组分解成小片段进行随机测序,绕过大片段连续克隆系统的构建,然后用超级计算机进行组装。可以使人类基因组,在初步完成作图后,迅速进入测序,尤其是大规模测序。朝着人们的期望前进。有两大因素促成了这一点,我们不得不承认工业的贡献是非常大的。比如在人类基因组产生之初,当时使用的这个DNA序列的分析方法主要是基于凝胶电泳,基本上是手工操作。但在90年代上半期,出现了一种新的测序技术——毛细管电泳。此外,还介绍了自动化操作和包括工业管理在内的系统。因此测序速度大大加快。你就是这样的测试者,它的名字叫Megabace。你什么意思?就是毛细管电泳,差不多两个小时就能读完一个序列,能读几百个碱基,所以一天能做十节课,所以是96个通道,所以一天能做960个通道。每一行按照他们的宣传能达到一个KB,其实很难做到。这是最理想的状态。所以你一天可以产生654.38+0万个碱基对。然而,另一个曾经困扰学术界的问题是,如果我们现在处于一个知识爆炸的时代,可以说生物信息的爆炸是最令人印象深刻的。
我们看到,在基因组计划开始之前,公共数据库中DNA序列的增长非常缓慢。那么1990之后,就是指数增长期。而且我在去年和2000年两个世界的公共领域统计过这个东西,测序项目和Siral分别宣布完成了所谓的工作草图。这个时候就是这样的情况,现在大概也是这样。当时1999面临着来自Siral的强行挑战。成立于1998,号称三年拿下人类基因组,国际人类基因组计划决定迎接挑战。世界上刚好有16组分担了人类基因组测序的任务,中国也加入了这样的测序项目。当然我们承担的是1%的任务,1%还是很重要的。因为对于一个发展中国家来说,想挤进这个属于发达国家的俱乐部并不容易。有些东西我们想挤也不一定能挤得进去,比如空间站的计划,人家还防着你呢。
这里我要介绍一下什么是工作框架图。因为大家都在说工作框架图,那么什么是工作框架图呢?实际上是工作草图。那么这意味着什么呢?也就是说,通过对4-5倍覆盖率的BAC(细菌人工染色体)连续克隆测序,得到基因组中90%以上的基因序列,错误率应低于65438±0%。换句话说,你的覆盖率应该达到基因组的90%以上。第二个,错误率要低于1%。100碱基对立让你有少于一个碱基对的错误。虽然这只是一个草图,但是已经很有用了,就是对基因组结构的基本认识,基因的识别和分析,疾病基因的定位和克隆,单核苷酸多态性的发现等等。
那么说到小品,肯定是要有最终图的。所以这张图的定义要求测序用的克隆能够忠实地代表常染色质的基因组结构,覆盖率达到99.9%以上,然后序列的错误率要小于万分之一。与工作框架图的关系,其实就是在工作框架图的基础上增加测序的覆盖面,填补空白,增加测序的准确性,可以达到这样的标准。换句话说,就是素描的下一步。2000年6月25日测序情况如何?我们看到当时在公共领域,也就是说美国、英国、德国、日本、法国、中国六国支持的计划,覆盖了人类基因组的86.8%左右。已经完成了一部分,也就是我们刚刚提到的最终序列图。标准序列大概是20%多一点,然后大概66%的序列处于所谓的工作草图阶段。那么也可以说是没有完成。因为我们说要达到90%以上,但同时Siral声称他的覆盖率已经超过95%。当然他的覆盖面实际上包括了这个来自各个领域的贡献,再加上他的贡献,所以两者相加。我认为我们应该相信超过90%的序列被工作草图之上的这样一个序列的质量所覆盖。我们来看看当时公共域测序项目的情况,在24条染色体上的分布。我们知道,其实从5438+0999年6月到19年2月,作为人类最小的染色体之一,22号染色体的全序列是确定的,或者说它的常染色体是指部分的全序列。我们注意到它的短臂,这是一个容易的染色体区域,实际上是非常不可预测的。因为空序列很多,基因不多。2000年4月,染色体21的全序列完成,是同一个定义,也就是常染色体的这一部分。我们看到这个地方用一种深红色来表示,差不多完成了。而这个黄色代表了我们刚刚提到的工作草图,它是大部分染色体区域的工作草图的一部分。其实我们现在说的是完成人类基因组全序列的测定,也就是说常染色体部分,所以有人说也许人类基因组序列永远无法结束。
2001 2月15我们知道,在自然界的领域里,有一种感觉就是兵对兵,将对将。2月16日,Siral序列发表。显然,经过新一轮的竞争,已完成序列的质量要比2000年6月高得多。所以在这种情况下,我们应该认为这两家公司放在一起的信息应该比我刚才说的一般定义更进一步。所以在工作草图和最终的成品图之间有一个中间状态,叫做高质量草图。但就是这么高质量的素描,我们已经基本知道我家的生活信息量有多大了。最后,我们发现我们的财产似乎相对较少,比我们预期的更多,因为我们的基因数量只有线虫的数量,只有900多个细胞的生命体的两倍左右,我们是一只虫子的两倍。其基因组从低等生物到高等生物的复杂程度,与其说是由基因的数量决定,不如说是由基因的长度决定。我们最近完成了一种名为钩端螺旋体的细菌的测序,这种细菌可以导致传染病。它平均每KB一个基因,这么小的东西,500万个碱基对的基因组,5000个基因。我们有30亿个碱基对,但我们只有3万个,最多接近4万个。但是你看酵母,说到真核细胞,平均大约是一个基因的5到10 KB。然后是果蝇,虽然它的基因数量似乎比线虫少。但是它的基因长度达到了100 KB以上,然后它在哺乳动物中也达到了一个基因,大概就像在人类中那样,它现在是100 KB以上。所以替换和拼接的可能性大大增加。此外,与时间和空间的调控,即发育阶段和组织特异性表达有关,这些序列的复杂性大大增加。虽然基因在高等生物中可以达到十的五阶,但是这样的高等生物有几万到几十万。但是实际上它的蛋白质域,实际上如果把基因组比作一座建筑的话,组成这座建筑的预制件的数量其实是有限的。此外,一些高级生物具有更丰富的结构域组合,神经功能、组织特异性发育、调节、止血和免疫系统的基因在脊椎动物中有了很大的扩展。数百种人类基因起源于脊椎动物进化过程中某一时刻细菌基因的横向转移。不同个体间基因组差异很大——单核苷酸多态性,单倍体基因差异为1/1250,小于1%可引起蛋白质变异。
这本基因天书已经摆在我们面前,下一步就是了解它。要理解它,必须考虑如何从大系统的概念去解读。来自这个基因组的一条信息与那里的外部环境相互作用。另外,这个基因组的信息不是天上掉下来的,而是经过了几十亿年漫长的进化过程发展而来的,所以要用比较的方式去解读。另外,要考虑到个体和群体之间是存在变异的,这种变异也是受外界环境调节的。所以功能基因组学的研究内容,虽然目前没有严格的定义,但个人认为至少包括这几个方面:对人类基因组DNA序列变异的研究,其核心内容是SNP,因为这是最常见的变异类型,当然还有很多其他的变异。然后是基因组表达调控的研究,这是发育阶段组织器官的变异,然后是模式生物的研究,其中包括进化的意义,以及利用模式生物进行功能研究。当然,我们做所有这些研究,就像我们做测序研究一样。生物信息学不仅是一个基础工具,也是一门新学科。因为到最后,要把这些信息整合到我们所说的系统生物学中,就必须借助理论手段和大规模的信息处理手段。
然后是基因组DNA序列变异的研究,SNP,这种类型的变异实际上是所有基因组的相同特征。它在相当程度上决定了不同的个体群体,是指人类对疾病的易感性、对环境致病因素的反应性以及其他性状的差异。
这里我举一个例子来说明这个特质有多重要。让我们来看看我们对药物的反应。我觉得我们每一个人,无论身体多健康,在生活中总会接触到一些毒品。现在有一个新名词叫药物遗传学,意思是大部分药物在体内代谢的酶存在遗传多态性。像这里,有一些改变基团的酶和一些转移基团的酶。它有许多多态性。这种多态性的后果是什么?它在很大程度上决定了我们个体对药物的反应。例如,这是一个非常复杂的程序,但我认为我们的主要信息在这里。对于一种最适合其基因型的药物,其疗效可达75%,毒性仅为1%。同样的药物,如果到了最不适合它的个体,会发生什么?其疗效仅为10%,毒性达80%以上。那么这个基因组表达和表达调控的研究,我觉得是可以理解的。那么是指在整个细胞水平上对基因组的所有转录和表达产物的识别,如果是在单细胞生命体或者整个生命体的水平上。其实就是高通量的结构生物学,大量分析蛋白质的高级结构,是基因组功能研究和新药开发研究的桥梁。那么,为了获得如此大规模和整体水平的功能信息,就需要一些所谓的并行分析方法。现在有可能在指甲大小的生物芯片上发现人类基因组,所有的基因都在上面。所以有人说,以后要看病,不仅要带病号卡,还要带自己的芯片。在医生做出诊断之前,把芯片取出来,看看你可能会得什么病。很好,也很吓人。总的来说,模式生物的研究大约是654.38+04亿年的进化史,从单细胞和第一个与外界隔绝的生命,到现在作为万物之灵的人类。然后,通过比较不同进化阶段生物的基因组序列,可以发现基因组结构组成和功能调控的规律。
所以基因组计划,就像我刚才说的,是一个科学兴趣的结果,科学家想探索人类自身,也是社会推动的,也就是说要攻克人类的疾病。所以最终它的价值的实现,我觉得还是要回归到对人类健康的贡献上来。因此,从这个意义上说,与人类疾病相关的基因是人类基因组结构和功能完整性的重要信息。我们看到,近十年来,在人类基因组研究的推动下,人类疾病相关性的研究取得了很大进展。由于定位克隆和定位候选克隆的新思路,单基因疾病导致了大量遗传性疾病基因的发现。我们知道传统对基因的理解是从表型到基因型。也就是说,你知道一个蛋白质,你已经确定了它的氨基酸序列,然后根据密码地址的原理,你就可以猜出它的DNA序列可能是什么。你合成一个探针到基因组里,然后把它调出来。比如血红蛋白病,这是人类发现的第一个分子疾病,就是先知道猪蛋白的氨基酸序列,然后再对其基因进行调整。但是对于大多数人类疾病,我们不知道它们的生化基础是什么,尤其是在基因组计划之前。举个例子,举个例子,我们知道这个人会跳舞会跳舞,这叫亨氏病。比如像遗传性结肠癌,我们知道息肉容易长在大肠,却不知道蛋白质有问题。你会怎么做?如何找到它的疾病基因?于是反过来就有了一个新概念叫遗传学。这是什么?先找它的基因,再看它的表现型。一旦你得到了这个基因,你马上就能很容易地猜出它的蛋白质结构。可以产生抗体,然后可以做很多遗传功能。健康相关的研究是HGP的重要组成部分。1997年,肿瘤基因组解剖计划和环境基因组计划相继提出。
人类基因组计划对医学的贡献。基于基因组信息的基因诊断、基因治疗和治疗,发展中国家和发达国家越来越重视疾病预防,尤其是基于基因组信息的疾病预防。我国历来提倡预防为主。如果我们能够在一个人出生时就识别出疾病易感基因,我们就可以在早期挑出危险群体,然后对环境因素和生活方式进行干预。生物技术发生了深刻的变化,进入了细胞、胚胎和组织的研究层面,促进了胚胎和成体干细胞技术的应用。血液疾病研究和其他高级研究%