人类基因组计划的研究进展
⑴从当前物理图谱生成的克隆产生了完整的序列,覆盖了基因组96%以上的常染色质区域。已经实现了1Gb左右的完成序列。其余的已经勾画出来了,所有的克隆都有望达到8 ~ 10倍的覆盖率,大约是2001年的中期(99.99%的准确率),使用既定的、日益自动化的协议。
⑵检测另一个库以弥补缺口。使用FISH技术或其他方法分析没有闭合的缝隙大小。这样22,265,438+0条染色体。2003年完成。
⑶开发新的技术来填补很难填补的空白,大约有几百个。
基因组序列工作底稿:通过对染色体位置清晰的BAC连续克隆测序,覆盖4-5次(BAC克隆水平的覆盖不应少于3次),获得90%以上的基因组序列,错误率应小于65438±0%。工作框架图可用于理解基因组结构、识别和分析基因、定位和克隆疾病基因、发现SNP等。
素描的作用
1,草图,多种疾病相关基因被鉴定。
2.SNP(人与人之间的差异),草图为理解遗传基础和人类特征的进化提供了一个框架。
3.素描之后,研究人员有了研究调控区域和基因网络的新工具。
4.比较其他基因组可以揭示相同的调控元件,其他物种共享的遗传环境可以提供个体水平上的功能和调控信息。
5.草图也是研究基因组向细胞核三维压缩的一个切入点。这种压缩可能会影响基因调控。
6.在应用上,草图信息可以开发新的技术,如DNA芯片和蛋白质芯片,作为传统方法的补充。目前,这种芯片可以包含蛋白质家族的所有成员,这样就可以找到那些在特定疾病组织中有活性的成员。
20065438+2月1日,美国Celera公司和人类基因组计划分别在《科学》和《自然》上发表了人类基因组的详细图谱及其初步分析结果。其中,政府资助的人类基因组计划采用基因图谱战略,而Celera公司采用“猎枪战略”。到目前为止,两个不同的组织通过使用不同的方法实现了他们的共同目标:完成人类全基因组测序;而且,结果惊人的相似。人类全基因组测序的基本完成开辟了人类生命科学的新时代,对生命本质、人类进化、生物遗传、个体差异、发病机理、疾病预防、新药开发、健康长寿以及整个生物学等领域产生了深远的影响和重大意义,标志着人类生命科学新时代的到来。
无数的发现
1.分析表明,人类全基因组约为2.91Gbp,约有39000个基因;平均基因大小为27kbp;其中G+C的含量较低,仅占38%,而2号染色体的G+C含量最高。到目前为止,还有9%的碱基对序列没有确定。染色体19包含的基因最多,而染色体13包含的基因最少,等等。(详见cmbi特别报道:生命科学重大进展)。
2.目前已经发现并定位了26000多个功能基因,其中42%的基因是未知的。已知基因中,酶占10.28%,核酸酶占7.5%,信号转导占12.2%,转录因子占6.0%,信号分子占1.2%,受体分子占5%。发现和了解这些功能基因的功能对于基因功能和新药筛选具有重要意义。
3.基因数量少得惊人:有研究人员曾预测人类大约有654.38+0.4万个基因,但Celera公司将人类基因总数定在2638.3万到391.1.4万之间,不超过4万个,仅是线虫或果蝇基因数量的两倍。人类只有300个基因,但老鼠没有。这么少的基因就能产生这么复杂的功能,说明基因组的大小和基因的数量在生命进化中可能意义不大。这也说明人类的基因比其他生物更‘有效’,一些人类基因的功能和控制蛋白质产生的能力与其他生物不同。这将对我们目前的许多概念提出巨大挑战,并将为后基因组时代生物医学的发展提供新的非凡机遇。但由于基因剪切、EST数据库重复以及一些技术和方法上的错误,未来人类基因的数量可能会超过4万个。
4.人类单核苷酸多态性比例约为65,438+0/65,438+0,250 bp。不同人群只有1.4万个核苷酸的差异,人与人之间99.99%的基因编码是相同的。人们还发现,不同种族的人在基因上比同一种族的人更相似。在整个基因组序列中,人与人之间的变异只有万分之一,这说明人类不同物种之间并没有本质的区别。
5.人类基因组中存在“热点”和大片沙漠。在染色体上,有基因聚集、密集分布的区域,也有只有“无用DNA”——不含或含极少基因的成分的大面积区域。基因组中大约有1/4个区域没有基因片段。在所有的DNA中,只有1%-1.5%可以编码蛋白质。在人类基因组中,98%以上的序列是所谓的“无用DNA”,有300多万个长片段重复序列。这些重复的“无用”序列绝不是无用的。它们必须包含人类基因的新功能和奥秘以及关于人类进化和差异的信息。经典分子生物学认为,一个基因只能表达一种蛋白质,但人体内有许多复杂的蛋白质,提示一个基因可以编码多种蛋白质,蛋白质比基因更重要。
6.男性的基因突变率是女性的两倍,人类大多数遗传病都是在Y染色体上进行的。所以男性可能在人类遗传中扮演更重要的角色。
7.人类基因组中约有200个基因来自插入人类祖先基因组中的细菌基因。这种插入基因在无脊椎动物中很少见,这意味着它是在人类进化后期插入到我们的基因组中的。可能是在我们人类免疫防御系统建立之前,寄生在体内的细菌在出生过程中与人类基因组进行了基因交换。
8.发现并准确定位了约140万个单核苷酸多态性,初步鉴定了30多个致病基因。随着进一步的分析,不仅可以确定危害人类生命健康的最严重疾病的致病基因,如遗传病、肿瘤、心血管疾病、糖尿病等。,还能找到个体化的防治药物和方法,同时对进一步了解人类进化有重要作用。
9.人类基因组编码的全套蛋白质(蛋白质组)比无脊椎动物编码的蛋白质组更复杂。人类和其他脊椎动物重新排列了蛋白质的结构域,形成了新的结构。也就是说,人类的进化和特征不仅取决于产生一种全新的蛋白质,还取决于对现有蛋白质的重新排列和扩展,从而实现蛋白质的种类和功能多样性。有人推测,一个基因平均可以编码2-10种蛋白质,以适应人类复杂的功能。
模式生物:酵母、大肠杆菌、黑腹果蝇、秀丽隐杆线虫、小鼠、拟南芥、水稻、玉米等模式生物的基因组计划也已完成或进展顺利。
目前,基因组学的研究出现了几个转变:一个是将已知基因的序列和功能联系起来的功能基因组学研究;二是基于作图的基因分离转向了基于序列的基因分离;第三,从研究病因到探索发病机制;第四,从疾病诊断到疾病易感性研究。
在后基因组时代,如果对已完成基因组测序的整个物种进行对比分析,我们希望在全基因组尺度上了解基因组和蛋白质组的功能意义,包括基因组的表达和调控,基因组的多样化和进化,以及基因及其产物在生物体生长、发育、分化、行为、衰老和治疗过程中的作用机制,因此必须开发新的算法,充分利用超级计算机的超级计算能力。
2006年5月8日,美国和英国科学家在《自然》网络版上发表了人类最后一条染色体1。
在人体所有22对常染色体中,染色体1包含的基因数量最多,达到3141,是平均水平的两倍。* *拥有超过2.23亿个碱基对,也是最难破译的。一支由150名英美科学家组成的团队花了10年才完成了1号染色体的测序。
科学家不止一次宣布人类基因组计划完成,但都没有全文发表。这一次,生命之书更加准确,覆盖了人类基因组的99.99%。解读人类遗传密码的“生命之书”宣告完成,历时16年的人类基因组计划的最后一章书写完毕。人类基因组计划还包括几个模式生物基因组计划,中国支持的水稻基因组研究计划也可以归入这一类。模式生物一直是生命科学领域的基本模式。此外,与人类相比,它们的基因组结构简单,单位DNA长度的基因密度高,基因识别容易。而且从低到高的每个模式生物都是研究基因分子进化的绝佳材料。模式生物之间的比较研究将有助于阐明人类基因的结构和功能。模式生物在整体水平上研究基因的功能具有不可替代的作用。
我国基因组研究起步晚,底子薄,底子薄,经费少。与HGP近年来在世界上的惊人速度相比,中国与还有很大差距,而且这种差距有可能进一步加大。中国生命科学界应在以下几个方面共同努力:
1.尽快收集和利用我国宝贵的多民族基因组资源和遗传病家系资料,防止这些资源盲目流向国外。
只有集中人力、物力、财力,建立集分子遗传学、自动化技术、信息技术于一体的互补中心,才能有效开展工作。
3.根据我国国情和原有工作基础,有所为有所不为,走“短、平、快”之路,出奇制胜,直接楔入基因组研究最关键的部分——基因识别,如走“cDNA计划”之路,尽可能克隆出大量新基因,在8万~ 654.38+万人类基因中占有一定份额。同时,由于基因组DNA测序是一项劳动密集型和技能密集型的工作,如果能够引进技术,培养一支高水平的技术队伍,完全有可能吸引一部分人类基因组测序到中国来。
充分利用国际基因数据库中的现有信息,建立生物信息学技术,推进我国的基因组研究,在基因组转录顺序的理解和基因功能推测方面多做工作。
5.多渠道筹集资金,在维护知识产权的前提下开展国际合作。
历史将中国当代科学家推上了国际合作与竞争的舞台。他们有责任支持他们的国家和人民,支持265,438+0世纪中国的科学、技术和工业。只有他们高瞻远瞩,审时度势,孜孜不倦,不计得失,才能在国际人类基因组计划中占有一席之地,才有资本交换和共享数据,共同享用人类基因组。
HGP于1994年在中国启动,现已建立了南北两个汉族群体和西南、东北地区12个少数民族的733个永生化细胞系,保存了宝贵的中国基因资源,在多民族基因组多样性研究方面取得了成果,在致病基因研究方面也有所发现。名为“中国基因组结构与功能研究”的HGP项目是“九五”计划(700万元)最大的资助项目之一,它为中国在下世纪新一轮国际HGP科学竞赛中占据有利地位奠定了良好的基础。