白血病患者P16基因异常及临床意义
山东医药 2000年第6期第40卷 论著
作者:朱传升 孙丰琴 郭桂月 刘秀兰 毕可红
单位:山东省千佛山医院250014
关键词:基因 P16 白血病
人类基因组计划(Human Genome Project,HGP)自1990年正式启动以来,经过全球科学共同体的努力,提前完成了遗传和物理作图,于2000年春天获得了基因组序列的工作草图,预计在2003年获得完成序列图。届时,人类10万个基因的信息以及相应的染色体位置将被阐明,成为医学和生物制药产业知识和技术创新的源泉。这是人类自实现登月以来的又一伟大科学创举。目前HGP已揭开了新的一页:从基因组与环境相互作用的高度阐明基因组的功能,亦即功能基因组学。为此,需要发展能够在基因组整体水平获取功能信息的大规模、并行化分析技术,如生物芯片,以及对数据进行储存、分析、加工和传输的生物信息学。HGP对医学的巨大贡献,是通过“定位克隆”和“定位候选基因”策略发现了一大批重要人类疾病的致病基因,当前研究的重点已转向多基因疾病。HGP相关的伦理问题也受到学术界和社会的关注。我国HGP启动六年多来,基因组科学界结合国情,勇于创新,团结协作,充分发挥遗传资源优势,在人类基因组多样性、疾病相关基因克隆和功能基因的大批量识别、分离方面均取得了一批具有国际水平的成果。最近我国又承担了国际公共领域人类基因组测序1%的任务,已顺利完成了工作草图的阶段目标。我国在微生物基因组测序方面也出现了很好的势头。当前我国HGP面临的重要任务是进一步加强协调,科学地确立今后5-10年的战略目标,重点发展功能基因组学,带动生命科学整体水平的提高,为我国在新世纪医学和生物制药产业的发展奠定坚实的基础。
诺贝尔奖获得者提出人类基因组计划
人类基因组计划(Human Genome Project,HGP)是美国科学家于1985年在能源部(DOE)的一次会议上讨论酝酿,诺贝尔奖获得者Renato Dulbecco于1986年在《科学(Science)》杂志上发表的一篇短文中率先提出的[1],旨在阐明人类基因组DNA长达3×109碱基对(base pair,bp)的序列,发现所有人类基因并阐明其在染色体上的位置,从而在整体上破译人类遗传信息。美国于1990年正式启动HGP,计划于15年内提供30亿美元的资助,在2005年完成人类基因组全部序列的测定。欧共体、日本等发达国家和巴西、印度、中国等发展中国家也相继提出了各自的基因组研究计划。在过去的十年中,由于各国政府、科学界和工业界的共同努力,HGP作为全球性的合作项目已取得重大进展,一批重要模式生物的全基因组序列相继完成,2000年春天即获得了人类基因组序列的工作草图,而最终完成序列图可望在2002-2003年实现。同时,功能基因组学的研究已经全面展开,将极大地推动生命科学、医学、生物技术和制药工业的进步。回顾HGP的历史,分析其现状,展望其未来,对于我国生物医学及相关产业的发展,必将产生重要的启迪。
基因组作图和DNA测序
(一)基因组作图(分解基因组)
人类基因组的DNA序列分布于22条常染色体和2条性染色体。染色体不能直接用来进行测序,故HGP的第一阶段是要将基因组这一巨大的研究对象进行分解,使之成为较易操作的小的结构区域,这个过程简称为作图。根据使用的标志和手段不同,作图可分为两种类型:(1)遗传连锁图,即通过计算连锁的遗传标志之间的重组频率,确定它们的相对距离,一般用厘摩(cM,即每次减数分裂的重组频率为1%)来表示;(2)物理图,即确定各遗传标志之间物理距离[bp或千碱基(kb)或兆碱基(Mb)]的图谱。
遗传图绘制需要应用多态性标志。80年代中期最早应用的标志是限制性酶切片段长度多态性(RFLP)。此类标志的数量较少,多态性信息也较低。80年代后期发展的短串联重复序列(short tandem repeat,STR;又称微卫星,microsatellite,MS)标志,主要是二核苷酸重复序列如(CA)n,其染色体分布和信息含量明显优于RFLP,成为遗传连锁分析极其有用的标志。1994年法国和美国科学家共同努力,完成了由RFLP和MS组成的包括5,826个标志、分辨率高达0.7cM的遗传图谱,提前和超额完成了原定的分辨率为2-5cM的遗传作图计划。同时,MS也成为物理图上的标志,从而促进了遗传图与物理图的整合。近来,第三代的多态性标志,即单个碱基的多态性(single nucleotide polymorphism,SNP)标志又被大量产生,其意义已超出了遗传图的范围,而成为研究基因组多样性和识别、定位疾病相关基因的一种新型手段。
物理图包含了两层意义,一是获得分布于整个基因组的序列标签位点(sequence tagged site,STS,其定义为染色体定位明确、而且可用PCR扩增的单拷贝序列),使每隔一定距离就有一个标志;二是在此基础上构建覆盖每条染色体的大片段DNA连续克隆系出(Contig)。确定两个相邻STS间的物理联系,通常用的工具是由人类家系细胞株组成的遗传作图板、人类DNA与啮齿类细胞的辐射杂种细胞板(radiation hybrid,RH)和YAC/BAC。1998年底的物理图已包括52,000个STS,大大超过了原定30,000个STS的目标[3]。另一方面,构建覆盖人类基因组的大片段DNA连续克隆系也取得了如期进展,1995年法国科学家利用“指纹”法和STS构建YAC连续克隆系,覆盖了人类基因组75%的区域;此后,美国、欧洲和日本的科学家又利用更加稳定和易于操作的BAC构建了覆盖各条人类染色体的连续克隆系。因此,物理图构建的成功,不仅为大规模测序奠定了基础,而且还绘制出了人类基因组转录图(或基因图)的雏形。(二)全世界联手大规模测序基因组DNA
1.大规模测序的策略
(1)基于BAC连续克隆系的测序
通过精细物理作图,排出对应于特定染色体区域的重叠度最小的BAC连续克隆系后,就可以对其中的BAC逐个进行测序。这是由各国政府及非赢利机构(如英国的Wellcome Trust基金)所支持的公共领域测序计划在90年代中期所确定的策略。其基本工作步骤是:(1)将待测BAC克隆随机切成小片段(约1.5-2kb),(2)将小片段克隆入测序载体,(3)对小片段DNA进行8-10倍左右覆盖率的测序,(4)将相互重叠的读出序列(reads)组装成连续的重叠线,(5)从质量最高的读出序列中取得序列,(6)利用引物延伸或其他方法对BAC克隆中还存在的缝隙(gap)进行填补(gap filling)。由美国国立健康研究院(NIH)和DOE制定的最终完成序列精度标准有三条:①错误率低于1/10000,②序列必须是连贯的,即没有缺口,③测序所用的克隆能忠实地代表基因组结构[2]。但在HGP的过程中,又提出了工作草图(Working draft)的概念,其定义为:通过对染色体位置明确的BAC连续克隆系4-5倍覆盖率的测序(在BAC克隆水平的覆盖率不应低于3倍),获得基因组90%以上的序列;其错误率应低于1%。工作草图虽然离最终完成图还有相当大的距离,但是已具有很高的科学价值,对于基因组模体结构的认识、基因的识别、疾病基因的定位克隆、SNP的发现,基因基本结构的解析等都非常有用(4)。在工作草图基础上加大测序覆盖率,并填补缝隙,就逐步逼近最后完成序列:就一个BAC而言,其内部所有缝隙被填补之后的序列称为结束序列;而对一段染色体区域或一条染色体来说,如果BAC连续克隆系之间的缝隙被填补则称为完成序列。当然,基因组中间的某些部分,主要是着丝粒区域和端着丝粒染色体的短臂部分,因存在大量高度重复序列而非常不稳定,是目前还难以克隆的部分。因此,基因组的最后完成序列并不包括这部分的序列。
(2)全基因组的“鸟枪法”测序
这是一个十分大胆的构思,即在获得一定的遗传和物理图信息的基础上,绕过BAC克隆逐个排序的过程,直接将基因组DNA分解成2Kb左右的小片段进行随机测序,辅之以一定数量的10Kb克隆和BAC克隆的末端测序,利用超级计算机进行序列组装。由Craig Venter领导的私营研究所TIGR于1995年首先将这一策略应用于微生物基因组的测序并获得成功,但该方法能否用于高级生物的复杂基因组测序一直有疑问。1999年,由TIGR和PE公司组建的Celera公司,与加州大学伯克利果蝇计划(BDGD)合作,仅用了4个月时间,就用全基因组鸟枪法完成了果蝇基因组120Mb的全序列测定和组装,证明了这种新的技术路线的可行性,成为采用同一路线进行人类基因组全序列测定的一个成功的预实验(5)。
2.高精度的先进自动化测序技术
DNA测序技术在90年代中后期出现了革命性的突破。首先,80年代发展的以薄板凝胶电泳为基础的自动测序技术,实现了高通量(high throughput)运作。例如,一台PE-ABI377测序仪每天可测2-3轮序,每条序列的平均长度可达500-750bp,每轮可以产生96条序列。继而,高通量的毛细管阵列电泳仪在90年代末问世,代表性的仪器如MD公司的Megabace和PE-ABI的3700测序仪,每天可测10轮,每轮可产96条序列。3700测序仪还可进行自动加样。近年来各发达国家的测序中心都大量装备和使用了这类先进仪器。高质量的聚合酶及高度敏感的荧光染料相继出现,使得序列的质量和精度不断提高。同时,数据质量评估和组装的软件(如phrad/phrap/Consed)等不断改进和完善。为了将作图、测序和信息学技术形成高度自动化的大规模生产线并进行全过程的质量监控,实验室信息管理(Laboratoy information management system,LIMS)应运而生,该系统可以跟踪测序克隆制备的过程和从克隆中产生的数据,记录试剂、方法、机器性能等参数,对于测序效率的维持和高质量数据的生产起着至关重要的作用。现在,某些特大型的测序中心或公司拥有数百台自动测序仪和大批机器人,每天可产生数十万条读出序列,形成了生命科学领域中大科学工程的壮观景象。需要指出的是,随着微电子技术和显微制造技术的突飞猛进,今后测序技术的发展方向是仪器的微型化,这样可以极大地减少成本和提高效率。
(三)倍受制药界青睐的cDNA测序
人类基因组中发生转录表达的序列(即基因)仅占总序列的约5%,对这一部分序列进行测定将直接导致基因的发现,获得基因组中对医学和生物制药产业关系最密切的信息。而且有功能意义的全长cDNA已可申请专利。因此,cDNA测序受到研究机构和制药工业界的青睐,不惜投入重金进行研究和抢占专利。至2000年3月29日,公共数据库内有3,828,199条EST(其中人类EST有1,834,141条)和30,371条基因的cDNA编码序列,但更多的EST和全长cDNA则掌握在一批以基因组信息为产品的生物技术公司手中。如Incyte公司所建成的EST数据库,可以每年高达500万美元的租金供各大药厂使用。
目前,cDNA研究的热点已由EST转化为全长cDNA。美国国立癌症研究院(NCI)最近决定资助每年获得2万条全长cDNA的计划。日本的HGP将获得全长cDNA列为重点,到1999年底已获得40,000条全长cDNA。为了提高全长cDNA的克隆效率,除了cDNA末端快速扩增法(RACE)外,目前主要采取的措施是构建高质量的全长cDNA文 北京高新技术产业国际周特别报道库,即应用mRNA的5’末端帽(cap)结构合成cDNA,分离合成产物的大片段部分进行文库构建。对于表达丰度很低的mRNA,可采用校正cDNA文库加以识别。此外,对基因组DNA序列进行基因结构预测,以指导cDNA的合成,也可望加快全长cDNA克隆的步伐。
(四)DNA序列的生物信息学将带来医药学的重大革命
以大规模序列信息产出为基本特征的HGP,对计算机科学和信息技术无疑是一种压力和挑战。值得庆幸的是,HGP—开始就与信息高速公路和数据库技术形成了同步发展。迄今,国际上三个大的生物信息中心即美国的国家生物技术信息中心(NCBI)、欧洲生物信息学研究所(EBI)和日本DNA数据库(DDBJ)已经建立和维持了源自数百种生物的DNA序列的大型数据库。这些中心和全球的基因组研究实验室通过互联网联系,可供研究者在多种不同的分析中对序列数据提出质询,这些分析包括基因的识别,蛋白质模体的鉴定,调控元件的分析,重复序列的鉴别,相似性的分析,核苷酸组成的分析以及物种间的比较等。随着HGP进如Celera公司即构建了600台康柏克ɑ处理器所联成的并行计算系统,是目前世界上最大的计算机之一。可以毫不夸张地说,作为对DNA和蛋白质序列资料中各种类型信息进行识别、储存、分析、模拟和传输的学科,生物信息学已经显著地改变了基础生命科学的运作方式,并将带来医学和药物学的重大革命。
(五)基因组测序的成就
1.一石多鸟的模式生物体基因组测序
HGP除了人类基因组的作图、测序之外,还包括对一批模式生物体的基因组研究,如大肠杆菌、面包酵母、线虫、果蝇、拟南芥菜、小鼠等。低等模式生物的基因组结构相对较简单,对其进行全基因组作图测序,可为人类基因组研究进行技术探索和积累经验。更重要的是,这些研究有助于在基因组水平认识进化规律,以及利用模式生物的转基因和基因剔除术(knockout)来研究基因的功能,可谓一石多鸟。随着遗传和物理图谱的进一步完善,测序技术的进一步改进及成本下降,对其他各种模式生物体,尤其是基因组很大的哺乳类动物和植物基因组的测序将会不断展开。在不同的生物,根据基础和开发性研究的不同目标,测序的覆盖率和精度也会有所不一。在很多情况下,工作草图可能已经相当有用。2000年4月4日,Monsanto公司宣布与Leroy Hood领导的研究小组合作测出了水稻基因组的工作草图。近来,小鼠的基因组和cDNA的测序已全面展开,其基因组测序可能会以工作草图为主。此外,对大鼠、黑猩猩的基因组工作草图测序也在计划之中。
2.人类基因组测序呈现出极为激烈的竞争局面
就在HGP由作图向大规模测序转换之际,发生了一个重要的事件。1998年成立的Celera公司,宣称3年时间完成人类基因组序列测定,建立用于商业开发的数据库,并对一批最重要的人类基因进行专利。面对Celera的挑战,公共领域测序计划决定加快速度,于2000年春天获得工作草图,2003年实现最终完成序列图。HGP因而出现了极为激烈的竞争局面。美国、英国、日本、法国、德国和中国共15个测序中心或协作组参与的国际人类基固组测序计划共同努力,至2000年4月15日止已得到的完成序列达586,045Kb,占人类基因组18.2%,工作草图序列达 2,327,572Kb,覆盖了人类基因组的72.4%。两者相加已达到了90%的预定目标。与此同时,对整条染色体的精细测序也在紧锣密鼓地进行。1999年12月,发表了由英、日、美、加拿大、瑞典科学家共同完成的对人类22号染色体的常染色体部分共33.4Mb的测序(6)。该序列由12个连续序列群所组成,其中的缝隙均小于150Kb。在这些序列中,共包括了545个基因和134个假基因。2000年3月低,由日、美、德为主已完成了第21号染色体的全序列测定,结果即将发表(Fujiyama,个人通讯)。估计在人类基因组工作草图完成后,将出现针对其它各条染色体最终完成序列的工作热潮。各染色体的DNA精细序列,将提供以下的信息:染色体上所有基因的完整结构(包括未知功能基因),基因的调控序列,推导基因所编码的蛋白序列,以及其它具有生物学意义的序列(包括各种散布于基因组的重复序列和染色体特异的重复序列)。在此基础上,将可能进一步研究基因组序列的变异,以及疾病或其他生物学性状相关的基因。因此,全染色体的最终完成序列是真正的科学里程碑。值得注意的是,在公共领域测序速度明显加快的同时,Celera于2000年4月6日宣布完成了一个人的基因组序列的测序阶段工作,估计代表了人类基因组的99%,现已开始序列组装,但未公布技术细节。该公司还宣布即将测定SNP和进行缝隙填补,其最终基因组数据库中将包含不同种族的6个个体的数据。因此,今后一段时间内公共领域与Celera之间的竞争还将是十分激烈的。
功能基因组学
当前,随着结构基因组学向染色体完成序列图的目标顺利进展,以揭示基因组的功能及调控机制为目标的功能基因组学已提上议事日程。美国HGP1998-2003年的新目标,除了完成基因组全序列测定之外,还有人类DNA序列变异、全长cDNA克隆、发展全基因组水平功能分析的技术、模式生物体等属于功能基因组学范畴的内容。一般认为功能基因组研究包括的核心科学问题有:基因组的多样性;基因组的表达及其时、空调节;模式生物基因组研究等。还应指出,生物信息学也是对功能基因组学数据进行储存、分析和发掘的基本手段(2)。
(一)基因组多样性的研究极大地促进了
药物治疗方案的优化 北京高新技术产业国际周特别报道 人类是一个具有多态性的群体。不同群体和个体在生物学性状以及在对疾病的易感性/抗性上的差别,反映了进化过程中基因组与内、外环境相互作用的结果。已知人类基因组DNA序列中最常见的变异形式是SNP,在全基因组中估计有3-10×106个。与罕见的单碱基变异所不同的是,SNP等位位点的频率应等于或高于1%。当SNP位于基因的编码序列中即称为cSNP。若cSNP引起蛋白质重要部位氨基酸的变异,可导致其功能改变;位于基因调控序列中的SNP则可能影响基因表达的剂量。故这两种SNP的生物学意义更为显著,是基因组中决定人类表型多样性的核心信息。另一方面,SNP因连锁不平衡(LD)所形成的单倍型,也可用于关联研究(association sutdies)来确定与之联锁的生物学性状相关序列(8)。目前,已发展了多种自动化和批量化检测SNP的技术,其应用范围十分广泛,包括连锁分析与基因定位;疾病的关联研究;多基因疾病的基因定位;个体识别和亲子鉴定;发病机理的研究;以及研究生物进化,生物间相互关系等。前曾述及,Celera的人类基因组测序计划包括了SNP。针对此种情况,1999年国际上10家大药厂与三家研究机构建立了SNP协作组,以后又吸引了信息技术产业的数家大公司参与,对24个来自世界不同群体的个体,进行SNP的随机筛选,计划到2001年获得30万个SNP,其中半数得到定位,从而将整个基因组分隔为5-50Kb长度的LD片段。目前,该计划进展顺利,所发现的SNP在人群中测试的成功率为94%,已有41,200个SNP向公共领域公布。
在基因组多样性研究方面,一个近年备受医学界和制药工业界关注的新领域是药物基因组学(Pharmacogenomics)。药物的疗效和副作用受到机体多种因素的影响,尤其是药物代谢酶、转运体、受体和其他药物靶点蛋白,而编码这些蛋白的基因在不同个体间又存在着遗传多态性,其基本形式也是SNP。药物基因组学就是要阐明个体间在药物代谢和效应方面发生差别的遗传基础,促进新药的发现,并根据个体的遗传背景来优化药物治疗方案,亦即“个体化治疗”。这一研究同时也能使某些药物找到合适的治疗人群(9)。
(二)基因组的表达调控和蛋白产物的功能
1.以基因转录表达谱及其调控来检测单个细胞的能力
一个细胞的转录表达水平能够精确而特异地反映其类型、发育阶段以及反应状态,是功能基因组学的主要研究内容之一。为了能够全面而不是孤立地评价全部基因的表达,需要建立全新的工具系统,其定量敏感度应达到1个拷贝/细胞,定性敏感度应能够区分剪接方式,还须达到检测单个细胞的能力。近年来发展的DNA芯片以及微量RNA探针制备技术已基本达到了这些目标。
2.揭示生命活动的前提是蛋白质表达及其功能的大规模研究(蛋白质组学,Proteomics)
蛋白质组学研究的定义是在生命体或细胞的整体水平研究蛋白质的表达和修饰状态。目前一般使用的技术路线,是提取细胞的蛋白质,利用标准化的双向凝胶电泳分离后,用质谱仪对各个蛋白点进行分析,根据多肽的特征分析并与蛋白质数据库进行比较,鉴别蛋白质的类型和检测其修饰状态(如磷酸化和糖基化)。为此,已发展了一些新的仪器系统如MALDI-TOF(时间飞行质谱)或electronicspray(电子喷射)。此外,也有人在设计和制作各种蛋白生物芯片。蛋白质组的另外一个重要工作内容是建立蛋白质相互作用的系统目录,目前较常用的手段是格式化、规模化的酵母双杂交体系。
(三)模式生物体充当功能基因组学的工具
1.基因的平均长度可能是基因组功能复杂度最重要的指标
如前所述,在人类基因组的研究中,模式生物体的研究占有极其重要的地位。模式生物体的基因组结构相对简单,但是它们的核心细胞过程和生化通路在很大程度上是保守的。通过比较和鉴别进化不同阶段生物体的基因组信息,将进一步加深对人类基因组结构和功能的了解。
2.功能缺失突变和转基因是识别基因功能的主要方法
识别基因功能最有效的方法可能是观察基因表达被阻断后在细胞和整体所产生的表型变化。在这方面,基因剔除术(knockout)模式生物体成为特别有用的工具。目前,国际上已实现了对酵母所有基因的缺失突变体构建。随着线虫和果蝇基因组测序的完成,也可对这两种生物展开类似的研究。小鼠作为哺乳类中代表性的模式生物,在功能基因组学研究中占有特殊的地位。到2000年3月17日为止,已产生的小鼠基因剔除或其它突变模型已达到2,282种。近年来发展的条件化基因剔除术,已可达到对任何基因在不同发育阶段和不同器官、组织的选择性剔除。除了用同源重组技术制造基因剔除生物、也可用化学诱变剂或插入突变方法随机诱导模式生物体的基因突变,对产生表型变化者利用快速基因定位法识别致病基因。此外,近来也有人利用组合化学方法尝试针对蛋白质的化学“剔除”试剂,用来激活或失活各种蛋白质。
上述的功能缺失突变分析手段固然十分重要,但也存在着若干限制因素。如许多基因在剔除后并未产生明显的表型改变,可能是这些基因的功能为别的基因所代偿。因此,在模式生物引入基因的高表达,观察对调控网络的影响,也是研究基因功能的重要手段之一。
(未完待续)