第三节 真核基因表达调控
一、真核基因组的复杂性
与原核生物比较,真核生物的基因组更为复杂,可列举如下。
▲真核基因组比原核基因组大得多,大肠杆菌基因组约4×106bp,哺乳类基因组在109bp数量级,比细菌大千倍;大肠杆菌约有4000个基因,人则约有10万个基因。
▲真核生物主要的遗传物质与组蛋白等构成染色质,被包裹在核膜内,核外还有遗传成分(如线粒体DNA等),这就增加了基因表达调控的层次和复杂性。
▲原核生物的基因组基本上是单倍体,而真核基因组是二倍体。
▲如前所述,细菌多数基因按功能相关成串排列,组成操纵元的基因表达调控的单元,共同开启或关闭,转录出多顺反子(polycistron)的mRNA;真核生物则是一个结构基因转录生成一条mRNA,即mRNA是单顺反子(monocistron),基本上没有操纵元的结构,而真核细胞的许多活性蛋白是由相同和不同的多肽形成的亚基构成的,这就涉及到多个基因协调表达的问题,真核生物基因协调表达要比原核生物复杂得多。
▲原核基因组的大部分序列都为基因编码,而核酸杂交等实验表明:哺乳类基因组中仅约10%的序列为蛋白质、rRNA、tRNA等编码,其余约90%的序列功能至今还不清楚。
▲原核生物的基因为蛋白质编码的序列绝大多数是连续的,而真核生物为蛋白质编码的基因绝大多数是不连续的,即有外显子(exon)和内含子(intron),转录后需经剪接(splicing)去除内含子,才能翻译获得完整的蛋白质,这就增加了基因表达调控的环节。
▲原核基因组中除rRNA、tRNA基因有多个拷贝外,重复序列不多。哺乳动物基因组中则存在大量重复序列(repetitive sequences)。用复性动力学等实验表明有三类重复序列:①高度重复序列(highly repetitive sequences),这类序列一般较短,长10-300bp,在哺乳类基因组中重复106次左右,占基因组DNA序列总量的10-60%,人的基因组中这类序列约占20%,功能还不明了。②中度重复序列(moderately repetitive sequences),这类序列多数长100-500bp,重复101-105次,占基因组10-40%。例如哺乳类中含量最多的一种称为Alu的序列,长约300bp,在哺乳类不同种属间相似,在基因组中重复3-×105次,在人的基因组中约占7%,功能也还不很清楚。在人的基因组中18S/28SrRNA基因重复280次,5SrRNA基因重复2000次,tRNA基因重复1300次,5种组蛋白的基因串连成簇重复30-40次,这些基因都可归入中度重复序列范围。③单拷贝序列(single copy sequences)。这类序列基本上不重复,占哺乳类基因组的50-80%,在人基因组中约占65%。绝大多数真核生物为蛋白质编码的基因在单倍体基因组中都不重复,是单拷贝的基因。
从上述可见真核基因组比原核基因组复杂得多,至今人类对真核基因组的认识还很有限,使现在国际上制订的人基因组研究计划(human gene project)完成,绘出人全部基因的染色体定位图,测出人基因组109bp全部DNA序列后,要搞清楚人全部基因的功能及其相互关系,特别是要明了基因表达调控的全部规律,还需要经历很长期艰巨的研究过程。
二、真核基因表达调控的特点
尽管我们现在对真核基因表达调控知道还不多,但与原核生物比较它具有一些明显的特点。
(一)真核基因表达调控的环节更多
如前所述,基因表达是基因经过转录、翻译、产生有生物活性的蛋白质的整个过程。同原核生物一样,转录依然是真核生物基因表达调控的主要环节。但真核基因转录发生在细胞核(线粒体基因的转录在线粒体内),翻译则多在胞浆,两个过程是分开的,因此其调控增加了更多的环节和复杂性,转录后的调控占有了更多的分量。图19-13扼要地列出真核基因表达的各个可能的环节。
图19-13 真核生物基因表达调控的可能环节
图19-13总结了以前章节叙述过的基因表达过程,并作了一些新补充。图中标出了真核细胞在分化过程中会发生基因重排(gene rearrangement),即胚原性基因组中某些基因会再组合变化形成第二级基因。例如编码完整抗体蛋白的基因是在淋巴细胞分化发育过程中,由原来分开的几百个不同的可变区基因经选择、组合、变化,与恒定区基因一起构成稳定的、为特定的完整抗体蛋白编码的可表达的基因。这种基因重排使细胞可能利用几百个抗体基因的片段,组合变化而产生能编码达108种不同抗体的基因,其中就有复杂的基因表达调控机理。
此外,真核细胞中还会发生基因扩增(gene amplification),即基因组中的特定段落在某些情况下会复制产生许多拷贝。最早发现的是蛙的成熟卵细胞在受精后的发育过程中其rRNA基因(可称为rDNA)可扩增2000倍,以后发现其他动物的卵细胞也有同样的情况,这很显然适合了受精后迅速发育分裂要合成大量蛋白质,需要有大量核糖体。又如MTX(methotrexate)是叶酸的结构类似物,一些哺乳类细胞会对含有利用叶酸所必需的二氢叶酸还原酶(dihydrofolate reductase, DHFR)基因的DNA区段扩增40?00倍,使DHFR的表达量显著增加,从而提高对MTX的抗性。基因的扩增无疑能够大幅度提高基因表达产物的量,但这种调控机理至今还不清楚。
(二)真核基因的转录与染色质的结构变化相关
真核基因组DNA绝大部分都在细胞核内与组蛋白等结合成染色质,染色质的结构、染色质中NA和组蛋白的结构状态都影响转录,至少有以下现象:
1.染色质结构影响基因转录 细胞分裂时染色体的大部分到间期时松开分散在核内,称为常染色质(euchromatin),松散的染色质中的基因可以转录。染色体中的某些区段到分裂期后不像其他部分解旋松开,仍保持紧凑折叠的结构,在间期核中可以看到其浓集的斑块,称为异染色质(heterochromatin),其中从未见有基因转录表达;原本在常染色质中表达的基因如移到异染色质内也会停止表达;哺乳类雌体细胞2条X染色体,到间期一条变成异染色质者,这条X染色体上的基因就全部失活。可见紧密的染色质结构阻止基因表达。
2.组蛋白的作用 早期体外实验观察到组蛋白与DNA结合阻止DNA上基因的转录,去除组蛋基因又能够转录。组蛋白是碱性蛋白质,带正电荷,可与DNA链上带负电荷的磷酸基相结合,从而遮蔽了DNA分子,妨碍了转录,可能扮演了非特异性阻遏蛋白的作用;染色质中的非组蛋白成分具有组织细胞特异性,可能消除组蛋白的阻遏,起到特异性的去阻遏促转录作用。
发现核小体后,进一步观察核小体结构与基因转录的关系,发现活跃转录的染色质区段,有富含赖氨酸的组蛋白(H1组蛋白)水平降低,H2A·H2B组蛋白二聚体不稳定性增加、组蛋白乙酰化(acetylation)和泛素化(ubiquitination),以及H3组蛋白巯基化等现象,这些都是核小体不稳定或解体的因素或指征。转录活跃的区域也常缺乏核小体的结构。这些都表明核小体结构影响基因转录。
3.转录活跃区域对核酸酶作用敏感度增加 染色质DNA受DNase Ⅰ作用通常会被降解成00、400……bp的片段,反映了完整的核小体规则的重复结构。但活跃进行转录的染色质区域受DNase Ⅰ消化常出现100-200bp的DNA片段,且长短不均一,说明其DNA受组蛋白掩盖的结构有变化,出现了对DNase Ⅰ高敏感点(hypersensitive site)。这种高敏感点常出现在转录基因的5′侧区(5′flanking region)、3′末端或在基因上,多在调控蛋白结合位点的附近,分析该区域核小体的结构发生变化,可能有利于调控蛋白结合而促进转录。
4.DNA拓扑结构变化 天然双链DNA的构象大多是负性超螺旋。当基因活跃转录时,RNA聚合酶转录方向前方DNA的构象是正性超螺旋,其后面的DNA为负性超螺旋。正性超螺旋会拆散核小体,有利于RNA聚合酶向前移动转录;而负性超螺旋则有利于核小体的再形成。
5.DNA碱基修饰变化 真核DNA中的胞嘧啶约有5%被甲基化为5甲基胞嘧啶(5methylcytidine,m5C),而活跃转录的DNA段落中胞嘧啶甲基化程度常较低。这种甲基化最常发生在某些基因5′侧区的CpG序列中,实验表明这段序列甲基化可使其后的基因不能转录,甲基化可能阻碍转录因子与DNA特定部位的结合从而影响转录。如果用基因打靶的方法除去主要的DNA甲基化酶,小鼠的胚胎就不能正常发育而死亡,可见DNA的甲基化对基因表达调控是重要的。
由此可见,染色质中的基因转录前先要有一个被激活的过程,但目前对激活机制还缺乏认识。
(三)真核基因表达以正性调控为主
真核RNA聚合酶对启动子的亲和力很低,基本上不依靠自身来起始转录,需要依赖多种激活蛋白的协同作用。真核基因调控中虽然也发现有负性调控元件,但其存在并不普遍;真核基因转录表达的调控蛋白也有起阻遏和激活作用或兼有两种作用者,但总的是以激活蛋白的作用为主。即多数真核基因在没有调控蛋白作用时是不转录的,需要表达时就要有激活的蛋白质来促进转录。换言之:真核基因表达以正性调控为主导。
三、真核基因转录水平的调控
真核细胞的三种RNA聚合酶(Ⅰ、Ⅱ和Ⅲ)中,只有RNA聚合酶Ⅱ能转录生成mRNA,以下主要讨论RNA聚合酶Ⅱ的转录调控。
(一)顺式作用元件(cisacting elements)
真核基因的顺式调控元件是基因周围能与特异转录因子结合而影响转录的DNA序列。其中主要是起正性调控作用的顺式作用元件,包括启动子(promoter)、增强子(enhancer);近年又发现起负性调控作用的元件棗沉寂子(silencer)。
1.启动子 与原核启动子的含义相同,是指RNA聚合酶结合并起动转录的DNA序列。但真核同启动子间不像原核那样有明显共同一致的序列,而且单靠RNA聚合酶难以结合DNA而起动转录,而是需要多种蛋白质因子的相互协调作用,不同蛋白质因子又能与不同DNA序列相互作用,不同基因转录起始及其调控所需的蛋白因子也不完全相同,因而不同启动子序列也很不相同,要比原核更复杂、序列也更长。真核启动子一般包括转录起始点及其上游约100-200bp序列,包含有若干具有独立功能的DNA序列元件,每个元件约长7-30bp。最常见的哺乳类RNA聚合酶Ⅱ启动子中的元件序列见表19-1。
表19-1 哺乳类RNA聚合酶Ⅱ启动子中常见的元件
元件名称 |
共同序列 |
结合的蛋白因子 |
名称 |
分子量 |
结合DNA长度 |
TATAbox |
TATAAAA |
TBP |
30,000 |
~10bp |
GC box |
GGGCGG |
SP-1 |
105,000 |
~20bp |
CAA box |
GGCCAATCT |
CTF/NF1 |
60,000 |
~22bp |
Octamer |
ATTTGCAT |
Oct-1 |
76,000 |
~10bp |
|
|
Oct-2 |
53,000 |
~20bp |
kB |
GGGACTTTCC |
NFkB |
44,000 |
~10bp |
ATF |
GTGACGT |
AFT |
? |
20bp |
启动子中的元件可以分为两种:
①核心启动子元件(core promoter element) 指RNA聚合酶起始转录所必需的最小的DNA序列,包括转录起始点及其上游-25/-30bp处的TATA盒。核心元件单独起作用时只能确定转录起始位点和产生基础水平的转录。
②上游启动子元件(upstream promoter element) 包括通常位于-70bp附近的CAAT盒和GC盒、以及距转录起始点更远的上游元件。这些元件与相应的蛋白因子结合能提高或改变转录效率。不同基因具有不同的上游启动子元件,其位置也不相同,这使得不同的基因表达分别有不同的调控。图19-14以人金属硫蛋白基因为例子,说明真核基因上游启动子元件的组织情况和各元件相应结合的转录因子。
图19-14 人金属硫蛋白基因的调控区
2.增强子 是一种能够提高转录效率的顺式调控元件,最早是在SV40病毒中发现的长约200bp的一段DNA,可使旁侧的基因转录提高100倍,其后在多种真核生物,甚至在原核生物中都发现了增强子。增强子通常占100-200bp长度,也和启动子一样由若干组件构成,基本核心组件常为8-12bp,可以单拷贝或多拷贝串连形式存在。增强子的作用有以下特点:
①增强子提高同一条DNA链上基因转录效率,可以远距离作用,通常可距离1-4kb、个别情况下离开所调控的基因30kb仍能发挥作用,而且在基因的上游或下游都能起作用。
②增强子作用与其序列的正反方向无关,将增强子方向倒置依然能起作用。而将启动子倒就不能起作用,可见增强子与启动子是很不相同的。
③增强子要有启动子才能发挥作用,没有启动子存在,增强子不能表现活性。但增强子对动子没有严格的专一性,同一增强子可以影响不同类型启动子的转录。例如当含有增强子的病毒基因组整合入宿主细胞基因组时,能够增强整合区附近宿主某些基因的转录;当增强子随某些染色体段落移位时,也能提高移到的新位置周围基因的转录。使某些癌基因转录表达增强,可能是肿瘤发生的因素之一。
④增强子的作用机理虽然还不明确,但与其他顺式调控元件一样,必须与特定的蛋白质因结合后才能发挥增强转录的作用。增强子一般具有组织或细胞特异性,许多增强子只在某些细胞或组织中表现活性,是由这些细胞或组织中具有的特异性蛋白质因子所决定的。
3.沉寂子 最早在酵母中发现,以后在T淋巴细胞的T抗原受体基因的转录和重排中证实这种负调控顺式元件的存在。目前对这种在基因转录降低或关闭中起作用的序列研究还不多,但从已有的例子看到:沉寂子的作用可不受序列方向的影响,也能远距离发挥作用,并可对异源基因的表达起作用。
(二)反式作用因子(transacting factors)
以反式作用影响转录的因子可统称为转录因子(transcription factors, TF)。RNA聚合酶是一种反式作用于转录的蛋白因子。在真核细胞中RNA聚合酶通常不能单独发挥转录作用,而需要与其他转录因子共同协作。与RNA聚合酶Ⅰ、Ⅱ、Ⅲ相应的转录因子分别称为TFⅠ、TFⅡ、TFⅢ,对TFⅡ研究最多。表19-2列出真核基因转录需要基本的TFⅡ。
表19-2 RNA聚合酶Ⅱ的基本转录因子
转录因子 |
分子量(kD) |
功能 |
TBP |
30 |
与TATA盒结合 |
TFⅡ-B |
33 |
介导RNA聚合酶Ⅱ的结合 |
TFⅡ-F |
30,74 |
解旋酶 |
TFⅡ-E |
34,37 |
ATP酶 |
TFⅡ-H |
62,89 |
解旋酶 |
TFⅡ-A |
12,19,35 |
稳定TFⅡ-D的结合 |
TFⅡ-I |
120 |
促进TFⅡ-D的结合 |
以前认为与TATA盒结合的蛋白因子是TFⅡ-D,后来发现TFⅡ-D实际包括两类成分:与TATA盒结合的蛋白是TBP(TATAbox binding protein),是唯一能识别TATA盒并与其结合的转录因子,是三种RNA聚合酶转录时都需要的;其他称为TBP相关因子(TBPassociated factors TAF),至少包括8种能与TBP紧密结合的因子。转录前先是TFⅡ-D与TATA盒结合;继而TFⅡ-B以其C端与TBP-DNA复合体结合,其N端则能与RNA聚合酶Ⅱ亲和结合,接着由两个亚基组成的TFⅡ-F加入装配,TFⅡ-F能与RNA聚合酶形成复合体,还具有依赖于ATP供给能量的DNA解旋酶活性,能解开前方的DNA双螺旋,在转录链延伸中起作用。这样,启动子序列就与TFⅡ-D、B、F及RNA聚合酶Ⅱ结合形成一个“最低限度”能有转录功能基础的转录前起始复合物(preintitiation complex, PIC),能转录mRNA。TFⅡ-H是多亚基蛋白复合体,具有依赖于ATP供给能量的DNA解旋酶活性,在转录链延伸中发挥作用;TFⅡ-E是两个亚基组成的四聚体,不直接与DNA结合而可能是与TFⅡ-B联系,能提高ATP酶的活性;TFⅡ-E和TFⅡ-H的加入就形成完整的转录复合体(图19?5),能转录延伸生成长链RNA,TFⅡ-A能稳定TFⅡ-D与TATA盒的结合,提高转录效率,但不是转录复合体一定需要的。
图19-15 RNA聚合酶Ⅱ转录复合体的形成示意图
以上所述是典型的启动子上转录复合体的形成,但有的真核启动子不含TATA盒或不通过TATA盒开始转录。例如有的无TATA盒的启动子是靠TFⅡ-I和TFⅡ-D共同组成稳定的转录起始复合体开始转录的。由此可以看到真核转录起始的复杂性。
不同基因由不同的上游启动子元件组成,能与不同的转录因子结合,这些转录因子通过与基础的转录复合体作用而影响转录的效率。现在已经发现有许多不同的转录因子,看到的现象是:同一DNA序列可被不同的蛋白因子所识别;能直接结合DNA序列的蛋白因子是少数,但不同的蛋白因子间可以相互作用,因而多数转录因子是通过蛋白质-蛋白质间作用与DNA序列联系并影响转录效率的(见图19-16)。转录因子之间或转录因子与DNA的结合都会引起构象的变化,从而影响转录的效率。
图19-16 转录因子与转录复合体相互作用模式图
图19-16所示,作为蛋白质的转录因子从功能上分析其结构可包含有不同区域,①DNA结合域(DNa binding domain),多由60-100个氨基酸残基组织的几个亚区组成;②转录激活域(activating domain),常由30-100氨基酸残基组成,这结构域有富含酸性氨基酸、富含谷氨酰胺、富含脯氨酸等不同种类,以酸性结构域最多见;③连接区,即连接上两个结构域的部分。不与DNA直接结合的转录因子没有DNA结合域,但能通过转录激活域直接或间接作用于转录复合体而影响转录效率。
与DNA结合的转录因子大多以二聚体形式起作用,与DNA结合的功能域常见有以下几种:
图19-17 HTH结构及其与DNA的结合
①螺旋转角螺旋(helixturnhelix, HTH)及螺旋-环-螺旋(helixloophelix,HLH) 这类结构至少有两个α螺旋,其间由短肽段形成的转角或环连接,两个这样的motif结构以二聚体形式相连,距离正好相当于DNA一个螺距(3.4nm),两个α螺旋刚好分别嵌入DNA的深沟(图19-17)。
图19-18 蛋白质的锌指结构
②锌指(zinc finger) 其结构如图19-18所示,每个重复的“指”状结构约含23个氨基酸残基,锌以4个配价键与4个半胱氨酸、或2个半胱氨酸和2个组氨酸相结合。整个蛋白质分子可有2?个这样的锌指重复单位。每一个单位可以其指部伸入DNA双螺旋的深沟,接触5个核苷酸。例如与GC盒结合的转录因子SP1中就有连续的3个锌指重复结构。
③碱性-亮氨酸拉链(basic leucine zipper, bZIP),该结构的特点是蛋白质分子的肽链上每隔6个氨基酸就有一个亮氨酸残基,结果就导致这些亮氨酸残基都在α螺旋的同一个方向出现。两个相同结构的两排亮氨酸残基就能以疏水键结合成二聚体,该二聚体的另一端的肽段富含碱性氨基酸残基,借其正电荷与DNA双螺旋链上带负电荷的磷酸基团结合。若不形成二聚体则对DNA的亲和结合力明显降低。在肝脏、小肠上皮、脂肪细胞和某些脑细胞中有称为C/EBP家族的一大类蛋白质能够与CAAT盒和病毒增强子结合,其特征就是能形成bZIP二聚体结构。
图19-19 碱性亮氨酸拉链结构及其与DNA的结合
从上述可见:转录调控的实质在于蛋白质与DNA、蛋白质与蛋白质之间的相互作用,构象的变化正是蛋白质和核酸“活”的表现。但对生物大分子间的辨认、相互作用、结构上的变化及其在生命活动中的意义,人们的认识和研究还只在起步阶段,其中许多内容甚至重要的规律我们可能至今还一无所知,有待于努力探索。
本 章 提 要
基因表达是基因经过一系列步骤表现出其生物功能的整个过程,是受着严密、精确调控的。基因组含有生物体生存、发育、活动和繁殖所需要的全部遗传信息,但这些遗传信息并不同时全部都表达出来。不同的组织细胞、细胞分化发育不同时期,基因表达的种类和强度各不相同,决定着细胞的形态和功能;生物体能适应环境变化改变自身的基因表达以利生存,因而基因表达调控也是生命本质之所在。某些基因表达不大受环境影响,称为组成性表达;其中某些基因表达产物是细胞或生物体整个生命过程中都持续需要而必不可少的,这类基因称为看家基因。另一类基因表达易随环境信号而变化,称为适应性表达。环境变化,使基因表达水平提高者称为诱导,使基因表达水平降低者称为阻遏。
基因表达调控可以在复制、扩增、基因激活、转录、转录后、翻译和翻译后等多级水平上行,但mRNA转录起始是基因表达调控的基本控制点。转录起始调控的实质是DNA-蛋白质/蛋白质蛋白质间的相互作用对RNA聚合酶活性的影响。调控结果使基因表达水平提高的称为正性调控(上调),使基因表达水平降低者为负性调控(下调)。在同一条核酸链上起调控基因表达作用的核酸序列称为顺式作用元件;能对不同核酸链上的基因表达起调控作用的蛋白质称反式作用因子或转录因子。核酸链上的顺式作用元件与反式作用蛋白因子相互作用而调控基因表达。
多数原核生物的基因按功能相关性串连排列共同组成一个转录调控单位棗操纵元。第一个阐明的操纵元是1ac操纵元。操纵元最基本的组成元件有:受调控的结构基因群、启动子、操纵子、调控基因和终止子。有的操纵元还含有衰减子。在同一启动子控制下,从结构基因群转录合成多顺反子mRNA,实现协调表达。由调控基因编码合成的调控蛋白作用于操纵子序列,起到阻遏基因表达作用的称阻遏蛋白,起促进基因表达者为激活蛋白。调控蛋白可受特定的小分子作用发生变构而改变其对操纵子的作用,这是许多原核基因适应内外环境变化,改变表达水平的机理所在。
真核基因组比原核大得多,结构更复杂,含有许多重复序列,基因组的大部分序列不是为蛋白质编码的,而为蛋白质编码的基因绝大多数是不连续的。真核生物基本上是采取逐个基因调控表达的形式。真核基因表达调控的环节更多,转录前可以有基因的扩增或重排,并涉及染色质结构的改变、基因激活过程。转录后调控的方式也很多,但仍以转录起始调控为主。正性调控是真核基因调控的主导方面,RNA聚合酶的转录活性依赖于基本转录因子,在转录前先形成转录复合体,其转录效率受许多蛋白因子的影响,协调表达更为复杂。目前对真核基因表达调控的认识和研究还只处在初级阶段。
复习思考题
1.什么是基因表达?试述基因表达变化的特点及其调控对生物体的重要性。
2.为什么说转录起始的调控是基因表达调控的中心环节?
3.举实际例子说明操纵元的组成元件及其作用,并分析可阻遏的操纵元和可诱导的操纵元的调控方式。
4.比较真核和原核生物的基因表达和基因表达调控相似和不同之处。
5.论述启动子、增强子和转录因子的概念、结构、功能及其相互关系。
(陈苏民)