大肠杆菌利用乳糖至少需要两个酶:促使乳糖进入细菌的乳糖透过酶(lactose permease)催化乳糖分解第一步的β-半乳糖苷酶(β-galactosidase)(图19-2)。
在环境中没有乳糖或其他β-半乳糖苷时,大肠杆菌合成β-半乳糖苷酶量极少,加入乳糖2-3分钟后,细菌大量合成β-半乳糖苷酶,其量可提高千倍以上,在以乳糖作为唯一碳源时,菌体内的β-半乳糖苷酶量可占到细菌总蛋白量的3%。在上述二阶段生长细菌利用乳糖再次繁殖前,也能测出细菌中β-半乳糖苷酶活性显著增高的过程。这种典型的诱导现象,是研究基因表达调控的极好模型。
针对大肠杆菌利用乳糖的适应现象,法国的Jacob和Monod等人做了一系列遗传学和生化学研究实验,于1961年提出乳糖操纵元(lac operon)学说,如图19-3所示。图19-3中z、a和b型是大肠杆菌编码利用乳糖所需酶类的基因,p是转录z、a、b所需要的启动子,调控基因i编码合成调控蛋白R,R能与o结合而阻碍从p开始的基因转录,所以o就是调节基因开放的操纵序列,乳糖能改变R结构使其不能与o结合,因而乳糖浓度增高时基因就开放,转录合成所编码的酶类,这样大肠杆菌就能适应外界乳糖供应的变化而改变利用乳糖的状况,这个模型是人们在科学实验的基础上第一次开始认识基因表达调控的分子机理。
乳糖操纵元模型被以后的许多研究实验所证实,对其有了更深入的认识,并且发现其他原核生物基因调控也有类似的操纵元组织,操纵元是原核基因表达调控的一种重要的组织形式,大肠杆菌的基因多数以操纵元的形式组成基因表达调控的单元。下面就以半乳糖操纵元为例子说明操纵元的最基本的组成元件(elements)。
操纵元中被调控的编码蛋白质的基因可称为结构基因(structural gene, SG)。一个操纵元中含有2个以上的结构基因,多的可达十几个。每个结构基因是一个连续的开放读框(open reading frame),5′端有翻译起始码(DNA存储链上是ATG,转录成mRNA就是AUG),3′端有翻译终止码(DNA存储链上是TAA、TGA或TAG,转录成mRNA就是UAA、UGA或UAG)。各结构基因头尾衔接、串连排列,组成结构基因群。至少在第一个结构基因5′侧具有核糖体结合位点(ribosome binding site, RBS),因而当这段含多个结构基因的DNA被转录成多顺反子mRNA,就能被核糖体所识别结合、并起始翻译。核糖体沿mRNA移动;在合成完第一个编码的多肽后,核糖体可以不脱离mRNA而继续翻译合成下一个基因编码的多肽,直至合成完这条多顺反子mRNA所编码的全部多肽。
乳糖操纵元含有z、y和a三个结构基因。z基因长3510bp,编码含1170个氨基酸、分子量为135,000的多肽,以四聚体形式组成有活性的β-半乳糖苷酶,催化乳糖转变为别乳糖(allolactose),再分解为半乳糖和葡萄糖;y基因长780bp,编码由260个氨基酸组成、分子量30000的半乳糖透过酶,促使环境中的乳糖进入细菌;a基因长825bp,编码含275氨基酸、分子量为32000的转乙酰基酶,以二聚体活性形式催化半乳糖的乙酰化。z基因5′侧具有大肠杆菌核糖体识别结合位点(ribosome binding site, RBS)特征的ShineDalgarno(SD)序列,因而当乳糖操纵元开放时,核糖体能结合在转录产生的mRNA上。由于z、y、a三个基因头尾相接,上一个基因的翻译终止码靠近下一个基因的翻译起始码,因而同一个核糖体能沿此转录生成的多顺反子(polycistron)mRNA移动,在翻译合成了上一个基因编码的蛋白质后,不从mRNA上掉下来而继续沿mRNA移动合成下一个基因编码的蛋白质,一气依次合成基因群所编码的所有蛋白质。
启动子(promoter,P)是指能被RNA聚合酶识别、结合并启动基因转录的一段DNA序列。操纵元至少有一个启动子,一般在第一个结构基因5′侧上游,控制整个结构基因群的转录。用RNA聚合酶与分离的一段DNA双链混合,再加入外切核酸酶去水解DNA,结果只有被RNA聚合酶识别结合而被保护的那段DNA不被水解,由此可以测出启动子的范围及其序列。虽然不同的启动子序列有所不同,但比较已经研究过的上百种原核生物的启动子的序列,发现有一些共同的规律,它们一般长40-60bp,含A桾碱基对较多,某些段落是很相似的,这些相似的保守性段落称为共有性序列(consensus sequences)。如图19-4所示,启动子一般可分为识别(R,recognition)、结合(B,binding)和起始(I, initiation)三个区段。转录起始第一个碱基(通常标记位置为+1)最常见的是A;在-10bp附近有TATAAT一组共有序列,因为这段共有序列是Pribnow首先发现的,称为Pribnow盒(Pribnow box);在-35bp处又有TTGACA一组共有序列 。
启动子名称 |
-35区 |
-10区 |
+1 |
P trp |
……TTGACA…… |
N17……TTAACT… |
N7……A…… |
P tyr-tRNA |
……TTTACA…… |
N16……TATGAT… |
N7…G…… |
P lac |
……TTGACA…… |
N17……TATGTT… |
N7…A…… |
P recA |
……CTGATG…… |
N17……TATAAT… |
N7…A…… |
P ara |
……TTGACA…… |
N17……TACTGT… |
N7…A…… |
λPR |
……TTGACA…… |
N17……GATAAT… |
N6…A…… |
λPL |
……TTGACA…… |
N17……GATACT… |
N6…A…… |
T7 A2 |
……TTGACA…… |
N17……TACGAT… |
N6…A…… |
fd Ⅷ |
……TTGACA…… |
N17……TATAAT… |
N6…G…… |
图19-4 原核生物基因转录起始区
不同的启动子序列不同,与RNA聚合酶的亲和力不同,启动转录的频率高低不同,即不同的启动子起动基因转录的强弱不同,例如:PL、PR、PT7属强启动子,而P1ac则是较弱的启动。
(三)操纵子
操纵子(operator)是指能被调控蛋白特异性结合的一段DNA序列,常与启动子邻近或与启动子序列重叠,当调控蛋白结合在操纵子序列上,会影响其下游基因转录的强弱。以前许多书中将操纵子称为操纵基因(operator gene)。但现在基因定义是为蛋白质编码的核酸序列,而操纵序列并不是编码蛋白质的基因,却是起着调控基因表达强弱的作用,正如启动序列不叫启动基因而称为启动子一样,操纵序列就可称为操纵子。以前将operon译为操纵子则可改译为操纵元,即基因表达操纵的单元之意。
举乳糖操纵元中的操纵子为例,如图19-5所示,其操纵子(o)序列位于启动子(p)与被调控的基因之间,部分序列与启动子序列重叠。仔细分析该操纵子序列,可见这段双链DNA具有回文(palindrome)样的对称性一级结构,能形成十字形的茎环(stem loop)构造。不少操纵子都具有类似的对称性序列,可能与特定蛋白质的结合相关。
图19-5 乳糖操纵元的P-O区及O区序列
阻遏蛋白与操纵子结合,就妨碍了RNA聚合酶与启动子的结合及其后β-半乳糖苷酶等基因的转录起始,从而阻遏了这群基因的表达。最早只把与阻遏蛋白结合、起阻遏作用的序列称为操纵子,但其后发现有的操纵元中同一操纵序列与不同构像的蛋白质结合,可以分别起阻遏或激活基因表达的作用,阿拉伯糖操纵元中的序列就是典型的例子。因而凡能与调控蛋白特异性结合、从而影响基因转录强弱的序列,不论其对基因转录的作用是减弱、阻止或增强、开放,都可称为操纵子。
(四)调控基因
调控基因(regulatory gene)是编码能与操纵序列结合的调控蛋白的基因。与操纵子结合后能减弱或阻止其调控基因转录的调控蛋白称为阻遏蛋白(repressive protein),其介导的调控方式称为负性调控(negative regulation);与操纵子结合后能增强或起动调控基因转录的调控蛋白称为激活蛋白(activating protein),所介导的调控方式称为正性调控(positive regulation)。
某些特定的物质能与调控蛋白结合,使调控蛋白的空间构像发生变化,从而改变其对基因录的影响,这些特定物质可称为效应物(effector),其中凡能引起诱导发生的分子称为诱导剂(inducer),能导致阻遏发生的分子称为阻遏剂或辅助阻遏剂(corepressor)。
例如在乳糖操纵元中,调控基因1ac I位于P1ac邻近,有其自身的启动子和终止子,转录方向和结构基因群的转录方向一致,编码产生由347个氨基酸组成的调控蛋白R,在环境没有乳糖存在的情况下,R形成分子量为152000的活性四聚体,能特异地与操纵子o紧密结合,从而阻止利用乳糖的酶类基因的转录,所以R是乳糖操纵元的阻遏蛋白;当环境中有足够的乳糖时,乳糖受β-半乳糖苷酶作用转变为别乳糖,别乳糖与R结合,使R的空间构像变化,四聚体解聚成单体,失去与操纵子特异性紧密结合的能力,从而解除了阻遏蛋白的作用,使其后的基因得以转录合成利用乳糖的酶类。在这过程中乳糖(实际起作用的是别乳糖)就是诱导剂,与R结合起到去阻遏作用(derepression),诱导了利用乳糖的酶类基因转录开放。
许多调控蛋白都是变构蛋白(allosteric protein),通过与上述类似的方式与效应物结合变空间构像,从而改变活性,起到调节基因转录表达的作用。
(五)终止子
终止子(terminator T)是给予RNA聚合酶转录终止信号的DNA序列。在一个操纵元中至少在构基因群最后一个基因的后面有一个终止子。
终止子按其作用是否需蛋白因子的协助至少可以分为两类:一类是不依赖ρ因子(蛋白性终止因子)的终止子,这类终止子在序列上有一些共通的特点,即有一段富含GC的反向重复序列(inverted repeat sequence),其后跟随一段富含AT的序列(见图19-6),因而转录生成的mRNA的序列中能形成发夹式结构,后继一连串U,正是RNA聚合酶转录生成的这段mRNA的结构阻止RNA聚合酶继续沿DNA移动,并使聚合酶从DNA链上脱落下来,终止转录。另一类是依赖ρ因子的终止子,即其终止转录的作用需要ρ因子的协同,或至少是受ρ因子的影响。
图19-6 原核生物终止子的结构
不同的终止子的作用也有强弱之分,有的终止子几乎能完全停止转录;有的则只是部分终止转录,一部分RNA聚合酶能越过这类终止序列继续沿DNA移动并转录。如果一串结构基因群中间有这种弱终止子的存在,则前后转录产物的量会有所不同,这也是终止子调节基因群中不同基因表达产物比例的一种方式。有的蛋白因子能作用于终止序列,减弱或取消终止子的作用,称为抗终止作用(antitermination),这种蛋白因子就称为抗终止因子(antiterminator)。
以上5种元件是每一个操纵元必定含有的。其中启动子、操纵子位于紧邻结构基因群的上游,终止子在结构基因群之后,它们都在结构基因的附近,只能对同一条DNA链上的基因表达起调控作用,这种作用在遗传学实验上称为顺式作用(cisaction),启动子、操纵子和终止子就属于顺式作用元件(cisacting element)。调控基因可以在结构基因群附近、也可以远离结构基因,它是通过其基因产物棗调控蛋白来发挥作用的,因而调控基因不仅能对同一条DNA链上的结构基因起表达调控作用,而且能对不在一条DNA链上的结构基因起作用,在遗传学实验上称为反式作用(transaction),调控基因就属于反式作用元件(transacting element),其编码产生的调控蛋白称为反式调控因子(transacting factor)。
由此也可窥测到,基因表达调控机理的关键在蛋白质与核酸的相互作用上。
三、乳糖操纵元的表达调控
如上所述乳糖操纵元的结构及其基因表达调控可综合于图19-7。
图19-7 乳糖操纵元的结构及调控示意图
(一)阻遏蛋白的负性调控
当大肠杆菌在没有乳糖的环境中生存时,1ac操纵元处于阻遏状态。i基因在其自身的启动子Pi控制下,低水平、组成性表达产生阻遏蛋白R,每个细胞中仅维持约10个分子的阻遏蛋白。R以四聚体形式与操纵子o结合,阻碍了RNA聚合酶与启动子P1ac的结合,阻止了基因的转录起动。R的阻遏作用不是绝对的,R与o偶尔解离,使细胞中还有极低水平的β-半乳糖苷酶及透过酶的生成。
当有乳糖存在时,乳糖受β-半乳糖苷酶的催化转变为别乳糖,与R结合,使R构象变化,R四聚体解聚成单体,失去与o的亲和力,与o解离,基因转录开放,β-半乳糖苷酶在细胞内的含量可增加1000倍。这就是乳糖对1ac操纵元的诱导作用。
一些化学合成的乳糖类似物,不受β-半乳糖苷酶的催化分解,却也能与R特异性结合,使R构象变化,诱导1ac操纵元的开放。例如异丙基硫代半乳糖苷(isopropylthiogalactoside,IPTG)就是很强的诱导剂,不被细胞代谢而十分稳定。X-gal(5-溴-4-氯-3-吲哚-β-半乳糖苷)也是一种人工化学合成的半乳糖苷,可被β-半乳糖苷酶水解产生兰色化合物,因此可以用作β-半乳糖苷酶活性的指示剂。IPTG和Xgal都被广泛应用在分子生物学和基因工程的工作中。
图19-8 乳糖,IPTG和Xgal的结构
(二)CAP的正性调控
细菌中的cAMP含量与葡萄糖的分解代谢有关,当细菌利用葡萄糖分解供给能量时,cAMP生成少而分解多,cAMP含量低;相反,当环境中无葡萄糖可供利用时,cAMP含量就升高。细菌中有一种能与cAMP特异结合的cAMP受体蛋白CRP(cAMp receptor protein),当CRP未与cAMP结合时它是没有活性的,当cAMP浓度升高时,CRP与cAMP结合并发生空间构象的变化而活化,称为CAP(CRPcAMp activated protein),能以二聚体的方式与特定的DNA序列结合。
在1ac操纵元的启动子P1ac上游端有一段与Plac部分重叠的序列,能与CAP特异结合,称为CAP结合位点(CAp binding site)。CAP与这段序列结合时,可增强RNA聚合酶的转录活性,使转录提高50倍。相反,当有葡萄糖可供分解利用时,cAMP浓度降低,CRP不能被活化,1ac操纵元的结构基因表达下降。
图19-9 葡萄糖利用对乳糖操纵元的影响
由于P1ac是弱启动子,单纯因乳糖的存在发生去阻遏使1ac操纵元转录开放,还不能使细胞很好利用乳糖,必须同时有CAP来加强转录活性,细菌才能合成足够的酶来利用乳糖。1ac操纵元的强诱导既需要有乳糖的存在,又需要没有葡萄糖可供利用。通过这种机制,细菌优先利用环境中的葡萄糖,只有无葡萄糖而又有乳糖时,细菌才去充分利用乳糖。
细菌对葡萄糖以外的其他糖(如阿拉伯糖、半乳糖、麦芽糖等)的利用上也有类似对乳糖利的情况,在含有编码利用阿拉伯糖的酶类基因群的阿拉伯糖操纵元(ara operon)、半乳糖操纵元(gal operon)中也有CAP结合位点,CAP也起类似的正性调控作用。所以CAP的通用名称是分解代谢基因激活蛋白(catabolic gene activator protein)。
不难看出:CAP结合位点就是一种起正性调控作用的操纵子,CAP则是对转录起正性作用的控蛋白棗激活蛋白,编码CRP的基因也是一个调控基因,不过它并不在1ac操纵元的附近,CAP可以对几个操纵元都起作用。
从上所述,乳糖操纵元属于可诱导操纵元(inducible operon),这类操纵元通常是关闭的,当受效应物作用后诱导开放转录。这类操纵元使细菌能适应环境的变化,最有效地利用环境能提供的能源底物。
四、色氨酸操纵元
色氨酸是构成蛋白质的组分,一般的环境难以给细菌提供足够的色氨酸,细菌要生存繁殖通常需要自己经过许多步骤合成色氨酸,但是一旦环境能够提供色氨酸时,细菌就会充分利用外界的色氨酸、减少或停止合成色氨酸,以减轻自己的负担。细菌所以能做到这点是因为有色氨酸操纵元(trp operon)的调控。
(一)色氨酸操纵元的结构与阻遏蛋白的负性调控
如图19-10所示,合成色氨酸所需要酶类的基因E、D、C、B、A等头尾相接串连排列组成结构基因群,受其上游的启动子Ptrp和操纵子o的调控,调控基因trpR的位置远离P-o-结构基因群,在其自身的启动子作用下,以组成性方式低水平表达分子量为47000的调控蛋白R。R并没有与o结合的活性,当环境能提供足够浓度的色氨酸时,R与色氨酸结合后构象变化而活化,就能够与o特异性亲和结合,阻遏结构基因的转录,因此这是属于一种负性调控的、可阻遏的操纵元(repressible operon),即这操纵元通常是开放转录的,当有效应物(色氨酸为阻遏剂)作用时,则阻遏关闭转录。细菌不少生物合成系统的操纵元都属于这种类型,其调控可使细菌处在生存繁殖最经济最节省的状态。
图19-10 色氨酸操纵元的结构和调控示意图
(二)衰减子及其作用
实验观察表明:当色氨酸达到一定浓度,但还没有高到能够活化R使其起阻遏作用的程度时,产生色氨酸合成酶类的量已经明显降低,而且产生的酶量与色氨酸浓度呈负相关。仔细研究发现这种调控现象与色氨酸操纵元特殊的结构有关。
图19-11 色氨酸操纵元中的衰减子结构及其调控示意图
在色氨酸操纵元Ptrp-o与第一个结构基因trpE之间有162bp的一段先导序列(leadingsequence,L)实验证明当色氨酸达一定浓度时,RNA聚合酶的转录会终止在这里。这段序列中含有编码由14个氨基酸组成的短肽的开放读框,其序列中有2个色氨酸相连,在此开放读框前有核糖体识别结合位点(RBS)序列,提示这段短开放读框在转录后是能被翻译的。在先导序列的后半段含有3对反向重复序列(图19?1中A、B及C),在被转录生成mRNA时都能够形成发夹式结构,但由于B的序列分别与A和C重叠,所以如果B形成发夹结构,A和C都不能再形成发夹结构;相反,当A形成发夹结构时,B就不能形成发夹结构,却有利于C生成发夹结构。C后面紧跟一串A(转录成RNA就是一串U),C实际上是一个终止子,如果转录mRNA时它形成发夹结构,就能使RNA聚合酶停止转录而从mRNA上脱离下来。
图19-12 三种不同情况下A、B、C形成发夹结构的状态
在色氨酸未达到能起阻遏作用的浓度时,从Ptrp起始转录,RNA聚合酶沿DNA转录合成mRNA,同时核糖体就结合到新生成的mRNA核糖体结合位点上开始翻译。当色氨酸浓度低时,生成的tRNAtrp色氨酸量就少,能扩散到核糖体mRNA形成的翻译复合体中供给合成短肽的几率低,使核糖体沿mRNA翻译移动的速度慢,赶不上RNA聚合酶沿DNA移动转录的速度,这时核糖体占据短开放读框的机会较多,使A不能生成发夹结构,于是B就形成发夹结构,阻止了C生成终止信号的结构,RNA聚合酶得以沿DNA前进,继续去转录其后trpE等基因,trp操纵元就处于开放状态。当色氨酸浓度增高时,tRNAtrp色氨酸浓度随之升高,核糖体沿mRNA翻译移动的速度加快,占据到B段的机会增加,B生成发夹结构的机会减少,C形成终止结构的机会增多,RNA聚合酶终止转录的的几率增加,于是转录减弱。如果当其他氨基酸短缺(注意:短开放读框编码的14肽中多数氨基酸能由环境充分供应的机会是不多的)或所有的氨基酸都不足时,核糖体翻译移动的速度就更慢,甚至不能占据A的序列,结果有利于A和C发夹结构的形成,于是RNA聚合酶停止转录,等于告诉细菌:“整个氨基酸都不足,即使合成色氨酸也不能合成蛋白质,不如不合成以节省能量”。
由此可见,先导序列起到随色氨酸浓度升高降低转录的作用,这段序列就称为衰减子attenuator)。在trp操纵元中,对结构基因的转录阻遏蛋白的负调控起到粗调的作用,而衰减子起到细调的作用。细菌其他氨基酸合成系统的许多操纵元(如组氨酸、苏氨酸、亮氨酸、异亮氨酸、苯丙氨酸等操纵元)中也有类似的衰减子存在。