载脂蛋白基因的分离是通过用相应的cDNA作为探针筛选基因文库而完成的。比较基因的核苷酸序列与cDNA的核苷酸序列得以鉴定基因的内含子与外显子数目以及它们的分界线。大部分真核细胞的基因含有内含子,内含子不编码氨基酸,但有些内含子参与基因表达的调控。外显子通常占据基因内的三个区域:第一个区域不编码氨基酸,含有RNA转录起始以及导向mRNA至核糖体合成蛋白质的信号序列;第二个区域编码信号肽、前肽以及成熟蛋白质的部分氨基酸;第三个区域除编码成熟蛋白质的氨基酸外,还含有终止翻译以及添加聚腺苷酸的信号。并非每个基因所含的内含子与外显子数目相等。真核细胞基因的这些结构特点也体现在载脂蛋白的基因结构中。有些载脂蛋白基因具有独特的结构特征。本节重点介绍ApoAⅠ、AⅡ、AⅣ、CⅠ、CⅡ、CⅢ、E基因结构的类同性、载脂蛋白B基因的结构特点以及Apo(a)基因的结构特点。其他的载脂蛋白基因结构均以列表的形式介绍。
载脂蛋白AⅠ、AⅡ、AⅣ、CⅠ、CⅡ、CⅢ以及E的基因结构非常相似。除ApoAⅣ缺少第1个内含子外,其余的载脂蛋白基因均由三个内含子与四个外显子组成(如图4-1所示)。内含子的分布位置几乎相同。第一个内含子截断5'未翻译区,第二个内含子截断信号肽的编码区,靠近信号肽的切割部位,第三个内含子截断编码成熟蛋白质的区域。尽管ApoAⅣ缺少第一个内含子,它的第二及第三内含子的分布与其他载脂蛋白相同。载脂蛋白AⅠ、AⅡ、CⅠ、CⅡ、CⅢ、E基因的前三个外显子以及ApoAⅣ基因的前二个外显子的长度颇为相近,它们之间长度的不同主要取决于第四个或第三个(ApoAⅣ)外显子的长短。这七种载脂蛋白基因结构的类同支持如下假说,即这些基因起源于一个共同的前体,通过部分或完全的基因重复的机制衍化而来。
图4-1 载脂蛋白AⅠ、AⅡ、AⅣ、CⅠ、CⅡ、CⅢ以及E的基因结构示意图
宽方块代表外显子,细线代表内含子或5'及3'侧翼区。在外显子区内:两端的空方块代表5'及3'未翻译区;斜线方块代表信号肽区;位于信号肽与成熟肽之间的窄空方块代表前肽(Prosegment)区。图中的数值表示各个外显子的长度(核苷酸对的数目)。(源出:L.Chan,Klin.Wochenschr.67:227,1989)
与上述载脂蛋白基因的结构相比较,载脂蛋白B的基因结构具有显着的差异。后者长达43000核苷酸碱基对,含有28个内含子与29个外显子。其中外显子26与29分别长达7572与1906碱基对。外显子26编码载脂蛋白B的第1379至3903个氨基酸,它比迄今为止所发现的哺乳动物基因的任何外显子都长3倍之多。这种特长的外显子是否由一些短外显子融合所致尚不清楚。在载脂蛋白B的内含子中,已发现有6种重复DNA序列。其中某些特征序列模式已成为流行病学及家族研究的工具。
载脂蛋白B基因表达的产物有ApoB100和ApoB48,前者由4536个氨基酸组成,后者包含2152个氨基酸。载脂蛋白B48是由小肠RNA剪切酶修饰ApoB信使RNA所产生的。小肠ApoB信使RNA在第6666个核苷酸的位置上含U,而肝ApoB信使RNA的同一位置上为C。由U取代C导致了一个终止翻译密码子(UAA)的产生。UAA取代了编码ApoB100第2153个氨基酸谷氨酰胺的CAA密码子。故在小肠ApoB基因表达的产物ApoB48仅含2152个氨基酸。约占ApoB100组成的48%(见图4-2)。这种ApoB信使RNA剪切机制在哺乳动物的分子生物学研究领域内是空前未有的先例。这种机制的存在有何生理意义还待进一步的探讨。
图4-2 载脂蛋白B基因结构以及ApoB100与ApoB48合成示意图
载脂蛋白B基因的29个外显子均由竖线表示出来,其中两个特长的外显子26个和29作了特别的标记。位于外显子之间的28个间隙代表28个内含子。图中的碱基对数目分别代表载脂蛋白B基因、载脂蛋白B100信使RNA以及ApoB48信使RNA的长度。UAA和TAA为终止翻译密码子,CAA为编码谷氨酰胺的密码子。(源自Young S G Circulation82(5):1597,1990)
载脂蛋白(a)的基因由10~45个内含子和11~46个外显子组成(见图4-3A)。这种变异主要取决于Kringle(丹麦烤卷饼)-4功能区的数目,此数目可高达37。其中24个Kringle-4功能区核苷酸序列完全相同,均由342核苷酸碱基对组成。第24、27、28及29区仅相异于3个核苷酸。其他的区有11~71核苷酸序列的不同。Apo(a)基因的结构与血纤维蛋白溶酶原的基因结构相似(见图4-3A与图4-1B)。其中信号肽编码区100%的等同。其他区域的类似程度在75%~94%不等。这提示Apo(a)与血纤维蛋白溶酶原基因由同一个前体衍化而来。正是由于这个类同性,脂蛋白(a)不仅与脂类代谢有关。而且也参与血液凝固的机制。
图4-3 Apo(a)与血纤维蛋白溶酶原基因结构(A)与cDNR结构(B)的比较
在图4-3A中,数值Ⅰ-XIX标记的竖棒代表外显子的数目与序列。外显子间的间隙为内含子。在Apo(a)的基因结构中,n代表Kringle-4功能区的数目是变动的,可高达37。在图4-3B中,S代表信号肽:T代表“尾巴”区;Ⅰ-Ⅴ分别代表Kringle-5功能区;P代表蛋白酶功能区。血纤维蛋白溶酶原与Apo(a)各功能区的相似程度(%)标记在图B的下部。(源自:Ichinose A. Biochemistry31:3115,1992 and Mclean et al. Nature 330:136,1987.)
四、人体载脂蛋白基因结构一览表
表4-1列出所有已经鉴定的人体载脂蛋白的基因结构,即内含子与外显子的组成以及基因表达后的产物信号肽、前肽及成熟肽的分布。表中附有的文献索引供进一步查阅时参考。
表4-1 人体载脂蛋白基因的结构特征
基因 | 内含子 | 外显子 | 信号肽 | 前肽 | 成熟肽 | 参考文献 |
AⅠ | 3 | 4 | 18 | 6 | 243 | 6 |
AⅡ | 3 | 4 | 18 | 5 | 77 | 7 |
AⅣ | 2 | 3 | 20 | 0 | 377 | 8 |
(a) | 10-45 | 11-46 | 19 | 0 | 4.529 | 4.5 |
B | 28 | 29 | 27 | 0 | 4.536 | 9 |
CⅠ | 3 | 4 | 26 | 0 | 57 | 10.2 |
CⅡ | 3 | 4 | 22 | 0 | 79 | 11 |
CⅢ | 3 | 4 | 20 | 0 | 79 | 12a |
CⅣ | 2 | 3 | 25 | 0 | 102 | 12b |
D | 4 | 5 | 20 | 0 | 169 | 13 |
E | 3 | 4 | 18 | 0 | 299 | 14 |
F | * | * | 22 | 0 | 286 | 15 |
G* | ||||||
H | * | * | 19 | 0 | 326 | 16 |
J | 8 | 9 | ? | 0 | 427 | 17.27 |
*:尚未见有关资料报道。