图象的采集和分析
当生物芯片和样品探针杂交完毕后,就需要对杂交结果进行图象采集和分析。一般膜芯片的杂交都用同位素p32、p33作标记,其信号的检测需通过传统的磷光成像系统来完成。而对于用荧光标记的玻璃芯片杂交后的检测,则需要用专门的荧光芯片扫描仪。
1. 磷感屏成像系统Cyclone Storage Phosphor System
Cyclone磷屏成像系统为美国Packard公司生产的第一台集高分辨率、高灵敏度和5个数量级的线性范围于一身的计算机控制数字化自动放射成像分析系统,由于其使用方便、快捷、自动化程度、分辨率、图像清晰度均很高,既可定位亦可定量,目前已广泛应用于核医药学、细胞与分子生物学、生物化学、药理学、基因工程学、药物代谢动力学、放射免疫及受体免疫等多方面实验研究,成为十分方便的有力工具。其优异品质主要得益于Packard专利的激光技术和共聚焦成像系统。应用范围为我们前面介绍的DNA Macroarray以及Northern、Southern、Western Blot.,手工测序,放射性原位杂交等的同位素结果检测。使用Cyclon磷屏可以大大缩短研究周期,获得清晰的分辨率。
其工作原理在于:同位素标记的杂交结果在磷屏上曝光,曝光过程32P等核素核衰变同时发射β射线,首先激发磷屏上分子,使磷屏吸收能量分子发生氧化反应,以高能氧化态形式储存在磷屏分子中。激光扫描磷屏,对于激发态高能氧化态磷屏分子发生还原反应,即从激发态回到基态时多余的能量以光子形式释放,从而在PMT捕获进行光电转换,磷屏分子回到还原态。计算机接受电信号,经处理形成屏幕图像,并进一步分析和定量。一般化学发光物质如荧光染料标记样品成像过程与放射性类似。
系统特点
放射性自显影成像系统。储存式磷屏根据不同样品厚度、射线能量有多种型号磷屏可供选择,磷屏可以多次重复使用。
灵敏度较X光片高数十倍,可以检测最弱的信号。曝光时间可以缩短20倍以上。
快速成像,从对磷屏进行扫描到获得完整的的数字化图像,总共需要不到10min的时间,实时图像显示,同时立即报告分析结果。
可对放射性位置和强度进行相关的定位、定量分析,宽达105的线性范围,定量准确。
不需胶片、暗室设备、冲洗底片,一步到位完成分析过程。
可选配Ouant ArrayTM 软件,用于尼龙膜上同位素标计的Gene Array定量分析。
2. 荧光芯片扫描仪
由于杂交时产生序列重叠,会有成百上千的杂交点出现在图谱上,形成极为复杂的杂交图谱。序列重叠虽然可为每个碱基的正确读出提供足够的信息,可提高序列分析的可靠性,但同时信息处理量也大大增加了。一般说来,这些图谱的多态性处理与存储都由专门设计的软件来完成,而不是通过对比进行人工读谱。用计算机处理即可给出目的基因的结构或表达信息。扫描一张10cm2的芯片大概需要2-6分种的时间。目前专用于荧光扫描的扫描仪根据原理不同大致分为两类:一是激光共聚焦显微镜的原理, 是基于PMT(photomultiplier tube,光电倍增管)的检测系统(另文介绍);另一种是CCD(charge-coupled devices,电荷偶合装置)摄像原理检测光子。CCD一次可成像很大面积的区域,而以PMT为基础的荧光扫描仪则是以单束固定波长的激光来扫描,因此或者需要激光头,或者需要目的芯片的机械运动来使激光扫到整个面积,这样就需要耗费较多的时间来扫描;但是CCD有其缺点:目前性能最优越的CCD数字相机的成像面积只有16×12mm(像素为10μm),因此要达到整个芯片的面积20×60mm的话,需要数个数码相机同时工作,或者也可以以降低分辨率为代价来获得扫描精度不是很高的图像。由于灵敏度和分辩率较低,比较适合临床诊断用。
生产商业化扫描仪的公司包括:Genomic Solutions公司、Packard公司、GSI公司、Molecular Dynamics、Genetic Microsystems公司、Axon Instruments公司等。其中GSI Lumonics 公司ScanArray 系列一直是生物芯片扫描检测系统中的领头产品。2000GSI并入著名的Parkard公司后ScanArray的软、硬件都得到进一步加强。
ScanArray利用其专利的激光共聚焦光学系统,通过计算机控制,对生物芯片的荧光杂交信号进行全自动的扫描采集,并通过分析软件对数据结果进行定量分析。
最高灵敏度高:<0.1荧光分子/μm
扫描精度可从5μm-50μm分级调整
全范围扫描时间仅需5分钟,快速方便
多达十种检测滤光片,涵盖所有生物芯片荧光染料的检测,适用于多种荧光标记探针
不同波长依次扫描避免交叉光污染
扫描后的图像还需要进一步的处理,这要求一定的软件支持。现有的分析软件包括:Biodiscovery的ImaGene系列,Axon Instruments的GenePix系列,GSI的QuantArray等
3. 基因芯片上各克隆荧光信号的分析原理
用激光激发芯片上的样品发射荧光,严格配对的杂交分子,其热力学稳定性较高,荧光强;不完全杂交的双键分子热力学稳定性低,荧光信号弱(不到前者的1/35~1/5),不杂交的无荧光。不同位点信号被激光共焦显微镜,或落射荧光显微镜等检测到,由计算机软件处理分析,得用激光激发芯片上的样品发射荧光,严格配对的杂交分子,其热力学稳定性较高,荧光强;不完全杂交的双键分子热力学稳定性低,荧光信号弱(不到前者的1/35~1/5)(2),不杂交的无荧光。不同位点信号被激光共焦显微镜,或落射荧光显微镜等检测到,由计算机软件处理分析,得到到有关基因图谱。美国GSI Lumonics 公司开发出专专业基因芯片检测系统(ScanArray 系列),采用激光共聚焦扫描原理进行荧光信号采集,由计算机处理荧光信号,并对每个点的荧光强度数字化后进行分析。利用QuantArray软件包对扫描的荧光信号进行分析,比
较每个克隆在不同组织间表达水平的差别。软件具体分析步骤如下:
首先,同时导入同一区域两个channel扫描的图像文件;将两个channel扫描的图像用不同的颜色显示并重叠;选择拟分析的区域,输入矩阵的行数及列数以及矩阵的个数等参数;在计算机给出的该区域信号图片上标定网格,使得网格中所包含的横线和竖线的交点个数同每个区域点样的克隆数相同,调整网格,使每个交点均位于点样克隆信号的中心;信号的中心确定后,计算机将自动以交点为中心,按照设定的半径圈定各克隆,并将其内部区域作为待分析的信号,同时在圈定的各克隆周围再按照预设的值圈定一定范围的区域,将该区域内的信号作为背景噪音;计算机分析每个克隆扣除背景噪音后的信号强度,并按照不同的要求对数据进行分析;利用GenePie方式对两个channel信号的进行定量比较分析,此时计算机根据各克隆两个channel扫描的信号,以饼图的形式给出两个channel信号强度的相对比例,同时可以逐个克隆读取计算机分析出的两个channel信号的值及所占的比例,进而确定各克隆在两种组织间的表达差异。
4. Microarray数据分析
Microarray数据分析简单来说就是对Microarray高密度杂交点阵图象处理并从中提取杂交点的荧光强度信号进行定量分析,通过有效数据的筛选和相关基因表达谱的聚类,最终整合杂交点的生物学信息,发现基因的表达谱与功能可能存在的联系。
Microarray数据分析主要包括图象分析(Biodiscovery Imagene 4.0\Quantarray分析软件)、标准化处理(normalization)、Ratio值分析、基因聚类分析(Gene Clustering)。
1. 图象分析:激光扫描仪Scaner得到的Cy3/Cy5图象文件通过划格(Griding),确定杂交点范围,过滤背景噪音,提取得到基因表达的荧光信号强度值,最后以列表形式输出。
2. 标准化处理(Normalization):由于样本差异、荧光标记效率和检出率的不平衡,需对cy3和cy5的原始提取信号进行均衡和修正才能进一步分析实验数据,Normalization正是基于此种目的。Normalization的方法有多种:一组内参照基因(如一组看家基因)校正Microarray所有的基因、阳性基因、阴性基因、单个基因。
3. Ratio分析(Ratio Analysis):cy3/cy5的比值,又称R/G值。一般0.5-2.0范围内的基因不存在显著表达差异,该范围之外则认为基因的表达出现显著改变。由于实验条件的不同,此域值范围会根据可信区间有所调整。处理后得到的信息再根据不同要求以各种形式输出,如柱形图、饼形图、点图、原始图象拼图等。将每个Spot的所有相关信息如位标、基因名称、克隆号、PCR结果、信号强度、Ratio值等自动关联并根据需要筛选数据。每个Spot的原始图象另存文件,可根据需要任意排序,得到原始图象的拼图,对于结果分析十分有利。
4. 聚类分析(Clustering Analysis):实际是一种数据统计分析。通过建立各种不同的数学模型,可以得到各种统计分析结果,确定不同基因在表达上的相关性,从而找到未知基因的功能信息或已知基因的未知功能。Gene Clustering就是根据统计分析原理,对具有相同统计行为的多个基因进行归类的分析方法,归为一个簇的基因在功能上可能相似或关联。目前以直观图形显示GeneCluster结果的程序已有人开发出来,可将抽象的数据结果转化成直观的树形图,便于研究人员理解和分析。
尽管基因芯片技术受到了广泛关注,但在基因表达谱分析中起着关键作用的生物信息学却没能引起大家的足够重视,认为简单人工处理一下原始数据就可以得到有价值的生物学信息,大量有价值的信息就这样被浪费和湮没了。可以肯定地说,没有生物信息学的有效参与,基因芯片技术就不能发挥最大效能。加大基因芯片技术中生物信息学的研究开发力度已成为当务之急。国内外已经进行了有益的尝试,初步开发出供芯片平台管理实验数据的软件包,就目前实际情况来看,生物信息学在基因芯片研究开发中介入的程度已经越来越深,主要涉及基因表达信息分析管理系统及其分析工具和分析方法,简单概括为以下几个方面:
基因表达数据库
基因表达数据库是整个基因表达信息分析管理系统的核心。Microarray数据库起着数据储存和查询、各种相关信息的整合的作用。Microarray数据库可以包含用户的管理信息、原始实验结果(图象文件、信号强度值、背景平均值行列号、基因号等)、各种实验参数(Plates/unigene/Sets/Clusters)、探针相关信息、 clone相关信息(基因名称、基因序列、GenBank accession号、克隆标志符(IMAGE和内部)、代谢途径标志符、内部克隆标志符)、分析处理结果、芯片设计相关的资源和数据,等等。
分析方法:
选择分析方法的基本标准:能够简化原始数据,结果直观,使研究者能在海量基因表达数据中解析出正确的基因表达谱和功能信息。一个理想的分析方法是建立在合理的算法基础之上的,应该能全面综合并直观地解析原始数据,修正已有数据,并从结构、序列、功能之间找到新联系。目前已有报道用于microarray数据分析的方法主要有以下几种:
手工分类法(Manual classification Method)
该方法在Botstein 实验室的Michael Eisen提出新的分析方法之前是唯一用来分析microarray数据的方法。其基本原理是通过对microarray的ratio值从大到小排序,筛出表达显著性改变的基因。结果可直观地从二维plot图得到。优点是能够有效筛选潜在的肿瘤标记基因和药物靶位点;可以构建多组基因诱导或抑制的时间表达谱。缺点是结论过于简单;很难发现更高层次功能线索;处理耗时且不能充分利用数据,也不能发现实验错误。
非监督聚类法(Unsupervised Clustering)又称配对平均连锁聚类分析(Pairwise average-linkage cluster analysis)。该方法是分层聚类的一种形式,非常类似系统发生分析。该方法是基于标准相关系数的计算。K -mean方法是unsupervised聚类法的一个变化,目前Stanford University 的Botstein实验室和NHGRI的Trent实验室都采用该分析方法。
混合聚类法(Hybrid clustering approach)该聚类方法通过将每一数据点傅立叶变换寻找那些表达呈周期性变化的基因,比如细胞周期涉及的基因。所谓混合聚类就是先unsupervised聚类再supervised聚类。优点是可以整合以前手工聚类法得到的数据;尤其适合确认细胞周期调控的特征性表达谱。
神经网络方法(Neural network approach)运用自组织图(Self organizing maps)并结合supervised法进行聚类。优点是分类标准明确;优化的次序好于其它聚类法;用一种次序风格处理大量数据易于被生物学家接受。