當生物芯片和樣品探針雜交完畢后,就需要對雜交結果進行圖象采集和分析。一般膜芯片的雜交都用同位素p32、p33作標記,其信號的檢測需通過傳統的磷光成像系統來完成。而對于用熒光標記的玻璃芯片雜交后的檢測,則需要用專門的熒光芯片掃描儀。
1. 磷感屏成像系統Cyclone Storage Phosphor System
Cyclone磷屏成像系統為美國Packard公司生產的第一臺集高分辨率、高靈敏度和5個數量級的線性范圍于一身的計算機控制數字化自動放射成像分析系統,由于其使用方便、快捷、自動化程度、分辨率、圖像清晰度均很高,既可定位亦可定量,目前已廣泛應用于核醫藥學、細胞與分子生物學、生物化學、藥理學、基因工程學、藥物代謝動力學、放射免疫及受體免疫等多方面實驗研究,成為十分方便的有力工具。其優異品質主要得益于Packard專利的激光技術和共聚焦成像系統。應用范圍為我們前面介紹的DNA Macroarray以及Northern、Southern、Western Blot.,手工測序,放射性原位雜交等的同位素結果檢測。使用Cyclon磷屏可以大大縮短研究周期,獲得清晰的分辨率。
其工作原理在于:同位素標記的雜交結果在磷屏上曝光,曝光過程32P等核素核衰變同時發射β射線,首先激發磷屏上分子,使磷屏吸收能量分子發生氧化反應,以高能氧化態形式儲存在磷屏分子中。激光掃描磷屏,對于激發態高能氧化態磷屏分子發生還原反應,即從激發態回到基態時多余的能量以光子形式釋放,從而在PMT捕獲進行光電轉換,磷屏分子回到還原態。計算機接受電信號,經處理形成屏幕圖像,并進一步分析和定量。一般化學發光物質如熒光染料標記樣品成像過程與放射性類似。
系統特點
放射性自顯影成像系統。儲存式磷屏根據不同樣品厚度、射線能量有多種型號磷屏可供選擇,磷屏可以多次重復使用。
靈敏度較X光片高數十倍,可以檢測最弱的信號。曝光時間可以縮短20倍以上。
快速成像,從對磷屏進行掃描到獲得完整的的數字化圖像,總共需要不到10min的時間,實時圖像顯示,同時立即報告分析結果。
可對放射性位置和強度進行相關的定位、定量分析,寬達105的線性范圍,定量準確。
不需膠片、暗室設備、沖洗底片,一步到位完成分析過程。
可選配Ouant ArrayTM 軟件,用于尼龍膜上同位素標計的Gene Array定量分析。
2. 熒光芯片掃描儀
由于雜交時產生序列重疊,會有成百上千的雜交點出現在圖譜上,形成極為復雜的雜交圖譜。序列重疊雖然可為每個堿基的正確讀出提供足夠的信息,可提高序列分析的可靠性,但同時信息處理量也大大增加了。一般說來,這些圖譜的多態性處理與存儲都由專門設計的軟件來完成,而不是通過對比進行人工讀譜。用計算機處理即可給出目的基因的結構或表達信息。掃描一張10cm2的芯片大概需要2-6分種的時間。目前專用于熒光掃描的掃描儀根據原理不同大致分為兩類:一是激光共聚焦顯微鏡的原理, 是基于PMT(photomultiplier tube,光電倍增管)的檢測系統(另文介紹);另一種是CCD(charge-coupled devices,電荷偶合裝置)攝像原理檢測光子。CCD一次可成像很大面積的區域,而以PMT為基礎的熒光掃描儀則是以單束固定波長的激光來掃描,因此或者需要激光頭,或者需要目的芯片的機械運動來使激光掃到整個面積,這樣就需要耗費較多的時間來掃描;但是CCD有其缺點:目前性能最優越的CCD數字相機的成像面積只有16×12mm(像素為10μm),因此要達到整個芯片的面積20×60mm的話,需要數個數碼相機同時工作,或者也可以以降低分辨率為代價來獲得掃描精度不是很高的圖像。由于靈敏度和分辯率較低,比較適合臨床診斷用。
生產商業化掃描儀的公司包括:Genomic Solutions公司、Packard公司、GSI公司、Molecular Dynamics、Genetic Microsystems公司、Axon Instruments公司等。其中GSI Lumonics 公司ScanArray 系列一直是生物芯片掃描檢測系統中的領頭產品。2000GSI并入著名的Parkard公司后ScanArray的軟、硬件都得到進一步加強。
ScanArray利用其專利的激光共聚焦光學系統,通過計算機控制,對生物芯片的熒光雜交信號進行全自動的掃描采集,并通過分析軟件對數據結果進行定量分析。
最高靈敏度高:<0.1熒光分子/μm
掃描精度可從5μm-50μm分級調整
全范圍掃描時間僅需5分鐘,快速方便
多達十種檢測濾光片,涵蓋所有生物芯片熒光染料的檢測,適用于多種熒光標記探針
不同波長依次掃描避免交叉光污染
掃描后的圖像還需要進一步的處理,這要求一定的軟件支持。現有的分析軟件包括:Biodiscovery的ImaGene系列,Axon Instruments的GenePix系列,GSI的QuantArray等
3. 基因芯片上各克隆熒光信號的分析原理
用激光激發芯片上的樣品發射熒光,嚴格配對的雜交分子,其熱力學穩定性較高,熒光強;不完全雜交的雙鍵分子熱力學穩定性低,熒光信號弱(不到前者的1/35~1/5),不雜交的無熒光。不同位點信號被激光共焦顯微鏡,或落射熒光顯微鏡等檢測到,由計算機軟件處理分析,得用激光激發芯片上的樣品發射熒光,嚴格配對的雜交分子,其熱力學穩定性較高,熒光強;不完全雜交的雙鍵分子熱力學穩定性低,熒光信號弱(不到前者的1/35~1/5)(2),不雜交的無熒光。不同位點信號被激光共焦顯微鏡,或落射熒光顯微鏡等檢測到,由計算機軟件處理分析,得到到有關基因圖譜。美國GSI Lumonics 公司開發出專專業基因芯片檢測系統(ScanArray 系列),采用激光共聚焦掃描原理進行熒光信號采集,由計算機處理熒光信號,并對每個點的熒光強度數字化后進行分析。利用QuantArray軟件包對掃描的熒光信號進行分析,比
較每個克隆在不同組織間表達水平的差別。軟件具體分析步驟如下:
首先,同時導入同一區域兩個channel掃描的圖像文件;將兩個channel掃描的圖像用不同的顏色顯示并重疊;選擇擬分析的區域,輸入矩陣的行數及列數以及矩陣的個數等參數;在計算機給出的該區域信號圖片上標定網格,使得網格中所包含的橫線和豎線的交點個數同每個區域點樣的克隆數相同,調整網格,使每個交點均位于點樣克隆信號的中心;信號的中心確定后,計算機將自動以交點為中心,按照設定的半徑圈定各克隆,并將其內部區域作為待分析的信號,同時在圈定的各克隆周圍再按照預設的值圈定一定范圍的區域,將該區域內的信號作為背景噪音;計算機分析每個克隆扣除背景噪音后的信號強度,并按照不同的要求對數據進行分析;利用GenePie方式對兩個channel信號的進行定量比較分析,此時計算機根據各克隆兩個channel掃描的信號,以餅圖的形式給出兩個channel信號強度的相對比例,同時可以逐個克隆讀取計算機分析出的兩個channel信號的值及所占的比例,進而確定各克隆在兩種組織間的表達差異。
4. Microarray數據分析
Microarray數據分析簡單來說就是對Microarray高密度雜交點陣圖象處理并從中提取雜交點的熒光強度信號進行定量分析,通過有效數據的篩選和相關基因表達譜的聚類,最終整合雜交點的生物學信息,發現基因的表達譜與功能可能存在的聯系。
Microarray數據分析主要包括圖象分析(Biodiscovery Imagene 4.0\Quantarray分析軟件)、標準化處理(normalization)、Ratio值分析、基因聚類分析(Gene Clustering)。
1. 圖象分析:激光掃描儀Scaner得到的Cy3/Cy5圖象文件通過劃格(Griding),確定雜交點范圍,過濾背景噪音,提取得到基因表達的熒光信號強度值,最后以列表形式輸出。
2. 標準化處理(Normalization):由于樣本差異、熒光標記效率和檢出率的不平衡,需對cy3和cy5的原始提取信號進行均衡和修正才能進一步分析實驗數據,Normalization正是基于此種目的。Normalization的方法有多種:一組內參照基因(如一組看家基因)校正Microarray所有的基因、陽性基因、陰性基因、單個基因。
3. Ratio分析(Ratio Analysis):cy3/cy5的比值,又稱R/G值。一般0.5-2.0范圍內的基因不存在顯著表達差異,該范圍之外則認為基因的表達出現顯著改變。由于實驗條件的不同,此域值范圍會根據可信區間有所調整。處理后得到的信息再根據不同要求以各種形式輸出,如柱形圖、餅形圖、點圖、原始圖象拼圖等。將每個Spot的所有相關信息如位標、基因名稱、克隆號、PCR結果、信號強度、Ratio值等自動關聯并根據需要篩選數據。每個Spot的原始圖象另存文件,可根據需要任意排序,得到原始圖象的拼圖,對于結果分析十分有利。
4. 聚類分析(Clustering Analysis):實際是一種數據統計分析。通過建立各種不同的數學模型,可以得到各種統計分析結果,確定不同基因在表達上的相關性,從而找到未知基因的功能信息或已知基因的未知功能。Gene Clustering就是根據統計分析原理,對具有相同統計行為的多個基因進行歸類的分析方法,歸為一個簇的基因在功能上可能相似或關聯。目前以直觀圖形顯示GeneCluster結果的程序已有人開發出來,可將抽象的數據結果轉化成直觀的樹形圖,便于研究人員理解和分析。
盡管基因芯片技術受到了廣泛關注,但在基因表達譜分析中起著關鍵作用的生物信息學卻沒能引起大家的足夠重視,認為簡單人工處理一下原始數據就可以得到有價值的生物學信息,大量有價值的信息就這樣被浪費和湮沒了。可以肯定地說,沒有生物信息學的有效參與,基因芯片技術就不能發揮最大效能。加大基因芯片技術中生物信息學的研究開發力度已成為當務之急。國內外已經進行了有益的嘗試,初步開發出供芯片平臺管理實驗數據的軟件包,就目前實際情況來看,生物信息學在基因芯片研究開發中介入的程度已經越來越深,主要涉及基因表達信息分析管理系統及其分析工具和分析方法,簡單概括為以下幾個方面:
基因表達數據庫
基因表達數據庫是整個基因表達信息分析管理系統的核心。Microarray數據庫起著數據儲存和查詢、各種相關信息的整合的作用。Microarray數據庫可以包含用戶的管理信息、原始實驗結果(圖象文件、信號強度值、背景平均值行列號、基因號等)、各種實驗參數(Plates/unigene/Sets/Clusters)、探針相關信息、 clone相關信息(基因名稱、基因序列、GenBank accession號、克隆標志符(IMAGE和內部)、代謝途徑標志符、內部克隆標志符)、分析處理結果、芯片設計相關的資源和數據,等等。
分析方法:
選擇分析方法的基本標準:能夠簡化原始數據,結果直觀,使研究者能在海量基因表達數據中解析出正確的基因表達譜和功能信息。一個理想的分析方法是建立在合理的算法基礎之上的,應該能全面綜合并直觀地解析原始數據,修正已有數據,并從結構、序列、功能之間找到新聯系。目前已有報道用于microarray數據分析的方法主要有以下幾種:
手工分類法(Manual classification Method)
該方法在Botstein 實驗室的Michael Eisen提出新的分析方法之前是唯一用來分析microarray數據的方法。其基本原理是通過對microarray的ratio值從大到小排序,篩出表達顯著性改變的基因。結果可直觀地從二維plot圖得到。優點是能夠有效篩選潛在的腫瘤標記基因和藥物靶位點;可以構建多組基因誘導或抑制的時間表達譜。缺點是結論過于簡單;很難發現更高層次功能線索;處理耗時且不能充分利用數據,也不能發現實驗錯誤。
非監督聚類法(Unsupervised Clustering)又稱配對平均連鎖聚類分析(Pairwise average-linkage cluster analysis)。該方法是分層聚類的一種形式,非常類似系統發生分析。該方法是基于標準相關系數的計算。K -mean方法是unsupervised聚類法的一個變化,目前Stanford University 的Botstein實驗室和NHGRI的Trent實驗室都采用該分析方法。
混合聚類法(Hybrid clustering approach)該聚類方法通過將每一數據點傅立葉變換尋找那些表達呈周期性變化的基因,比如細胞周期涉及的基因。所謂混合聚類就是先unsupervised聚類再supervised聚類。優點是可以整合以前手工聚類法得到的數據;尤其適合確認細胞周期調控的特征性表達譜。
神經網絡方法(Neural network approach)運用自組織圖(Self organizing maps)并結合supervised法進行聚類。優點是分類標準明確;優化的次序好于其它聚類法;用一種次序風格處理大量數據易于被生物學家接受。