利用計算機來協助克隆基因,稱為“電子”基因克隆(sillcon cloning),是與定位克隆、定位候選克隆策略并列的方法之一,即采用生物信息學的方法延伸EST序列,以獲得基因部分乃至全長的cDNA序列。EST數據庫的迅速擴張,已經并將繼續導致識別與克隆新基因策略發生革命性變化。
1 EST序列的獲取
利用計算機來協助克隆的第一步是必須獲得感興趣的EST,在dbEST數據庫中找出EST的最有途徑是尋找同源序列,標準:長度≥100bp,同源性50%以上、85%以下。可通過數個萬維網界而使用BLAST檢索程度實現,其中最常用的如NCBI(National center for Biotechnology Information)的eneBank、意大利Tigem的ESTmachine(包括EST提取者和EST組裝機器)、THC(Tentative human Consensus Sequences)數據庫、ESTBlast檢索程序——通過英國人類基因組作圖項目資源中心(Human genome Mapping Project Resource Center,HGMP—RC)服務器上訪問。然后將檢出序列組裝為重疊群(contig),以此重疊群為被檢序列,重復進行BLAST檢索與序列組裝,延伸重疊樣系列,重復以上過程,直到沒有更多的重疊EST檢出或者說重疊群序列不能繼續延伸,有時可獲得全長的基因編碼序列。獲得這些EST序列數據后,再與GeneBank核酸數據庫進行相似性檢測,假如鳳有精確匹配基因,將EST序列數據據EST六種閱讀框翻譯成蛋白質,接著與蛋白質序列數據庫進行比較分析。基因分析的結果大致有三種:第一是已知基因,是研究對象為人類已鑒定和了解的基因;第二是以前未經鑒定的新基因;第三是未知基因,這部分基因之間無同種或異種基因的匹配。新基因和未知基因將進一步用于生物學研究。
2 基因的電子定位
基因的電子定位采用NCBI的電子PCR程序進行檢索,尋找EST序列上是否存在序列標簽位點(sequence tagged sites,STS),STS作為基因組中的單拷貝序列,是新一代的遺傳標記系統,其數目多,覆蓋密度較大,達到平均每1kb一個STS或更密集。將尋找到的STS與相應的染色體相比較,即可將此序列定位在該染色體上。
3 IMAGE克隆的索取
許多ESTs所對應的cDNA克隆可通過基因組及其表達的整合分子分析(intergrated molecular analysis of genomes and their expression,IMAGE)協定免疫索取,這與電子基因克隆相輔相成,IMAGE協定由美國LLNL國家實驗室主持,宗旨是共享排列好的cDNA文庫中的克隆重,大規模的EST測序項目如Merk&Cow公司投資的人類ESTs項目等都加入了IMAGE協定。當研究者通過另外的途徑得到基因的部分序列,并通過同源性檢索后發現該片段與加入IMAGE協定的EST序列高度同源時,便可免費索取其原始克隆,可通過美國的ATCC組織(American type Culture Collection)索取,從而避免或減輕篩選全長基因的麻煩,以集中精力進行基因的功能研究。
1 EST序列的獲取
利用計算機來協助克隆的第一步是必須獲得感興趣的EST,在dbEST數據庫中找出EST的最有途徑是尋找同源序列,標準:長度≥100bp,同源性50%以上、85%以下。可通過數個萬維網界而使用BLAST檢索程度實現,其中最常用的如NCBI(National center for Biotechnology Information)的eneBank、意大利Tigem的ESTmachine(包括EST提取者和EST組裝機器)、THC(Tentative human Consensus Sequences)數據庫、ESTBlast檢索程序——通過英國人類基因組作圖項目資源中心(Human genome Mapping Project Resource Center,HGMP—RC)服務器上訪問。然后將檢出序列組裝為重疊群(contig),以此重疊群為被檢序列,重復進行BLAST檢索與序列組裝,延伸重疊樣系列,重復以上過程,直到沒有更多的重疊EST檢出或者說重疊群序列不能繼續延伸,有時可獲得全長的基因編碼序列。獲得這些EST序列數據后,再與GeneBank核酸數據庫進行相似性檢測,假如鳳有精確匹配基因,將EST序列數據據EST六種閱讀框翻譯成蛋白質,接著與蛋白質序列數據庫進行比較分析。基因分析的結果大致有三種:第一是已知基因,是研究對象為人類已鑒定和了解的基因;第二是以前未經鑒定的新基因;第三是未知基因,這部分基因之間無同種或異種基因的匹配。新基因和未知基因將進一步用于生物學研究。
2 基因的電子定位
基因的電子定位采用NCBI的電子PCR程序進行檢索,尋找EST序列上是否存在序列標簽位點(sequence tagged sites,STS),STS作為基因組中的單拷貝序列,是新一代的遺傳標記系統,其數目多,覆蓋密度較大,達到平均每1kb一個STS或更密集。將尋找到的STS與相應的染色體相比較,即可將此序列定位在該染色體上。
3 IMAGE克隆的索取
許多ESTs所對應的cDNA克隆可通過基因組及其表達的整合分子分析(intergrated molecular analysis of genomes and their expression,IMAGE)協定免疫索取,這與電子基因克隆相輔相成,IMAGE協定由美國LLNL國家實驗室主持,宗旨是共享排列好的cDNA文庫中的克隆重,大規模的EST測序項目如Merk&Cow公司投資的人類ESTs項目等都加入了IMAGE協定。當研究者通過另外的途徑得到基因的部分序列,并通過同源性檢索后發現該片段與加入IMAGE協定的EST序列高度同源時,便可免費索取其原始克隆,可通過美國的ATCC組織(American type Culture Collection)索取,從而避免或減輕篩選全長基因的麻煩,以集中精力進行基因的功能研究。