1. 通過相似序列的數據庫比對確定功能
具有相似性序列的蛋白質具有相似的功能。因此,最可靠的確定蛋白質功能的方法是進行數據庫的相似性搜索。需要明確的是,一個顯著的匹配應至少有25%的相同序列和超過80個氨基酸的區段。對于不少種類的數據庫搜索工具,快速搜索工具(如BLASTP)速度快,也很容易發現匹配良好的序列,一般就沒必要運行更花時間的工具(如FASTA、BLITZ);但當BLASTP不能發現顯著的匹配時,就需要使用那些搜索速度較慢但很靈敏的工具了。所以,一般的策略就是先進行BLASTP檢索,如果不能得到相應的結果,就可以運行FASTA,如果FASTA也無法得到相應結果,最后就需要選用完全根據Smith-Waterman 算法設計的搜索程序,如 BLITZ。
比對所選用的記分矩陣對最終預測結果影響也很重要,首先,選擇的矩陣須與匹配水平相一致。PAM250應用于遠距離匹配(<25%相同比率),PAM40應用于不很相近的蛋白質序列,BLOSUM62為一個通用矩陣。其次,使用不同矩陣,可以發現始終出現的匹配序列,這樣可以減少誤差。
2. 確定序列特性:疏水性、跨膜螺旋等
許多功能可直接從蛋白質序列預測出來。例如,疏水性信息可被用于跨膜螺旋的預測,還有不少小的序列模體(motif)是細胞用于特定細胞區室(cell compartment)蛋白質的定向。對于跨膜螺旋的預測涉及到對跨膜蛋白跨膜區域的識別,這就需要鑒定序列中可以折疊成螺旋并存在于膜的疏水環境中的區域。跨膜序列一般具有一些明顯的特征,比如,為了跨膜α螺旋必須有大約17~25個氨基酸長度,因為細胞膜內部是由脂肪酸的長的碳氫鏈組成,所以膜中的α螺旋必須存在相對的面向膜的非極性面才能在能量上是有利的。早期的算法程序會直接分析這些特征,并通過分析序列的17~25個氨基酸的窗口,對每個窗口產生的疏水性得分,得分高的即被預測為跨膜螺旋,現在一些經過改進的更精確的算法,不僅提高預測準確性到90%以上,而且可以預測跨膜螺旋的一些其他特征,比如在膜上的方向。這些都依賴于一系列對已知跨膜螺旋的特征研究的成果。
3. 通過序列模體數據庫等的比對確定功能
蛋白質不同區段的進化速率不同,蛋白質的一些部分必須保持一定的殘基模式以保持蛋白質的功能,通過確定這些保守區域,有可能為蛋白質功能提供線索。主要有兩種方法可用于序列模體的查找。一種方法是查找匹配的一致序列或序列模體。這種技術的優點是快捷,序列模體數據庫龐大而且不斷被擴充;缺點是有時不靈敏,因為只有與一致序列或序列模體完全匹配才被列出,而近乎匹配的都將被忽略。使在做復雜分析時候受到嚴重限制。第二種方法是更加精細的序列分布型方法。原則上,分布型搜索的是保守序列(不只是一致序列),這樣可以更靈敏的找出那些相關性較遠的序列。但分布型和分布數據庫需要大量的計算和人力,所以分布數據庫的記錄沒有序列模體數據庫多。在實際分析時,應同時對這兩種類型的數據庫都進行搜索。