蛋白質(zhì)三級機構(gòu)(空間結(jié)構(gòu))預測-從頭預測法
2012-05-285269
從頭預測模型的基本思想
在既沒有已知結(jié)構(gòu)的同源蛋白質(zhì)、也沒有已知結(jié)構(gòu)的遠程同源蛋白質(zhì)的情況下,上述兩種蛋白質(zhì)結(jié)構(gòu)預測的方法都不能用,這時只能采用從頭預測方法(Abinitio),即(直接)僅僅根據(jù)序列本身來預測其結(jié)構(gòu)。在1994年之前,還沒有一個從頭算方法能夠預測蛋白質(zhì)的空間結(jié)構(gòu)。從那以后,人們陸續(xù)提出一些方法,表明了今后進一步研究可能的方向。有些研究小組運用距離幾何方法得到了非常有希望的結(jié)果。將簡化的力場與動態(tài)優(yōu)化策略相結(jié)合,雖然得到的結(jié)果不算太精確,但很有意義,表明這樣的工作非常有希望突破。
從頭預測方法一般由下列3個部分組成:(1)一種蛋白質(zhì)幾何的表示方法:由于表示和處理所有原子和溶劑環(huán)境的計算開銷非常大,因此需要對蛋白質(zhì)和溶劑的表示形式作近似處理,例如,使用一個或少數(shù)幾個原子代表一個氨基酸殘基;(2)一種能量函數(shù)及其參數(shù),或者一個合理的構(gòu)象得分函數(shù),以便計算各種構(gòu)象的能量。通過對已知結(jié)構(gòu)的蛋白質(zhì)進行統(tǒng)計分析,可以確定蛋白質(zhì)構(gòu)象能量函數(shù)中的各個參數(shù)或者得分函數(shù);(3)一種構(gòu)象空間搜索技術(shù):必須選擇一個優(yōu)化方法,以便對構(gòu)象空間進行快速搜索,迅速找到與某一全局最小能量相對應(yīng)的構(gòu)象。其中,構(gòu)象空間搜索和能量函數(shù)的建立是從頭預測方法的關(guān)鍵。
蛋白質(zhì)構(gòu)象的網(wǎng)格模型
限制蛋白骨架構(gòu)象中可采取的自由度是在模擬過程中簡化蛋白質(zhì)的一種方法,其中一種限制是α碳原子只允許位于二維或三維格子(網(wǎng)格)的位置上。這種簡化方法大大減少了一個蛋白質(zhì)可以采取的構(gòu)象數(shù)目。于是,對于一個中等大小的多肽鏈,我們可以對它的構(gòu)象空間進行窮舉搜索,直到找到能量全局最小的構(gòu)象。而對于比較長的多肽鏈,簡化的格子模型可以使非窮盡的搜索方法對所有可能的構(gòu)象進行較大比例的取樣,因此可以比較準確地估計出能量全局最小的構(gòu)象。
H-P[疏水(hydrophobic)-極性(polar)]模型是研究得最成熟的一種簡單網(wǎng)格模型。H-P模型用一個固定半徑的原子來表示蛋白質(zhì)中每個氨基酸殘基,從而進一步簡化蛋白質(zhì)結(jié)構(gòu)。在這種表示方法中,原子被分為兩種類型:疏水原子和極性原子。如圖:
一段較短的用二維和三維H-P模型表示的多肽鏈
左為二維圖,右為三位圖(疏水殘基表示為黑色,極性殘基表示為白色)
按照慣例,N端的氨基酸位于坐標系統(tǒng)的原點,第二個氨基酸殘基就位于坐標的(1,0)或(1,0,0)處。通常我們認為疏水作用力是使蛋白質(zhì)折疊成一個緊密球狀結(jié)構(gòu)的幾種基礎(chǔ)力之一。大多數(shù)蛋白質(zhì)的天然結(jié)構(gòu)都有一個疏水核心和一個與溶液相接觸的表面,疏水核心中掩藏了疏水殘基,使得它們與溶液相隔離,而與溶液相接觸的表面大多或者全部由極性殘基和帶電殘基組成。將蛋白質(zhì)折疊成一個緊密結(jié)構(gòu)以幫助疏水殘基與溶液相分離的過程通常稱為疏水折疊。膜蛋白卻明顯不同,這種蛋白具有一個或多個嵌入細胞膜的跨膜區(qū),這些跨膜區(qū)的結(jié)構(gòu)主要是螺旋結(jié)構(gòu)。由于細胞膜大多由疏水的碳原子和氫原子組成,因此這些“表面”的螺旋結(jié)構(gòu)實際上是與水分子分離的,它們大多由疏水氨基酸組成。
H-P模型是基于疏水殘基之間的接觸來進行打分的。為了評價H-P模型中一個特定的構(gòu)象,我們要計算出網(wǎng)格中H和H接觸的數(shù)目。在這里,除了多肽鏈一級結(jié)構(gòu)中相鄰的H和H接觸外(由于多肽鏈一級結(jié)構(gòu)中相鄰的H和H接觸在每一個可能的構(gòu)象中都存在,因此為了簡單起見這些H和H接觸就被去除),其它每一個H和H的接觸對能量的貢獻都設(shè)為-1。最優(yōu)的構(gòu)象就是所有可能的構(gòu)象中具有最多H和H接觸的那個構(gòu)象。一般來說,要獲得最大的H和H接觸的數(shù)目通常需要先形成一個疏水核心,這個疏水核心必須含有盡可能多的H殘基,同時要將P殘基轉(zhuǎn)移至多肽鏈的表面。上圖中的二維和三維構(gòu)象的得分都是-3。
有了網(wǎng)格模型及構(gòu)象能量計算方法,下一個任務(wù)就是搜索能量全局最小的構(gòu)象。在設(shè)計搜索算法時,一個主要問題就是如何表示一個特定的構(gòu)象。一個最簡單的方法就是將第一個殘基放在網(wǎng)格的(0,0)或(0,0,0)格點上,然后描述前面一個殘基到下一個殘基的移動方向。二維模型運用這種絕對方向表示法時,每一個位置上可選擇的方向包括上、右、左和下(U、R、L、D);而對于三維模型,每一個位置上可選擇的方向包括上、右、左、下、后和前(U、R、L、D、B、F)。通過這種絕對方向表示法,可以將上圖中的二維構(gòu)象表示成(R,R,D,L,D,L,U,L,U,U,R),而三維構(gòu)象可以表示成(R,B,U,F(xiàn),L,U,R,B,L,L,F(xiàn))。相對方向表示法則利用每個氨基酸殘基主鏈的轉(zhuǎn)動方向來表示每個位置上的殘基的方向,這種方法能夠減少每個位置上可選擇的方向數(shù)。這種情況下,對一個二維正方形的網(wǎng)格模型,第二個殘基以后的每個殘基位置上可選擇的方向有三個,左、右和前(通常表示為L、R和F);對一個三維正方體的網(wǎng)格模型,每個殘基位置上可選擇的方向有左、右、前、上和下(L、R、F、U、D)。在這種表示方法中,我們不但要清楚當前的位置,同時還要清楚當前殘基“面對”的方向。對于二維模型,第一個殘基位于網(wǎng)格的(0,0)位上,它所面對的方向為右。也就是說,如果第一個移動方向是F,那么第二個殘基就應(yīng)該位于網(wǎng)格的(1,0)位上。因此,上圖中的二維構(gòu)象用相對方向表示法可表示為(F,F(xiàn),R,R,L,R,R,L,R,F(xiàn),R)。對于三維模型,第一個殘基位于網(wǎng)格的(0,0,0)位上,它所面對的方向為右。當我們沿著多肽鏈移動時,我們不但必須清楚當前殘基面對的方向,同時還要清楚當前哪個方向應(yīng)該看作是“上”。利用這種表示方法,上圖中的三維構(gòu)象可以表示為(F,L,U,U,R,U,U,L,L,F(xiàn),L)。使用上面兩種基于方向的表示方法時,我們會遇到的一個關(guān)鍵問題就是一些構(gòu)象中兩個殘基會出現(xiàn)在同一個位置上。比如,一個二維構(gòu)象用相對(基于主鏈的轉(zhuǎn)動)表示法表示時,如果它的起始四個殘基表示為(L,L,L,L),那么這個構(gòu)象就會有兩個殘基位于原點(0,0)上,從而導致殘基碰撞(bump),或者說原子空間碰撞。在構(gòu)象搜索時如果出現(xiàn)這種空間碰撞,我們可以采用多種方法來處理。最簡單的一種方法就是為每一個具有碰撞的構(gòu)象分配一個非常高的能量值。由于搜索算法是尋找低能量構(gòu)象的,因此具有碰撞的構(gòu)象在搜索時會被很快地剔除。不過,有些構(gòu)象如果能夠解決碰撞問題,它的能量就會比較小,因此這些構(gòu)象可能會是有效構(gòu)象。但是,如果采用上面的方法解決碰撞問題的話,搜索過程中就會把這些有效構(gòu)象去除掉。其它處理碰撞的方法包括在為構(gòu)象打分之前先利用局部優(yōu)化方法來解決碰撞,另外也可以使用其他在構(gòu)象搜索過程中不會產(chǎn)生碰撞的表示法。優(yōu)先排序表示法就是一種在構(gòu)象搜索過程中不會產(chǎn)生碰撞的表示法。在優(yōu)先排序法中,每個殘基對應(yīng)的方向并不是某一個方向,而是所有可能的方向的排列。比如,在二維模型中,某一個殘基對應(yīng)的方向可能會是{L,F(xiàn),R}。{L,F(xiàn),R}表示這個殘基最可能對應(yīng)的方向是左;但是,如果殘基移向左側(cè)構(gòu)象中會出現(xiàn)碰撞,這時我們就會為這個殘基選擇下一個比較有可能的方向,即向前,最后一個可選擇的方向為向右。使用這種表示法來表示構(gòu)象,在有些構(gòu)象中仍然會出現(xiàn)碰撞(當向所有方向的移動都會導致碰撞時),但這種表示方法中出現(xiàn)碰撞的頻率比用絕對方向表示法時出現(xiàn)碰撞的頻率要小很多。將優(yōu)先排序表示法和局部構(gòu)象搜索方法結(jié)合起來,我們就可以設(shè)計出構(gòu)象中絕對不會出現(xiàn)碰撞情況的表示法。
H-P模型是基于三種簡化的,即蛋白質(zhì)中各個氨基酸殘基的α碳原子都位于二維網(wǎng)格或三維網(wǎng)格的格點上,疏水作用是蛋白折疊中唯一的重要因素,同時通過計算疏水殘基接觸的數(shù)目代替構(gòu)象的能量計算。雖然這樣的處理非常簡單,但是,通過H-P模型的計算分析,能夠發(fā)現(xiàn)蛋白質(zhì)折疊的一些機制。
如果在蛋白質(zhì)模型中取消氨基酸定位于網(wǎng)格點的限制,那么蛋白模型就可以更真實地模擬出蛋白的實際構(gòu)象。去網(wǎng)格模型的誤差通常用預測構(gòu)象和實際構(gòu)象中α碳原子的均方根偏差(RMSD)來計算。α碳原子的RMSD是指當預測構(gòu)象和實際構(gòu)象重疊在一起時,兩種構(gòu)象中每個α碳原子位置的Euclidean平方距離的總和。
隨著蛋白模型與實際情況越來越相符,模型的復雜性也越來越大。去網(wǎng)格蛋白折疊模型可以只考慮α碳原子,也可以考慮所有的骨架原子,甚至可以考慮所有的骨架原子和側(cè)鏈原子。假如在模型中考慮側(cè)鏈的話,那么側(cè)鏈可以表示成剛性側(cè)鏈、半柔性側(cè)鏈和完全柔性側(cè)鏈。對于剛性側(cè)鏈,我們已經(jīng)在X射線結(jié)晶結(jié)構(gòu)中得到了這些側(cè)鏈的構(gòu)象,X射線結(jié)晶結(jié)構(gòu)中每種氨基酸出現(xiàn)最多的構(gòu)象就被看作這種氨基酸的剛性側(cè)鏈采取的構(gòu)象。對于半柔性側(cè)鏈,我們也是利用類似的經(jīng)驗性方法得到它的構(gòu)象。從一系列X射線結(jié)構(gòu)中可以得到側(cè)鏈的多種構(gòu)象,對這些構(gòu)象進行分組,形狀類似的為一組,這種方法中排除了那些不經(jīng)常出現(xiàn)的構(gòu)象,這也減少了搜索的復雜度。
能量函數(shù)及優(yōu)化
除了要考慮疏水作用,蛋白折疊的能量函數(shù)中還要考慮到氫鍵、二硫橋的形成、靜電作用、范德華力以及溶劑作用。由于這些力中每一個力的相對作用還很難通過實驗來計算,因此尋找一個合適的蛋白折疊復合能量函數(shù)仍然是一個研究熱點。我們可以通過理論方法,針對范德華力、氫鍵、溶劑、靜電和其它力對一個已折疊蛋白總體穩(wěn)定性的相對作用來建立能量函數(shù)。它的目標是得到一個近似的能量函數(shù)或者力場,那些已知結(jié)構(gòu)的蛋白質(zhì)結(jié)晶構(gòu)象在這個能量函數(shù)中處于一個最小能量的狀態(tài)。如何尋找一些可行的能量函數(shù),本質(zhì)上是分子力學的問題。而且,科學家確實已經(jīng)設(shè)計出了許多有效的能量函數(shù)。
分子力學方法假設(shè)正確的蛋白質(zhì)折疊對應(yīng)于最低能量的構(gòu)象。分子力學勢能是原子坐標的函數(shù),其極小值對應(yīng)于原子體系的局部能量最小點。勢能函數(shù)由多項組成,包括成鍵作用和非成鍵作用。成鍵作用項分為化學鍵的伸縮能(鍵長)、彎曲能(鍵角)和扭轉(zhuǎn)能(二面角),非成鍵作用包括范德華力、靜電力、氫鍵等。分子力學中的勢能參數(shù)有各種來源,包括從頭算和半經(jīng)驗量子化學計算結(jié)果、氨基酸和小分子的實驗觀察結(jié)果等。
對于能量的優(yōu)化有多種方法。常用的方法是梯度下降法,其中最陡下降法是一種簡單的優(yōu)化算法。在最低能量搜索過程中,最陡下降法反復對能量函數(shù)進行微分,計算梯度,每次沿能量下降最多的方向前進。當搜索位置離能量極小點比較遠時,用這種方法可以迅速向極小點靠近,但接近極小點時,會產(chǎn)生振蕩,收斂速度慢。另一種基于梯度的方法是共軛梯度法,其計算與最陡下降法一樣,但是在選擇搜索方向時,不僅考慮當前的梯度,還要考慮原來的搜索方向,經(jīng)過綜合決定下一步搜索方向。共軛梯度法收斂的速度快,但是更容易陷入能量局部極小點。
牛頓-拉普森方法是另一類能量優(yōu)化方法。梯度方法在計算時使用的是一階微分,而牛頓-拉普森方法除使用一階微分外,還計算二階微分,利用一階微分確定搜索方向,用二階微分確定沿梯度在什么地方改變方向。應(yīng)用該方法能夠迅速收斂,但是計算量非常大。也可以通過分子動力學來尋找具有局部最低能量的構(gòu)象。分子動力學利用牛頓力學的基本原理,通過求解運動方程得到所有原子的運動軌跡,并根據(jù)軌跡計算各種性質(zhì)。分子動力學的優(yōu)勢在于能夠跨過較大的勢壘,獲得低能量的構(gòu)象。在蒙特卡羅和其它理論、實驗方法的支持下,分子動力學技術(shù)作為改進的模型,在搜索過程中能夠避免陷入局部能量極小點。分子動力學另外一個特點是可以模擬蛋白質(zhì)折疊的過程,從而深入了解蛋白質(zhì)折疊的規(guī)律。
蒙特卡羅是一種隨機采樣的方法,通過該方法可以期望找到非常接近于全局能量最優(yōu)的構(gòu)象。也有用模擬退火方法、遺傳算法等進行蛋白質(zhì)構(gòu)象搜索和結(jié)構(gòu)預測。
然而,要確保找到全局最低能量的構(gòu)象,必須進行全面搜索,以一定步長搜索整個構(gòu)象空間,從而尋找能量最低點。由于搜索的是整個構(gòu)象空間,所以最終找到的是全局最小點。但是對于生物大分子來講搜索空間太大,在實際應(yīng)用中不可行,只能處理很小的蛋白質(zhì)。即使對搜索空間進行約束,如只允許我們感興趣的氨基酸和連接兩個殘基的二面角發(fā)生變化,計算量仍然是個問題。對構(gòu)象空間的進一步簡化也只能處理比較小的蛋白質(zhì)。
雖然利用引起蛋白質(zhì)折疊的物理力學以及能量函數(shù)對蛋白質(zhì)進行建模有一定實際意義,但是這種從頭開始預測蛋白質(zhì)結(jié)構(gòu)的方法由于種種原因往往得不到令人滿意的結(jié)果。首先,到目前為止,我們還沒有完全了解究竟是哪些力決定了蛋白質(zhì)的折疊過程,同時這些力之間又是如何相互作用的。即使有了一些力場,但是,力場參數(shù)不精確。其次,這種方法需要考慮蛋白質(zhì)中所有原子之間以及所有原子與周圍溶劑之間的相互作用。對于實際大小的多肽,由于計算量太大,這種方法其實并不可行。實際上,也沒有對溶劑處理的好方法。再一方面,構(gòu)象搜索過程容易陷入局部能量極小點,而且自然折疊的蛋白質(zhì)結(jié)構(gòu)與一般蛋白質(zhì)構(gòu)象之間的能量差值比較小,因此,通過計算發(fā)現(xiàn)蛋白質(zhì)的自然折疊結(jié)構(gòu)非常困難。
對于從頭開始的方法,另外一種變化方法就是根據(jù)一些已知結(jié)構(gòu)的蛋白質(zhì)構(gòu)象為一個未知結(jié)構(gòu)的蛋白設(shè)計一個經(jīng)驗性的偽能量函數(shù)。通常,為得到這種經(jīng)驗性的能量函數(shù)表達式,我們首先要選擇一系列已知結(jié)構(gòu)的蛋白質(zhì),然后對于每一個氨基酸,分析在三維空間上與其相鄰的氨基酸。于是,我們可以根據(jù)不同氨基酸的相對位置得到一個得分矩陣。例如,得分矩陣中會記錄所有絲氨酸殘基和蘇氨酸殘基的距離小于3.6的數(shù)目。對一個假定的蛋白質(zhì)構(gòu)象,為了估計出它的經(jīng)驗性能量,必須考慮這個蛋白中每個殘基的相鄰殘基。對于那些在樣本庫中經(jīng)常出現(xiàn)的局部構(gòu)象,它們的能量得分會比較小,而對于那些在樣本庫中不經(jīng)常出現(xiàn)的局部構(gòu)象,它們的得分則比較高。如果一個構(gòu)象的得分比較高的話,這個構(gòu)象就不太穩(wěn)定。例如,假如一個特定的絲氨酸殘基在6的距離內(nèi)有三個相鄰的殘基,即天冬氨酸、組氨酸和谷氨酸,并且得分矩陣顯示天冬氨酸、組氨酸和谷氨酸在蛋白結(jié)構(gòu)樣本庫中經(jīng)常與絲氨酸相鄰,那么這個絲氨酸殘基的能量得分就比較低。但是,假如得分矩陣顯示絲氨酸和谷氨酸很少相鄰,那么這個絲氨酸殘基的經(jīng)驗性能量值就比較高。將蛋白質(zhì)中所有殘基的局部能量值累加,就得到這個蛋白質(zhì)基于經(jīng)驗的全局能量值。實際上,這種經(jīng)驗性能量函數(shù)只對那些與已知蛋白質(zhì)的結(jié)構(gòu)相似的構(gòu)象賦予比較低的能量值,而對那些新出現(xiàn)的構(gòu)象或者不經(jīng)常出現(xiàn)的構(gòu)象,這種能量函數(shù)給出的能量值則比較高。