基于氨基酸指數(shù)分布特征和對(duì)偶核支持向量機(jī)的蛋白質(zhì)相互作用類型預(yù)測(cè)
《基于氨基酸指數(shù)分布特征和對(duì)偶核支持向量機(jī)的蛋白質(zhì)相互作用類型預(yù)測(cè)》由會(huì)員分享,可在線閱讀,更多相關(guān)《基于氨基酸指數(shù)分布特征和對(duì)偶核支持向量機(jī)的蛋白質(zhì)相互作用類型預(yù)測(cè)(11頁珍藏版)》請(qǐng)?jiān)谘b配圖網(wǎng)上搜索。
1、基于氨基酸指數(shù)分布特征和對(duì)偶核支持向量機(jī)的蛋白質(zhì) 相互作用類型預(yù)測(cè) 丁鵬,陳偉,張紹武* (西北工業(yè)大學(xué)自動(dòng)化學(xué)院,西安,710072) 摘要:蛋白質(zhì)相互作用在許多細(xì)胞功能中都發(fā)揮著關(guān)鍵作用,研究蛋白質(zhì)相互作用對(duì)于理解細(xì)胞分子機(jī)制至關(guān)重要。但是,僅僅依靠實(shí)驗(yàn)方法耗時(shí)費(fèi)力,因此發(fā)展計(jì)算方法預(yù)測(cè)蛋白質(zhì)相互作用的就顯得極為重要。本文基于氨基酸的物化特性提出一種新的蛋白質(zhì)特征提取方法:氨基酸指數(shù)分布特征提取方法,它能夠提取序列中的所有順序信息。而為了消除蛋白質(zhì)特征連接順序?qū)Y(jié)果的影響,本文采用對(duì)偶核支持向量機(jī)作為分類器。在得到了幾種計(jì)算方法的結(jié)果后,使用決策模板進(jìn)行了決策級(jí)融合。Hpyl
2、ori數(shù)據(jù)庫的jackknife計(jì)算結(jié)果顯示,本文方法預(yù)測(cè)總精度為75.51%,比Guo和Chen分別高出1.65和8.5個(gè)百分點(diǎn),在使用了決策模板融合后,總的預(yù)測(cè)精度達(dá)到了76.28%,從而表明本文方法以及決策模板融合可有效地應(yīng)用于蛋白質(zhì)相互作用預(yù)測(cè)。 關(guān)鍵詞:氨基酸指數(shù)分布,對(duì)偶核,支持向量機(jī),融合,決策模板 1、引言 在細(xì)胞的生命活動(dòng)過程中,大多數(shù)蛋白質(zhì)都是通過與其它蛋白質(zhì)相互作用實(shí)現(xiàn)其生物功能。蛋白質(zhì)的功能往往體現(xiàn)在與其它蛋白質(zhì)或其它生物大分子之間的相互作用中,蛋白質(zhì)間特有的相互作用關(guān)系很重要,因?yàn)樗鼈儾粌H參與基因轉(zhuǎn)錄調(diào)控、細(xì)胞分裂增殖、信號(hào)傳導(dǎo)、代謝等重要生命活動(dòng),同時(shí)還與疾病
3、的發(fā)生、發(fā)展密切相關(guān)。因而,蛋白質(zhì)相互作用研究對(duì)疾病發(fā)生機(jī)制的理解和有效藥物的研制有著極其重要的意義。 蛋白質(zhì)相互作用研究方法大致分為兩類:生物實(shí)驗(yàn)方法和計(jì)算預(yù)測(cè)方法。實(shí)驗(yàn)方法主要有酵母雙雜交系統(tǒng)[1, 2]、質(zhì)譜技術(shù)[3, 4]、蛋白質(zhì)芯片[5]等,但隨著基因和蛋白質(zhì)數(shù)據(jù)的高速增長(zhǎng),這些實(shí)驗(yàn)方法的局限性越來越明顯,不僅耗時(shí)耗力、成本高,而且實(shí)驗(yàn)準(zhǔn)確性也受到偶然性和實(shí)驗(yàn)條件等因素影響,所以發(fā)展有效的 *通訊作者,電話:(029)88431308, E-mail: zhangsw@ ____________________ 計(jì)算方法預(yù)測(cè)蛋白質(zhì)相互作用極其重要。 迄今為止,已有多種計(jì)算方
4、法被提出,例如基于結(jié)構(gòu)信息的docking法[6],踩踏折疊識(shí)別法[7],基于基因信息的種系模板法[8]等,但是基于結(jié)構(gòu)信息的計(jì)算方法需要更多關(guān)于蛋白質(zhì)的先驗(yàn)信息,基于基因信息的計(jì)算方法僅適用于已被完全測(cè)序的基因組,因此這兩類方法都不具有普遍性?!靶蛄锌梢詻Q定結(jié)構(gòu)”,因此,蛋白質(zhì)的氨基酸序列信息可能已足以預(yù)測(cè)蛋白質(zhì)相互作用類型。在這樣的思想指導(dǎo)下,各種基于氨基酸序列的計(jì)算方法也被提出來。傳統(tǒng)的氨基酸組成成分方法(AAC)通過統(tǒng)計(jì)蛋白質(zhì)序列中各種氨基酸的出現(xiàn)頻率來提取特征,但它卻忽略了序列中氨基酸的順序信息。Shen[9]提出一種三聯(lián)子方法來提取順序信息,但它只能包含一個(gè)氨基酸與它相鄰的兩個(gè)氨基
5、酸之間的順序信息。Chou和Cai[10] 使用了偽氨基酸特征提取方法;Guo[11]使用了自協(xié)方差描述子;Xia[12]使用了莫蘭自相關(guān)描述子來提取順序信息,它們都是通過各自引入的氨基酸物化特性將氨基酸序列順序信息考慮進(jìn)去,相比AAC和Shen能夠包含更多順序信息,但是仍無法將所有順序信息考慮進(jìn)去。而且現(xiàn)有的大部分基于序列的計(jì)算方法都是通過將蛋白質(zhì)對(duì)所包含的兩個(gè)蛋白質(zhì)子鏈的特征連接來表示蛋白質(zhì)對(duì)的特征,這樣它們的蛋白質(zhì)對(duì)特征表示并不唯一,但它們的分類器又不能消除這種不唯一對(duì)結(jié)果帶來的影響,因此得到的結(jié)果多是不穩(wěn)定的。本文基于氨基酸的物化特性提出一種新的蛋白質(zhì)特征提取方法:氨基酸指數(shù)分布特征提
6、取方法,它能夠提取序列中的所有順序信息。為了消除蛋白質(zhì)子鏈特征連接順序?qū)Y(jié)果的影響,本文采用對(duì)偶核支持向量機(jī)作為分類器。在得到了幾種計(jì)算方法的結(jié)果后,使用決策模板進(jìn)行了決策級(jí)融合。Hpylori數(shù)據(jù)庫的計(jì)算結(jié)果表明本文方法以及決策模板融合可有效地應(yīng)用于蛋白質(zhì)相互作用預(yù)測(cè)。 2、 數(shù)據(jù)庫與方法 2.1、數(shù)據(jù)庫 本文使用公共數(shù)據(jù)庫Helicobacter pylori進(jìn)行方法驗(yàn)證和比較。先搜集Helicobacter pylori數(shù)據(jù)庫相互作用蛋白質(zhì)對(duì)名稱,然后再?gòu)腄IP數(shù)據(jù)庫中找到在這些相互作用蛋白質(zhì)對(duì)所對(duì)應(yīng)的所有蛋白質(zhì)子鏈,并根據(jù)以下規(guī)則構(gòu)建蛋白質(zhì)作用數(shù)據(jù)庫: (1)、將網(wǎng)站上搜集到的
7、蛋白質(zhì)作用對(duì)構(gòu)成正樣本集;蛋白質(zhì)任意子鏈兩兩組合,除去相互作用蛋白質(zhì)對(duì),剩余的蛋白質(zhì)子鏈對(duì)為非作用蛋白質(zhì)對(duì),即負(fù)樣本集,例如某一蛋白質(zhì)中有A、B、C、D四條鏈,其中AB、AC、BD發(fā)生相互作用,則將AD、BC、BD視為非蛋白質(zhì)相互作用對(duì); (2)、樣本集中任一條鏈的氨基酸序列長(zhǎng)度大于50; (3)、樣本集中任意蛋白質(zhì)子鏈對(duì)間的序列一致性(identity)小于40%; (4)、由于負(fù)樣本數(shù)大于正樣本數(shù),在負(fù)樣本集中隨機(jī)抽取與正樣本數(shù)相同的樣本構(gòu)成非作用蛋白質(zhì)子鏈對(duì)集 。 于是構(gòu)建的數(shù)據(jù)庫共有2846個(gè)樣本,其中蛋白質(zhì)作用子鏈對(duì)和非作用蛋白質(zhì)子鏈對(duì)各有1423個(gè)。 2.2、氨基酸指數(shù)
8、分布特征提取方法 氨基酸的物化特性是判定蛋白質(zhì)的結(jié)構(gòu)類型的關(guān)鍵,基于氨基酸的物化特性,我們提出了氨基酸指數(shù)分布特征提取方法。根據(jù)選取的氨基酸物化特性, 20種常規(guī)氨基酸()可一一對(duì)應(yīng)經(jīng)過歸一化處理的物化特性值,假設(shè)一個(gè)蛋白質(zhì)的序列有個(gè)氨基酸,通過將序列中的每一個(gè)氨基酸用對(duì)應(yīng)的物化特性值替換可得到一個(gè)數(shù)值序列,其中為序列中第個(gè)氨基酸的物化特性值。從這個(gè)數(shù)值序列出發(fā),我們可用一個(gè)60維的向量來表示蛋白質(zhì)的氨基酸指數(shù)分布特征 (1) 其中的定義如下 (2) (3) (4) 其中為20種常規(guī)氨基酸(按字母順序排列)中第個(gè)氨基酸在蛋白質(zhì)的序列中出現(xiàn)的次數(shù),因?yàn)?0種常規(guī)氨基
9、酸對(duì)應(yīng)同一種物化特性的物化特性值是互不相同的,所以也等于這種氨基酸所對(duì)應(yīng)的物化特性值在數(shù)值序列中出現(xiàn)的次數(shù)。為在數(shù)值序列中第次出現(xiàn)的位置。 需要注意的是,對(duì)于同一個(gè)蛋白質(zhì),選取的氨基酸物化特性不同,得到的氨基酸指數(shù)分布特征就不同。本文選取了三種氨基酸物化特性:疏水性,親水性以及邊鏈團(tuán)性。表1為經(jīng)過歸一化處理的20種常規(guī)氨基酸的物化特性值。對(duì)于給定的蛋白質(zhì)對(duì),假設(shè)它所包含的兩個(gè)蛋白質(zhì)為、,根據(jù)這三種氨基酸物化特性,,的特征可分別用維的向量,來表示: (5) (6) 其中,,分別為蛋白質(zhì)對(duì)應(yīng)于疏水性,親水性以及邊鏈團(tuán)性的60維氨基酸指數(shù)分布特征;,,分別為蛋白質(zhì)對(duì)應(yīng)于疏水性,親水性
10、以及邊鏈團(tuán)的60維氨基酸指數(shù)分布特征,它們都可以通過式(1)計(jì)算得到。通過將向量,相連,可以得到蛋白質(zhì)對(duì)的特征: (7) 或 (8) 氨基酸指數(shù)分布特征提取方法采用將蛋白對(duì)所包含的兩個(gè)蛋白質(zhì)子鏈的特征表示向量簡(jiǎn)單相連的方法來得到蛋白對(duì)的特征,因?yàn)檫B接順序是自由的,所以蛋白質(zhì)對(duì)的特征并不唯一,而這可能會(huì)使最終預(yù)測(cè)結(jié)果不穩(wěn)定。 2.3、對(duì)偶核函數(shù) 為了避免上述情況,本文在支持向量機(jī)的基礎(chǔ)上,提出一類新的核函數(shù),使其具有“對(duì)偶”的特點(diǎn)——無論蛋白對(duì)樣本的兩個(gè)蛋白質(zhì)表示向量的連接順序如何,最后得到的結(jié)果都不會(huì)改變。即給定蛋白質(zhì)對(duì),,核函數(shù)需滿足下面的對(duì)偶條件: (9) 其中
11、 ,與,計(jì)算方法相同。 關(guān)于支持向量機(jī)的基礎(chǔ)知識(shí)可參考文獻(xiàn)[13],SVM的核函數(shù)決定了這個(gè)SVM的學(xué)習(xí)能力,傳統(tǒng)基于SVM方法的蛋白質(zhì)對(duì)預(yù)測(cè)在進(jìn)行分類時(shí)常采用高斯徑向基核函數(shù) (10) 之所以常常選擇這個(gè)核函數(shù),是因?yàn)楦鶕?jù)以往預(yù)測(cè)經(jīng)驗(yàn),對(duì)蛋白質(zhì)相互作用數(shù)據(jù),高斯徑向基核函數(shù)相比其它常用的核函數(shù),如多項(xiàng)式核函數(shù),sigmoid核函數(shù)往往有更好的預(yù)測(cè)結(jié)果。由高斯徑向基的表達(dá)式可知,它并不滿足式5的對(duì)偶特性。本文基于高斯徑向基核函數(shù),構(gòu)造了一個(gè)新的對(duì)偶核函數(shù): (11) 根據(jù)文獻(xiàn)[13]可以證明上面的對(duì)偶核函數(shù)滿足Mercer條件;同樣可以證明,它也滿足式9所示的對(duì)偶特性。在對(duì)偶
12、核函數(shù)構(gòu)造出來以后,就可以使用支持向量機(jī)進(jìn)行分類了。 2.4、決策模板融合 在計(jì)算了三種分類方法的結(jié)果后,本文使用決策模板對(duì)三種結(jié)果進(jìn)行融合。在決策模板融合規(guī)則中,首先對(duì)于每一個(gè)訓(xùn)練或測(cè)試樣本都計(jì)算出相應(yīng)的決策輪廓矩陣。假設(shè)有L種分類方法,它們對(duì)樣本x的判別結(jié)果可以形成一個(gè)決策輪廓(Decision Profile, DP)矩陣: (12) 其中表示第種分類方法將樣本x分為第j類的概率(后驗(yàn)概率),即。 決策輪廓矩陣是實(shí)現(xiàn)很多融合規(guī)則的基礎(chǔ),然后我們用訓(xùn)練樣本的決策輪廓矩陣可建立每一類樣本的決策模板: (13) 其中表示屬于第類的訓(xùn)練樣本數(shù),表示屬于第類的樣本。即可以建立
13、個(gè)DT矩陣;測(cè)試時(shí),對(duì)于每一個(gè)測(cè)試樣本,計(jì)算和第j類決策模板的某種相似性度量;最后可得到樣本x屬于第j類的置信度: (14) 本文采用歐氏距離作為相似性度量,即: (15) 其中是決策模板的第k行第j列值。 2.5、預(yù)測(cè)性能評(píng)估 本文采用敏感性(Sn)、特異性(Sp)和預(yù)測(cè)總精度(Q)評(píng)估分類系統(tǒng)預(yù)測(cè)性能。三參數(shù)定義如下: (16) (17) (18) 其中,表示正確預(yù)測(cè)的蛋白質(zhì)作用對(duì)數(shù)目、表示正確預(yù)測(cè)的非蛋白質(zhì)作用對(duì)數(shù)目、表示錯(cuò)誤預(yù)測(cè)的蛋白質(zhì)作用對(duì)數(shù)目,表示錯(cuò)誤預(yù)測(cè)的非作用蛋白質(zhì)對(duì)數(shù)目。 是一種預(yù)測(cè)性能評(píng)估方法,它從整體考慮結(jié)果,不僅考慮了某一類樣本
14、識(shí)別的成功概率,還考慮了其它類樣本被識(shí)別成此類的概率。 (19) 3、 結(jié)果與討論 本文的計(jì)算是基于SVM軟件libsvm-3.0 完成的,其中核函數(shù)部分用C++語言進(jìn)行了修改。通常在多變量統(tǒng)計(jì)模型中,SVM的分類效果與參數(shù)的選擇密切相關(guān),一般而言,SVM包括兩類參數(shù):容量參數(shù)及核函數(shù)中參數(shù)。是控制SVM間隔最大化與訓(xùn)練誤差最小化之間相互折中的參數(shù),通過改變核函數(shù)的幅值來增加核函數(shù)的實(shí)用性。Guo和Shen的方法也是使用支持向量機(jī)作為分類器,作為對(duì)照,我們也計(jì)算了Guo和Shen的方法的最優(yōu)值和最優(yōu)值。在得到這三種方法的最優(yōu)參數(shù)后,我們使用了jackknife計(jì)算最后的預(yù)測(cè)精度及決策
15、模板融合精度,結(jié)果如表2所示 從結(jié)果可以看到,本文方法預(yù)測(cè)總精度為75.51%,比Guo和Chen分別高出1.65和8.5個(gè)百分點(diǎn),說明我們的氨基酸指數(shù)分布特征提取方法對(duì)蛋白質(zhì)作用預(yù)測(cè)是有效的。另外在特征維數(shù)方面,Guo的特征提取方法所提取的特征維數(shù)為420維(2307),Shen的特征提取方法所提取的特征維數(shù)為686維(2343),而氨基酸指數(shù)分布特征提取方法所提取的特征維數(shù)僅為360維(2603)。因此,其計(jì)算時(shí)間小于Guo和Shen的特征提取方法。決策模板融合的MCC值最大,說明從整體考慮,決策模板融合的識(shí)別效果最好。 本文的氨基酸指數(shù)分布方法選取了三種氨基酸物化特性,而氨基酸的物化
16、特性有許多種,若選取其它的氨基酸的物化信息,或者引入更多氨基酸的物化信息或,預(yù)測(cè)蛋白質(zhì)作用可能會(huì)收到更好的效果,這也將是我們下一步要研究的內(nèi)容。 通過對(duì)Guo、Shen以及本文方法的結(jié)果用決策模板融合,得到了更高的精度,其中Shen的方法精度較低,若使用其它更好的方法替代Shen的方法,最后融合得到的精度可能更高。 4、結(jié)論 本文從氨基酸序列出發(fā),基于氨基酸指數(shù)分布特征提取方法,采用對(duì)偶核支持向量機(jī)對(duì)蛋白質(zhì)相互作用進(jìn)行了預(yù)測(cè)研究。Hpylori數(shù)據(jù)庫的預(yù)測(cè)結(jié)果表明:氨基酸指數(shù)分布特征提取方法提取的特征向量的確能夠捕獲更多蛋白質(zhì)序列特征信息。與Guo和Shen的方法相比,氨基酸指數(shù)分布特征
17、提取方法構(gòu)成的特征向量的維數(shù)也更小,從而進(jìn)一步表明氨基酸指數(shù)分布特征提取方法可有效地預(yù)測(cè)蛋白質(zhì)作用。通過引入對(duì)偶核,本文的支持向量機(jī)分類器有效的解決了大多數(shù)基于序列的蛋白質(zhì)相互作用預(yù)測(cè)計(jì)算方法結(jié)果不穩(wěn)定的問題。對(duì)結(jié)果進(jìn)行融合,可以得到更高的結(jié)果,說明決策模板對(duì)于蛋白質(zhì)相互作用預(yù)測(cè)是一種有效的融合方法。 參考文獻(xiàn) [1] Fields,S. and O. Song, A novel genetic system to detect protein-protein interactions.Nature,1989.340(6230):p.245-6. [2] Uezt,P., L.Giot,
18、 G. Cangey, et al., A comprehensive analysis of protein-protein interactions in Saccharomyces cerevisiae. Nature,2000.403(6770):p.623-7. [3] Rosotm,A.A., .P. Fucini, D.R. Benjamin,et al. Detetion and selective dissociation of intact ribosomes in a mass spectrometer. Proc Natl Acad Sci USA,2000.97(1
19、0):p.5185-90. [4] Ho,Y., A.Gruhler, A. Heilbut, et al. Systematic identification of protein complexes in Saccharomyces cerevisiae by mass spectrpmetry. Nature, 2002.415(6868):p.180-3. [5] Zhu,H., M.Bilgin, R. Bangham, et al. Global analysis of protein activoties using proteome chips. Science, 2001
20、.293(5537):p,2101-5. [6] Smith GR, Sternberg MJ: Prediction of protein-protein interactions by docking methods. Curr Opin Struct Biol 2002, 12(1):28-35 [7] Aloy P, Russell RB: Interrogating protein interaction networks through structural biology. Proc Natl Acad Sci USA 2002, 99(8):5896-5901 [8]
21、Pellegrini,M., Marcotte,E.M., Thompson,M.J., Eisenberg,D. and Yeates,T.O. (1999) Assigning protein functions by comparative genome analysis. Protein phylogenetic profile. Proc. Nail Acad. Sci. USA, 96, 4285-4288 [9] Juwen Shen , Jian Zhang , Xiaomin Luo , Weiliang Zhu , Kunqian Yu , Kaixian Chen ,
22、Yixue Li , and Hualiang Jiang: Predicting protein-protein interactions based only on sequences information. PNAS 2007,3 104(11) 4337-4341 [10] Chou KC and Cai YD: Predicting protein-protein interactions from Sequences in a Hybridization Space, Journal of Proteome Research 2006, 5: 316-322 [11] Guo
23、, Y.; Yu, L.; Wen, Z.; Li, M. Using support vector machine combined with auto covariance to predict protein-protein interactions from protein sequences. Nucleic Acids Res., 2008, 36(9),3025-30. [12] Xia, J.; Kyungsook H; Huang, D. Sequenc-based prediction of protein-protein interaction by means of
24、rotation and qutocorrelation descriptor. Protein & Peptide Letters, 2010, 17, 137-145. [13] Nello Cristianini,John Shawe-Taylor著,李國(guó)正,王猛等譯.支持向量機(jī)導(dǎo)論[M].北京:電子工業(yè)出版社.2004 [14] H.G.Alnahi. A New Classification of Amino Acid Residues by Using Machine Learning Approach. Annual International Conference of t
25、he IEEE Engineering in Medicine and Biology Society.Vol.13,No.4.1991 [15] 肖建華.智能模式識(shí)別方法[M].廣州:華南理工大學(xué)出版社.2005 [16] Jean-Philippe Vert,Jian Qiu and William S Noble. A new pairwise kernel for biological network inference with support vector machine. Bioinformatics.2007,8 [17] Ben-Hur A, Noble WS: K
26、ernel methods for predicting protein-protein interactions. Bioinformatics 2005, 21(1):i38-46 [18] Tanford, C. Contribution of hydrophobic interactions to the stability of the globular conformation of proteins. J. Am. Chem.Soc. 1962, 84, 4240-4274. [19] Hopp, T. P.; Woods, K. R. Prediction of prote
27、in antigenic determinants from amino acid sequences. Proc. Natl. Acad. Sci. U.S.A. 1981, 78, 3824-3828. 表1: 經(jīng)過歸一化處理的20種常規(guī)氨基酸的物化特性值(疏水性的原始數(shù)據(jù)源自文獻(xiàn)[18] ,親水性的原始數(shù)據(jù)源自文獻(xiàn)[19],邊鏈特性原始數(shù)據(jù)可自行查閱) 代碼 疏水性 親水性 邊鏈團(tuán)性 A 0.6201 -0.1888 -1.5516 C 0.2901 -0.4404 -0.5161 D -0.9002 1.5
28、729 -0.1278 E -0.7402 1.5729 0.3252 F 1.1903 -1.1954 0.9077 G 0.4801 0.0629 -2.0047 H -0.4001 -0.1888 0.6164 I 1.3803 -0.8431 -0.1925 K -1.5003 1.5729 0.3252 L 1.0602 -0.8431 -0.1925 M 0.6401 -0.5914 0.3899 N -0.7802 1.0696 -0.1602 P 0.1200 0.0629 -0.6779 Q
29、 -0.8502 0.1636 0.2929 R -2.5306 1.5729 1.2313 S -0.1800 0.2139 -1.0339 T -0.0500 -0.1384 -0.5808 V 1.0802 -0.6921 -0.6456 W 0.8102 -1.6484 2.1697 Y 0.2601 -1.0947 1.4254 表2 三種預(yù)測(cè)方法結(jié)果及融合結(jié)果 Guo’s method Shen’s method 本文方法 決策模板融合 最優(yōu)值 2 2 1 — 最優(yōu)值 0.25 0.0625
30、4 — 73.76 66.49 75.60 76.87 74.07 68.59 75.33 75.19 73.86 67.01 75.51 76.28 0.48 0.34 0.51 0.53 Prediction of Protein-Protein Interaction Types with Amino Acid Index Distribution and Pairwise Kernel Function SVM Peng Ding, Wei Chen,Shao-Wu Zhang* College of Automation
31、, Northwestern Polytechnical University, 710072, Xian, China Abstract: Protein-protein interactions (PPIs) play a key role in many cellular processes, Knowing about the multitude of PPIs can help the biological scientist understand the molecular machinery of the cell. Unfortunately, it is both ti
32、me-consuming and expensive to do so solely based on experiments. Therefore, developing computational methods for predicting PPIs would be of significant value in this regard. In this paper, we proposed a new feature extraction method based on the physicochemical property of amino acids: amino acid i
33、ndex distribution (AAI). In order to solve the problem of concatenating order above, we used the pairwise kernel function support vector machine (SVM) as classifier. In the end, we fused the results of various methods based on decision profile (DP). The overall success rate of our method obtained i
34、n jackknife test on Hpylori database was 75.51%, which is 1.65% and 8.5% higher than that of Guo’s and Shen’s methods, and the success rate after fusing was 76.28%, indicating our method and the fusing method based on DP is very promising for predicting PPI types. Keywords: Amino Acid Index Distribution, Pairwise Kernel, SVM, fusing, decision profile
- 溫馨提示:
1: 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 6.煤礦安全生產(chǎn)科普知識(shí)競(jìng)賽題含答案
- 2.煤礦爆破工技能鑒定試題含答案
- 3.爆破工培訓(xùn)考試試題含答案
- 2.煤礦安全監(jiān)察人員模擬考試題庫試卷含答案
- 3.金屬非金屬礦山安全管理人員(地下礦山)安全生產(chǎn)模擬考試題庫試卷含答案
- 4.煤礦特種作業(yè)人員井下電鉗工模擬考試題庫試卷含答案
- 1 煤礦安全生產(chǎn)及管理知識(shí)測(cè)試題庫及答案
- 2 各種煤礦安全考試試題含答案
- 1 煤礦安全檢查考試題
- 1 井下放炮員練習(xí)題含答案
- 2煤礦安全監(jiān)測(cè)工種技術(shù)比武題庫含解析
- 1 礦山應(yīng)急救援安全知識(shí)競(jìng)賽試題
- 1 礦井泵工考試練習(xí)題含答案
- 2煤礦爆破工考試復(fù)習(xí)題含答案
- 1 各種煤礦安全考試試題含答案