基因芯片數(shù)據(jù)功能分析
《基因芯片數(shù)據(jù)功能分析》由會員分享,可在線閱讀,更多相關(guān)《基因芯片數(shù)據(jù)功能分析(4頁珍藏版)》請?jiān)谘b配圖網(wǎng)上搜索。
生物信息學(xué)在基因芯片數(shù)據(jù)功能分析中的應(yīng)用 2009 4 29 隨著人類基因組計(jì)劃 Human Genome Project 即全部核苷酸測序的即將完成 人類基因 組研究的重心逐漸進(jìn)入后基因組時(shí)代 Postgenome Era 向基因的功能及基因的多樣性傾斜 通過對個(gè)體在不同生長發(fā)育階段或不同生理狀態(tài)下大量基因表達(dá)的平行分析 研究相應(yīng)基 因在生物體內(nèi)的功能 闡明 不同層次多基因協(xié)同作用的機(jī)理 進(jìn)而在人類重大疾病如癌癥 心血管疾病的發(fā)病機(jī)理 診斷治療 藥物開發(fā)等方面的研究發(fā)揮巨大的作用 它將大大推 動人類結(jié)構(gòu) 基因組及功能基因組的各項(xiàng)基因組研究計(jì)劃 生物信息學(xué)在基因組學(xué)中發(fā)揮著 重大的作用 而另一項(xiàng)嶄新的技術(shù) 基因芯片已經(jīng)成為大規(guī)模探索和提取生物分子信息 的強(qiáng)有力手段 將在后基因組研究中發(fā)揮突出的作用 基因芯片與生物信息學(xué)是相輔相成 的 基因芯片技術(shù)本身是為了解決如何快速獲得龐大遺傳信息而發(fā)展起來的 可以為生物 信息學(xué)研究提供必需的數(shù)據(jù)庫 同時(shí)基因芯片的數(shù)據(jù)分析也極大地依賴于生 物信息學(xué) 因 此兩者的結(jié)合給分子生物學(xué)研究提供了一條快捷通道 本文介紹了幾種常用的基因功能分析方法和工具 一 GO 基因本體論分類法 最先出現(xiàn)的芯片數(shù)據(jù)基因功能分析法是 GO 分類法 Gene Ontology GO 即基因本體論 數(shù)據(jù)庫是一個(gè)較大的公開的生物分類學(xué)網(wǎng)絡(luò)資源的一部分 它包含 38675 個(gè) Entrez Gene 注釋基因中的 17348 個(gè) 并把它們的功能分為三類 分子功能 生物學(xué)過程和細(xì)胞組分 在每一個(gè)分類中 都提供一個(gè)描述功能信息的分級結(jié)構(gòu) 這 樣 GO 中每一個(gè)分類術(shù)語都 以一種被稱為定向非循環(huán)圖表 DAGs 的結(jié)構(gòu)組織起來 研究者可以通過 GO 分類號和各 種 GO 數(shù)據(jù)庫相關(guān)分析工具將分類與具體 基因聯(lián)系起來 從而對這個(gè)基因的功能進(jìn)行描述 在芯片的數(shù)據(jù)分析中 研究者可以找出哪些變化基因?qū)儆谝粋€(gè)共同的 GO 功能分支 并用 統(tǒng)計(jì)學(xué)方法檢定結(jié)果是否 具有統(tǒng)計(jì)學(xué)意義 從而得出變化基因主要參與了哪些生物功能 EASE Expressing Analysis Systematic Explorer 是比較早的用于芯片功能分析的網(wǎng)絡(luò)平 臺 由美國國立衛(wèi)生研究院 NIH 的研究人員開發(fā) 研究者可以用多種不同的格式將芯片 中得到的基 因?qū)?EASE 進(jìn)行分析 EASE 會找出這一系列的基因都存在于哪些 GO 分類中 其最主要特點(diǎn)是提供了一些統(tǒng)計(jì)學(xué)選項(xiàng)以判斷得到的 GO 分類是否符合統(tǒng)計(jì)學(xué)標(biāo)準(zhǔn) EASE 能進(jìn)行的統(tǒng)計(jì)學(xué)檢驗(yàn)主要包括 Fisher 精確概率檢驗(yàn) 或是對 Fisher 精確概率檢驗(yàn)進(jìn)行了修 飾的 EASE 得分 EASE score 由于進(jìn)行統(tǒng)計(jì)學(xué)檢驗(yàn)的 GO 分類的數(shù)量很多 所以 EASE 采取了一系列方法對 多重檢驗(yàn) 的結(jié)果進(jìn)行校正 這些方法包括弗朗尼校正法 Bonferroni 本杰明假陽性率法 Benjamini falsediscovery rate 和靴帶法 bootstraping 同年出現(xiàn)的基于 GO 分類的芯 片基因功能分析平臺還有底特律韋恩大學(xué)開發(fā)的 Onto Express 2002 年 挪威大學(xué)和烏普 薩拉大學(xué)聯(lián)合推出的 Rosetta 系統(tǒng)將 GO 分類與基因表達(dá)數(shù)據(jù)相聯(lián)系 引入了 最小決定法 則 minimal decision rules 的概念 它的基本思想是在對多張芯片結(jié)果進(jìn)行聚類分析之后 與表達(dá)模式不相近的基因相比 相近的基因更有可能參與相同的生物學(xué)功能的實(shí)現(xiàn) 比 較 著名的基于 GO 分類法的芯片數(shù)據(jù)分析網(wǎng)絡(luò)平臺還有七十多個(gè) 表 1 列舉了其中的一部分 Name Internet Site Onto Tools http vortex cs wayne edu projects htm ROSETTA http rosetta lcb uu se general GOToolBo x http burgundy cmmt ubc ca GOToolBox GOstat http gostat wehi edu au GFINDer http www medinfopoli polimi it GFINDer FatiGO http www fatigo org EASE http david abcc ncifcrf gov ease ease jsp 表 1 用 GO 分類法進(jìn)行芯片功能分析的網(wǎng)絡(luò)平臺 二 Pathway 通路分析法 通路分析是現(xiàn)在經(jīng)常被使用的芯片數(shù)據(jù)基因功能分析法 與 GO 分類法 應(yīng)用單個(gè)基因 的 GO 分類信息 不同 通路分析法利用的資源是許 多已經(jīng)研究清楚的基因之間的相互作 用 即生物學(xué)通路 研究者可以把表達(dá)發(fā)生變化的基因列表導(dǎo)入通路分析軟件中 進(jìn)而得 到變化的基因都存在于哪些已知通路 中 并通過統(tǒng)計(jì)學(xué)方法計(jì)算哪些通路與基因表達(dá)的變 化最為相關(guān) 現(xiàn)在已經(jīng)有豐富的數(shù)據(jù)庫資源幫助研究人員了解及檢索生物學(xué)通路 對芯片 的結(jié)果進(jìn)行分析 主要 的生物學(xué)通路數(shù)據(jù)庫有以下兩個(gè) KEGG 數(shù)據(jù)庫 迄今為止 KEGG 數(shù)據(jù)庫 Kyoto encyclopedia of genes and genomes 是 向公眾開放的最為著名的生物學(xué)通路方面的資源網(wǎng)站 在這個(gè)網(wǎng)站中 每一種生物學(xué) 通路都有專門的圖示說明 BioCarta 數(shù)據(jù)庫 BioCarta 是一家生物技術(shù)公司 它在其公共網(wǎng)站上提供了用于繪制 生物學(xué)通路的模板 研究者可以把符合標(biāo)準(zhǔn)的生物學(xué)通路提供給 BioCarta 數(shù)據(jù)庫 BioCarta 數(shù)據(jù)庫不會檢驗(yàn)這些生物學(xué)通路的質(zhì)量 因此其中的資源質(zhì)量參差不齊 并且 有許多相互重復(fù) 然而 BioCarta 數(shù)據(jù)庫數(shù)據(jù)量巨大 且不同 于 KEGG 數(shù)據(jù)庫 包含了 大量代謝通路之外的生物學(xué)通路 所以也得到廣泛的應(yīng)用 最先出現(xiàn)的通路分析軟件之一是 GenMAPP gene microarray pathway profiler 它可 以免費(fèi)使用 其最新版本為 Gen MAPP2 在這個(gè)軟件中 使用者可以用幾種靈活的文件格 式輸入自己的表達(dá)譜數(shù) 據(jù) GenMAPP 的基因數(shù)據(jù)庫包含許多從常用的資源中得到的物種 特異性的基因注釋和識別符 ID 這些 ID 可以將使用者輸入的基因與不同的生物學(xué)通路 的基因聯(lián)系起來 這些生物學(xué)通路存在于 GenMAPP 的 MAPP 文件中 MAPP 文件需要時(shí) 常下載更新 它包含有許多 KEGG 生物學(xué)通路 一些 GenMAPP 自己的生物學(xué)通路和許多 GO 分類的 MAPP 文件 全部操作簡單明了 而且依靠其自帶的 MAPPBuilder 和 MAPPFinder 兩個(gè)軟件 使用者可以自己繪制生物學(xué)通路和對 MAPP 文件進(jìn)行檢索 由于 使用者可以自己繪制生物學(xué)通路保存為 MAPP 格式 這個(gè)文件很小易于在網(wǎng)絡(luò)上傳播 所 以 GenMAPP 數(shù)據(jù)庫更有利于研究者之間的及時(shí)交流 由于上述特點(diǎn) GenMAPP 數(shù)據(jù)庫及 軟件仍是現(xiàn)今免費(fèi)平臺里應(yīng)用比較廣泛的 2004 年推出的 Pathway Miner 也是應(yīng)用較為廣泛的免費(fèi)通路分析網(wǎng)絡(luò)平臺 由美國亞 利桑那大學(xué)癌癥中心建立維護(hù) 其最突出的特點(diǎn)就是信息全面 操作簡便 使用者可以在 這個(gè)網(wǎng)站 中獲得單個(gè)基因的序列 功能注釋 以及有關(guān)它們編碼的蛋白結(jié)構(gòu)功能 組織分 布 OMIM 等信息 對于通路分析部分 使用者給出基因列表及他們的表達(dá)變化 值 網(wǎng)站 可以根據(jù)三大公用的通路數(shù)據(jù)庫 KEGG GenMAPP 和 BioCarta 生成變化基因參與的通 路 并用 fisher 精確概率檢驗(yàn) PathwayMiner 自動把得到的通路分成兩大類 代謝通路和 細(xì)胞調(diào)節(jié)通路 方便使用者根據(jù)不同的研究目的選擇需要查看的結(jié)果 在 2006 年國內(nèi)也開發(fā)了用于通路分析的網(wǎng)絡(luò)平臺 即 KOBAS KO Based Annotation System 其基于 KEGG 數(shù)據(jù)庫建立 由北京大學(xué)生命科學(xué)院開發(fā)和維護(hù) 其特點(diǎn)是可直 接采用基因或蛋白質(zhì)的序列錄入基因 并對錄入的基因列表進(jìn)行 KO 注釋 對于結(jié)果的可 靠性檢驗(yàn)提供了四種統(tǒng)計(jì)方法 使用者可以在網(wǎng)站進(jìn)行注冊 網(wǎng)站會為使用者保存輸入的 數(shù)據(jù) 方便日后直接調(diào)用 最近推出的軟件 Eu Gene 整合了來自 KEGG Gen MAPP 以及 Reactome 的通路數(shù)據(jù) 并采用 fisher 精確概率檢驗(yàn)及基因集富集分析 Gene Set Enrichment Analysis GSEA 來檢驗(yàn)結(jié)果是否具有統(tǒng)計(jì)學(xué)意義 表 2 列舉了部分通路分析的 網(wǎng)絡(luò)平臺及它們的網(wǎng)址 Name Internet Site GenMAPP http www genmapp org PathwayMiner http www biorag org pathway html KOBAS GEPAT http gepat bioapps biozentrum uni wuerzburg de GEPAT index faces VitaPad http bioinformatics med yale edu group KEGGanim http biit cs ut ee kegganim WholePathwayScopehttp www abcc ncifcrf gov wps wps index php VisANT 3 0 http visant bu edu Eu Gene http www ducciocavalieri org bio Eugene htm 表二 通路分析網(wǎng)絡(luò)平臺 三 基因調(diào)控網(wǎng)絡(luò)分析 通路分析法是芯片功能分析的有力工具之一 其與 GO 分類法的主要區(qū)別也正是它的弱 點(diǎn) 在生物反應(yīng)的過程中 發(fā)生表達(dá)變化的基因通常不只局限在一個(gè)通路中 而是存在于 由許多調(diào)控因子和通路參與的復(fù)雜調(diào)控網(wǎng)絡(luò)中 生物調(diào)控網(wǎng)絡(luò)十分復(fù)雜 并沒有現(xiàn)成的文 獻(xiàn)和數(shù)據(jù)庫供參考 而且 把芯片中發(fā)生表達(dá)變化的基因放在生 物調(diào)控網(wǎng)絡(luò)的水平來看 它們通常在多個(gè)通路中都有分布 而每個(gè)通路只包含幾個(gè)發(fā)生表達(dá)變化的基因 這就解釋 了為什么有些通路只有部分基因表達(dá)發(fā)生變化 而 且表達(dá)變化的趨勢在整個(gè)通路水平上不 一定是一致的 進(jìn)行生物調(diào)控網(wǎng)絡(luò)的研究需要更多的數(shù)據(jù)庫及分析工具的支持 比如需要關(guān)于基因組調(diào) 控序列 啟動子和增強(qiáng)子 的信息 現(xiàn)在已經(jīng)有許多 關(guān)于轉(zhuǎn)錄因子結(jié)合位點(diǎn) transcription factor binding site TFBS 的數(shù)據(jù)庫可以滿足這個(gè)要求 如 TRANSFAC 及 JASPAR 而且芯片檢測的基因變化應(yīng)該深入到轉(zhuǎn)錄本水平 因?yàn)椴煌霓D(zhuǎn)錄本的轉(zhuǎn)錄可能 是由 不同的啟動子啟動的 外顯子連接芯片 exon junction microarray 將基因組中外顯 子與外顯子之間的連接序列做成 36nt 的探針點(diǎn)到芯片上 與樣本 mRNA 進(jìn)行雜交后可檢 測出樣本中多外顯子基因 pre mRNA 的剪接狀況 轉(zhuǎn)錄調(diào)節(jié)控制基因表達(dá) 調(diào)控不同組織中的細(xì)胞在各種生理?xiàng)l件及外界刺激下的反應(yīng) 不同于原核細(xì)胞 真核細(xì)胞的轉(zhuǎn)錄調(diào)節(jié)涉及大量轉(zhuǎn)錄因子的相互作用 而且基 因組調(diào)控序 列不只位于啟動子 還包括內(nèi)含子及許多基因下游序列 所以真正了解真核細(xì)胞的基因調(diào) 控網(wǎng)絡(luò)是一項(xiàng)非常艱巨的工作 用基因調(diào)控網(wǎng)絡(luò)來分析基因芯片 數(shù)據(jù)還需要更多信息及技 術(shù)的支持- 1.請仔細(xì)閱讀文檔,確保文檔完整性,對于不預(yù)覽、不比對內(nèi)容而直接下載帶來的問題本站不予受理。
- 2.下載的文檔,不會出現(xiàn)我們的網(wǎng)址水印。
- 3、該文檔所得收入(下載+內(nèi)容+預(yù)覽)歸上傳者、原創(chuàng)作者;如果您是本文檔原作者,請點(diǎn)此認(rèn)領(lǐng)!既往收益都?xì)w您。
下載文檔到電腦,查找使用更方便
15 積分
下載 |
- 配套講稿:
如PPT文件的首頁顯示word圖標(biāo),表示該P(yáng)PT已包含配套word講稿。雙擊word圖標(biāo)可打開word文檔。
- 特殊限制:
部分文檔作品中含有的國旗、國徽等圖片,僅作為作品整體效果示例展示,禁止商用。設(shè)計(jì)者僅對作品中獨(dú)創(chuàng)性部分享有著作權(quán)。
- 關(guān) 鍵 詞:
- 基因芯片 數(shù)據(jù) 功能分析
鏈接地址:http://m.appdesigncorp.com/p-9779013.html