綜合序列分析軟件BioEdit中文說明書.ppt
《綜合序列分析軟件BioEdit中文說明書.ppt》由會員分享,可在線閱讀,更多相關《綜合序列分析軟件BioEdit中文說明書.ppt(64頁珍藏版)》請在裝配圖網(wǎng)上搜索。
1、綜合序列分析軟件BioEdit,2003級 高芳鑾,BioEdit簡介,BioEdit是一個性能優(yōu)良的免費的生物序列編輯器,可在Windows 95/98/NT/2000中運行,它的基本功能是提供蛋白質(zhì)、核酸序列的編輯、排列、處理和分析。 與DNAMAN相比,其分析內(nèi)容相對豐富一些,而且提供了很多網(wǎng)絡程序的分析界面和接口,與DNAMAN等軟件配合使用更好。 尤其值得一提是利用BioEdit能夠十分方面地根據(jù)指定的核酸序列繪制相應的質(zhì)粒圖譜。,序列的常規(guī)操作:,序列輸入:多種序列輸入方式; 序列分類:按標題、位置 、定義、參數(shù)、注釋等分類; 成對排列:兩序列的最佳排列及計算同一性和類似性; 序列
2、屏蔽:僅采用聯(lián)配中部分區(qū)域進行分析而排除其他。 核酸分析:組成、互補、反轉(zhuǎn)、翻譯、質(zhì)粒、限制性內(nèi)切酶; 蛋白質(zhì)分析:氨基酸成分、疏水性輪廓 、疏水力矩平均數(shù) 翻譯或反翻譯:把DNA或RNA翻譯成蛋白質(zhì); 切換翻譯:在核酸和編碼蛋白質(zhì)序列中切換核苷酸序列; 點圖成對比較:相互比較兩序列的矩陣,生成一個點圖。,BLAST,本地使用BLAST 創(chuàng)建本地數(shù)據(jù)庫 本地BLAST 搜尋 BLAST INTERNET 客戶端程序,ClustalW,使用互聯(lián)網(wǎng)工具,HTML BLAST 網(wǎng)絡瀏覽器 PSI-BLAST nnPredict ,進化分析,主要內(nèi)容,繪制質(zhì)粒圖 限制性內(nèi)切酶圖 蛋白質(zhì)分析 組成分析
3、熵圖 疏水性輪廓 聯(lián)配中搜尋保守區(qū) 根據(jù)密碼子的使用翻譯核苷酸 RNA比較分析 共變 潛在配對 互交信息分析,一、繪制質(zhì)粒圖(Plasmind drawing),使用BioEdit質(zhì)粒繪圖功能,序列可以通過自動的位置標記,自動修改成環(huán)形質(zhì)粒。特征、多連接位點和限制性位點可以通過使用對話框增加。當將一個序列進入質(zhì)粒圖時,在背景上出現(xiàn)一個限制性內(nèi)切酶圖譜,所以可以通過對話框選擇可以增加限制性位點。它們自動增加到當前的位點。質(zhì)粒功能提供簡單的繪制和標記工具。標簽和繪圖可以通過鼠標移動和縮放。想要編輯目標性質(zhì),雙擊目標。 想要從一個DNA序列產(chǎn)生一個質(zhì)粒,從“Sequence ”菜單中“Nucleic
4、 Acid ”子菜單中選擇“Create Plasmid from Sequence ”選項。選擇這個選項時,限制性內(nèi)切酶圖譜將會使用通常商業(yè)化的,儲存在存儲器中的限制性內(nèi)切酶。質(zhì)粒第一次產(chǎn)生時,它顯示成有10個位點標記的圓圈,中央是標題 。,1.Restriction sites:(限制性位點),想要增加限制性位點,從“Vector ”菜單中選擇“Restriction Sites ”選項。將會顯示一下對話框:,,,想要顯示圖譜中的限制性內(nèi)切酶,從右邊(“Dont Show ”中)選擇任何想要的酶,用 按鈕將它們移動到左邊。按下“Apply & Close ”時,這個位點就會增加到圖譜中。指
5、定的酶如果只有一個酶切位點,就會在酶切位點上出現(xiàn)一個“U ”。如果沒有“U”, 將會顯示第一個酶切位點。想要移動圖譜中酶的位置,在“Show ”中增加選擇的酶的亮度,按下 按鈕將它們移動另一邊。,2.Positional marks (位置標記): 點擊“Vector ”菜單中的“Positional Marks ”選項,可以出現(xiàn)以下對話框: 可以通過移動位置標記到“Show” 中,單獨增加位置標記,或者設定應用的分割標記數(shù)量。想要沒有標記,選擇“Divide into: ” 中的下拉菜單頂端的“None”。,,3.Features (特征): 想要增加一個特征,如抗生素抵抗標記,從“Vec
6、tor” 菜單選擇“Add Feature”。 將顯示以下對話框: 選擇的類型是“Normal Arrow ”、“Wide Arrow ”、“Normal Box” 和、“Wide Box ”。在上面例子中的所有特征是“常規(guī)”寬度的。如果特征是一個箭頭,箭頭的方向?qū)⑹菑钠瘘c位置到終點位置。 增加特征或酶時,他們各自的標記增加在外面,中心是可能的尺寸。標記可以被選擇工具選擇、移動、編輯和縮放。,,4.General Vector properties,載體屬性可通過選 “Vector” 菜單中的“Properties ”來更改 :,,可以通過指定起點和末端位置,來增加多接頭按鈕。多接頭顯示為“
7、Courier New ”字體。 在這個對話框中,特征可以被編輯、增加或者刪除。想要編輯或刪除一個現(xiàn)存的特征,在“Features”下拉式菜單中選擇特征,并點擊合適的按鈕。點擊“Add New” 按鈕,可以增加一個新的特征。 現(xiàn)在只有一個圓形、單鏈質(zhì)粒是有效的。在以后的版本中中將會改進。 “Font”按鈕改變指示的默認字體。特征標記的字體將可以單獨改變,但是位置標記不能單獨改變。,二、Restriction Maps(限制性內(nèi)切酶圖),BioEdit提供兩種方法產(chǎn)生核苷酸序列的限制性內(nèi)切酶圖。一種內(nèi)在的限制性內(nèi)切酶圖功能允許產(chǎn)生序列最多為65,536個核苷酸的限制性內(nèi)切酶圖。實際上,只能檢測大
8、約35Kb, 而且在速度慢的計算機上會要消耗很長的時間。 你也可以通過萬維網(wǎng)直接鏈接到WebCutter 限制性內(nèi)切酶圖上。,,,1.WebCutter: 點亮你想要圖譜的序列標題,從“World Wide Web”菜單中選擇“Auto-fed WebCutter Restriction Mapping”,2.BioEdit: 點亮你想要圖譜的序列標題,從“Sequence” 菜單選擇“Restriction Map” 。 以下選項將會顯示在一個界面窗口:,,, 顯示圖譜:顯示或省略序列的全圖譜,互補鏈顯示每個酶的酶切位點.默認值:yes 按照字母順序排列名稱:顯示關于所有內(nèi)切酶、它們的識別序
9、列、切割頻率和所有位置(5末端開始是1) 的列表.默認值:yes 位置數(shù):關于酶切位點的列表.默認值:no 唯一位點列表:在全部序列中只有一個酶切位點的內(nèi)切酶列表.默認值:no 切割5次或更少的酶 .默認值:yes 頻率匯總表:關于所有正確選擇的內(nèi)切酶和它們切割序列的次數(shù)。默認值:no 不能切割的內(nèi)切酶。默認值:yes 4-堿基內(nèi)切酶: 想要包括這些酶,必須點擊這個選項.默認值:no (不包括本身) 5-堿基內(nèi)切酶:與4-base cutters相同. 非嚴格識別序列的酶:有時你可排除它們.默認值:yes 大的識別位點:通常用于克隆,只有共同的6-堿基識別酶被使用. 同裂酶:若只顯示一個特殊識
10、別位點的一個內(nèi)切酶,不選(默認值=不選擇). 翻譯 :顯示沿著排列中的序列翻譯(5端到3端的由左到右的翻譯) 互補翻譯 :互補鏈的翻譯方向相反. 編號方式 :是酶切位點的核酸的號碼,而不是識別位點的起點.,3.Restriction Enzyme Browser (限制性內(nèi)切酶瀏覽器 ),,從核酸序列中得到內(nèi)切酶譜時,顯示酶的生產(chǎn)公司是很有用的。通過在內(nèi)切酶圖譜中選擇制造廠商和按下按鈕,可以手動瀏覽內(nèi)切酶。你也可以通過選擇“Options ”菜單中的“View Restriction Enzymes by Manufacturer”選擇,在任何時候檢查內(nèi)切酶。顯示如右對話框:,在這個例子中,所
11、有來源于Stratagene的限制性內(nèi)切酶顯示在左邊的列表中,KpnI的亮度增加。KpnI的識別序列顯示在頂端,同裂酶顯示在它的下方,其他提供KpnI的公司顯示在同裂酶的下方。BioEdit使用ReBase提供的gcgenz表,限制性內(nèi)切酶數(shù)據(jù)在萬維網(wǎng)的地址是: 。可以從ReBase 下載最新的gcgenz 表,將其命名為“enzyme.tab”, 并且替代在BioEdit安裝文件夾中“tables ”目錄下的舊文件。 注意:表必須是gcgenz格式的。你可以從tables文件夾中打開“enzyme.tab ”文件查看格式,或者查看“Restriction Maps ”。限制性內(nèi)切酶表格文件名
12、必須是“enzyme.tab ”,而且必須在BioEdit的“tables ”文件夾里。,1.氨基酸的組成,從“Sequence” 菜單下進入“Protein”, 再進入“amina acid composition”, 可對序列的氨基酸組成分析,結(jié)果以摘要和圖例的形式給出。 圖例中的柱形條表示每種氨基酸在序列中的摩爾比,如下圖:,三、蛋白質(zhì)分析,,,以RGDV的minor outer capsid proteinAAS66885為例:,2.熵圖,在聯(lián)配文件中有專欄用熵圖來衡量可變性。它衡量的是在聯(lián)配中每個位置的“信息量”的缺乏。準確地說,是每個位置的可預測性的缺乏。,,3.疏水性輪廓(pro
13、file),平均疏水性輪廓采用Kyte &Doolittle 的方法,平均分值(總和/窗口大小)作為序列中各個位置的疏水性值,并以窗口中中間殘基的疏水性值作圖。,4.瞬間疏水性輪廓(hydrophobic moment profile),5.平均瞬間疏水性輪廓,6.在聯(lián)配中搜尋保守區(qū),有時,即使序列之間的變化很大時,在幾個序列中搜尋保守區(qū)是有用的。例如,根據(jù)一系列同源序列發(fā)現(xiàn)通用的PCR 引物。BioEdiot 查找的是低平均“熵”的區(qū)域。 首先選擇你的序列,從“Aligment”-“Find Conserved Region”,對話框中各選項的內(nèi)容:,BioEdit version 5.0.
14、9 Conserved region search Alignment file: Q:Ribosomal_RNAsome_methanos.bio 5/10/04 8:57:33 PM Minimum segment length (actual for each sequence): 15 Maximum average entropy: 0.2 Maximum entropy per position: 0.2 Gaps limited to 2 per segment Contiguous gaps limited to 1 in any segment 2 conserved reg
15、ions found Region 1: Position 755 to 774 Consensus: 755 AUUAGAUACCCGGGUAGUCC 774,Segment Length: 20 Average entropy (Hx): 0.0155 Position 755 : 0.0000 Position 756 : 0.0000 Position 757 : 0.0000 Position 758 : 0.0708 Position 759 : 0.0000 Position 760 : 0.0000 Position 761 : 0.0000 Position 7
16、62 : 0.0000 Position 763 : 0.0000 Position 764 : 0.0708 Position 765 : 0.0000 Position 766 : 0.1679 Position 767 : 0.0000 Position 768 : 0.0000 Position 769 : 0.0000 Position 770 : 0.0000 Position 771 : 0.0000 Position 772 : 0.0000 Position 773 : 0.0000 Position 774 : 0.0000,Region 2: P
17、osition 1206 to 1222 Consensus: 1206 ACACGCGGGCUACAAUG 1222 Segment Length: 17 Average entropy (Hx): 0.0182 Position 1206 : 0.0000 Position 1207 : 0.0000 Position 1208 : 0.0000 Position 1209 : 0.0000 Position 1210 : 0.0708 Position 1211 : 0.0708 Position 1212 : 0.0000 Position 1213 : 0.1679 Position
18、 1214 : 0.0000 Position 1215 : 0.0000 Position 1216 : 0.0000 Position 1217 : 0.0000 Position 1218 : 0.0000 Position 1219 : 0.0000 Position 1220 : 0.0000 Position 1221 : 0.0000 Position 1222 : 0.0000,BioEdit version 5.0.9 Conserved region search Alignment file: G:Ribosomal_RNAsome_methanos.bio 5/10/9
19、9 9:34:06 PM Minimum segment length (actual for each sequence): 10 Maximum average entropy:0.4 Maximum entropy per position: 0.4 with 2 exceptions allowed Gaps limited to 2 per segment Contiguous gaps limited to 1 in any segment 36 conserved regions found,結(jié)果:,7.根據(jù)密碼子的使用翻譯核苷酸,核苷酸序列可根據(jù)三聯(lián)體密碼翻譯預測的蛋白序列。
20、從“Sequence”-“Protein”-“Translation”, 選擇要按何種讀框翻譯。 例如,以下是一個假設的Methanobacterium(甲烷細菌)的ORF(開放閱讀框架)。,MTH671 coding region ATGGTTGCAGTACCCGGCAGTGAGATACTGAGCGGTGCACTACACGTTGTCTCCCAGAGCCTCCTCATACCGGTTATA GCAGGTCTACTGTTATTCATGGTATACGCCATAGTGACCCTCGGAGGGCTCATATCAGAGTACTCTGGAAGGATAAGG ACTGATGTTAAGGAACTTGAATCGG
21、CAATAAAATCAATTTCAAACCCAGGAACCCCTGAAAAGATAATTGAGGTCGTC GATTCGATGGACATACCACAGAGCCAGAAGGCCGTGCTCACTGATATCGCAGGGACAGCTGAACTCGGACCAAAATCA AGGGAGGCCCTCGCAAGGAAGTTGATAGAGAATGAGGAACTCAGGGCTGCCAAGAGCCTTGAGAAGACAGACATTGTA ACCAGACTCGGCCCAACCCTTGGACTGATGGGGACACTCATACCCATGGGTCCAGGACTCGCAGCCCTCGGGGCAGGT GACATCAAT
22、ACACTGGCCCAGGCCATCATCATAGCCTTCGATACAACAGTTGTGGGACTTGCATCAGGGGGTATAGCA TACATCATCTCCAAGGTCAGGAGAAGATGGTATGAGGAGTACCTCTCAAATCTTGAGACAATGGCCGAGGCAGTGCTG GAGGTGATGGATAATGCCACTCAGACGCCGGCGAAGGCTCCTCTCGGATCAAAA,A frame 1 of this sequence is displayed as follows in the BioEdit text editor:,MTH671 coding reg
23、ion 1 ATG GTT GCA GTA CCC GGC AGT GAG ATA CTG AGC GGT GCA CTA CAC 45 1 Met Val Ala Val Pro Gly Ser Glu Ile Leu Ser Gly Ala Leu His 15 46 GTT GTC TCC CAG AGC CTC CTC ATA CCG GTT ATA GCA GGT CTA CTG 90 16 Val Val Ser Gln Ser Leu Leu Ile Pro Val Ile Ala Gly Leu Leu 30 91 TTA TTC ATG GTA TAC GCC ATA G
24、TG ACC CTC GGA GGG CTC ATA TCA 135 31 Leu Phe Met Val Tyr Ala Ile Val Thr Leu Gly Gly Leu Ile Ser 45 136 GAG TAC TCT GGA AGG ATA AGG ACT GAT GTT AAG GAA CTT GAA TCG 180 46 Glu Tyr Ser Gly Arg Ile Arg Thr Asp Val Lys Glu Leu Glu Ser 60 181 GCA ATA AAA TCA ATT TCA AAC CCA GGA ACC CCT GAA AAG ATA ATT 2
25、25 61 Ala Ile Lys Ser Ile Ser Asn Pro Gly Thr Pro Glu Lys Ile Ile 75 226 GAG GTC GTC GAT TCG ATG GAC ATA CCA CAG AGC CAG AAG GCC GTG 270 76 Glu Val Val Asp Ser Met Asp Ile Pro Gln Ser Gln Lys Ala Val 90,|A C G T | ----------------------------- A |3 7 3 13 |A |0.76 0.12 0.04 0.07 | |Lys Thr Ar
26、g Ile | ----------------------------- A |1 4 4 6 |C |0.61 0.43 0.27 0.46 | |Asn Thr Ser Ile | ----------------------------- A |8 1 6 7 |G |0.24 0.23 0.03 1 | |Lys Thr Arg Met | ----------------------------- A |4 3 1 3 |T |0.39 0.21 0.13 0.47 | |Asn Thr Ser Ile | ------------------------
27、----- ,四、RNA 的比較分析,RNA 的結(jié)構定義為核苷酸的堿基的相互作用。最簡單情況下,即螺旋中的堿基對之間的Waltson-Crick 堿基配對。RNA 結(jié)構的系統(tǒng)發(fā)育比較分析方法建立在如下假定上,即在進化中核苷酸改變,但重要的RNA 二級和三級結(jié)構保持不變。一個可能破壞結(jié)構的堿基變化可以由序列中另一處的變化補償以保持結(jié)構穩(wěn)定。所以不同物種的同源RNA 中將包含“補償堿基變化”或“共變化,協(xié)變(covariation) ”。所以通過檢查來自各個不同生物的同源RNA ,確定這些“補償堿基變化”,從而闡明結(jié)構。 例如,一給定的序列,GAAGA 將可能與序列中任一UCUUC 配對,而后者可
28、能在序列中出現(xiàn)數(shù)次。如何確定到底是和哪一個配對呢?可以檢查不同生物的同源RNA 序列,找出“補償堿基變化”。,organism #1 GAAGAUCUUCUCUUCUCUUC organism #2 GAUGAUCUUCUCUGCUCAUC organism #2 GAUGAGCUUCUCUACUCAUC organism #2 GACGAUCUUCUCUGCUCGUC,在此例中,只有最后一個UCUUC 才可和GAAGA 配對。象這樣在序列中2 個位置出現(xiàn)“補償堿基變化”,被認為是螺旋存在的證據(jù)。兩條序列不能形成互補,表明不存在配對。在“系統(tǒng)發(fā)育比較分析”中關鍵是序列聯(lián)配,同源序列必須適當聯(lián)配
29、。此處同源性是嚴格意義的:同源的核苷酸來自一個共同的祖先。所以開始時,先使用關系緊密的序列進行聯(lián)配,這樣在序列相似性基礎上聯(lián)配,不需要加入許多聯(lián)配的空位。聯(lián)配后互補序列的“協(xié)變”可被立即發(fā)現(xiàn),從而開始構建二級結(jié)構,然后差異大的序列可以添進聯(lián)配中。這樣持續(xù)添加新序列,進行“協(xié)變”分析,直到聯(lián)配和二級結(jié)構模型出現(xiàn)此過程的完全描述。一旦一個完整的二級結(jié)構模型形成,“協(xié)變”分析可以鑒定非螺旋區(qū)的核苷酸之間的相互作用以及不規(guī)則的相互作用。之所以可以被鑒定,是因為涉及的核苷酸即使不形成規(guī)則的堿基配對或是一個螺旋的一部分,也仍一致的變化。,1.共變化(Covariation),共變化指序列中兩個殘基步調(diào)一致
30、地變化。嚴格地講即每當聯(lián)配序列中x 變化時,y 也變化,兩者是一致的。(例如,當x 變?yōu)锳 ,y 變?yōu)門 。每次x 變?yōu)锳,y 一定變?yōu)門)。 殘基間的共變化表明,它們之間一定有重要的相互作用,當重要結(jié)構殘基突變時,自然選擇保留了那些有補償突變的序列。 共變化的例子 假設我們現(xiàn)有一個聯(lián)配序列,它表示了幾種物種共有的一個特定的RNA 的保守的結(jié)構。我們希望從聯(lián)配中包含的信息推測出RNA 二級結(jié)構。,....|....| ....|....| ....|.... 10 20 sample 1 CCGGAUACGA UCGUCGGGUA CGUAUCCGG sample 2
31、CCGGAUACUA UCUUGGCGAA AGUAUCUGG sample 3 CGGGAUACGA UCGACGCGUA CGUAUCCCG sample 4 CGCGGUACCA UCCACCCCUA GGUACCGCG sample 5 CCGGAUACGA UCGUCCCGUU CGUAUCCGG sample 6 CCGGAUACGA UCGUCGGGUA CGUAUCCGG sample 7 CCGGACACGA UCGUCGGGUA CGUAUCCGG sample 8 CCAGAUACGA UCGAAACUUU CGUAUCUGG sample 9 CCGGUU
32、ACCA UCGUCGGGUA GGUAACCGG sample 9 CCGGAUACGA UCGACAGGAA CGUAUCCGG sample 10 CCGGAUACGA UCGUCCCGUA CGUAUCCGG sample 11 CCGGAUACGA UCGUCGGGUA CGUAUCCGG sample 12 CCUGAUACUA UCGUCGCCUA AGUAUCGGG sample 13 CGGGGUACGA UCGAGGCCUA CGUACCCCG sample 14 CCCGCUACGA UCGAGGCCUU CGUAGCGGG sample 15 CCGGAUACGA U
33、CGAGGCCUU CGUAUCCGG,下面是一個聯(lián)配的例子,Covariation analysis Input file: I:BioEdithelpsamples.gb Position numbering is relative to the alignment numbering. No mask was used. 1 CCCCCCCCCCCCCCCC Position 2: 2 CCGGCCCCCCCCCGCC 28 GGCCGGGGGGGGGCGG All potential Watson Crick or GU pairs 3 GGGCGGGAGGGGUGCG 4
34、GGGGGGGGGGGGGGGG Position 5: 5 AAAGAAAAUAAAAGCA 25 UUUCUUUUAUUUUCGU All potential Watson Crick or GU pairs 6 UUUUUUCUUUUUUUUU 7 AAAAAAAAAAAAAAAA 8 CCCCCCCCCCCCCCCC ,Position 9: 9 GUGCGGGGCGGGUGGG 21 CACGCCCCGCCCACCC All potential Watson Crick or GU pairs 10 AAAAAAAAAAAAAAAA 11 UUUUUUUUUUUUUUUU
35、 12 CCCCCCCCCCCCCCCC 13 GUGCGGGGGGGGGGGG 14 UUAAUUUAUAUUUAAA 15 CGCCCCCACCCCCGGG 16 GGGCCGGAGACGGGGG 17 GCCCCGGCGGCGCCCC 18 GGGCGGGUGGGGCCCC 19 UAUUUUUUUAUUUUUU 20 AAAAUAAUAAAAAAUU ,Position 21: 21 CACGCCCCGCCCACCC 9 GUGCGGGGCGGGUGGG All potential Watson Crick or GU pairs 22 GGGGGGGGGGGGGGGG 23 UUU
36、UUUUUUUUUUUUU 24 AAAAAAAAAAAAAAAA Position 25: 25 UUUCUUUUAUUUUCGU 5 AAAGAAAAUAAAAGCA All potential Watson Crick or GU pairs 26 CCCCCCCCCCCCCCCC 27 CUCGCCCUCCCCGCGC Position 28: 28 GGCCGGGGGGGGGCGG 2 CCGGCCCCCCCCCGCC All potential Watson Crick or GU pairs 29 GGGGGGGGGGGGGGGG ,在上述聯(lián)配中共有3 對“共變化”的位置點
37、:2/28, 5/25 ,9/21。兩個堿基共變表明它們很可能相互作用。如果一個突變發(fā)生在與其他堿基有重要作用的堿基上(常是堿基對),選擇壓力可能會只保留在另一處堿基上發(fā)生補償突變的堿基。事實上,上述的堿基共變化都發(fā)生在規(guī)則的堿基對(Watson-Crick 堿基對或在RNA 中G-U )表明它們可能是堿基配對。共變化堿基對2/5 分別和5/25 的距離相同,而5/25 分別和9/21 的距離也相同,而且界于它們之間的堿基也可形成堿基互補,這都表明聯(lián)配序列的兩端可能閉合形成螺旋如下是“Sample1”形成的結(jié)構。,U C A G -- C C G G A T A C G U -
38、- G G C C T A T G C C A G U G G,2.潛在配對分析potential pairing 當RNA 分子中兩個核苷酸之間存在配對堿基的相互作用力。一個堿基發(fā)生突變,另一個堿基為了補償這一突變,可能不僅僅是某一特定核苷酸突變(例如原來的A-T 配對可能在一序列中轉(zhuǎn)換為G-C,而另一序列中為G-U, )這在共變化分析中將被忽略。因為此種改變并不遵循完全相同的模式。要鑒定這種情況,可以在潛在配對中選定堿基配對的規(guī)則。,仍用上例中的序列( sample 1 sample 15 略),BioEdit 中并不要求有位置變化,所以未改變的位置上只要可以形成堿
39、基對,也能被發(fā)現(xiàn)同時也可在“preference”中設置以濾出未改變的位置之間的堿基配對。以下是一個聯(lián)配序列它和在共變化分析中使用的相同。設置允許A-U/G-C/G-U 堿基配對規(guī)則以及1 個錯配,產(chǎn)生下列的結(jié)果(以清單格式,濾除了未變化位置的潛在配對)比較這一結(jié)果和共變化的結(jié)果,發(fā)現(xiàn)位置3/27 有一潛在的配對,而共變化的結(jié)果未檢出。潛在配對的數(shù)據(jù)也可以按允許的配對出現(xiàn)的頻率或原始允許配對的數(shù)目列出一個(二維矩陣)表。,Potential Pairings List Input File: I:BioEdithelpsamples.gb Allowed Mispairings = 1 16
40、total sequences, 29 nucleotides per sequence. Axes reflect numbering of the entire alignment. No Mask was used. Hits on invariant pairs have been filtered out. 1 CCCCCCCCCCCCCCCC Position: 2 2 CCGGCCCCCCCCCGCC 28 GGCCGGGGGGGGGCGG 0 mismatches ,Position: 3 3 GGGCGGGAGGGGUGCG 27 CUCGCCCUCCCCGCGC 0 mi
41、smatches Position: 4 4 GGGGGGGGGGGGGGGG 6 UUUUUUCUUUUUUUUU 0 mismatches Position: 5 5 AAAGAAAAUAAAAGCA 25 UUUCUUUUAUUUUCGU 0 mismatches ,Position: 6 6 UUUUUUCUUUUUUUUU 4 GGGGGGGGGGGGGGGG 0 mismatches 6 UUUUUUCUUUUUUUUU 7 AAAAAAAAAAAAAAAA 1 mismatches 6 UUUUUUCUUUUUUUUU 10 AAAAAAAAAAAAAAAA 1 mismat
42、ches 6 UUUUUUCUUUUUUUUU 22 GGGGGGGGGGGGGGGG 0 mismatches 6 UUUUUUCUUUUUUUUU 24 AAAAAAAAAAAAAAAA 1 mismatches 6 UUUUUUCUUUUUUUUU 29 GGGGGGGGGGGGGGGG 0 mismatches ,Position: 7 7 AAAAAAAAAAAAAAAA 6 UUUUUUCUUUUUUUUU 1 mismatches 8 CCCCCCCCCCCCCCCC Position: 9 9 GUGCGGGGCGGGUGGG 21 CACGCCCCGCCCACCC 0 mi
43、smatches Position: 10 10 AAAAAAAAAAAAAAAA 6 UUUUUUCUUUUUUUUU 1 mismatches ,11 UUUUUUUUUUUUUUUU 12 CCCCCCCCCCCCCCCC 13 GUGCGGGGGGGGGGGG 14 UUAAUUUAUAUUUAAA 15 CGCCCCCACCCCCGGG 16 GGGCCGGAGACGGGGG 17 GCCCCGGCGGCGCCCC 18 GGGCGGGUGGGGCCCC 19 UAUUUUUUUAUUUUUU 20 AAAAUAAUAAAAAAUU ,Position: 22 22 GGGGGGG
44、GGGGGGGGG 6 UUUUUUCUUUUUUUUU 0 mismatches 23 UUUUUUUUUUUUUUUU Position: 24 24 AAAAAAAAAAAAAAAA 6 UUUUUUCUUUUUUUUU 1 mismatches Position: 25 25 UUUCUUUUAUUUUCGU 5 AAAGAAAAUAAAAGCA 0 mismatches 26 CCCCCCCCCCCCCCCC Position: 27 27 CUCGCCCUCCCCGCGC 3 GGGCGGGAGGGGUGCG 0 mismatches ,Position: 28 28 GGCC
45、GGGGGGGGGCGG 2 CCGGCCCCCCCCCGCC 0 mismatches Position: 29 29 GGGGGGGGGGGGGGGG 6 UUUUUUCUUUUUUUUU 0 mismatches ,3.交互信息分析(Mutual Information Analysis),概述 交互信息,象在系統(tǒng)發(fā)育比較分析中的應用一樣,主要是衡量在一個適當聯(lián)配中兩個位置共有信息的信息量。符號是M(x,y)(位置x,y 的相互信息) 。M(x,y)表明兩個位置相關的緊密程度。此相關程度顯示了兩位置的直接相互作用,如堿基配對。BioEdit 另外計算R1 和R2 兩個參數(shù),它們分別表示位
46、置x,y 對M(x,y)的貢獻。,,什么是交互信息 交互信息分析是以下思想的拓展--即對某個特定位置的不確定性表示是信息含量的下降。在預先對某位置一無所知的情況下(如RNA 中核苷酸),不確定性最大。但一旦確定了某位置是什么核苷酸時,不確定性消除了,此位置的信息量達到最大。現(xiàn)在考慮有多條序列,在某位置均含有一個同源核苷酸。知道第一條序列上此位置上的核苷酸并不能為確定第二條或隨機的一條序列中此序列的核苷酸提供多少信息。但是如果已知此位置在許多乃至幾乎所有序列中均為某一特定堿基(如C ),而不是其它的堿基(如G), 則我們積累了相當多的“信息”,可預測另一個未檢測的序列中,在此位置某核苷酸出現(xiàn)的可
47、能性。即在另一未檢測的序列中,此位置核苷酸的不確定性下降了。,交互信息進一步拓展了這一思想,對配對位置的信息量進行檢查,此信息量依賴于并聯(lián)系每個位置單獨的信息量,但不能將兩者混淆??偟闹v,它衡量不確定性的下降,此不確定性指兩種事物相互影響相互作用的程度。Robin Gutell 發(fā)展了用交互信息預測RNA 結(jié)構的方法,也很適合系統(tǒng)發(fā)育比較分析,因為兩個位置交互信息高也提示這2 個殘基直接相互作用。,1 2 3 4 A C G U A C G U A G C U A U A U A U A U A A U U A A U U A G C U,如左圖總共8 個序列,其中位置1, 4 是不改變的,信
48、息量最大。位置2 ,3 中C/G/U/A 各出現(xiàn)了2 次,信息量為0 ,我們無法預測下一個序列中這兩個位置的核苷酸,但位置2 ,3都含有它們之間是如何影響彼此的共有信息。我們不能猜出新一序列中位置2 的核苷酸,但如果告訴我位置3 是C, 我們可以推斷出位置2 是G,這即建立在“交互信息分析” (它們遵循共同的配對模式)交互信息也表明這些堿基可能相互作用。,交互信息示例 以下是分析細菌RNase P RNA 的部分序列的一個例子。點擊(Aligment)可以觀察此聯(lián)配。設置輸出是全部列表(full table)顯示M(x,y)的數(shù)值。Nbest 列出各個位置5 個高分值。序列和編號mask 都是
49、根據(jù)E.coli. 。序列的編號是根據(jù)E.coli的mask序列。此序列中包含了一個RNase P RNA 結(jié)構區(qū)域的“cruciform region”(十字型區(qū)域) 。由于矩陣文件太大,不能在此說明文件中打開觀察。但可通過打點作圖方便地觀察。在BioEdit 矩陣作圖程序中,數(shù)據(jù)既可以數(shù)字也可以圖形的方式被動態(tài)的檢查。,,其中交互信息分析的“cruciform region” (十字型區(qū)域)在此輸出中是環(huán)型的。此圖象及全部最新的細菌和古細菌的RNase P RNA 結(jié)構和序列均可在RNase P 數(shù)據(jù)庫中找到。http://jwbrown.mbio.ncsu.edu/RNaseP,交互信息
50、的作圖示例,,細菌RNase P RNA 聯(lián)配的一部分,共有包含極豐富信息的138 條序列。序列包含 “cruciform region” (十字型區(qū)域) 。 具體數(shù)據(jù)詳見文本。,使用矩陣打點作圖器分析交互信息數(shù)據(jù),例如使用E.coli 作為序列和編號masks ,對146 條細菌RNase P RNA 序列進行M(x,y)分析得到的矩陣進行使用矩陣打點作圖器分析交互信息數(shù)據(jù) 。 作圖完成后 打開“數(shù)據(jù)檢查器”,用鼠標在圖中各點移動觀察各數(shù)據(jù)點,可直接用點擊某點在頂部的工具條中將出現(xiàn)數(shù)據(jù)值。 通過設置數(shù)據(jù)點的閾值在矩陣作圖中遮蔽(shading)某些數(shù)據(jù)點,當僅需要顯示出高分區(qū)域時,此選擇可能
51、有用。,下面的細菌RNase P RNA 聯(lián)配的交互信息數(shù)據(jù)作圖(E.coli 作為mask)。在圖中很難挑出某一核苷酸三聯(lián)體,雖然堿基配對的位置94 和104 是明顯可見的,但很難挑出配對核苷酸94-104 及第三個核苷酸316 組成的三聯(lián)體。,,此圖是聯(lián)配的全部M(x,y)列表格式的部分圖示,設置固定數(shù)據(jù)點大小為3*3象素。鼠標箭頭指向位置94-104,右邊的小紅色框中心是位置94-316 。 此圖中位置316和位置94,104的相互作用并不明顯,從作圖窗口下“Plot” “Line Graph of Rows”進入一維行向作圖。,下圖顯示第316 行的作圖用“Row”旁邊的上下箭頭選擇要
52、觀察的行或直接在框中輸入要觀察的行??梢苿訄D中的藍十字點擊任何位置,將在頂部工具條的左上方列出位置x,y 及數(shù)據(jù)值。其中數(shù)據(jù)值是指圖中位置的高峰對應的數(shù)值。,,交互信息檢查器(mutual information examiner),如果希望在聯(lián)配窗口中觀察任意兩個位置的交互信息,從“View”菜單下進入“mutual information examiner”,下面是控制條的格式 。,,在“x”,”y”旁邊輸入要分析的位置。如果希望某一特定序列上此位置的信息(序列需無“gap”), 就把此序列設為“numbering mask”,再輸入x、y 的位置。圖中的x、y 位置(x=261,y=28
53、9)對應的是前面在矩陣作圖時選擇的數(shù)據(jù)點。一定要將需要分析的序列全部選中。 最后點擊“calculate”,將出現(xiàn)以下窗口。,,,在上圖窗口中點擊“Text”, 將出現(xiàn)如下文本編輯窗口,內(nèi)容可復制和粘貼。,如果采用此位置輸入是X=a-b,Y=c-d, 同時計算幾對位置,BioEdit 假設你要分析是螺旋區(qū)域,即位置是反向平行的,所以c-d 和d-c 是不區(qū)分的。如果你要特別地指明某對的順序,要采用X=a,b,c,d Y=e,f,g,h.的形式的輸出。,-------------------------------------------------------------------,附: BioEditV5.09: 官方下載 紅意下載 漢化補丁 BioEditV6.0.5:分卷1 分卷2,謝謝!,
- 溫馨提示:
1: 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。