[計算機硬件及網(wǎng)絡(luò)]小機生產(chǎn)系統(tǒng)異常操作指南
《[計算機硬件及網(wǎng)絡(luò)]小機生產(chǎn)系統(tǒng)異常操作指南》由會員分享,可在線閱讀,更多相關(guān)《[計算機硬件及網(wǎng)絡(luò)]小機生產(chǎn)系統(tǒng)異常操作指南(32頁珍藏版)》請在裝配圖網(wǎng)上搜索。
1、 小機生產(chǎn)系統(tǒng)異常操作指南小機生產(chǎn)系統(tǒng)異常操作指南目錄目錄第一章第一章 WASWAS 篇篇 .4無法登陸管理控制臺.4應(yīng)用效勞器無法啟動.4應(yīng)用程序請求無響應(yīng).4應(yīng)用程序無法訪問.5應(yīng)用效勞器JAVA進(jìn)程CRASH.5概要文件被破壞.6JAVA進(jìn)程 CPU 100%.10新部署應(yīng)用程序無法訪問.10在集群模式下節(jié)點不同步.12第二章第二章 MQMQ 篇篇 .13通道無法啟動.13隊列管理器無法啟動.13隊列管理器無法停止.14死信隊列不斷有消息堆積.14MQ 對象被損壞.14第三章第三章 DB2DB2 篇篇 .16實例停止.16實例無法啟動.16表空間暫時性的無法訪問.16表空間永久性的無法訪
2、問.17數(shù)據(jù)庫活動日志喪失.17表空間滿.17活動日志空間滿.17活動日志所在目錄文件系統(tǒng)滿.18表被鎖,無法訪問.18表中的內(nèi)容被誤刪除.18第四章第四章 AIXAIX 篇篇 .19硬件故障.19CPU 使用過度 .19內(nèi)存使用過度.19系統(tǒng)PING不通.20系統(tǒng)可以PING通,但是無法TELNET.20局部主機不能訪問某臺主機.20HA 無法切換,或切換不正常 .21文件系統(tǒng)滿.21文件系統(tǒng)無法進(jìn)行正常讀寫.22鏡像不同步.22DUMP設(shè)備太小.22密碼喪失.23系統(tǒng)有報錯信息.23TELNET的響應(yīng)很慢 .23文件系統(tǒng)不能UMOUNT.24TCP 網(wǎng)絡(luò)的SOCKET端口不能釋放,始終處于
3、CLOSE_WAIT狀態(tài) .24系統(tǒng)中包含大量的僵尸進(jìn)程.25第五章第五章 突發(fā)情況信息收集突發(fā)情況信息收集 .26DB2 需要收集的信息.26WAS 需要收集的信息.27MQ 需要收集的信息.29SNA 需要收集的信息.29AIX 需要收集的信息 .30第一章第一章 WASWAS 篇篇無法登陸管理控制臺無法登陸管理控制臺1、現(xiàn)象描述、現(xiàn)象描述IE 瀏覽: :/IP:9060/admin 判斷是否還能登陸,不能登錄時說明控制臺應(yīng)用沒有發(fā)布。其中 9060 是 WAS 的效勞端口。2、處理方法、處理方法進(jìn)入 wsadmin狀態(tài)(AdminConsole.ear_Path, -server ser
4、ver1)AdminConfig.save完成安裝/usr/WebSphere/AppServer/bin/目錄下執(zhí)行:./startServer.sh server應(yīng)用效勞器無法啟動應(yīng)用效勞器無法啟動1、現(xiàn)象描述、現(xiàn)象描述對于 WAS5.1,在 bin 目錄下執(zhí)行:./startServer.sh server 判斷是否能正常啟動。對于 WAS6.1,WAS 使用的端口是 9060,因此不會和 9090 端口沖突。2、處理方法、處理方法1) # netstat an|grep 9090 查看端口9090 是 WAS5.1 控制臺所用的默認(rèn)端口2) #/usr/websm/bin/wsmser
5、ver disable 關(guān)閉系統(tǒng)占用的 9090 端口3)/usr/WebSphere/AppServer/bin/目錄下執(zhí)行:./startServer.sh server信息收集時請收集 install_root/logs/server_name 的所有信息應(yīng)用程序請求無響應(yīng)應(yīng)用程序請求無響應(yīng)1、現(xiàn)象描述、現(xiàn)象描述生產(chǎn)環(huán)境系統(tǒng)訪問長時間沒有頁面顯示,在瀏覽器訪問后長時間沒有反響。2、處理方法、處理方法1)ps ef|grep java 查看 java 進(jìn)程號;2)/usr/WebSphere/AppServer/bin/目錄下執(zhí)行:./stopServer.sh server假設(shè)無法停止那
6、么使用 kill 命令殺掉3)/usr/WebSphere/AppServer/bin/目錄下執(zhí)行:./startServer.sh server在以下圖中可以看到進(jìn)程號碼是 8822。信息收集時,參見 5.2 3 系統(tǒng) hung 或者性能下降。應(yīng)用程序無法訪問應(yīng)用程序無法訪問1、現(xiàn)象描述、現(xiàn)象描述生產(chǎn)環(huán)境系統(tǒng)訪問出現(xiàn) 404 錯誤頁面或者找不到效勞器2、處理方法、處理方法1.查看 IBM Server 的 d 進(jìn)程是否正常狀態(tài)運行;例如是否有父進(jìn)程為“1”的現(xiàn)象;2. /usr/IBMIHS/bin/apachectl stop 停止 IBM Server假設(shè)無法停止那么把相關(guān)的 進(jìn)程殺掉3
7、. /usr/IBMIHS/bin/apachectl start 啟動 IBM Server信息收集時,收集 IHS 的 logs 目錄下的日志,ps ef|grep 的輸出。Plugin 的日志和 WAS 的 logs 目錄的日志應(yīng)用效勞器應(yīng)用效勞器 java 進(jìn)程進(jìn)程 crash1、現(xiàn)象描述、現(xiàn)象描述ps ef|grep java 沒有 WAS 的 java 進(jìn)程在執(zhí)行2、處理方法、處理方法/usr/WebSphere/AppServer/bin/目錄下執(zhí)行:./startServer.sh server成功啟動后可以看到類似如下的輸出:信息收集時,參見 5.2 - 2 系統(tǒng)崩潰概要文件
8、被破壞概要文件被破壞1、現(xiàn)象描述、現(xiàn)象描述對于 WAS6.1 版本,創(chuàng)立效勞器需要一個概要表,即 profile。概要文件位于$WAS_HOME/profiles,包含了一個應(yīng)用所用的一組 server,如果遭到人為破壞,那么需要重建整個 profile。2、處理方法、處理方法假設(shè)以前對配置做過備份,先恢復(fù)以前的配置,看是否能夠啟動,假設(shè)仍然不能啟動,那么創(chuàng)立新的概要文件:/usr/WebSphere/AppServer/bin/manageprofiles.sh -help命令輸出如下,可以看到,針對所需的配置內(nèi)容,可以從命令中得到進(jìn)一步的聯(lián)機幫助,例如 manageprofiles.sh
9、-create -help 用來查看創(chuàng)立 profile 的幫助內(nèi)容。信息收集時,需要收集的內(nèi)容如下:1./startServer.sh server trace 的信息;2install_root/logs/server_name 的所有信息。以下腳本會創(chuàng)立一個名為 newProfileName 的新的 Default 類型 Profile,對應(yīng)節(jié)點名稱為 newNode。1進(jìn)入 WAS 安裝目錄下 bin 目錄,例如在 AIX 上為 cd /usr/IBM/WebSphere/AppServer/bin2在 root 權(quán)限下執(zhí)行:# ./manageprofiles.sh -create
10、-profileName newProfileName -profilePath /usr/IBM/WebSphere/AppServer/profiles/newProfileName -templatePath /usr/IBM/WebSphere/AppServer/profileTemplates/default -nodeName newNode概要文件名:newProfileName概要文件路徑:/usr/IBM/WebSphere/AppServer/profiles/newProfileName概要文件類型:defaultnode 名稱:newNode如果需要使用 Dmgr P
11、rofile 對 Default Profile 進(jìn)行管理,那么需要把 Default Profile 的節(jié)點添加到 Dmgr Profile 所在的單元。假設(shè) Dmgr Profile 所在主機名稱為DMGR_HOSTNAME,那么把名為 newProfile 的 Default Profile 添加其中的步驟為:1.進(jìn)入 Default Profile 安裝目錄下的 bin 目錄;cd /usr/IBM/WebSphere/AppServer/profiles/newProfile/bin;2.把節(jié)點添加到單元,在 root 權(quán)限中執(zhí)行:./addNode.sh DMGR_HOSTNAME
12、 8879PMT 是管理概要表的圖形工具,是 profile management tool 的簡稱。通常位于WAS_HOME/bin/ProfileManagement/pmt.sh,或 pmt.bat,或 pmtAIX.sh,腳本取決于操作系統(tǒng)和 WAS 版本。如果使用 PMT 管理概要文件,可以通過圖形界面創(chuàng)立概要表1。1 不同版本的 pmt 界面會有較大的差異,64 位版本的 was 不包含管理概要表的圖形工具。選擇概要表類型:選擇概要表的創(chuàng)立位置和名稱:選擇節(jié)點名和主機名:在安裝過程不要啟用全局平安性,安裝后需要該功能時可以從管理控制臺啟用。由 WAS 生成默認(rèn)的端口,如果需要也可以
13、自行修改,此時需要確保端口和該效勞器上安裝的其他應(yīng)用不存在沖突。復(fù)核概要表的定義無誤后,點擊“下一步創(chuàng)立概要表:Java 進(jìn)程進(jìn)程 CPU 100%1、現(xiàn)象描述、現(xiàn)象描述topas 查看 java 的 CPU 使用情況2、處理方法、處理方法ps ef|grep java 查看 java 進(jìn)程號;用 kill 殺掉該進(jìn)程。/usr/WebSphere/AppServer/bin/目錄下執(zhí)行:./startServer.sh server信息收集參見 5.2 - 1 CPU 利用率到達(dá) 100%。新部署應(yīng)用程序無法訪問新部署應(yīng)用程序無法訪問1、現(xiàn)象描述、現(xiàn)象描述訪問新系統(tǒng)出現(xiàn) 404 錯誤2、處理
14、方法、處理方法1).查看最新的插件更新日期:/usr/WebSphere/AppServer/config/cells/2).在 IE 管理控制臺里面更新插件,然后復(fù)制最新的插件到 Web Server 的指定目錄下;/usr/IBMIHS/bin/apachectl stop 停止 IBM Server/usr/IBMIHS/bin/apachectl start 啟動 IBM Server應(yīng)用程序部署完成后,需要為 IHS 配置插件,提供給用的 URI、虛擬主機、效勞器地址等信息,以便 IHS 把請求轉(zhuǎn)發(fā)到應(yīng)用效勞器。IHS PLUGIN 的配置包含兩個步驟:插件的生成和傳播,這里的插件指
15、的是 IHS PLUGIN所需的配置文件 plugin-cfg.xml。進(jìn)入 WAS 控制臺,進(jìn)入應(yīng)用效勞器web 效勞器,選中需要更新插件的 web 效勞器,點擊“生成插件所生成的效勞器的插件位置將會顯示如下。如果 IHS 和 AppServer 處于同一臺效勞器上,那么不需要傳播插件。否那么請按照下一節(jié)內(nèi)容完成插件的傳播。如果 IHS 和 AppServer 位于不同的機器上,請在插件生成后,再次選擇需要傳播插件的效勞器,點擊傳播插件。此前需要確認(rèn) IHS 效勞器的控制臺已經(jīng)啟動,WAS 將通過 IHS的控制臺端口把插件配置傳播到 IHS 效勞器中。信息收集時,需要收集 install_r
16、oot/logs/server_name 的所有信息。在集群模式下節(jié)點不同步在集群模式下節(jié)點不同步1、現(xiàn)象描述、現(xiàn)象描述訪問管理控制臺之后,管理控制臺無法修改和管理節(jié)點,在 nodeagent 上顯示:不同步2、處理方法、處理方法1).停止節(jié)點上的 server 和 nodeagent,保持 dmgr 正常啟動狀態(tài);在節(jié)點的 bin 目錄下執(zhí)行:#./syncNode.sh server 88792).在節(jié)點的 bin 目錄下執(zhí)行:3).進(jìn)管理控制臺查看節(jié)點是否同步信息收集時,需要收集 install_root/logs/server_name 的所有信息。第二章第二章 MQMQ 篇篇通道無法
17、啟動通道無法啟動1、現(xiàn)象描述、現(xiàn)象描述在 Runmqsc 中 start channel(channel name)無法啟動。2、處理方法、處理方法將通道序列號復(fù)位。使用 Reset channel 命令。使用 strmqm 和 endmqm 命令重啟隊列管理器。根據(jù)錯誤代碼檢查 sna 和網(wǎng)絡(luò)、對方 MQ 的狀態(tài)。以下圖為 dspmq 命令的輸出樣例:信息收集時,參見 5.3 1-5 點內(nèi)容。隊列管理器無法啟動隊列管理器無法啟動1、現(xiàn)象描述、現(xiàn)象描述Strmqm QMGR 命令失敗2、處理方法、處理方法使用 ps ef 檢查,把所有的 MQ 進(jìn)程都?xì)⒌簟J褂?mqiclen x m QMGR
18、 命令去除共享內(nèi)存資源。然后重啟 MQ:strmqm該命令的輸出結(jié)果類似下面的情況:信息收集時,參見 5.3 1-5 點內(nèi)容。隊列管理器無法停止隊列管理器無法停止1、現(xiàn)象描述、現(xiàn)象描述Endmqm QMGR 命令不能停止隊列管理器2、處理方法、處理方法使用 endmqm i QMGR 命令。仍然不能停止那么使用 endmqm p QMGR 命令。命令的輸出情況如下所示:信息收集時,參見 5.3 1-6 點內(nèi)容。死信隊列不斷有消息堆積死信隊列不斷有消息堆積1、現(xiàn)象描述、現(xiàn)象描述Dis queue(DLQ)看到有消息堆積。2、處理方法、處理方法查看通道的狀態(tài)是否正常:dis chs(*);以及對端
19、 MQ 的狀態(tài)是否正常。使用 amqsbcg Qname Qmgr 命令瀏覽死信隊列的消息內(nèi)容,根據(jù)原因碼再采取相應(yīng)的措施。該命令的使用參數(shù)列表如下:信息收集時,參見 5.3 1-5 點內(nèi)容。MQ 對象被損壞對象被損壞1、現(xiàn)象描述、現(xiàn)象描述MQ 隊列、通道等對象被刪除或者 MQ 的系統(tǒng)文件被破壞,Dis queue(*)Dis channel(*)找不到對象。2、處理方法、處理方法使用 crtmqm QMGR 的命令重新創(chuàng)立隊列管理器,使用 runmqsc 80%表示CPU消耗過量2 2、處理方法、處理方法方法 1控制應(yīng)用使用的CPU量,減小系統(tǒng)的負(fù)荷來保證系統(tǒng)的穩(wěn)定方法 2進(jìn)行CPU緊急擴(kuò)容
20、。使用LPAR動態(tài)調(diào)整功能,擴(kuò)充系統(tǒng)的CPU總量。降低系統(tǒng)的CPU使用百分比方法 3在方法 1 和方法 2 都無法執(zhí)行,且系統(tǒng)問題非常緊急的情況下,使用sar 以及nice等命令,調(diào)整進(jìn)程的使用CPU優(yōu)先級,確保主要應(yīng)用暫時不受影響。另行安排時間進(jìn)行CPU擴(kuò)容。信息收集時,需要收集perfpmr的信息。內(nèi)存使用過度內(nèi)存使用過度1 1、現(xiàn)象描述、現(xiàn)象描述Vmstat觀察pi po值;Svmon觀察free的內(nèi)存值;Topas觀察內(nèi)存和paging。如果free的內(nèi)存為零,并且pi po值持續(xù)保持較高的值,代表系統(tǒng)以及存在內(nèi)存緊缺的問題2 2、處理方法、處理方法方法 1控制應(yīng)用使用的內(nèi)存量,減小系
21、統(tǒng)的負(fù)荷來保證系統(tǒng)的穩(wěn)定方法 2進(jìn)行內(nèi)存緊急擴(kuò)容。使用LPAR動態(tài)調(diào)整功能,擴(kuò)充系統(tǒng)的內(nèi)存總量,保證有足夠的內(nèi)存使用。方法 3調(diào)整vmo參數(shù),平衡系統(tǒng)內(nèi)部內(nèi)存的分配情況,首先保證關(guān)鍵和繁忙的應(yīng)用擁有足夠的內(nèi)存。信息收集時,需要收集perfpmr的信息。系統(tǒng)系統(tǒng) ping 不通不通1、現(xiàn)象描述、現(xiàn)象描述Ping 時,發(fā)生ping不通的現(xiàn)象2、處理方法、處理方法由hmc登錄主機,檢查系統(tǒng)的ip設(shè)置。重點檢查系統(tǒng)與網(wǎng)關(guān)之間的通訊是否正常。遇到這種情況,最好直接登錄系統(tǒng)查看和分析問題。信息收集時,需要收集snap ac的信息。系統(tǒng)可以系統(tǒng)可以 ping 通,但是無法通,但是無法 telnet1、現(xiàn)象描
22、述、現(xiàn)象描述telnet 時,發(fā)生telnet不通現(xiàn)象,但是這個系統(tǒng)可以被ping通2、處理方法、處理方法方法 1由hmc登錄主機,檢查inetd進(jìn)程是否正常方法 2檢查所有的系統(tǒng)文件系統(tǒng)包括/ /tmp /var 是否有足夠空間方法 3檢查網(wǎng)絡(luò)設(shè)備是否存在防火墻或者telnet的限制遇到這種情況,最好直接登錄系統(tǒng)查看和分析問題。信息收集時,需要收集snap ac的信息。局部主機不能訪問某臺主機局部主機不能訪問某臺主機1 1、現(xiàn)象描述、現(xiàn)象描述從某個或某些主機可以telnet到這臺主機,但從另一個或另一些主機不能telnet到這臺主機2 2、處理方法、處理方法方法 1檢查主機的路由信息nets
23、tat rn,確定主機的路由表是否正常方法 2檢查不同網(wǎng)絡(luò)設(shè)備之間的通訊是否存在問題遇到這種情況,最好直接登錄系統(tǒng)查看和分析問題。信息收集時,需要收集snap ac的信息。HA 無法切換,或切換不正常無法切換,或切換不正常1 1、現(xiàn)象描述、現(xiàn)象描述HA切換異常,表現(xiàn)為備機不能完全接管主機的資源。觀察應(yīng)用是否運行正常;觀察 HA相關(guān)地址是否正確boot、standby、service 。2 2、處理方法、處理方法方法 1如果主機仍然可以訪問,依次手動關(guān)閉主機的應(yīng)用,數(shù)據(jù)庫,文件系統(tǒng),vg。殺死HA進(jìn)程。在備機端關(guān)閉HA進(jìn)程,并確認(rèn)所有IP和資源正常。重起備機HA,拉起資源。方法 2如果主機已經(jīng)無
24、法訪問,關(guān)閉主機系統(tǒng)。在備機端重復(fù)方法 1 中的拉起資源的步驟。方法 3如果主備機都無法使用,HA拉起資源和應(yīng)用,采取手動方式恢復(fù)業(yè)務(wù)。依次手動開啟vg,文件系統(tǒng),數(shù)據(jù)庫和應(yīng)用。信息收集時,需要在兩個節(jié)點上分別收集snap ac的信息,并在其中任意一個節(jié)點上收集snap ec信息。文件系統(tǒng)滿文件系統(tǒng)滿1 1、現(xiàn)象描述、現(xiàn)象描述df k發(fā)現(xiàn)文件系統(tǒng)使用率超過 702 2、處理方法、處理方法方法 1采取緊急擴(kuò)容,擴(kuò)充文件系統(tǒng)的大小。方法 2如果已經(jīng)影響到主機的正常使用,由HMC登錄主機。方法 3如果HMC也無法登錄主機,使用光盤引導(dǎo)進(jìn)入系統(tǒng),在maintenance的模式下擴(kuò)充文件系統(tǒng)。這種情況一
25、般不需要收集信息。如果一定要收,請收snap ac信息。文件系統(tǒng)無法進(jìn)行正常讀寫文件系統(tǒng)無法進(jìn)行正常讀寫1 1、現(xiàn)象描述、現(xiàn)象描述任何讀寫操作都會發(fā)生I/O 的報錯2 2、處理方法、處理方法首先備份文件系統(tǒng)所在的數(shù)據(jù)。將所有仍然可以訪問的數(shù)據(jù)全部備份方法 1關(guān)閉文件系統(tǒng),進(jìn)行fsck的檢查。試圖修復(fù)文件系統(tǒng)的邏輯錯誤。方法 2如果文件系統(tǒng)無法修復(fù),那么必須重建一個新的文件系統(tǒng),由備份數(shù)據(jù)恢復(fù)。如果之前的備份數(shù)據(jù)完整,那么可以使用事先準(zhǔn)備的備份數(shù)據(jù),不然那么需要客戶提供完整的數(shù)據(jù)備份信息收集時,需要收集snap ac的信息。鏡像不同步鏡像不同步1 1、現(xiàn)象描述、現(xiàn)象描述lsvg l 發(fā)現(xiàn)有局部l
26、v的狀態(tài)是stale2 2、處理方法、處理方法檢查是否存在硬件故障。如果是,請解除鏡像、修復(fù)硬件、重做鏡像。如果不是硬件問題導(dǎo)致的不同步,那么需要在系統(tǒng)中重新建立同步關(guān)系。syncvg l 做完后檢查是否狀態(tài)都是syncd。這種情況一般不需要收集信息。信息收集時,需要收集snap ac的信息。Dump 設(shè)備太小設(shè)備太小1 1、現(xiàn)象描述、現(xiàn)象描述系統(tǒng)errpt會提示當(dāng)前的dump文件已經(jīng)超出了存放dump的空間2 2、處理方法、處理方法尋找dump 存放的位置sysdumpdev l檢查dump 需要的空間sysudmpdev e擴(kuò)大dump 設(shè)備,到達(dá)預(yù)計的大小extendlv這種情況一般不需
27、要收集信息。信息收集時,需要收集snap ac的信息。密碼喪失密碼喪失1 1、現(xiàn)象描述、現(xiàn)象描述Root或其他用戶密碼喪失2 2、處理方法、處理方法如果普通用戶密碼喪失,使用root 用戶登錄,su到普通用戶,然后執(zhí)行passwd命令修改密碼如果root用戶密碼喪失,停系統(tǒng),使用光盤引導(dǎo)進(jìn)入maintenance模式,執(zhí)行passwd命令修改密碼這種情況不需要收集信息。系統(tǒng)有報錯信息系統(tǒng)有報錯信息1 1、現(xiàn)象描述、現(xiàn)象描述使用errpt命令發(fā)現(xiàn)有報錯信息。2 2、處理方法、處理方法如果是小型機硬件設(shè)備報錯例如sysplanner0 的錯誤,fcs的H類錯誤,網(wǎng)卡的H類錯誤,內(nèi)置磁盤的H類報錯等
28、 ,請聯(lián)系設(shè)備處相關(guān)維護(hù)人員進(jìn)行問題診斷和處理;如果是外置存儲磁盤和鏈路報錯例如hdisk的報錯 ,請聯(lián)系設(shè)備處相關(guān)維護(hù)人員進(jìn)行問題診斷和處理;如果是軟件類報錯,請聯(lián)系IBM工程師進(jìn)行分析。info類的信息可以忽略不計。在這種情況下,需要收集snap gc的信息。telnet 的響應(yīng)的響應(yīng)很慢很慢1 1、現(xiàn)象描述、現(xiàn)象描述在終端上使用telnet命令登錄AIX系統(tǒng)時,終端會過很久1,2 分鐘左右才顯示出登錄提示字符。2 2、處理方法、處理方法這種情況一般是設(shè)置了域名解析造成的。處理方法:和應(yīng)用溝通,問是否可以刪除/etc/resolv.conf文件。如果可以,就刪除它。如果不可以,編輯文件,加
29、參數(shù)c在telnet最后,如下 telnet stream tcp6 nowait root /usr/sbin/telnetd telnetd -a -c 刷新inetd效勞: # refresh -s inetd在這種情況下,不需要收集信息文件系統(tǒng)不能文件系統(tǒng)不能 umount1 1、現(xiàn)象描述、現(xiàn)象描述在umount某一文件系統(tǒng)時,終端上報文件系統(tǒng)busy,不能umount。2 2、處理方法、處理方法首先使用fuser xuc ,查看有哪些進(jìn)程占著該文件系統(tǒng)。然后使用fuser kuxc ,強制關(guān)閉占用該文件系統(tǒng)的進(jìn)程。注意:這步風(fēng)險很大。如果沒調(diào)查清楚,可能會導(dǎo)致誤殺應(yīng)用和系統(tǒng)進(jìn)程,從而
30、導(dǎo)致系統(tǒng)或應(yīng)用crash。在這種情況下,不需要收集信息TCP 網(wǎng)絡(luò)的網(wǎng)絡(luò)的 socket 端口端口不能不能釋放,始終處于釋放,始終處于 close_wait 狀態(tài)狀態(tài)1 1、現(xiàn)象描述、現(xiàn)象描述應(yīng)用已經(jīng)停止,但它所在的端口一直得不到釋放。2 2、處理方法、處理方法查看端口PCB的值:netstat An |grep 端口號去除tcpcb地址所在的socket:rmsock tcpcb 在這種情況下,不需要收集信息系統(tǒng)中包含大量的僵尸進(jìn)程系統(tǒng)中包含大量的僵尸進(jìn)程1 1、現(xiàn)象描述、現(xiàn)象描述ps Af查看到系統(tǒng)中有很多defunct進(jìn)程2 2、處理方法、處理方法用ps Af查看defunct進(jìn)程的父進(jìn)
31、程。如果父進(jìn)程是應(yīng)用進(jìn)程,那么停止該應(yīng)用進(jìn)程即可去除僵尸進(jìn)程;如果父進(jìn)程是系統(tǒng)進(jìn)程,只有重啟系統(tǒng)才能去除僵尸進(jìn)程。在這種情況下,不需要收集信息第五章第五章 突發(fā)情況信息收集突發(fā)情況信息收集對于開放平臺如發(fā)生突發(fā)事件,如果現(xiàn)場不能確定問題的根本原因,在進(jìn)行應(yīng)急預(yù)案的同時,應(yīng)收集相關(guān)信息,包括故障現(xiàn)場的環(huán)境、描述、日志、診斷文件等等,以進(jìn)行事后原因分析。對于宕機,hang等問題,考慮收集trace文件。如果收集信息需要的時間較長,影響應(yīng)急生產(chǎn)恢復(fù),那么應(yīng)保證后者的更高優(yōu)先級。5.1 DB2 需要收集的信息1.任何故障都應(yīng)收集db2pd -file -everything2.數(shù)據(jù)庫 hangdb2p
32、d -db -stack all -repeat 3db2trc on -l 128Mrecreate the problem db2trc offdb2service.perf1 ( Performance/hang data collection scripts) 本命令將用到的 script: db2service.perf13.數(shù)據(jù)庫性能問題db2 update monitor switches using bufferpool on lock on sort on statement on uow ondb2 get snapshot for dbmdb2 get snapshot
33、for all on 4.實例故障db2support . -s5.數(shù)據(jù)庫故障db2support . -d -c -s 5.2 WAS 需要收集的信息1.CPU 利用率到達(dá) 100%a)得到所有網(wǎng)絡(luò)連接的信息b)得到 CPU 利用率使用信息tprof_ps.sh tprof_psc)每隔 2 分鐘生成一個 javacorekill -3 java 的進(jìn)程號d)e)install_root/logs/server_name 的所有信息f)2.系統(tǒng)崩潰a)b)executable is /usr/WebSphere/AppServer/java/jre/bin/javacore_file_nam
34、e is the core filec)d)getlib.sh java_executable_full_path core_filename (系統(tǒng)必須安裝 dbx)e)tar cvf core_file_name core_file_namef)install_root/java/jre/bin/jextract -o core.sdff core_pathg)install_root/logs/server_name 的所有信息h)3.系統(tǒng) hung 或者性能下降a)b)c)svmon -P pid -m -r -I 60 5 svmon.out &d)tprof -k -s -e -x
35、 sleep 60e)每 2 分鐘生成一個 javacorekill -3 PID_of_hung_JVMf)g)h)i)j)k)install_root/logs/server_name,plugin-cfg.xml, _plugin.log, install_root/logs/ffdc 的所有信息4.數(shù)據(jù)庫連接問題a)檢查數(shù)據(jù)源配置情況,測試數(shù)據(jù)庫連接b)TroubleshootingLogging and TracingDiagonstic Trace Enable trace with the following specification is selectedc)Troubles
36、hootingLogging and TracingDiagonstic TraceTrace Specification Connecting to a database in V5.1:2c=all=enabled:RRA=all=enabled:WAS.database=all=enabled:Transaction=all=enabled Connecting to a database in V5.0:2c=all=enabled:RRA=all=enabled:WAS.database=all=enabled:com.ibm.ejs.jts.*=all=enabled:com.ib
37、m.ws.LocalTransaction.*=all=enabledd)Restart Application Servere)Collect the resulting trace output file5.3 MQ 需要收集的信息1.2.收集 mqs.ini 3.收集/var/mqm/errors/目錄下的日志4.收集/var/mqm/qmgrs/SYSTEM/errors/目錄下的日志5.收集/var/mqm/qmgrs/QM/errors 目錄下的日志6.MQ TRACE INSTRUCTIONS:Start trace:trace -a -j30D,30E -o /path/to/
38、trace.out -L 50000000End trace:trcstop5.4 SNA 需要收集的信息1.2.3.4.5.SNA TRACE INSTRUCTIONS:snaadmin set_log_file,log_file_type=AUDIT,file_size=20000000 snaadmin set_log_file,log_file_type=ERROR,file_size=20000000 snaadmin set_trace_file,trace_file_type=IPS,trace_file_size=100000000 snaadmin set_global_lo
39、g_type,audit=YES, exception=YES snaadmin set_global_log_type,succinct_audits=YES, succinct_errors=YES snaadmin add_dlc_trace snaadmin set_trace_type,trace_flags=NONE,api_flags=NONE 等待相應(yīng)需要的時間執(zhí)行:snagetpd -q 收集以下數(shù)據(jù):5.5 AIX 需要收集的信息1.硬件問題導(dǎo)致的系統(tǒng)異常a)檢查系統(tǒng) errpt 報錯,觀察故障點的報錯信息b)檢查 hmc 上的報錯信息,觀察故障點的報錯信息c)觀察主機各個
40、部件的工作狀態(tài)是否正常,是否有黃燈警告2.系統(tǒng)本身損壞而導(dǎo)致的系統(tǒng)異常a)檢查系統(tǒng)的完整性 /lppchk vb)檢查操作系統(tǒng)版本是否正確 /oslevelc)觀察 errpt 中有無軟件的 coredump 生成d)如果能定位遭到破壞的文件,嘗試修復(fù)或者從備份中導(dǎo)出e)如果系統(tǒng)已經(jīng)完全無法訪問,嘗試從系統(tǒng)備份中恢復(fù)系統(tǒng)3.性能問題導(dǎo)致的系統(tǒng)異常a)檢查系統(tǒng) cpu 使用情況 vmstatb)檢查系統(tǒng)內(nèi)存使用情況 svmon -G; svmon -S; svmon Uc)檢查系統(tǒng)內(nèi)存配置情況 vmo, vmtuned)檢查系統(tǒng) paging 使用情況 topas, vmstate)檢查系統(tǒng)磁盤
41、使用情況 iostat, filemonf)檢查系統(tǒng)網(wǎng)絡(luò)使用情況 netstat, ifconfig, no, /etc/filesystems 4.數(shù)據(jù)收集a)snap -gc 收集詳細(xì)硬件信息b)snap -ac 收集詳細(xì)系統(tǒng)信息,含 dumpc)如果與 HA 相關(guān),收集 ha 信息,snap ecd)如果與 lv 有關(guān),收集 snap gLc;如果與 7133 有關(guān)那么執(zhí)行 snap gbLce)如果與主機性能有關(guān),收集性能數(shù)據(jù),這里有兩種方式第一種方式:通過 nmon注:這種方式不推薦,IBM 實驗室不支持對 nmon 數(shù)據(jù)的分析nmon 工具是分析 AIX 主機性能的工具,工具由兩局
42、部組成,一個是 nmon 采集數(shù)據(jù)的工具,一般名稱為 nmon_版本號,例如,另一個是分析結(jié)果的工具,為 excel 文件nmon analyser v33A.xls 。數(shù)據(jù)收集方法:新建 nmon 目錄/nmon,在目錄下建兩個子目錄/nmon/bin 和/nmon/data 目錄,把下載下來的 nmon 程序放到 bin 目錄下,aix 下的 nmon 可執(zhí)行文件名稱可能為:nmon_aix53執(zhí)行命令:$BINPATH/nmon_aix53 -s300 -c288 -f -m /nmon/data-s300 表示每 300 秒采集一次數(shù)據(jù),-c288 表示采集 288 次,300*288
43、=86400 秒,剛好是 1 天的數(shù)據(jù),這樣運行一次這個程序就會生成一個一天的數(shù)據(jù)文件,-m $DATAPATH 表示生成的數(shù)據(jù)文件的路徑-f 表示生成的數(shù)據(jù)文件名中有時間。還可在 crontab 中調(diào)用,便于每日頂峰都搜集數(shù)據(jù),得出一段時間的性能數(shù)據(jù),便于分析。數(shù)據(jù)使用方法:nmon 生成的文件名為 hostname_時間.nmon,把生成的數(shù)據(jù)文件傳到 Windows 機器上,翻開 nmon analyser v33A.xls,允許宏運行,導(dǎo)入該nmon 數(shù)據(jù),那么可以進(jìn)行后續(xù)分析。第二種方式:通過 perfpmrIBM 推薦通過 perfpmr,可以獲得分區(qū)詳細(xì)的性能數(shù)據(jù),生成數(shù)據(jù)后需要將數(shù)據(jù)提交到IBM 實驗室進(jìn)行分析。數(shù)據(jù)收集方法:將介質(zhì)傳到生產(chǎn)分區(qū)上,放入/tmp/perf53 目錄,保證該目錄有最少 12 兆空余空間,進(jìn)入該目錄,解壓,執(zhí)行。然后新建目錄/tmp/perf53/data 在該目錄下執(zhí)行600,搜集 10 分鐘數(shù)據(jù),運行時間會增加 10%的系統(tǒng)開銷,執(zhí)行完成后,將該目錄下所有文件都打包帶上主機名,移交給 IBM 實驗室。 注意,snap 的 3 個命令不能同時執(zhí)行,每次執(zhí)行完以后需要將/tmp/ibmsupt/snap.pax.Z 文件拷貝到本地,并執(zhí)行 snap -r 刪除之前收集的信息方可繼續(xù)執(zhí)行下一次 snap。
- 溫馨提示:
1: 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 蘇教版五上《小數(shù)乘整數(shù)》ppt課件
- 蘇教版一年級數(shù)學(xué)上冊《數(shù)一數(shù)》ppt課件
- 江南1優(yōu)秀課件
- 提高印字質(zhì)量課件
- 服務(wù)分銷策略課件
- 數(shù)學(xué)必修蘇教版互斥事件課件3(共32張PPT)
- 第三章要素費用的核算PPT優(yōu)秀資料
- 元素的質(zhì)量分?jǐn)?shù)計算答案
- 圖形的欣賞與設(shè)計
- 八年級下期Uuit10SectionA課件
- 部編七年級語文下冊4孫權(quán)勸學(xué)課件
- 部編一年級語文下冊端午粽課件
- 超市防損的技能課件
- 表彰班會教學(xué)課件教學(xué)課件
- 第17講中考數(shù)學(xué)專題復(fù)習(xí) 函數(shù)的綜合應(yīng)用中考數(shù)學(xué)專題復(fù)習(xí)課件課件各版通用