[計算機硬件及網(wǎng)絡(luò)]小機生產(chǎn)系統(tǒng)異常操作指南

上傳人：ra****d 文檔編號：66308756 上傳時間：2022-03-27 格式：DOC 頁數(shù)：32 大?。?.19MB

收藏版權(quán)申訴舉報下載

[計算機硬件及網(wǎng)絡(luò)]小機生產(chǎn)系統(tǒng)異常操作指南_第1頁

第1頁 / 共32頁

[計算機硬件及網(wǎng)絡(luò)]小機生產(chǎn)系統(tǒng)異常操作指南_第2頁

第2頁 / 共32頁

[計算機硬件及網(wǎng)絡(luò)]小機生產(chǎn)系統(tǒng)異常操作指南_第3頁

第3頁 / 共32頁

下載文檔到電腦，查找使用更方便

16 積分

下載資源

還剩頁未讀，繼續(xù)閱讀

資源描述：

《[計算機硬件及網(wǎng)絡(luò)]小機生產(chǎn)系統(tǒng)異常操作指南》由會員分享，可在線閱讀，更多相關(guān)《[計算機硬件及網(wǎng)絡(luò)]小機生產(chǎn)系統(tǒng)異常操作指南（32頁珍藏版）》請在裝配圖網(wǎng)上搜索。

1、小機生產(chǎn)系統(tǒng)異常操作指南小機生產(chǎn)系統(tǒng)異常操作指南目錄目錄第一章第一章 WASWAS 篇篇 .4無法登陸管理控制臺.4應(yīng)用效勞器無法啟動.4應(yīng)用程序請求無響應(yīng).4應(yīng)用程序無法訪問.5應(yīng)用效勞器JAVA進(jìn)程CRASH.5概要文件被破壞.6JAVA進(jìn)程 CPU 100%.10新部署應(yīng)用程序無法訪問.10在集群模式下節(jié)點不同步.12第二章第二章 MQMQ 篇篇 .13通道無法啟動.13隊列管理器無法啟動.13隊列管理器無法停止.14死信隊列不斷有消息堆積.14MQ 對象被損壞.14第三章第三章 DB2DB2 篇篇 .16實例停止.16實例無法啟動.16表空間暫時性的無法訪問.16表空間永久性的無法訪

2、問.17數(shù)據(jù)庫活動日志喪失.17表空間滿.17活動日志空間滿.17活動日志所在目錄文件系統(tǒng)滿.18表被鎖，無法訪問.18表中的內(nèi)容被誤刪除.18第四章第四章 AIXAIX 篇篇 .19硬件故障.19CPU 使用過度 .19內(nèi)存使用過度.19系統(tǒng)PING不通.20系統(tǒng)可以PING通，但是無法TELNET.20局部主機不能訪問某臺主機.20HA 無法切換，或切換不正常 .21文件系統(tǒng)滿.21文件系統(tǒng)無法進(jìn)行正常讀寫.22鏡像不同步.22DUMP設(shè)備太小.22密碼喪失.23系統(tǒng)有報錯信息.23TELNET的響應(yīng)很慢 .23文件系統(tǒng)不能UMOUNT.24TCP 網(wǎng)絡(luò)的SOCKET端口不能釋放，始終處于

3、CLOSE_WAIT狀態(tài) .24系統(tǒng)中包含大量的僵尸進(jìn)程.25第五章第五章突發(fā)情況信息收集突發(fā)情況信息收集 .26DB2 需要收集的信息.26WAS 需要收集的信息.27MQ 需要收集的信息.29SNA 需要收集的信息.29AIX 需要收集的信息 .30第一章第一章 WASWAS 篇篇無法登陸管理控制臺無法登陸管理控制臺1、現(xiàn)象描述、現(xiàn)象描述IE 瀏覽： :/IP:9060/admin 判斷是否還能登陸，不能登錄時說明控制臺應(yīng)用沒有發(fā)布。其中 9060 是 WAS 的效勞端口。2、處理方法、處理方法進(jìn)入 wsadmin狀態(tài)(AdminConsole.ear_Path, -server ser

4、ver1)AdminConfig.save完成安裝/usr/WebSphere/AppServer/bin/目錄下執(zhí)行：./startServer.sh server應(yīng)用效勞器無法啟動應(yīng)用效勞器無法啟動1、現(xiàn)象描述、現(xiàn)象描述對于 WAS5.1，在 bin 目錄下執(zhí)行：./startServer.sh server 判斷是否能正常啟動。對于 WAS6.1，WAS 使用的端口是 9060，因此不會和 9090 端口沖突。2、處理方法、處理方法1) # netstat an|grep 9090 查看端口9090 是 WAS5.1 控制臺所用的默認(rèn)端口2) #/usr/websm/bin/wsmser

5、ver disable 關(guān)閉系統(tǒng)占用的 9090 端口3)/usr/WebSphere/AppServer/bin/目錄下執(zhí)行：./startServer.sh server信息收集時請收集 install_root/logs/server_name 的所有信息應(yīng)用程序請求無響應(yīng)應(yīng)用程序請求無響應(yīng)1、現(xiàn)象描述、現(xiàn)象描述生產(chǎn)環(huán)境系統(tǒng)訪問長時間沒有頁面顯示，在瀏覽器訪問后長時間沒有反響。2、處理方法、處理方法1)ps ef|grep java 查看 java 進(jìn)程號；2)/usr/WebSphere/AppServer/bin/目錄下執(zhí)行：./stopServer.sh server假設(shè)無法停止那

6、么使用 kill 命令殺掉3)/usr/WebSphere/AppServer/bin/目錄下執(zhí)行：./startServer.sh server在以下圖中可以看到進(jìn)程號碼是 8822。信息收集時，參見 5.2 3 系統(tǒng) hung 或者性能下降。應(yīng)用程序無法訪問應(yīng)用程序無法訪問1、現(xiàn)象描述、現(xiàn)象描述生產(chǎn)環(huán)境系統(tǒng)訪問出現(xiàn) 404 錯誤頁面或者找不到效勞器2、處理方法、處理方法1.查看 IBM Server 的 d 進(jìn)程是否正常狀態(tài)運行；例如是否有父進(jìn)程為“1”的現(xiàn)象；2. /usr/IBMIHS/bin/apachectl stop 停止 IBM Server假設(shè)無法停止那么把相關(guān)的進(jìn)程殺掉3

7、. /usr/IBMIHS/bin/apachectl start 啟動 IBM Server信息收集時，收集 IHS 的 logs 目錄下的日志，ps ef|grep 的輸出。Plugin 的日志和 WAS 的 logs 目錄的日志應(yīng)用效勞器應(yīng)用效勞器 java 進(jìn)程進(jìn)程 crash1、現(xiàn)象描述、現(xiàn)象描述ps ef|grep java 沒有 WAS 的 java 進(jìn)程在執(zhí)行2、處理方法、處理方法/usr/WebSphere/AppServer/bin/目錄下執(zhí)行：./startServer.sh server成功啟動后可以看到類似如下的輸出：信息收集時，參見 5.2 - 2 系統(tǒng)崩潰概要文件

8、被破壞概要文件被破壞1、現(xiàn)象描述、現(xiàn)象描述對于 WAS6.1 版本，創(chuàng)立效勞器需要一個概要表，即 profile。概要文件位于$WAS_HOME/profiles，包含了一個應(yīng)用所用的一組 server，如果遭到人為破壞，那么需要重建整個 profile。2、處理方法、處理方法假設(shè)以前對配置做過備份，先恢復(fù)以前的配置，看是否能夠啟動，假設(shè)仍然不能啟動，那么創(chuàng)立新的概要文件：/usr/WebSphere/AppServer/bin/manageprofiles.sh -help命令輸出如下，可以看到，針對所需的配置內(nèi)容，可以從命令中得到進(jìn)一步的聯(lián)機幫助，例如 manageprofiles.sh

9、-create -help 用來查看創(chuàng)立 profile 的幫助內(nèi)容。信息收集時，需要收集的內(nèi)容如下:1./startServer.sh server trace 的信息；2install_root/logs/server_name 的所有信息。以下腳本會創(chuàng)立一個名為 newProfileName 的新的 Default 類型 Profile，對應(yīng)節(jié)點名稱為 newNode。1進(jìn)入 WAS 安裝目錄下 bin 目錄，例如在 AIX 上為 cd /usr/IBM/WebSphere/AppServer/bin2在 root 權(quán)限下執(zhí)行：# ./manageprofiles.sh -create

10、-profileName newProfileName -profilePath /usr/IBM/WebSphere/AppServer/profiles/newProfileName -templatePath /usr/IBM/WebSphere/AppServer/profileTemplates/default -nodeName newNode概要文件名：newProfileName概要文件路徑：/usr/IBM/WebSphere/AppServer/profiles/newProfileName概要文件類型：defaultnode 名稱：newNode如果需要使用 Dmgr P

11、rofile 對 Default Profile 進(jìn)行管理，那么需要把 Default Profile 的節(jié)點添加到 Dmgr Profile 所在的單元。假設(shè) Dmgr Profile 所在主機名稱為DMGR_HOSTNAME，那么把名為 newProfile 的 Default Profile 添加其中的步驟為：1.進(jìn)入 Default Profile 安裝目錄下的 bin 目錄；cd /usr/IBM/WebSphere/AppServer/profiles/newProfile/bin;2.把節(jié)點添加到單元，在 root 權(quán)限中執(zhí)行：./addNode.sh DMGR_HOSTNAME

12、 8879PMT 是管理概要表的圖形工具，是 profile management tool 的簡稱。通常位于WAS_HOME/bin/ProfileManagement/pmt.sh，或 pmt.bat，或 pmtAIX.sh，腳本取決于操作系統(tǒng)和 WAS 版本。如果使用 PMT 管理概要文件，可以通過圖形界面創(chuàng)立概要表1。1 不同版本的 pmt 界面會有較大的差異，64 位版本的 was 不包含管理概要表的圖形工具。選擇概要表類型：選擇概要表的創(chuàng)立位置和名稱：選擇節(jié)點名和主機名：在安裝過程不要啟用全局平安性，安裝后需要該功能時可以從管理控制臺啟用。由 WAS 生成默認(rèn)的端口，如果需要也可以

13、自行修改，此時需要確保端口和該效勞器上安裝的其他應(yīng)用不存在沖突。復(fù)核概要表的定義無誤后，點擊“下一步創(chuàng)立概要表：Java 進(jìn)程進(jìn)程 CPU 100%1、現(xiàn)象描述、現(xiàn)象描述topas 查看 java 的 CPU 使用情況2、處理方法、處理方法ps ef|grep java 查看 java 進(jìn)程號；用 kill 殺掉該進(jìn)程。/usr/WebSphere/AppServer/bin/目錄下執(zhí)行：./startServer.sh server信息收集參見 5.2 - 1 CPU 利用率到達(dá) 100%。新部署應(yīng)用程序無法訪問新部署應(yīng)用程序無法訪問1、現(xiàn)象描述、現(xiàn)象描述訪問新系統(tǒng)出現(xiàn) 404 錯誤2、處理

14、方法、處理方法1).查看最新的插件更新日期：/usr/WebSphere/AppServer/config/cells/2).在 IE 管理控制臺里面更新插件，然后復(fù)制最新的插件到 Web Server 的指定目錄下；/usr/IBMIHS/bin/apachectl stop 停止 IBM Server/usr/IBMIHS/bin/apachectl start 啟動 IBM Server應(yīng)用程序部署完成后，需要為 IHS 配置插件，提供給用的 URI、虛擬主機、效勞器地址等信息，以便 IHS 把請求轉(zhuǎn)發(fā)到應(yīng)用效勞器。IHS PLUGIN 的配置包含兩個步驟：插件的生成和傳播，這里的插件指

15、的是 IHS PLUGIN所需的配置文件 plugin-cfg.xml。進(jìn)入 WAS 控制臺，進(jìn)入應(yīng)用效勞器web 效勞器，選中需要更新插件的 web 效勞器，點擊“生成插件所生成的效勞器的插件位置將會顯示如下。如果 IHS 和 AppServer 處于同一臺效勞器上，那么不需要傳播插件。否那么請按照下一節(jié)內(nèi)容完成插件的傳播。如果 IHS 和 AppServer 位于不同的機器上，請在插件生成后，再次選擇需要傳播插件的效勞器，點擊傳播插件。此前需要確認(rèn) IHS 效勞器的控制臺已經(jīng)啟動，WAS 將通過 IHS的控制臺端口把插件配置傳播到 IHS 效勞器中。信息收集時，需要收集 install_r

16、oot/logs/server_name 的所有信息。在集群模式下節(jié)點不同步在集群模式下節(jié)點不同步1、現(xiàn)象描述、現(xiàn)象描述訪問管理控制臺之后，管理控制臺無法修改和管理節(jié)點,在 nodeagent 上顯示：不同步2、處理方法、處理方法1).停止節(jié)點上的 server 和 nodeagent，保持 dmgr 正常啟動狀態(tài)；在節(jié)點的 bin 目錄下執(zhí)行：#./syncNode.sh server 88792).在節(jié)點的 bin 目錄下執(zhí)行：3).進(jìn)管理控制臺查看節(jié)點是否同步信息收集時，需要收集 install_root/logs/server_name 的所有信息。第二章第二章 MQMQ 篇篇通道無法

17、啟動通道無法啟動1、現(xiàn)象描述、現(xiàn)象描述在 Runmqsc 中 start channel(channel name)無法啟動。2、處理方法、處理方法將通道序列號復(fù)位。使用 Reset channel 命令。使用 strmqm 和 endmqm 命令重啟隊列管理器。根據(jù)錯誤代碼檢查 sna 和網(wǎng)絡(luò)、對方 MQ 的狀態(tài)。以下圖為 dspmq 命令的輸出樣例：信息收集時，參見 5.3 1-5 點內(nèi)容。隊列管理器無法啟動隊列管理器無法啟動1、現(xiàn)象描述、現(xiàn)象描述Strmqm QMGR 命令失敗2、處理方法、處理方法使用 ps ef 檢查，把所有的 MQ 進(jìn)程都?xì)⒌簟Ｊ褂?mqiclen x m QMGR

18、命令去除共享內(nèi)存資源。然后重啟 MQ：strmqm該命令的輸出結(jié)果類似下面的情況：信息收集時，參見 5.3 1-5 點內(nèi)容。隊列管理器無法停止隊列管理器無法停止1、現(xiàn)象描述、現(xiàn)象描述Endmqm QMGR 命令不能停止隊列管理器2、處理方法、處理方法使用 endmqm i QMGR 命令。仍然不能停止那么使用 endmqm p QMGR 命令。命令的輸出情況如下所示：信息收集時，參見 5.3 1-6 點內(nèi)容。死信隊列不斷有消息堆積死信隊列不斷有消息堆積1、現(xiàn)象描述、現(xiàn)象描述Dis queue(DLQ)看到有消息堆積。2、處理方法、處理方法查看通道的狀態(tài)是否正常：dis chs(*);以及對端

19、 MQ 的狀態(tài)是否正常。使用 amqsbcg Qname Qmgr 命令瀏覽死信隊列的消息內(nèi)容，根據(jù)原因碼再采取相應(yīng)的措施。該命令的使用參數(shù)列表如下：信息收集時，參見 5.3 1-5 點內(nèi)容。MQ 對象被損壞對象被損壞1、現(xiàn)象描述、現(xiàn)象描述MQ 隊列、通道等對象被刪除或者 MQ 的系統(tǒng)文件被破壞，Dis queue(*)Dis channel(*)找不到對象。2、處理方法、處理方法使用 crtmqm QMGR 的命令重新創(chuàng)立隊列管理器，使用 runmqsc 80%表示CPU消耗過量2 2、處理方法、處理方法方法 1控制應(yīng)用使用的CPU量，減小系統(tǒng)的負(fù)荷來保證系統(tǒng)的穩(wěn)定方法 2進(jìn)行CPU緊急擴(kuò)容

20、。使用LPAR動態(tài)調(diào)整功能，擴(kuò)充系統(tǒng)的CPU總量。降低系統(tǒng)的CPU使用百分比方法 3在方法 1 和方法 2 都無法執(zhí)行，且系統(tǒng)問題非常緊急的情況下，使用sar 以及nice等命令，調(diào)整進(jìn)程的使用CPU優(yōu)先級，確保主要應(yīng)用暫時不受影響。另行安排時間進(jìn)行CPU擴(kuò)容。信息收集時，需要收集perfpmr的信息。內(nèi)存使用過度內(nèi)存使用過度1 1、現(xiàn)象描述、現(xiàn)象描述Vmstat觀察pi po值；Svmon觀察free的內(nèi)存值；Topas觀察內(nèi)存和paging。如果free的內(nèi)存為零，并且pi po值持續(xù)保持較高的值，代表系統(tǒng)以及存在內(nèi)存緊缺的問題2 2、處理方法、處理方法方法 1控制應(yīng)用使用的內(nèi)存量，減小系

21、統(tǒng)的負(fù)荷來保證系統(tǒng)的穩(wěn)定方法 2進(jìn)行內(nèi)存緊急擴(kuò)容。使用LPAR動態(tài)調(diào)整功能，擴(kuò)充系統(tǒng)的內(nèi)存總量，保證有足夠的內(nèi)存使用。方法 3調(diào)整vmo參數(shù)，平衡系統(tǒng)內(nèi)部內(nèi)存的分配情況，首先保證關(guān)鍵和繁忙的應(yīng)用擁有足夠的內(nèi)存。信息收集時，需要收集perfpmr的信息。系統(tǒng)系統(tǒng) ping 不通不通1、現(xiàn)象描述、現(xiàn)象描述Ping 時，發(fā)生ping不通的現(xiàn)象2、處理方法、處理方法由hmc登錄主機，檢查系統(tǒng)的ip設(shè)置。重點檢查系統(tǒng)與網(wǎng)關(guān)之間的通訊是否正常。遇到這種情況，最好直接登錄系統(tǒng)查看和分析問題。信息收集時，需要收集snap ac的信息。系統(tǒng)可以系統(tǒng)可以 ping 通，但是無法通，但是無法 telnet1、現(xiàn)象描

22、述、現(xiàn)象描述telnet 時，發(fā)生telnet不通現(xiàn)象，但是這個系統(tǒng)可以被ping通2、處理方法、處理方法方法 1由hmc登錄主機，檢查inetd進(jìn)程是否正常方法 2檢查所有的系統(tǒng)文件系統(tǒng)包括/ /tmp /var 是否有足夠空間方法 3檢查網(wǎng)絡(luò)設(shè)備是否存在防火墻或者telnet的限制遇到這種情況，最好直接登錄系統(tǒng)查看和分析問題。信息收集時，需要收集snap ac的信息。局部主機不能訪問某臺主機局部主機不能訪問某臺主機1 1、現(xiàn)象描述、現(xiàn)象描述從某個或某些主機可以telnet到這臺主機，但從另一個或另一些主機不能telnet到這臺主機2 2、處理方法、處理方法方法 1檢查主機的路由信息nets

23、tat rn，確定主機的路由表是否正常方法 2檢查不同網(wǎng)絡(luò)設(shè)備之間的通訊是否存在問題遇到這種情況，最好直接登錄系統(tǒng)查看和分析問題。信息收集時，需要收集snap ac的信息。HA 無法切換，或切換不正常無法切換，或切換不正常1 1、現(xiàn)象描述、現(xiàn)象描述HA切換異常，表現(xiàn)為備機不能完全接管主機的資源。觀察應(yīng)用是否運行正常；觀察 HA相關(guān)地址是否正確boot、standby、service 。2 2、處理方法、處理方法方法 1如果主機仍然可以訪問，依次手動關(guān)閉主機的應(yīng)用，數(shù)據(jù)庫，文件系統(tǒng)，vg。殺死HA進(jìn)程。在備機端關(guān)閉HA進(jìn)程，并確認(rèn)所有IP和資源正常。重起備機HA，拉起資源。方法 2如果主機已經(jīng)無

24、法訪問，關(guān)閉主機系統(tǒng)。在備機端重復(fù)方法 1 中的拉起資源的步驟。方法 3如果主備機都無法使用，HA拉起資源和應(yīng)用，采取手動方式恢復(fù)業(yè)務(wù)。依次手動開啟vg，文件系統(tǒng)，數(shù)據(jù)庫和應(yīng)用。信息收集時，需要在兩個節(jié)點上分別收集snap ac的信息，并在其中任意一個節(jié)點上收集snap ec信息。文件系統(tǒng)滿文件系統(tǒng)滿1 1、現(xiàn)象描述、現(xiàn)象描述df k發(fā)現(xiàn)文件系統(tǒng)使用率超過 702 2、處理方法、處理方法方法 1采取緊急擴(kuò)容，擴(kuò)充文件系統(tǒng)的大小。方法 2如果已經(jīng)影響到主機的正常使用，由HMC登錄主機。方法 3如果HMC也無法登錄主機，使用光盤引導(dǎo)進(jìn)入系統(tǒng)，在maintenance的模式下擴(kuò)充文件系統(tǒng)。這種情況一

25、般不需要收集信息。如果一定要收，請收snap ac信息。文件系統(tǒng)無法進(jìn)行正常讀寫文件系統(tǒng)無法進(jìn)行正常讀寫1 1、現(xiàn)象描述、現(xiàn)象描述任何讀寫操作都會發(fā)生I/O 的報錯2 2、處理方法、處理方法首先備份文件系統(tǒng)所在的數(shù)據(jù)。將所有仍然可以訪問的數(shù)據(jù)全部備份方法 1關(guān)閉文件系統(tǒng)，進(jìn)行fsck的檢查。試圖修復(fù)文件系統(tǒng)的邏輯錯誤。方法 2如果文件系統(tǒng)無法修復(fù)，那么必須重建一個新的文件系統(tǒng)，由備份數(shù)據(jù)恢復(fù)。如果之前的備份數(shù)據(jù)完整，那么可以使用事先準(zhǔn)備的備份數(shù)據(jù)，不然那么需要客戶提供完整的數(shù)據(jù)備份信息收集時，需要收集snap ac的信息。鏡像不同步鏡像不同步1 1、現(xiàn)象描述、現(xiàn)象描述lsvg l 發(fā)現(xiàn)有局部l

26、v的狀態(tài)是stale2 2、處理方法、處理方法檢查是否存在硬件故障。如果是，請解除鏡像、修復(fù)硬件、重做鏡像。如果不是硬件問題導(dǎo)致的不同步，那么需要在系統(tǒng)中重新建立同步關(guān)系。syncvg l 做完后檢查是否狀態(tài)都是syncd。這種情況一般不需要收集信息。信息收集時，需要收集snap ac的信息。Dump 設(shè)備太小設(shè)備太小1 1、現(xiàn)象描述、現(xiàn)象描述系統(tǒng)errpt會提示當(dāng)前的dump文件已經(jīng)超出了存放dump的空間2 2、處理方法、處理方法尋找dump 存放的位置sysdumpdev l檢查dump 需要的空間sysudmpdev e擴(kuò)大dump 設(shè)備，到達(dá)預(yù)計的大小extendlv這種情況一般不需

27、要收集信息。信息收集時，需要收集snap ac的信息。密碼喪失密碼喪失1 1、現(xiàn)象描述、現(xiàn)象描述Root或其他用戶密碼喪失2 2、處理方法、處理方法如果普通用戶密碼喪失，使用root 用戶登錄，su到普通用戶，然后執(zhí)行passwd命令修改密碼如果root用戶密碼喪失，停系統(tǒng)，使用光盤引導(dǎo)進(jìn)入maintenance模式，執(zhí)行passwd命令修改密碼這種情況不需要收集信息。系統(tǒng)有報錯信息系統(tǒng)有報錯信息1 1、現(xiàn)象描述、現(xiàn)象描述使用errpt命令發(fā)現(xiàn)有報錯信息。2 2、處理方法、處理方法如果是小型機硬件設(shè)備報錯例如sysplanner0 的錯誤，fcs的H類錯誤，網(wǎng)卡的H類錯誤，內(nèi)置磁盤的H類報錯等

28、，請聯(lián)系設(shè)備處相關(guān)維護(hù)人員進(jìn)行問題診斷和處理；如果是外置存儲磁盤和鏈路報錯例如hdisk的報錯，請聯(lián)系設(shè)備處相關(guān)維護(hù)人員進(jìn)行問題診斷和處理；如果是軟件類報錯，請聯(lián)系IBM工程師進(jìn)行分析。info類的信息可以忽略不計。在這種情況下，需要收集snap gc的信息。telnet 的響應(yīng)的響應(yīng)很慢很慢1 1、現(xiàn)象描述、現(xiàn)象描述在終端上使用telnet命令登錄AIX系統(tǒng)時，終端會過很久1，2 分鐘左右才顯示出登錄提示字符。2 2、處理方法、處理方法這種情況一般是設(shè)置了域名解析造成的。處理方法：和應(yīng)用溝通，問是否可以刪除/etc/resolv.conf文件。如果可以，就刪除它。如果不可以，編輯文件,加

29、參數(shù)c在telnet最后,如下 telnet stream tcp6 nowait root /usr/sbin/telnetd telnetd -a -c 刷新inetd效勞: # refresh -s inetd在這種情況下，不需要收集信息文件系統(tǒng)不能文件系統(tǒng)不能 umount1 1、現(xiàn)象描述、現(xiàn)象描述在umount某一文件系統(tǒng)時，終端上報文件系統(tǒng)busy，不能umount。2 2、處理方法、處理方法首先使用fuser xuc ，查看有哪些進(jìn)程占著該文件系統(tǒng)。然后使用fuser kuxc ，強制關(guān)閉占用該文件系統(tǒng)的進(jìn)程。注意：這步風(fēng)險很大。如果沒調(diào)查清楚，可能會導(dǎo)致誤殺應(yīng)用和系統(tǒng)進(jìn)程，從而

30、導(dǎo)致系統(tǒng)或應(yīng)用crash。在這種情況下，不需要收集信息TCP 網(wǎng)絡(luò)的網(wǎng)絡(luò)的 socket 端口端口不能不能釋放，始終處于釋放，始終處于 close_wait 狀態(tài)狀態(tài)1 1、現(xiàn)象描述、現(xiàn)象描述應(yīng)用已經(jīng)停止，但它所在的端口一直得不到釋放。2 2、處理方法、處理方法查看端口PCB的值：netstat An |grep 端口號去除tcpcb地址所在的socket：rmsock tcpcb 在這種情況下，不需要收集信息系統(tǒng)中包含大量的僵尸進(jìn)程系統(tǒng)中包含大量的僵尸進(jìn)程1 1、現(xiàn)象描述、現(xiàn)象描述ps Af查看到系統(tǒng)中有很多defunct進(jìn)程2 2、處理方法、處理方法用ps Af查看defunct進(jìn)程的父進(jìn)

31、程。如果父進(jìn)程是應(yīng)用進(jìn)程，那么停止該應(yīng)用進(jìn)程即可去除僵尸進(jìn)程；如果父進(jìn)程是系統(tǒng)進(jìn)程，只有重啟系統(tǒng)才能去除僵尸進(jìn)程。在這種情況下，不需要收集信息第五章第五章突發(fā)情況信息收集突發(fā)情況信息收集對于開放平臺如發(fā)生突發(fā)事件，如果現(xiàn)場不能確定問題的根本原因，在進(jìn)行應(yīng)急預(yù)案的同時，應(yīng)收集相關(guān)信息，包括故障現(xiàn)場的環(huán)境、描述、日志、診斷文件等等，以進(jìn)行事后原因分析。對于宕機，hang等問題，考慮收集trace文件。如果收集信息需要的時間較長，影響應(yīng)急生產(chǎn)恢復(fù)，那么應(yīng)保證后者的更高優(yōu)先級。5.1 DB2 需要收集的信息1.任何故障都應(yīng)收集db2pd -file -everything2.數(shù)據(jù)庫 hangdb2p

32、d -db -stack all -repeat 3db2trc on -l 128Mrecreate the problem db2trc offdb2service.perf1 ( Performance/hang data collection scripts) 本命令將用到的 script: db2service.perf13.數(shù)據(jù)庫性能問題db2 update monitor switches using bufferpool on lock on sort on statement on uow ondb2 get snapshot for dbmdb2 get snapshot

33、for all on 4.實例故障db2support . -s5.數(shù)據(jù)庫故障db2support . -d -c -s 5.2 WAS 需要收集的信息1.CPU 利用率到達(dá) 100%a)得到所有網(wǎng)絡(luò)連接的信息b)得到 CPU 利用率使用信息tprof_ps.sh tprof_psc)每隔 2 分鐘生成一個 javacorekill -3 java 的進(jìn)程號d)e)install_root/logs/server_name 的所有信息f)2.系統(tǒng)崩潰a)b)executable is /usr/WebSphere/AppServer/java/jre/bin/javacore_file_nam

34、e is the core filec)d)getlib.sh java_executable_full_path core_filename (系統(tǒng)必須安裝 dbx)e)tar cvf core_file_name core_file_namef)install_root/java/jre/bin/jextract -o core.sdff core_pathg)install_root/logs/server_name 的所有信息h)3.系統(tǒng) hung 或者性能下降a)b)c)svmon -P pid -m -r -I 60 5 svmon.out &d)tprof -k -s -e -x

35、 sleep 60e)每 2 分鐘生成一個 javacorekill -3 PID_of_hung_JVMf)g)h)i)j)k)install_root/logs/server_name,plugin-cfg.xml, _plugin.log, install_root/logs/ffdc 的所有信息4.數(shù)據(jù)庫連接問題a)檢查數(shù)據(jù)源配置情況，測試數(shù)據(jù)庫連接b)TroubleshootingLogging and TracingDiagonstic Trace Enable trace with the following specification is selectedc)Troubles

36、hootingLogging and TracingDiagonstic TraceTrace Specification Connecting to a database in V5.1:2c=all=enabled:RRA=all=enabled:WAS.database=all=enabled:Transaction=all=enabled Connecting to a database in V5.0:2c=all=enabled:RRA=all=enabled:WAS.database=all=enabled:com.ibm.ejs.jts.*=all=enabled:com.ib

37、m.ws.LocalTransaction.*=all=enabledd)Restart Application Servere)Collect the resulting trace output file5.3 MQ 需要收集的信息1.2.收集 mqs.ini 3.收集/var/mqm/errors/目錄下的日志4.收集/var/mqm/qmgrs/SYSTEM/errors/目錄下的日志5.收集/var/mqm/qmgrs/QM/errors 目錄下的日志6.MQ TRACE INSTRUCTIONS：Start trace：trace -a -j30D,30E -o /path/to/

38、trace.out -L 50000000End trace：trcstop5.4 SNA 需要收集的信息1.2.3.4.5.SNA TRACE INSTRUCTIONS：snaadmin set_log_file,log_file_type=AUDIT,file_size=20000000 snaadmin set_log_file,log_file_type=ERROR,file_size=20000000 snaadmin set_trace_file,trace_file_type=IPS,trace_file_size=100000000 snaadmin set_global_lo

39、g_type,audit=YES, exception=YES snaadmin set_global_log_type,succinct_audits=YES, succinct_errors=YES snaadmin add_dlc_trace snaadmin set_trace_type,trace_flags=NONE,api_flags=NONE 等待相應(yīng)需要的時間執(zhí)行：snagetpd -q 收集以下數(shù)據(jù)：5.5 AIX 需要收集的信息1.硬件問題導(dǎo)致的系統(tǒng)異常a)檢查系統(tǒng) errpt 報錯，觀察故障點的報錯信息b)檢查 hmc 上的報錯信息，觀察故障點的報錯信息c)觀察主機各個

40、部件的工作狀態(tài)是否正常，是否有黃燈警告2.系統(tǒng)本身損壞而導(dǎo)致的系統(tǒng)異常a)檢查系統(tǒng)的完整性 /lppchk vb)檢查操作系統(tǒng)版本是否正確 /oslevelc)觀察 errpt 中有無軟件的 coredump 生成d)如果能定位遭到破壞的文件，嘗試修復(fù)或者從備份中導(dǎo)出e)如果系統(tǒng)已經(jīng)完全無法訪問，嘗試從系統(tǒng)備份中恢復(fù)系統(tǒng)3.性能問題導(dǎo)致的系統(tǒng)異常a)檢查系統(tǒng) cpu 使用情況 vmstatb)檢查系統(tǒng)內(nèi)存使用情況 svmon -G; svmon -S; svmon Uc)檢查系統(tǒng)內(nèi)存配置情況 vmo, vmtuned)檢查系統(tǒng) paging 使用情況 topas, vmstate)檢查系統(tǒng)磁盤

41、使用情況 iostat, filemonf)檢查系統(tǒng)網(wǎng)絡(luò)使用情況 netstat, ifconfig, no, /etc/filesystems 4.數(shù)據(jù)收集a)snap -gc 收集詳細(xì)硬件信息b)snap -ac 收集詳細(xì)系統(tǒng)信息，含 dumpc)如果與 HA 相關(guān)，收集 ha 信息，snap ecd)如果與 lv 有關(guān)，收集 snap gLc；如果與 7133 有關(guān)那么執(zhí)行 snap gbLce)如果與主機性能有關(guān)，收集性能數(shù)據(jù)，這里有兩種方式第一種方式：通過 nmon注：這種方式不推薦，IBM 實驗室不支持對 nmon 數(shù)據(jù)的分析nmon 工具是分析 AIX 主機性能的工具，工具由兩局

42、部組成，一個是 nmon 采集數(shù)據(jù)的工具，一般名稱為 nmon_版本號，例如，另一個是分析結(jié)果的工具，為 excel 文件nmon analyser v33A.xls 。數(shù)據(jù)收集方法：新建 nmon 目錄/nmon，在目錄下建兩個子目錄/nmon/bin 和/nmon/data 目錄，把下載下來的 nmon 程序放到 bin 目錄下，aix 下的 nmon 可執(zhí)行文件名稱可能為：nmon_aix53執(zhí)行命令：$BINPATH/nmon_aix53 -s300 -c288 -f -m /nmon/data-s300 表示每 300 秒采集一次數(shù)據(jù)，-c288 表示采集 288 次，300*288

43、=86400 秒，剛好是 1 天的數(shù)據(jù)，這樣運行一次這個程序就會生成一個一天的數(shù)據(jù)文件，-m $DATAPATH 表示生成的數(shù)據(jù)文件的路徑-f 表示生成的數(shù)據(jù)文件名中有時間。還可在 crontab 中調(diào)用，便于每日頂峰都搜集數(shù)據(jù)，得出一段時間的性能數(shù)據(jù)，便于分析。數(shù)據(jù)使用方法：nmon 生成的文件名為 hostname_時間.nmon，把生成的數(shù)據(jù)文件傳到 Windows 機器上，翻開 nmon analyser v33A.xls，允許宏運行，導(dǎo)入該nmon 數(shù)據(jù)，那么可以進(jìn)行后續(xù)分析。第二種方式：通過 perfpmrIBM 推薦通過 perfpmr，可以獲得分區(qū)詳細(xì)的性能數(shù)據(jù)，生成數(shù)據(jù)后需要將數(shù)據(jù)提交到IBM 實驗室進(jìn)行分析。數(shù)據(jù)收集方法：將介質(zhì)傳到生產(chǎn)分區(qū)上，放入/tmp/perf53 目錄，保證該目錄有最少 12 兆空余空間，進(jìn)入該目錄,解壓，執(zhí)行。然后新建目錄/tmp/perf53/data 在該目錄下執(zhí)行600，搜集 10 分鐘數(shù)據(jù)，運行時間會增加 10%的系統(tǒng)開銷，執(zhí)行完成后，將該目錄下所有文件都打包帶上主機名，移交給 IBM 實驗室。注意，snap 的 3 個命令不能同時執(zhí)行，每次執(zhí)行完以后需要將/tmp/ibmsupt/snap.pax.Z 文件拷貝到本地，并執(zhí)行 snap -r 刪除之前收集的信息方可繼續(xù)執(zhí)行下一次 snap。

展開閱讀全文

溫馨提示:
1: 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2: 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3.本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 裝配圖網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

關(guān)于我們 - 網(wǎng)站聲明 - 網(wǎng)站地圖 - 資源地圖 - 友情鏈接 - 網(wǎng)站客服 - 聯(lián)系我們

備案號:蜀ICP備2024067431號-1 川公網(wǎng)安備51140202000466號

本站為文檔C2C交易模式，即用戶上傳的文檔直接被用戶下載，本站只是中間服務(wù)平臺，本站所有文檔下載所得的收益歸上傳人(含作者)所有。裝配圖網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對上載內(nèi)容本身不做任何修改或編輯。若文檔所含內(nèi)容侵犯了您的版權(quán)或隱私，請立即通知裝配圖網(wǎng)，我們立即給予刪除！

[計算機硬件及網(wǎng)絡(luò)]小機生產(chǎn)系統(tǒng)異常操作指南

最新文檔

相關(guān)資源

相關(guān)搜索