《見微知著 - 海量運維數(shù)據(jù)分析的價值 講座課件PPT》由會員分享,可在線閱讀,更多相關(guān)《見微知著 - 海量運維數(shù)據(jù)分析的價值 講座課件PPT(31頁珍藏版)》請在裝配圖網(wǎng)上搜索。
1、G O P S 2016 全 球 運 維 大 會 上 海 站見微知著 - 海量運維數(shù)據(jù)分析的價值亞當(dāng) 擎創(chuàng)信息G O P S 2016 全 球 運 維 大 會 上 海 站目錄復(fù)雜環(huán)境運維的挑戰(zhàn)1什么是海量運維數(shù)據(jù)分析2運維數(shù)據(jù)分析能力和價值3運維數(shù)據(jù)分析平臺的框架4夏洛克SharpLook ITOA5ITOA on the World6G O P S 2016 全 球 運 維 大 會 上 海 站運營數(shù)據(jù)在高速增長企業(yè)的數(shù)字化轉(zhuǎn)型運維規(guī)模爆發(fā)式增長服務(wù)器數(shù)量:“萬”級每日運營數(shù)據(jù):“TB” 級運維指標(biāo): “百萬”級典型的大型企業(yè):G O P S 2016 全 球 運 維 大 會 上 海 站運維管
2、理的需求與焦點轉(zhuǎn)向敏捷與簡潔海量監(jiān)控告警篩選生成Incident故障管理嚴(yán)重等級故障處理監(jiān)監(jiān)控系控系統(tǒng)統(tǒng)篩選篩選過濾過濾知識庫升級知識庫歷史經(jīng)驗外部資源告警規(guī)則ITSMG O P S 2016 全 球 運 維 大 會 上 海 站運維管理的需求與焦點轉(zhuǎn)向敏捷與簡潔當(dāng)今IT運維是一種大數(shù)據(jù)挑戰(zhàn)典型的大型企業(yè): 每天產(chǎn)生大約1TB 的可用性和性能管理數(shù)據(jù)Web及移動應(yīng)用所要求的研發(fā)與敏捷開發(fā),產(chǎn)生的數(shù)據(jù)量則大到難以統(tǒng)計APM文摘2012: 75%的高級IT總監(jiān)對傳統(tǒng)的管理方式感到不滿意, 30%表示他們無法預(yù)測潛在的宕機威脅可用性?性能?使用率?關(guān)鍵業(yè)務(wù)指標(biāo)?實際用戶體驗?大數(shù)據(jù)和機器學(xué)習(xí)的發(fā)展帶來
3、運維轉(zhuǎn)型的機遇企業(yè)數(shù)據(jù)的類型和數(shù)量正在以指數(shù)級速度增長IT系統(tǒng)的復(fù)雜性不斷增加大數(shù)據(jù)分析和機器學(xué)習(xí)技術(shù)的日趨成熟和商業(yè)化數(shù)據(jù)分析, 已越來越成為業(yè)務(wù)關(guān)注的重點 運維和業(yè)務(wù)線需要洞察 G O P S 2016 全 球 運 維 大 會 上 海 站目錄復(fù)雜環(huán)境運維的挑戰(zhàn)1什么是海量運維數(shù)據(jù)分析2運維數(shù)據(jù)分析能力和價值3運維數(shù)據(jù)分析平臺的框架4夏洛克SharpLook ITOA5ITOA on the World6G O P S 2016 全 球 運 維 大 會 上 海 站運用數(shù)據(jù)破案 G O P S 2016 全 球 運 維 大 會 上 海 站破案的方法論9機器數(shù)據(jù)采集搜索和索引可視化/關(guān)聯(lián)分析根本
4、原因分析故障定位及修復(fù)讓監(jiān)控具備名偵探的洞察力已有,并把服務(wù)狀態(tài)、問題影響分析等自動并理解故障的和 自動服務(wù)或依賴環(huán)境的 G O P S 2016 全 球 運 維 大 會 上 海 站目錄復(fù)雜環(huán)境運維的挑戰(zhàn)1什么是海量運維數(shù)據(jù)分析2運維數(shù)據(jù)分析能力和價值3運維數(shù)據(jù)分析平臺的框架4夏洛克SharpLook ITOA5ITOA on the World6G O P S 2016 全 球 運 維 大 會 上 海 站海量運維數(shù)據(jù)分析所需具備的能力ITOA可視化展現(xiàn)全局搜索多樣的數(shù)據(jù)采集快速提取關(guān)聯(lián)分析預(yù)測,機器學(xué)習(xí)G O P S 2016 全 球 運 維 大 會 上 海 站取得洞察力 提供洞察力大數(shù)據(jù)運
5、維首先需要通過利用所有數(shù)據(jù)(結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù))來全面了解 IT 運維活動,其中包括: 事件、日志、拓撲結(jié)構(gòu)和任何指標(biāo)。全數(shù)據(jù)采集關(guān)鍵能力:1.全平臺支持能力 主流操作系統(tǒng),數(shù)據(jù)庫,中間件,WEB容器,存儲,備份系統(tǒng)以及硬件監(jiān)控2.海量數(shù)據(jù)實時,高頻采集能力(秒采)3.自助監(jiān)控能力擴展能力 自定義腳本/模塊化的方式擴展監(jiān)控能力4.容錯,流量控制,以及采集端健康狀況以及數(shù)據(jù)完整性檢查。服務(wù)請求故障通知單變更記錄CMDB與資產(chǎn)用戶文檔與技術(shù)文檔網(wǎng)絡(luò)流量與事務(wù)處理日志文件警告/報警與事件性能指標(biāo)核心文件與內(nèi)存痕跡配置文件G O P S 2016 全 球 運 維 大 會 上 海 站海量全局搜索大數(shù)據(jù)
6、運維需要具備通過內(nèi)置的智能機制實時收集、搜索數(shù)以百萬計的數(shù)據(jù)字段,并為這些數(shù)據(jù)字段編制索引。需要像Google那樣搜索你的數(shù)據(jù) 接近與自然語言的搜尋 搜索結(jié)果能在海量數(shù)據(jù)中快速獲取 Schema on Read在搜索過程中提取字段 既時的在線查詢,立即產(chǎn)生長時間結(jié)果 用交互比對查詢,縮小事件范圍 用時間、關(guān)鍵詞與統(tǒng)計函數(shù),進行事件統(tǒng)計和分析G O P S 2016 全 球 運 維 大 會 上 海 站多維度報表14對各類運營數(shù)據(jù)(如,應(yīng)用日志,交易日志,系統(tǒng)日志)進行多維度、多角度深入分析及可視化展現(xiàn),以業(yè)務(wù)視角實時展示各種業(yè)務(wù)指標(biāo), 以及幫助關(guān)聯(lián)分析報表可從搜索結(jié)果中快速提煉G O P S 2
7、016 全 球 運 維 大 會 上 海 站15快速發(fā)現(xiàn)故障, 精準(zhǔn)告警精細化告警,避免傳統(tǒng)監(jiān)控工具因一故障而導(dǎo)致的告警風(fēng)暴,生成告警噪音大大量告警數(shù)據(jù)量告警數(shù)據(jù)精準(zhǔn)告警精準(zhǔn)告警關(guān)關(guān)聯(lián)分析聯(lián)分析關(guān)聯(lián)關(guān)聯(lián)分析分析,根本原因分析,及故障定位合并合并機機器學(xué)習(xí)器學(xué)習(xí),通過歷史數(shù)據(jù)的挖掘找出一類故障的告警,并合并合并的告警合并的告警信息信息動態(tài)基線動態(tài)基線機機器學(xué)習(xí),器學(xué)習(xí),運維人員標(biāo)注異常,從基于規(guī)則到基于學(xué)習(xí)G O P S 2016 全 球 運 維 大 會 上 海 站關(guān)聯(lián)分析及故障定位業(yè)務(wù)場景模型庫雜亂不規(guī)整的各系統(tǒng)原始數(shù)據(jù)生成特定場景的數(shù)據(jù)模型具有最優(yōu)的模型性能 告警關(guān)聯(lián)分析 拓撲關(guān)聯(lián)分析 統(tǒng)計模
8、式分析 文本模式分析 配置模式分析G O P S 2016 全 球 運 維 大 會 上 海 站故障預(yù)測學(xué)習(xí)各指標(biāo)數(shù)據(jù)間的正常算法關(guān)系一旦正常歷史規(guī)律被破壞,異常預(yù)警信號立即發(fā)出業(yè)務(wù)服務(wù)質(zhì)量仍處于“好”的區(qū)間時,問題被發(fā)現(xiàn)業(yè)務(wù)響應(yīng)時間壞好用戶請求時間業(yè)務(wù)響應(yīng)時間異常事件業(yè)務(wù)影響早期警告監(jiān)控數(shù)據(jù)正常| 沒問題?G O P S 2016 全 球 運 維 大 會 上 海 站自動服務(wù)或依賴環(huán)境的 CMDB配置管理數(shù)據(jù)庫依賴關(guān)系發(fā)現(xiàn)方式:1、基于網(wǎng)絡(luò)層的TCP連接2、基于配置文件參數(shù)3、基礎(chǔ)CMDB發(fā)現(xiàn)依賴關(guān)系加載G O P S 2016 全 球 運 維 大 會 上 海 站ITOA下的IT運維方式消除噪音
9、,精細化告警*關(guān)聯(lián)分析,故障定位ITSM日志數(shù)據(jù)故障管理問題管理變更管理組織過程資產(chǎn)動態(tài)規(guī)則及基線IT服務(wù)數(shù)據(jù)性能數(shù)據(jù)機器學(xué)習(xí)歷史數(shù)據(jù)運維標(biāo)注從基于規(guī)則到基于學(xué)習(xí)知識庫故障診斷樹ITOA系統(tǒng)系統(tǒng)預(yù)警G O P S 2016 全 球 運 維 大 會 上 海 站目錄復(fù)雜環(huán)境運維的挑戰(zhàn)1什么是海量運維數(shù)據(jù)分析2運維數(shù)據(jù)分析能力和價值3運維數(shù)據(jù)分析平臺的框架4夏洛克SharpLook ITOA5ITOA on the World6G O P S 2016 全 球 運 維 大 會 上 海 站IT運營大數(shù)據(jù)平臺框架應(yīng)用性能管理(APM)事件/變更/配置管理應(yīng)用 | 系統(tǒng) | 工作負載 | 無線 | 網(wǎng)絡(luò)
10、| 機房 | 安全 | 主機 | 存儲 | 資產(chǎn)系統(tǒng)監(jiān)控 & 日志管理IT運營大數(shù)據(jù)分析平臺業(yè)務(wù)成果能力現(xiàn)有ITOM平臺ITOA大數(shù)據(jù)平臺運維環(huán)境全局搜索可視化儀表盤數(shù)據(jù)建模知識庫機器學(xué)習(xí)主動避免服務(wù)中斷預(yù)判故障快速解決問題快速搜索應(yīng)用深度監(jiān)控決策支持能力G O P S 2016 全 球 運 維 大 會 上 海 站技術(shù)示意圖結(jié)構(gòu)化數(shù)據(jù)非結(jié)構(gòu)化數(shù)據(jù)緩存Stream EngineData queue數(shù)據(jù)采集Agent文件,telnet,rsyslog/syslog,wmi ,http,database,第三方軟件日志服務(wù)器監(jiān)控數(shù)據(jù)所在服務(wù)器流程數(shù)據(jù)所在服務(wù)器配置數(shù)據(jù)所在服務(wù)器數(shù)據(jù)持久化數(shù)據(jù)處理數(shù)據(jù)
11、采集查詢引擎分析引擎告警引擎展現(xiàn)引擎平臺管理查詢語義映射引擎(非結(jié)構(gòu)化數(shù)據(jù)查詢補充)查詢語法解釋器AST分析模型預(yù)警模型業(yè)務(wù)模型機器學(xué)習(xí)告警生成器條件管理圖表組件展現(xiàn)語法解釋器AST數(shù)據(jù)歸檔采集/處理配置健康管理G O P S 2016 全 球 運 維 大 會 上 海 站目錄復(fù)雜環(huán)境運維的挑戰(zhàn)1什么是海量運維數(shù)據(jù)分析2運維數(shù)據(jù)分析能力和價值3運維數(shù)據(jù)分析平臺的框架4SharpLook ITOA5ITOA on the World6G O P S 2016 全 球 運 維 大 會 上 海 站夏洛克SharpLook ITOA夏洛克ITOA預(yù)設(shè)豐富行業(yè)指標(biāo)分析TB級數(shù)據(jù)實時處理運營到運維五大數(shù)據(jù)全
12、覆蓋機器學(xué)習(xí)生成動態(tài)基線自然語言+SQL智能識別排障助手解決各種疑難雜癥G O P S 2016 全 球 運 維 大 會 上 海 站目錄復(fù)雜環(huán)境運維的挑戰(zhàn)1什么是海量運維數(shù)據(jù)分析2運維數(shù)據(jù)分析能力和價值3運維數(shù)據(jù)分析平臺的框架4夏洛克SharpLook ITOA5ITOA on the World6G O P S 2016 全 球 運 維 大 會 上 海 站 來源: http:/www.itoa-landscape.org/IT Operations Analytics (ITOA) on the WorldG O P S 2016 全 球 運 維 大 會 上 海 站G O P S 2016 全 球 運 維 大 會 上 海 站 To be the ngine f nnovation 人工智能(機器深度學(xué)習(xí))IT運維大數(shù)據(jù)夏洛克智能運維分析平臺創(chuàng)造具備分析和思考能力的軟件解決方案IT 運維管理的G O P S 2016 全 球 運 維 大 會 上 海 站Thanks高效運維社區(qū)開發(fā)運維聯(lián)盟榮譽出品榮譽出品G O P S 2016 全 球 運 維 大 會 上 海 站G O P S 2016 全 球 運 維 大 會 上 海 站GOPS2016 全球運維大會更多精彩