首頁>>>技術(shù)>>>計(jì)費(fèi)  計(jì)費(fèi)產(chǎn)品

探針式BOSS業(yè)務(wù)監(jiān)控系統(tǒng)實(shí)戰(zhàn)分析

唐濤 李靜 朱曄 2010/03/03

—.探針式BOSS業(yè)務(wù)監(jiān)控系統(tǒng)實(shí)戰(zhàn)分析

  運(yùn)營(yíng)商當(dāng)前的業(yè)務(wù)運(yùn)營(yíng)支撐系統(tǒng)(BOSS)存在先天不足,既沒有能力感知BOSS系統(tǒng)的運(yùn)營(yíng)狀態(tài),也沒有能力預(yù)知故障的發(fā)生。3G時(shí)代,BOSS系統(tǒng)如何才能告別“無知”,先于用戶發(fā)現(xiàn)問題,變被動(dòng)為主動(dòng),提高運(yùn)營(yíng)商業(yè)務(wù)質(zhì)量?

  3G的正式運(yùn)營(yíng),帶來了國(guó)內(nèi)三大運(yùn)營(yíng)商(中國(guó)移動(dòng)、中國(guó)聯(lián)通、中國(guó)電信)之間白熱化的競(jìng)爭(zhēng)。用戶的持有量是各運(yùn)營(yíng)商實(shí)力的一個(gè)重要衡量指標(biāo),而網(wǎng)絡(luò)質(zhì)量和業(yè)務(wù)能力則決定著運(yùn)營(yíng)商能否持有較多用戶。對(duì)網(wǎng)絡(luò)質(zhì)量和業(yè)務(wù)能力的保障涉及到運(yùn)營(yíng)商內(nèi)部多個(gè)部門以及工作環(huán)節(jié),其中業(yè)務(wù)支撐是十分重要的一環(huán):業(yè)務(wù)運(yùn)營(yíng)支撐系統(tǒng)(BOSS)故障會(huì)導(dǎo)致營(yíng)業(yè)廳關(guān)門、客戶投訴升級(jí)等重大問題的發(fā)生,嚴(yán)重影響公司業(yè)務(wù)的正常運(yùn)營(yíng)。BOSS系統(tǒng)如何實(shí)現(xiàn)對(duì)業(yè)務(wù)能力的保障?如何使運(yùn)營(yíng)商業(yè)務(wù)支撐運(yùn)營(yíng)工作全面提升?

  BOSS系統(tǒng)的先天不足

  當(dāng)前運(yùn)營(yíng)商的BOSS系統(tǒng)普遍存在著先天不足:既沒有能力感知BOSS系統(tǒng)的運(yùn)營(yíng)狀態(tài),也沒有能力預(yù)知故障的發(fā)生。很多地方運(yùn)營(yíng)商的BOSS系統(tǒng)不同于傳統(tǒng)的電信設(shè)備系統(tǒng),并不具備電信級(jí)的能力標(biāo)準(zhǔn),而是附加了很多具有中國(guó)特色、甚至各省特色的IT系統(tǒng),在可靠性與可維護(hù)性上都與電信級(jí)產(chǎn)品相差甚遠(yuǎn)。這種先天不足主要體現(xiàn)在“可監(jiān)控性差”上。各個(gè)運(yùn)營(yíng)商都經(jīng)歷過或正在經(jīng)歷著被動(dòng)的BOSS維護(hù)模式三部曲:“客戶投訴—發(fā)現(xiàn)故障—故障修復(fù)”。

  如何讓BOSS運(yùn)維人員能夠快速發(fā)現(xiàn)、有效解決業(yè)務(wù)問題,全面了解業(yè)務(wù)運(yùn)營(yíng)系統(tǒng)的各種運(yùn)營(yíng)信息以及用戶的感知呢?

  幾大運(yùn)營(yíng)商都在千方百計(jì)尋求自身BOSS業(yè)務(wù)支撐運(yùn)營(yíng)能力的提升。以中國(guó)移動(dòng)為例,中國(guó)移動(dòng)集團(tuán)公司曾經(jīng)下發(fā)過相關(guān)業(yè)務(wù)技術(shù)規(guī)范,多家省移動(dòng)公司都做過相關(guān)的嘗試。其中,上海移動(dòng)曾在BOSS系統(tǒng)改進(jìn)和提升方面取得了一定的突破,其具體方式是:直接在BOSS系統(tǒng)中增加維護(hù)代碼模式。這種做法的優(yōu)點(diǎn)是時(shí)效性強(qiáng),缺點(diǎn)是維護(hù)代碼與BOSS系統(tǒng)捆綁過于密切,難以實(shí)現(xiàn)大范圍普及。

  BOSS也能實(shí)現(xiàn)監(jiān)控

  中國(guó)移動(dòng)浙江公司在借鑒了上海移動(dòng)BOSS改進(jìn)模式的經(jīng)驗(yàn)之后,經(jīng)過為期二年的探索及驗(yàn)證,構(gòu)建了探針式BOSS業(yè)務(wù)監(jiān)控系統(tǒng)。探針式BOSS業(yè)務(wù)監(jiān)控系統(tǒng)提出了“以BOSS業(yè)務(wù)監(jiān)控為核心”的理念,采用“探針式提取、指標(biāo)引導(dǎo)、建模驅(qū)動(dòng)”的方式,打造一站式BOSS業(yè)務(wù)監(jiān)控系統(tǒng),既實(shí)現(xiàn)了對(duì)現(xiàn)有實(shí)際業(yè)務(wù)系統(tǒng)的有效監(jiān)控,也滿足了BOSS運(yùn)營(yíng)管理的需要。

  探針式BOSS業(yè)務(wù)監(jiān)控系統(tǒng)由五層組成:數(shù)據(jù)采集層、業(yè)務(wù)建模層、數(shù)據(jù)聚集層、告警管控層、分析展示層。這五個(gè)不同的層次在運(yùn)營(yíng)商業(yè)務(wù)能力的提升和運(yùn)營(yíng)管理水平的提高上都起到了什么作用呢?

  數(shù)據(jù)采集層: 是整個(gè)監(jiān)控系統(tǒng)的基礎(chǔ),用來提供核心的業(yè)務(wù)健康度建模和可用性建模所需要的平臺(tái)、應(yīng)用、業(yè)務(wù)等數(shù)據(jù)。

  系統(tǒng)數(shù)據(jù)采集共采用了三類探針:A式探針直接模擬BOSS前臺(tái)業(yè)務(wù)操作,采集BOSS門戶各種業(yè)務(wù)應(yīng)用的可用狀態(tài); B式探針負(fù)責(zé)采集A式探針發(fā)起的前臺(tái)業(yè)務(wù)所觸發(fā)的BOSS后臺(tái)數(shù)據(jù)操作日志統(tǒng)計(jì)值,以及BOSS后臺(tái)系統(tǒng)運(yùn)營(yíng)狀態(tài),并將其發(fā)送業(yè)務(wù)監(jiān)控系統(tǒng); C式探針從BOSS接入交換機(jī)中全量采集BOSS交易記錄,即第一時(shí)間采集到實(shí)際BOSS運(yùn)營(yíng)的狀態(tài)。

  綜上所述,這三類探針能夠獲取到從業(yè)務(wù)發(fā)起、業(yè)務(wù)處理、業(yè)務(wù)交易到業(yè)務(wù)完成全過程的用戶能夠感知到的所有業(yè)務(wù)數(shù)據(jù),為從用戶感知角度進(jìn)行業(yè)務(wù)監(jiān)控提供了堅(jiān)實(shí)的基礎(chǔ)。

  業(yè)務(wù)建模層: 是整個(gè)監(jiān)控系統(tǒng)的核心,是將業(yè)務(wù)進(jìn)行有形化管理、量化衡量的高效手段。該業(yè)務(wù)建模層中涵蓋了幾乎所有的BOSS管理資源要素,包括業(yè)務(wù)、應(yīng)用、服務(wù)及其他平臺(tái)類資源,這些信息都建立并實(shí)時(shí)更新于企業(yè)集中建設(shè)的符合ITIL標(biāo)準(zhǔn)的CMDB(配置資源數(shù)據(jù)庫,其中每一子項(xiàng)便是一個(gè)CI配置資源項(xiàng))中;贑MDB中動(dòng)態(tài)調(diào)整的實(shí)時(shí)CI項(xiàng)和相互關(guān)系,關(guān)聯(lián)上能夠反映業(yè)務(wù)當(dāng)前狀況的KPI指標(biāo),以結(jié)構(gòu)化的模型框架為指導(dǎo),建立完整的業(yè)務(wù)CI/KPI指標(biāo)體系,繪制出以業(yè)務(wù)為中心的BOSS系統(tǒng)視圖,全面展現(xiàn)其健康度和可用性。

  CI/KPI指標(biāo)體系的建立是以業(yè)務(wù)為主線,按照“CI業(yè)務(wù)-應(yīng)用-平臺(tái)”的分層結(jié)構(gòu),針對(duì)每一層設(shè)定支撐域、運(yùn)營(yíng)域和服務(wù)域的指標(biāo)分類標(biāo)準(zhǔn),并在這些指標(biāo)的基礎(chǔ)上通過關(guān)系推導(dǎo)和加權(quán)計(jì)算創(chuàng)建業(yè)務(wù)健康度和可用性量化模型,將業(yè)務(wù)的層層嵌套、互相關(guān)聯(lián)與后臺(tái)軟硬件平臺(tái)之間的關(guān)系都量化出來,并綜合為直觀有效的業(yè)務(wù)運(yùn)營(yíng)狀況指標(biāo); 作為監(jiān)控系統(tǒng)的核心,業(yè)務(wù)建模層為告警管控層的預(yù)警和故障定位提供了衡量基礎(chǔ)和分析邏輯,如果健康指標(biāo)超出經(jīng)驗(yàn)化閾值,業(yè)務(wù)預(yù)警可幫助維護(hù)人員將業(yè)務(wù)隱患消除于萌芽之中。

  CI/KPI模型的建立,成功地將傳統(tǒng)監(jiān)控系統(tǒng)的監(jiān)控難點(diǎn)轉(zhuǎn)變?yōu)榱咙c(diǎn),通過對(duì)模型中父子業(yè)務(wù)間關(guān)系、業(yè)務(wù)與后臺(tái)資源間關(guān)系的結(jié)構(gòu)化梳理,多維度數(shù)據(jù)的采集計(jì)算,有效量化了業(yè)務(wù)健康度指標(biāo)。同時(shí),模型中所綜合的業(yè)務(wù)可用性、業(yè)務(wù)辦理量、后臺(tái)資源使用情況等全方位信息,尤為適合公司管理人員了解業(yè)務(wù)通體運(yùn)營(yíng)情況。

  數(shù)據(jù)聚集層: 在這一層,系統(tǒng)將經(jīng)過CI/KPI模型、按不同業(yè)務(wù)規(guī)則結(jié)構(gòu)化之后的三類用戶體驗(yàn)數(shù)據(jù)進(jìn)行匯聚:業(yè)務(wù)監(jiān)控?cái)?shù)據(jù)(業(yè)務(wù)可用性、業(yè)務(wù)量、業(yè)務(wù)辦理時(shí)長(zhǎng)、業(yè)務(wù)的后臺(tái)服務(wù)器負(fù)載情況等)、配置數(shù)據(jù)(從CMDB中定時(shí)同步配置項(xiàng)信息和配置關(guān)聯(lián)信息),業(yè)務(wù)感性數(shù)據(jù)(業(yè)務(wù)量、積壓量和投訴等信息),使得運(yùn)維人員不僅能夠從IT支撐視角掌握業(yè)務(wù)運(yùn)行狀況,還能直觀了解到在當(dāng)前業(yè)務(wù)運(yùn)行情況之下客戶層面的使用感知。

圖:探針式BOSS業(yè)務(wù)監(jiān)控系統(tǒng)架構(gòu)圖

圖: 采集層探針

  告警管控層: 本層提供基于預(yù)警模型的預(yù)警管理和追根溯源的告警定位處理。

  預(yù)警模型是基于對(duì)系統(tǒng)中超過二年的業(yè)務(wù)全方位數(shù)據(jù)基于運(yùn)維經(jīng)驗(yàn)的深入挖掘分析所得。當(dāng)預(yù)警模型條件都滿足的情況下,通過工單系統(tǒng)發(fā)出相關(guān)的預(yù)警工單,使運(yùn)維人員及時(shí)處理,避免實(shí)際的業(yè)務(wù)中斷。

  告警定位處理提供了基于邏輯拓?fù)涞娜窂焦收腺Y源定位和基于業(yè)務(wù)操作耗時(shí)細(xì)分的故障環(huán)節(jié)定位功能。通過對(duì)邏輯拓?fù)渲蠾eb、中間件和數(shù)據(jù)庫層的全路徑業(yè)務(wù)模擬,能將故障具體到集群中的某個(gè)服務(wù)器和某個(gè)應(yīng)用端口; 通過包括網(wǎng)絡(luò)耗時(shí)和后臺(tái)耗時(shí)等的業(yè)務(wù)操作耗時(shí)細(xì)分,究竟是網(wǎng)絡(luò)問題還是后臺(tái)問題也就能清晰地展現(xiàn)在運(yùn)維人員面前。

  探針式業(yè)務(wù)監(jiān)控管理系統(tǒng)顛覆了傳統(tǒng)監(jiān)控系統(tǒng)的的監(jiān)控視角,將原來自下而上評(píng)估業(yè)務(wù)狀態(tài)和影響,變成了以結(jié)構(gòu)化模型框架為指導(dǎo),以對(duì)體系化的CI/KPI指標(biāo)進(jìn)行監(jiān)控來了解業(yè)務(wù)狀態(tài)、分析預(yù)警業(yè)務(wù)風(fēng)險(xiǎn)、定位業(yè)務(wù)故障。

  分析展示層: 以三維立體業(yè)務(wù)全景視圖的方式,向運(yùn)維人員直觀方便地展現(xiàn)當(dāng)前業(yè)務(wù)運(yùn)營(yíng)狀況,可一站視查看業(yè)務(wù)、邏輯、物理三個(gè)層面的運(yùn)營(yíng)特征。

  在每一層的具體業(yè)務(wù)、設(shè)備的展示上,又把性能數(shù)據(jù)、告警數(shù)據(jù)和配置信息同時(shí)展現(xiàn),實(shí)現(xiàn)了真正的業(yè)務(wù)三維立體展現(xiàn)。豐富的三維立體業(yè)務(wù)監(jiān)控視圖能夠更為有機(jī)地監(jiān)控管理業(yè)務(wù)及系統(tǒng)平臺(tái)數(shù)據(jù),大幅度提升運(yùn)維管控效率的同時(shí),極大地方便各類人員查看操作。探入式BOSS運(yùn)營(yíng)監(jiān)控實(shí)現(xiàn)了一站式的BOSS系統(tǒng)監(jiān)、管、控。

  豐富的業(yè)務(wù)三維立體展現(xiàn)和鉆取方式的層層深入分析,降低了運(yùn)維人員分析業(yè)務(wù)與支撐之間的關(guān)系難度,從而不斷改進(jìn)系統(tǒng)支撐短板,提高公司總體的業(yè)務(wù)支撐服務(wù)水平。

  探針式BOSS

  實(shí)際應(yīng)用效果


圖:業(yè)務(wù)三維立體分析展示


  經(jīng)過一段時(shí)間的系統(tǒng)運(yùn)行及不斷改善,探針式BOSS監(jiān)控系統(tǒng)對(duì)中國(guó)移動(dòng)浙江公司業(yè)務(wù)質(zhì)量的提高和運(yùn)營(yíng)能力的改善起到了相當(dāng)大的作用:

  1. 提供有效的業(yè)務(wù)問題預(yù)警

  探針式BOSS業(yè)務(wù)監(jiān)控系統(tǒng)平臺(tái)正式運(yùn)行后,平均每月針對(duì)業(yè)務(wù)效率的有效預(yù)警達(dá)29次,預(yù)警有效率和覆蓋率均達(dá)到96%以上,相關(guān)人員據(jù)此進(jìn)行主動(dòng)式運(yùn)維服務(wù),使得月均故障數(shù)下降了34%。而且,在處理效率上,根據(jù)分析系統(tǒng)正式運(yùn)行以來的告警數(shù)據(jù),發(fā)現(xiàn)趨勢(shì)預(yù)警時(shí)間點(diǎn)比原有的平臺(tái)級(jí)告警和客服報(bào)障平均提前42分鐘。

  2. 故障處理時(shí)長(zhǎng)明顯縮短

  CI/KPI模型

  系統(tǒng)試商用以來,依靠業(yè)務(wù)耗時(shí)細(xì)分、前后臺(tái)資源模型等系統(tǒng)工具,實(shí)現(xiàn)了業(yè)務(wù)故障的快速定位,明顯縮短了故障處理時(shí)長(zhǎng),與系統(tǒng)啟用前相比,業(yè)務(wù)故障處理時(shí)長(zhǎng)平均縮短了42%。

  3. 運(yùn)營(yíng)分析效率明顯提升

  探針式BOSS業(yè)務(wù)監(jiān)控系統(tǒng)為業(yè)務(wù)應(yīng)用維護(hù)和系統(tǒng)平臺(tái)維護(hù)人員提供了大量業(yè)務(wù)運(yùn)營(yíng)分析數(shù)據(jù),運(yùn)維人員原來需要分別從BOSS系統(tǒng)、平臺(tái)監(jiān)控系統(tǒng)和工作流平臺(tái)界面查看對(duì)應(yīng)的數(shù)據(jù),而今只需要IT運(yùn)營(yíng)管理系統(tǒng)一個(gè)界面就可以完成所有運(yùn)維所需數(shù)據(jù)的查看。同時(shí),通過運(yùn)營(yíng)平臺(tái)的7大類25張運(yùn)維報(bào)表的自動(dòng)生成功能,大大節(jié)約了定期業(yè)務(wù)維護(hù)的時(shí)間,有效提升了運(yùn)營(yíng)分析效率。

  4. 客戶滿意度明顯改善

  依托探針式BOSS業(yè)務(wù)監(jiān)控系統(tǒng),業(yè)務(wù)維護(hù)支撐人員的工作模式逐步轉(zhuǎn)為業(yè)務(wù)問題主動(dòng)發(fā)現(xiàn)、業(yè)務(wù)故障主動(dòng)解決。同時(shí),由于能直觀地以前臺(tái)人員視角審視業(yè)務(wù)故障和問題,維護(hù)人員更能了解內(nèi)部客戶感知,解決問題做到有的放矢,明顯改善了客戶滿意度。

  由于以業(yè)務(wù)為中心、以客戶為導(dǎo)向,探針式BOSS業(yè)務(wù)監(jiān)控系統(tǒng)使運(yùn)營(yíng)商業(yè)務(wù)支撐部門的運(yùn)維目標(biāo)與業(yè)務(wù)部門的目標(biāo)更加一致,從而共同為客戶提供優(yōu)質(zhì)的服務(wù),同時(shí)在客戶中也進(jìn)一步樹立了運(yùn)營(yíng)商優(yōu)質(zhì)服務(wù)的形象:

  對(duì)內(nèi),它轉(zhuǎn)變了業(yè)務(wù)支撐部門運(yùn)維員工的思路,從基礎(chǔ)平臺(tái)架構(gòu)的監(jiān)控向業(yè)務(wù)運(yùn)營(yíng)管理轉(zhuǎn)變,加強(qiáng)了員工對(duì)于業(yè)務(wù)的了解程度,拓展了業(yè)務(wù)支撐部門員工的發(fā)展規(guī)劃道路,并且該平臺(tái)通過自動(dòng)化監(jiān)控、準(zhǔn)確故障定位診斷功能,能夠有效減輕員工工作量,避免了監(jiān)控運(yùn)維人員陷入疲于奔命,忙于救火,增加了員工的滿意度。

  對(duì)外,它能夠及時(shí)有效、甚至提前發(fā)現(xiàn)業(yè)務(wù)的使用問題,提升業(yè)務(wù)的可用性,從而使客戶能夠更順暢地使用運(yùn)營(yíng)商提供的各項(xiàng)業(yè)務(wù),減少了實(shí)際發(fā)生業(yè)務(wù)中斷時(shí)的客戶投訴數(shù)量,提升了客戶滿意度和忠誠(chéng)度,在保持運(yùn)營(yíng)商市場(chǎng)占有率、提升服務(wù)競(jìng)爭(zhēng)力方面發(fā)揮了重要作用。

  鏈接

  當(dāng)前運(yùn)營(yíng)商BOSS系統(tǒng)面臨的主要問題

  以三大運(yùn)營(yíng)商中運(yùn)營(yíng)管理能力比較領(lǐng)先的中國(guó)移動(dòng)為例,目前中國(guó)移動(dòng)各省公司的BOSS運(yùn)營(yíng)維護(hù)管理面臨的主要問題包括:

  (1) 現(xiàn)有監(jiān)控手段比較初級(jí)

  傳統(tǒng)的BOSS監(jiān)控僅能簡(jiǎn)單地收集主機(jī)、數(shù)據(jù)庫的參數(shù)狀態(tài),不能從業(yè)務(wù)應(yīng)用的整體有機(jī)地進(jìn)行監(jiān)控和管理。

  (2) 業(yè)務(wù)應(yīng)用監(jiān)控困難

  缺乏對(duì)業(yè)務(wù)“軟故障”的監(jiān)控手段,對(duì)漸進(jìn)式的業(yè)務(wù)故障很難做到及時(shí)發(fā)現(xiàn),缺乏有效的指標(biāo)表征業(yè)務(wù)應(yīng)用的運(yùn)營(yíng)狀態(tài),往往在不知不覺中故障已經(jīng)發(fā)生。

 。3) 無法快速定位故障

  缺乏業(yè)務(wù)與后臺(tái)資源關(guān)聯(lián)模型,發(fā)生系統(tǒng)故障后不能準(zhǔn)確定位業(yè)務(wù)影響; 系統(tǒng)后臺(tái)處理仍處于“黑盒子”狀態(tài),得知業(yè)務(wù)故障后也無法快速定位故障原因,客觀上延長(zhǎng)了故障處理時(shí)間。

  (4) 運(yùn)營(yíng)信息分散,分析不到位

  業(yè)務(wù)實(shí)時(shí)效率、辦理量、成功率和服務(wù)投訴等數(shù)據(jù)分散存放在各自的生產(chǎn)系統(tǒng)中,維護(hù)人員為獲得這些信息,需不斷到生產(chǎn)系統(tǒng)的后臺(tái)上去提取數(shù)據(jù),嚴(yán)重影響了生產(chǎn)系統(tǒng)的安全性。
共 2 頁:1 2 

計(jì)算機(jī)世界報(bào)



相關(guān)閱讀:
某移動(dòng)公司NG-BOSS虛擬化云計(jì)算平臺(tái)實(shí)踐解析 2010-02-25
全業(yè)務(wù)運(yùn)營(yíng)時(shí)代 電信服務(wù)質(zhì)量如何管? 2010-02-09
新一代業(yè)務(wù)交付平臺(tái)架構(gòu)解析 2010-01-04
3G計(jì)費(fèi)系統(tǒng)建設(shè)要面向未來 2009-12-24
下一代無線網(wǎng)絡(luò)對(duì)系統(tǒng)OSS的要求 2009-12-08

分類信息:  電信_(tái)與_計(jì)費(fèi)技術(shù)