云架構(gòu)對(duì)運(yùn)維系統(tǒng)的新需求和新挑戰(zhàn)
引入云計(jì)算和業(yè)務(wù)需求帶來運(yùn)維壓力
隨著越來越多的企業(yè)擁抱云計(jì)算,為了支持業(yè)務(wù)系統(tǒng)的快速上線、靈活伸縮以及更高的SLA要求,再加上有限的IT運(yùn)維成本,運(yùn)維人員將面臨比以往更大的運(yùn)維壓力。在運(yùn)維擁有海量設(shè)備且高度復(fù)雜的云數(shù)據(jù)中心環(huán)境時(shí),如何提供99.95%或以上的高質(zhì)量IT服務(wù),提升效率并降低成本,是運(yùn)維團(tuán)隊(duì)當(dāng)前面臨的最大挑戰(zhàn)。
保障高運(yùn)維質(zhì)量:云數(shù)據(jù)中心的設(shè)備規(guī)模從幾十/幾百向幾萬/幾百萬數(shù)量級(jí)演進(jìn)時(shí),海量硬件設(shè)備的使用對(duì)硬件故障的快速定位和隔離將帶來巨大挑戰(zhàn);同時(shí),采用虛擬化和分布式彈性技術(shù)也加劇了云數(shù)據(jù)中心的復(fù)雜度。這些都會(huì)導(dǎo)致運(yùn)維難度增加,小概率故障成為常態(tài)且影響加大,用戶級(jí)的99.95%或以上的服務(wù)質(zhì)量承諾(SLA)很難保障。
提高運(yùn)維效率:虛擬化技術(shù)和眾多開源技術(shù)的引入使得運(yùn)維變得越來越復(fù)雜,傳統(tǒng)人工運(yùn)維模式處理速度慢、出錯(cuò)概率高。此外,傳統(tǒng)人均50~100臺(tái)設(shè)備的維護(hù)效率,在大規(guī)模云化環(huán)境下,需要投入大量人力。
保持低運(yùn)營(yíng)成本:傳統(tǒng)IT的資源使用率通常小于20%,在云化后資源使用率有所提升,但是個(gè)性化、按需彈性需求導(dǎo)致資源碎片化、負(fù)載不平衡以及擴(kuò)容規(guī)劃不精準(zhǔn),可能會(huì)造成整體資源利用率并沒有達(dá)到規(guī)劃目標(biāo),運(yùn)維成本居高不下。
云架構(gòu)用戶體驗(yàn)保障和業(yè)務(wù)高可用帶來運(yùn)維的“不可知性”
為了提升資源的利用率,云架構(gòu)下資源是共享的,而非獨(dú)占,這與傳統(tǒng)IT完全不同。云計(jì)算通過自動(dòng)的彈性伸縮策略來實(shí)現(xiàn)資源共享與用戶體驗(yàn)及業(yè)務(wù)可用性之間的平衡,這是云計(jì)算的核心優(yōu)勢(shì)之一。但這也帶來了運(yùn)維的新需求和新挑戰(zhàn),即運(yùn)維人員往往并不知道業(yè)務(wù)系統(tǒng)具體運(yùn)行在哪個(gè)硬件上,故障定位變得非常困難,解決這種不可知性要求運(yùn)維系統(tǒng)要做到“更加全面的系統(tǒng)監(jiān)控”,從而實(shí)現(xiàn)“可知性”。
傳統(tǒng)IT系統(tǒng)和云架構(gòu)IT系統(tǒng)的混合IT架構(gòu)的統(tǒng)一運(yùn)維管理
企業(yè)IT向云架構(gòu)遷移不是一蹴而就的,而是一個(gè)長(zhǎng)期共存的過程。兩種架構(gòu)導(dǎo)致運(yùn)維工具差異大,對(duì)運(yùn)維人員也帶來了更大的挑戰(zhàn)。如何實(shí)現(xiàn)兩種IT架構(gòu)統(tǒng)一、集中的維護(hù)管理,是運(yùn)維系統(tǒng)面臨的新課題。
全自動(dòng)化要求運(yùn)維人員的角色從“運(yùn)維管理”轉(zhuǎn)變成“運(yùn)維研發(fā)”
分布式架構(gòu)的云計(jì)算系統(tǒng),其資源調(diào)度、業(yè)務(wù)伸縮、故障隔離和故障修復(fù)等都是自動(dòng)化的,不可能基于人工來完成,這已經(jīng)完全顛覆了傳統(tǒng)IT的軟件安裝部署、業(yè)務(wù)使用和管理維護(hù)模式。因此,運(yùn)維的工作不再是傳統(tǒng)的運(yùn)維管理,而是構(gòu)建自動(dòng)化運(yùn)維模型和運(yùn)維工具,這不但對(duì)運(yùn)維人員、更對(duì)運(yùn)維系統(tǒng)提出了新的要求。
智能化運(yùn)維支持IT系統(tǒng)的自動(dòng)化運(yùn)行
實(shí)現(xiàn)IT系統(tǒng)全自動(dòng)化運(yùn)行的核心在于智能。系統(tǒng)具備完善的智能,才能夠基于系統(tǒng)的狀態(tài)、用戶規(guī)模、業(yè)務(wù)體驗(yàn)質(zhì)量和策略規(guī)則等,實(shí)現(xiàn)系統(tǒng)的彈性伸縮、故障隔離和故障修復(fù)等等,這一切都要靠一個(gè)智能的管理系統(tǒng)或者運(yùn)維系統(tǒng)來完成。系統(tǒng)的智能運(yùn)維包括3個(gè)方面的核心能力:全生命周期自動(dòng)化管理;智能化故障預(yù)防、發(fā)現(xiàn)與自愈;以及智能化容量運(yùn)營(yíng)。
全生命周期自動(dòng)化管理
云數(shù)據(jù)中心的資源規(guī)模和業(yè)務(wù)規(guī)模都遠(yuǎn)遠(yuǎn)超過傳統(tǒng)數(shù)據(jù)中心。傳統(tǒng)的手工方式實(shí)現(xiàn)云資源/云服務(wù)的上線、監(jiān)控、升級(jí)、變更、擴(kuò)容、限流、降級(jí)與下線的生命周期管理時(shí),效率低下、人員誤操作風(fēng)險(xiǎn)高,自動(dòng)化手段勢(shì)在必行。通過變?nèi)斯ぬ幚頌樽詣?dòng)化處理,提升運(yùn)維的人均維護(hù)效率,滿足業(yè)務(wù)的敏捷要求,逐步向無人值守的自動(dòng)化運(yùn)維演進(jìn)。
以工作流為中心的自動(dòng)化作業(yè)平臺(tái),復(fù)雜操作簡(jiǎn)單化:自動(dòng)化作業(yè)平臺(tái)提供了把日常運(yùn)維經(jīng)驗(yàn)標(biāo)準(zhǔn)化和工具化的框架,有利于運(yùn)維經(jīng)驗(yàn)的固化與共享。通過預(yù)先配置好使用頻度較高的變更操作場(chǎng)景,比如已知典型故障的修復(fù)操作、資源池的擴(kuò)/減容、補(bǔ)丁安裝、健康檢查、合規(guī)審計(jì)與不合規(guī)項(xiàng)整改、軟件批量安裝、管理節(jié)點(diǎn)的配置備份、配置信息提取,以及設(shè)備批量上下電等,可以實(shí)現(xiàn)開箱即用,將原本很復(fù)雜的操作簡(jiǎn)單化,從而大幅提升運(yùn)維的效率,降低變更時(shí)人工誤操作的概率。通過設(shè)置分權(quán)分域與提供操作日志,可以滿足安全與審計(jì)的需求,實(shí)現(xiàn)可控、高效的運(yùn)維變更操作。
作業(yè)平臺(tái)業(yè)務(wù)流程
此外,利用平臺(tái)提供的通用框架能力,運(yùn)維人員還可以按需定制自動(dòng)化作業(yè)。運(yùn)維人員完成原子腳本開發(fā)后進(jìn)行腳本可視化編排后提交,平臺(tái)可以自動(dòng)調(diào)度和分發(fā)執(zhí)行,完成各種場(chǎng)景復(fù)雜作業(yè)的在線管理和自動(dòng)執(zhí)行。
- 標(biāo)準(zhǔn)化與一致性運(yùn)維是基礎(chǔ):由于傳統(tǒng)數(shù)據(jù)中心里的軟硬件“七國(guó)八制”,導(dǎo)致運(yùn)維系統(tǒng)需要進(jìn)行大量的兼容性配置,使整體建設(shè)的復(fù)雜度與難度倍增,難以落地。在云時(shí)代,通過使用標(biāo)準(zhǔn)化計(jì)算、存儲(chǔ)和網(wǎng)絡(luò)硬件,以及標(biāo)準(zhǔn)化軟件的安裝包、配置、權(quán)限、灰度發(fā)布策略、腳本和健康狀態(tài)等,運(yùn)維人員可以通過可視化、可預(yù)期的方式管理整個(gè)云環(huán)境,而且能夠按照預(yù)設(shè)狀態(tài)自行修正,解決傳統(tǒng)數(shù)據(jù)中心內(nèi)因?yàn)榄h(huán)境狀態(tài)不一致所導(dǎo)致的頻繁變更和人為失誤等風(fēng)險(xiǎn)。
- 硬件即插即用,定期下線:隨著數(shù)據(jù)中心規(guī)模的增長(zhǎng),手工為主的硬件識(shí)別與安裝方案將無法支撐資源的快速上線、擴(kuò)容與下線。通過即插即用技術(shù),只需要使用低技能人員將設(shè)備上架、上網(wǎng)和上電,運(yùn)維系統(tǒng)就會(huì)根據(jù)該硬件的預(yù)期狀態(tài)自動(dòng)化完成端到端硬件系統(tǒng)的部署和上線;與此同時(shí),通過云化隔離技術(shù),硬件出現(xiàn)故障時(shí)也不再需要立即解決,只需讓低技能人員定期替換即可。
- 軟件一鍵發(fā)布,7×24永遠(yuǎn)在線:隨著敏捷、分布式軟件開發(fā)部署模式的興起,相對(duì)于傳統(tǒng)數(shù)據(jù)中心,云數(shù)據(jù)中心內(nèi)的系統(tǒng)升級(jí)變得更加頻繁和復(fù)雜。通過一鍵式發(fā)布工具,實(shí)現(xiàn)從申請(qǐng)資源→發(fā)布部署→系統(tǒng)自檢→自動(dòng)化業(yè)務(wù)測(cè)試→回退/灰度上線的端到端自動(dòng)化部署,同時(shí)支持全球多數(shù)據(jù)中心百/千級(jí)實(shí)例的集中發(fā)布。
- 移動(dòng)運(yùn)維:手機(jī)端的運(yùn)維App軟件在手,專家可以隨時(shí)隨地移動(dòng)運(yùn)維,完成云資源的全生命周期管理。
智能化的故障預(yù)防、發(fā)現(xiàn)與自愈
傳統(tǒng)模式下,運(yùn)維人員的工作模式是被動(dòng)等待問題發(fā)生,然后再進(jìn)行故障處理。根據(jù)有關(guān)數(shù)據(jù)統(tǒng)計(jì),運(yùn)維人員平均每天計(jì)劃內(nèi)的工作只占50%左右,剩下的時(shí)間都是在到處救火。隨著云數(shù)據(jù)中心規(guī)模快速增長(zhǎng),運(yùn)維人員需要處理的事件量越來越大,人工救火將力不從心。這就需要一個(gè)智能的運(yùn)維平臺(tái),利用大數(shù)據(jù)關(guān)聯(lián)分析與機(jī)器學(xué)習(xí)技術(shù)為運(yùn)維系統(tǒng)賦予人工智能,提供從故障預(yù)防到故障定位、再到故障閉環(huán)的智能保障能力。
主動(dòng)故障預(yù)防:故障處理再迅速也不如不產(chǎn)生故障,尤其是在大規(guī)模云數(shù)據(jù)中心場(chǎng)景下,即便很低的故障率也會(huì)產(chǎn)生一定規(guī)模的故障,為了避免到處救火,最好的方法是做好防火工作。
關(guān)鍵措施1:減少人工操作引入故障
根據(jù)華為公司IT部門的統(tǒng)計(jì),變更操作是故障的導(dǎo)火索,超過50%的故障是由變更中的人工操作引發(fā)的。大多數(shù)的一級(jí)事故都由變更引起,主要原因是變更操作復(fù)雜,人工處理容易產(chǎn)生誤操作。因此,通過變更自動(dòng)化避免人工處理引發(fā)故障,是降低故障發(fā)生率的一個(gè)非常重要的舉措。
關(guān)鍵措施2:系統(tǒng)亞健康智能分析,提前發(fā)現(xiàn)故障隱患
利用大數(shù)據(jù)技術(shù),結(jié)合故障特征庫進(jìn)行跨數(shù)據(jù)領(lǐng)域關(guān)聯(lián)分析,提前發(fā)現(xiàn)隱患、預(yù)測(cè)故障。與自動(dòng)化策略執(zhí)行系統(tǒng)集成聯(lián)動(dòng),在用戶發(fā)覺問題前將問題解決,避免對(duì)業(yè)務(wù)造成影響。
及時(shí)故障發(fā)現(xiàn):云數(shù)據(jù)中心由于技術(shù)堆棧層次多、技術(shù)架構(gòu)復(fù)雜,如何識(shí)別故障是個(gè)很大的難點(diǎn)。構(gòu)建一個(gè)從資源到租戶體驗(yàn)端到端的監(jiān)控體系,全面掌握系統(tǒng)運(yùn)行狀態(tài)數(shù)據(jù),有助于準(zhǔn)確識(shí)別出業(yè)務(wù)系統(tǒng)響應(yīng)慢、查詢速度慢、產(chǎn)品質(zhì)量差(問題多、交易失敗率高)和用戶數(shù)量少/資源利用率低等問題的根源,推動(dòng)技術(shù)團(tuán)隊(duì)不斷改進(jìn),達(dá)到持續(xù)優(yōu)化的運(yùn)維管理目的。
關(guān)鍵措施1:構(gòu)建全鏈路、主動(dòng)、智能的全方位、多手段和多指標(biāo)監(jiān)控體系
運(yùn)維系統(tǒng)需要支持從機(jī)房設(shè)施、物理基礎(chǔ)設(shè)施、跨數(shù)據(jù)中心骨干網(wǎng)絡(luò)、虛擬化資源池到云服務(wù)和應(yīng)用的統(tǒng)一管理,實(shí)現(xiàn)多數(shù)據(jù)中心和多維度的集中監(jiān)控。
當(dāng)數(shù)據(jù)中心出現(xiàn)故障時(shí),通過系統(tǒng)運(yùn)行狀態(tài)可視化,可以快速獲取每個(gè)數(shù)據(jù)中心中資源和云服務(wù)的當(dāng)前和歷史運(yùn)行狀態(tài),可以查看的信息包括性能容量、關(guān)聯(lián)對(duì)象與告警,以及拓?fù)渑c各類日志信息。
關(guān)鍵措施2:系統(tǒng)運(yùn)行狀態(tài)可視化
在重點(diǎn)業(yè)務(wù)的服務(wù)運(yùn)營(yíng)保障中,通過可視化展示應(yīng)用拓?fù)浼捌浣】禒顟B(tài),可以使云基礎(chǔ)架構(gòu)與業(yè)務(wù)應(yīng)用的各項(xiàng)運(yùn)行指標(biāo)和變化趨勢(shì)一覽無余。
通過提供各類運(yùn)維對(duì)象的性能容量、告警統(tǒng)計(jì)與分析、資源利用率的報(bào)表,以及健康度和容量預(yù)測(cè)報(bào)告,IT運(yùn)維人員與管理人員可以利用這些信息來支撐月度/季度的運(yùn)維質(zhì)量分析和年度IT架構(gòu)規(guī)劃。
智能故障定位:云時(shí)代由于分布式和微服務(wù)化軟件架構(gòu)的流行,業(yè)務(wù)調(diào)用關(guān)系愈發(fā)復(fù)雜,出現(xiàn)故障后,對(duì)故障的快速定位形成了很大的挑戰(zhàn)。
關(guān)鍵措施1:利用業(yè)務(wù)流跟蹤系統(tǒng)快速故障定界
針對(duì)云服務(wù)微服務(wù)化后調(diào)用關(guān)系復(fù)雜和故障定位難的問題,需要有輔助定位工具來提高故障定位效率。通過對(duì)服務(wù)調(diào)用各環(huán)節(jié)SLA的監(jiān)控來快速定位故障點(diǎn),可以將故障定位的時(shí)間從小時(shí)級(jí)縮短到分鐘級(jí)。
關(guān)鍵措施2:構(gòu)建專家診斷系統(tǒng),智能根因定位、已知故障自動(dòng)化恢復(fù)處理
例行進(jìn)行故障總結(jié)分析與持續(xù)積累,通過專家診斷系統(tǒng)將專家經(jīng)驗(yàn)固化,可以實(shí)現(xiàn)故障定位的智能化和已知典型故障的自動(dòng)恢復(fù)操作。
自動(dòng)故障修復(fù):云數(shù)據(jù)中心規(guī)模的擴(kuò)大帶來了一個(gè)很大的問題——故障數(shù)量的提升。根據(jù)華為自己的數(shù)據(jù)中心運(yùn)維經(jīng)驗(yàn),一個(gè)較大規(guī)模的云數(shù)據(jù)中心,如果不進(jìn)行故障的自動(dòng)化歸類和處理,每日各種級(jí)別的故障單可能超過上千個(gè)。因此,迫切需要運(yùn)維系統(tǒng)能夠識(shí)別常見的故障,并有相關(guān)的故障自愈策略進(jìn)行匹配。當(dāng)故障發(fā)生時(shí)自動(dòng)執(zhí)行閉環(huán)策略,對(duì)于常見故障無需人工干預(yù)即可自動(dòng)閉環(huán)解決。
智能化容量運(yùn)營(yíng)提升資源利用率
傳統(tǒng)數(shù)據(jù)中心中,各業(yè)務(wù)部門獨(dú)立部署的業(yè)務(wù)系統(tǒng)無法共享,服務(wù)器的利用率小于20%。數(shù)據(jù)中心云化后,云資源能夠?qū)崿F(xiàn)資源共享和動(dòng)態(tài)調(diào)配,但同時(shí)也帶來了碎片化、負(fù)載不均衡和SLA保障困難等挑戰(zhàn)。
智能化的容量管理結(jié)合了大數(shù)據(jù)分析預(yù)測(cè)技術(shù),將云數(shù)據(jù)中心內(nèi)物理資源(如服務(wù)器、存儲(chǔ)和網(wǎng)絡(luò)等資源)和云資源(如虛擬機(jī)和塊存儲(chǔ)等)的實(shí)時(shí)容量視圖、容量快照、負(fù)載現(xiàn)狀和趨勢(shì),以及容量碎片呈現(xiàn)出來。針對(duì)資源負(fù)載不均的問題,傳統(tǒng)運(yùn)維平臺(tái)因無法進(jìn)行遷移/彈性伸縮而導(dǎo)致無法調(diào)整。而在云數(shù)據(jù)中心中,容量管理會(huì)向運(yùn)維管理員提供低負(fù)載資源的分布信息,并提供縮減資源規(guī)格的建議;資源碎片化一般會(huì)導(dǎo)致20~30%“資源不可用”的情況,容量碎片管理向運(yùn)維管理員提供各種資源規(guī)格的物理分布視圖,并提供資源調(diào)整建議,提升現(xiàn)有資源的利用率。
云資源利用率達(dá)到一定閾值時(shí),規(guī)劃人員就需要考慮未來擴(kuò)容問題。傳統(tǒng)的容量預(yù)測(cè)主要依靠人的有限經(jīng)驗(yàn)與數(shù)據(jù)來進(jìn)行不可預(yù)知的擴(kuò)容,往往會(huì)造成資源閑置率超過20~30%。而智能化的容量管理將資源的容量數(shù)據(jù)、應(yīng)用行為分析、實(shí)際性能數(shù)據(jù)以及財(cái)務(wù)信息等相結(jié)合,對(duì)業(yè)務(wù)部門的關(guān)鍵應(yīng)用對(duì)未來IT基礎(chǔ)架構(gòu)的各種資源容量的訴求進(jìn)行高度準(zhǔn)確和可靠的智能預(yù)測(cè),向規(guī)劃人員提供未來資源容量的趨勢(shì)分析,供規(guī)劃人員制定有效的采購(gòu)和擴(kuò)容計(jì)劃,滿足用戶未來資源的高效利用。
智能化的容量管理能夠?qū)崿F(xiàn)現(xiàn)狀可視、問題可察、風(fēng)險(xiǎn)可辨、未來可測(cè)和調(diào)整可控,使云數(shù)據(jù)中心內(nèi)資源的利用率提升到70%以上的水平。
開放的華為云運(yùn)維平臺(tái)
云數(shù)據(jù)中心運(yùn)維的實(shí)踐效果
運(yùn)維比較成功的云數(shù)據(jù)中心,通過自動(dòng)化和智能化的運(yùn)維體系,面對(duì)百萬級(jí)的服務(wù)器規(guī)模,在保障用戶級(jí)99.95%甚至更高服務(wù)質(zhì)量的前提下,實(shí)現(xiàn)了云數(shù)據(jù)中心運(yùn)維效率的結(jié)構(gòu)性提升:人均維護(hù)效率從傳統(tǒng)人均50~100臺(tái)提升至5000~10000臺(tái),效率提升100倍以上;而總體資源利用率從傳統(tǒng)小于20%提升至60~70%,效率提升3倍以上(見下表)。
比如,華為的研發(fā)采用云服務(wù),通過標(biāo)準(zhǔn)化、自動(dòng)化與智能化運(yùn)維,目前已做到了11人維護(hù)10萬臺(tái)設(shè)備,資源使用率從10%以下提升至40~50%。
同時(shí),自動(dòng)化、智能化和可視化運(yùn)維平臺(tái)的引入,使傳統(tǒng)運(yùn)維人員擺脫了以往機(jī)械式、重復(fù)性和低價(jià)值的日常工作,也最大限度地避免了人為錯(cuò)誤的發(fā)生,間接保障了IT服務(wù)的質(zhì)量,降低了運(yùn)營(yíng)成本。更重要的是,運(yùn)維人員可以更多地投入到有價(jià)值和創(chuàng)造性的工作中,比如架構(gòu)設(shè)計(jì)、開發(fā)以及新技術(shù)的評(píng)估和引入,以更好地支持企業(yè)的業(yè)務(wù)創(chuàng)新,更好地體現(xiàn)IT團(tuán)隊(duì)及個(gè)人在企業(yè)中的價(jià)值。
另外,通過自動(dòng)化和智能化運(yùn)維平臺(tái)的引入,能夠更好地通過工具的方式固化規(guī)范的IT運(yùn)維管理流程。通過自動(dòng)化流程的方式實(shí)現(xiàn)整體IT運(yùn)維的規(guī)范性、標(biāo)準(zhǔn)化和合規(guī)性,以此保障對(duì)業(yè)務(wù)系統(tǒng)所承諾的服務(wù)質(zhì)量(SLA),支持企業(yè)業(yè)務(wù)的健康發(fā)展。
華為云數(shù)據(jù)中心運(yùn)維解決方案最佳實(shí)踐
華為云數(shù)據(jù)中心運(yùn)維解決方案除了幫助企業(yè)構(gòu)筑一個(gè)自動(dòng)化、智能化和可視化的運(yùn)維平臺(tái)外,還引入了華為多年來的實(shí)踐經(jīng)驗(yàn),以及在新技術(shù)上探索的成果。
客戶服務(wù)中心業(yè)務(wù)服務(wù)體系
運(yùn)維經(jīng)驗(yàn)沉淀、運(yùn)維能力產(chǎn)品化
華為內(nèi)部的運(yùn)維團(tuán)隊(duì)負(fù)責(zé)維護(hù)著海量規(guī)模的華為企業(yè)云與私有云,月度進(jìn)行運(yùn)維質(zhì)量分析、運(yùn)維故障統(tǒng)計(jì)分析與經(jīng)驗(yàn)總結(jié),對(duì)于高危、重復(fù)度高的運(yùn)維操作要求實(shí)現(xiàn)操作自動(dòng)化。華為自營(yíng)的企業(yè)云采用DevOps模式來快速構(gòu)建和完善運(yùn)維能力,經(jīng)過充分驗(yàn)證后將運(yùn)維能力進(jìn)行產(chǎn)品化,納入到華為云運(yùn)維解決方案基線版本,保證華為內(nèi)部運(yùn)維的最佳實(shí)踐可以批量提供給客戶使用。比如前面提到的ECS服務(wù)調(diào)用鏈跟蹤工具,就是日常運(yùn)維經(jīng)驗(yàn)沉淀的范例之一,通過整合到運(yùn)維平臺(tái)來不斷提升運(yùn)維能力。
能力開放構(gòu)建云運(yùn)維生態(tài)
華為提供了云運(yùn)維的開發(fā)者社區(qū),通過對(duì)外開放多層次API滿足各類場(chǎng)景的應(yīng)用開發(fā)需求,支持合作伙伴在云運(yùn)維平臺(tái)上持續(xù)積累、豐富運(yùn)維的組件和工具,打造云運(yùn)維的生態(tài)。
服務(wù)層的開放:所有服務(wù)Console使用的接口都對(duì)外開放,第三方可定制符合各行業(yè)場(chǎng)景的界面和Portal。
后臺(tái)服務(wù)層的開放:所有運(yùn)維服務(wù)通過統(tǒng)一的API GateWay對(duì)外開放,第三方可以基于接口開發(fā)新的運(yùn)維工具,或?qū)拥谌竭\(yùn)維工具或系統(tǒng)。比如,基于開放的告警服務(wù)和資源管理服務(wù)開發(fā)本領(lǐng)域特有的業(yè)務(wù)拓?fù)湟晥D,并實(shí)現(xiàn)業(yè)務(wù)節(jié)點(diǎn)狀態(tài)的可視化;在混合IT架構(gòu)下,性能容量、配置信息與日志都可以通過API GateWay對(duì)接客戶自有的集中運(yùn)維管理平臺(tái),實(shí)現(xiàn)全局共享一套運(yùn)維體系。
設(shè)備接入層開放:提供南向驅(qū)動(dòng)插件框架,第三方可以自行開發(fā)設(shè)備驅(qū)動(dòng),通過驅(qū)動(dòng)管理服務(wù)動(dòng)態(tài)接入新的設(shè)備對(duì)象,比如ZOHO開發(fā)的驅(qū)動(dòng)已實(shí)現(xiàn)了非華為設(shè)備的監(jiān)控上報(bào)管理。
微服務(wù)架構(gòu)與容器化部署
華為云運(yùn)維系統(tǒng)采用微服務(wù)架構(gòu)支持容器化部署,具備良好的敏捷交付和可擴(kuò)展能力。其中敏捷交付是指每個(gè)微服務(wù)都獨(dú)立開發(fā)、發(fā)布和演進(jìn),可以快速迭代;易擴(kuò)展是指每個(gè)微服務(wù)都可以獨(dú)立部署并彈性擴(kuò)展,保證了整個(gè)運(yùn)維系統(tǒng)具備很強(qiáng)的擴(kuò)展性,在小規(guī)模時(shí)可最小化部署,然后隨著規(guī)模增長(zhǎng)按需增加資源;而支持容器化部署,則大大削減了管理節(jié)點(diǎn)的成本開銷。
全球化的技術(shù)支持體系
華為在運(yùn)營(yíng)商領(lǐng)域(CT)持續(xù)耕耘了28年,已在全球建立了完善的技術(shù)支持體系,全球設(shè)有2個(gè)GTAC和多個(gè)RTAC,培養(yǎng)出了一批又一批技術(shù)過硬的專家,在IT領(lǐng)域可以復(fù)用這套全球化的技術(shù)支持體系。
華為提供多種運(yùn)維模式供客戶選擇,包括客戶自運(yùn)維、華為現(xiàn)場(chǎng)代維或遠(yuǎn)程代維。客戶自運(yùn)維過程中遇到故障時(shí)可拔打7×24小時(shí)客服熱線,同時(shí)也可選擇部署CloudService實(shí)現(xiàn)自動(dòng)報(bào)障,以及eCare全流程監(jiān)控確?蛻魡栴}得到及時(shí)和有效的解決。
IT運(yùn)維體系全景
支持全棧式管理
借助在ICT基礎(chǔ)設(shè)施運(yùn)維領(lǐng)域的深厚積累,并充分利用自身產(chǎn)品線齊全的優(yōu)勢(shì),華為提供了涵蓋服務(wù)器、存儲(chǔ)、網(wǎng)絡(luò)、虛擬資源池、云服務(wù)和應(yīng)用在內(nèi)的完整的云數(shù)據(jù)中心管理能力,全棧的管理范圍為端到端的業(yè)務(wù)監(jiān)控、端到端的故障診斷定位,以及端到端的全生命周期自動(dòng)化等能力的構(gòu)建打下了基礎(chǔ)。
近3年來,華為云數(shù)據(jù)中心的規(guī)模實(shí)現(xiàn)了數(shù)倍增長(zhǎng),但依托這套運(yùn)維解決方案,在運(yùn)維人員增長(zhǎng)不到10%的情況下,SLA卻達(dá)到了99.6%的水平,計(jì)算資源的平均利用率也達(dá)到50%以上,很好地支撐了研發(fā)業(yè)務(wù)的敏捷高速發(fā)展。比如,在2016年國(guó)慶假期的數(shù)據(jù)中心停電檢修與版本升級(jí)變更中,涉及了分布在全國(guó)各地的11個(gè)機(jī)房、1.5萬臺(tái)物理服務(wù)器和30萬個(gè)虛擬機(jī),如果按照傳統(tǒng)的運(yùn)維能力計(jì)算,每位運(yùn)維人員只能處理3000~4000個(gè)虛擬機(jī),此次變更共需要投入100人才能實(shí)施完成;而借助智能化運(yùn)維平臺(tái)所具有的一鍵式上下電和批量版本升級(jí)操作能力,實(shí)際投入不到20人就完成了實(shí)施,每個(gè)機(jī)房上下電時(shí)長(zhǎng)縮短了一倍(由10小時(shí)縮減至5個(gè)小時(shí))。
云運(yùn)維作為云計(jì)算必不可少的組成部分,會(huì)越來越展示出其重要性,成為云計(jì)算的核心競(jìng)爭(zhēng)力之一。下一步華為將加大人工智能在云運(yùn)維的投入與實(shí)踐,讓數(shù)據(jù)中心機(jī)器人融入更多的運(yùn)維業(yè)務(wù)場(chǎng)景,替代傳統(tǒng)的手工操作,提供高度自動(dòng)化和智能化的“無人值守”式云數(shù)據(jù)中心運(yùn)維解決方案。
馬力/文