工業(yè)時(shí)代,電力是機(jī)械文明的基石,而邁入數(shù)字時(shí)代的今天,算力正在成為智能世界的底座。數(shù)據(jù)通過多場(chǎng)景聯(lián)接匯聚到數(shù)據(jù)中心進(jìn)行分析和應(yīng)用,驅(qū)動(dòng)產(chǎn)業(yè)升級(jí)與商業(yè)模式創(chuàng)新。作為承載數(shù)據(jù)存儲(chǔ)、分析、計(jì)算的唯一載體,數(shù)據(jù)中心貫穿了數(shù)據(jù)從生產(chǎn)要素到商業(yè)價(jià)值轉(zhuǎn)換的全流程。數(shù)據(jù)中心算力成為新的生產(chǎn)力,數(shù)據(jù)中心量綱從原有的資源規(guī)模向算力規(guī)模轉(zhuǎn)變。
本文作者
王雷
華為數(shù)據(jù)通信產(chǎn)品線
數(shù)據(jù)中心網(wǎng)絡(luò)領(lǐng)域總裁
算力的關(guān)鍵在于數(shù)據(jù)流通與處理效率,融合是必然訴求
數(shù)據(jù)中心算力是服務(wù)器對(duì)數(shù)據(jù)進(jìn)行處理后實(shí)現(xiàn)結(jié)果輸出的能力,是計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)三大資源協(xié)同能力的綜合衡量指標(biāo)。作為聯(lián)接數(shù)據(jù)中心各類資源的大動(dòng)脈,數(shù)據(jù)中心網(wǎng)絡(luò)承載著保障數(shù)據(jù)高效流通的職責(zé)。
根據(jù)聯(lián)接資源的不同,數(shù)據(jù)中心網(wǎng)絡(luò)分為:
- 通用計(jì)算網(wǎng)絡(luò):與外部用戶終端對(duì)接提供服務(wù);
- 數(shù)據(jù)存儲(chǔ)網(wǎng)絡(luò):聯(lián)接存儲(chǔ)節(jié)點(diǎn),支撐數(shù)據(jù)存儲(chǔ)、讀寫與備份;
- 高性能計(jì)算網(wǎng)絡(luò):聯(lián)接CPU/GPU服務(wù)器,支撐高性能計(jì)算或AI訓(xùn)練。
在數(shù)據(jù)流通和處理過程中,這三張網(wǎng)絡(luò)需要深度協(xié)作,保證算力的最大化釋放。通用計(jì)算網(wǎng)絡(luò)普遍采用開放的以太協(xié)議,而傳統(tǒng)集中式存儲(chǔ)區(qū)以及高性能計(jì)算區(qū)則較多采用封閉的Fibre Channel(FC)以及InfiniBand專網(wǎng)技術(shù)。三套網(wǎng)絡(luò)協(xié)議各異、架構(gòu)割裂,給數(shù)據(jù)跨節(jié)點(diǎn)和資源流通帶來阻礙。融合成為算力提升的必然要求。
三大變革驅(qū)動(dòng)數(shù)據(jù)中心網(wǎng)絡(luò)全以太化,帶來融合契機(jī)
數(shù)據(jù)中心網(wǎng)絡(luò)服務(wù)于云應(yīng)用、計(jì)算資源與存儲(chǔ)資源。三大服務(wù)對(duì)象的變革正在驅(qū)動(dòng)數(shù)據(jù)中心網(wǎng)絡(luò)向以太化演進(jìn):
云化升級(jí):
云化加速浪潮之下,企業(yè)IT架構(gòu)從本地集中式向云端分布式、甚至多云分布式演進(jìn)。開放以太架構(gòu)天然可被云靈活調(diào)用,具備良好的互通性、彈性、敏捷性以及多租戶安全能力,已經(jīng)成為通用計(jì)算網(wǎng)絡(luò)的壓倒性協(xié)議。
存儲(chǔ)全閃存化:
隨著機(jī)械硬盤向全閃存升級(jí),存儲(chǔ)介質(zhì)的讀寫性能提升了百倍。傳統(tǒng)FC最高32G/64G帶寬,不滿足全閃存高吞吐的需求,帶寬高達(dá)400GE的以太網(wǎng)成為新一代存儲(chǔ)網(wǎng)絡(luò)的事實(shí)標(biāo)準(zhǔn)。
計(jì)算單元去PCIe:
業(yè)界CPU/GPU廠商正在通過去PCIe總線突破總線的速率瓶頸,直接出以太口來提供更高算力。
在三大變革的驅(qū)動(dòng)下,以太化正在向縱深推進(jìn)。全球HPC TOP500統(tǒng)計(jì)數(shù)據(jù)表明,2016年起以太已經(jīng)超越IB成為主流。2019年,計(jì)算機(jī)行業(yè)巨頭Intel放棄了源于InfiniBand的Omni-Path高速互連網(wǎng)絡(luò)技術(shù),繼而在2021年推出了面向HPC場(chǎng)景的以太網(wǎng)交換機(jī),同時(shí)HPC套件針對(duì)RoCE進(jìn)行優(yōu)化升級(jí)。隨著全以太化的網(wǎng)絡(luò)技術(shù)的快速發(fā)展,相關(guān)測(cè)試規(guī)范與標(biāo)準(zhǔn)陸續(xù)出臺(tái),融合時(shí)間窗正式開啟。
融合之路并非坦途,全以太化數(shù)據(jù)中心網(wǎng)絡(luò)面臨三大挑戰(zhàn)
雖然業(yè)界普遍看好全以太化的趨勢(shì),但要實(shí)現(xiàn)從網(wǎng)絡(luò)性能過硬到管理配套成熟并非易事。數(shù)據(jù)中心網(wǎng)絡(luò)全以太化面臨三大挑戰(zhàn):
網(wǎng)絡(luò)丟包挑戰(zhàn):
以太網(wǎng)天然有丟包,無法滿足通信密集型HPC、高端存儲(chǔ)等場(chǎng)景下極端性能要求。
管理效率挑戰(zhàn):
近年來全球數(shù)據(jù)中心普遍采用集約化規(guī);慕ㄔO(shè)原則,中小型數(shù)據(jù)中心被大型、超大型數(shù)據(jù)中心替代。隨著管理規(guī)模的擴(kuò)張,傳統(tǒng)分散的多工具多平臺(tái)的管理模式成為網(wǎng)絡(luò)運(yùn)維的效率瓶頸。
多云多場(chǎng)景挑戰(zhàn):
一方面,為了滿足核心業(yè)務(wù)穩(wěn)定的同時(shí)快速響應(yīng)變化,企業(yè)數(shù)據(jù)中心基礎(chǔ)設(shè)施通常使用公有云-敏態(tài)業(yè)務(wù)與私有云-穩(wěn)態(tài)業(yè)務(wù)雙架構(gòu);另一方面,業(yè)務(wù)場(chǎng)景極大豐富,不僅行業(yè)間網(wǎng)絡(luò)需求迥異,同一行業(yè)內(nèi)不同業(yè)務(wù)場(chǎng)景下也有較大的不同。復(fù)雜的業(yè)務(wù)場(chǎng)景對(duì)網(wǎng)絡(luò)的開放性和服務(wù)化能力提出更高的要求。
華為超融合數(shù)據(jù)中心網(wǎng)絡(luò)CloudFabric 3.0,實(shí)現(xiàn)數(shù)據(jù)中心網(wǎng)絡(luò)三層融合
為應(yīng)對(duì)全以太化網(wǎng)絡(luò)三大挑戰(zhàn),華為推出超融合數(shù)據(jù)中心網(wǎng)絡(luò)CloudFabric 3.0解決方案,核心部件包括CloudEngine數(shù)據(jù)中心交換機(jī)與iMaster NCE網(wǎng)絡(luò)智能管控系統(tǒng);谌龑尤诤霞軜(gòu),CloudFabric 3.0可最大化保障數(shù)據(jù)的流通和處理效率,充分釋放數(shù)據(jù)中心算力:
全無損以太架構(gòu):
三張網(wǎng)統(tǒng)一為0丟包以太網(wǎng)架構(gòu),實(shí)現(xiàn)流量承載融合,打破異構(gòu)協(xié)議限制;
全生命周期自動(dòng)管理:
實(shí)現(xiàn)網(wǎng)絡(luò)管控析融合,打破多工具多平臺(tái)管理數(shù)據(jù)割裂的限制;
全場(chǎng)景服務(wù)化能力:
實(shí)現(xiàn)多業(yè)務(wù)場(chǎng)景融合,打破跨區(qū)域跨場(chǎng)景算力割裂的限制。
全以太HPC網(wǎng)絡(luò),100%釋放算力
傳統(tǒng)以太網(wǎng)丟包帶來性能瓶頸,0.1%的丟包會(huì)導(dǎo)致50%的算力損失。40多年來業(yè)界專家探索了很多路徑解決以太網(wǎng)丟包,但無一例外都失敗了:有通過流控反壓來控制流量發(fā)送速度,但粗暴的反壓機(jī)制會(huì)頻繁停發(fā)報(bào)文,導(dǎo)致吞吐量極低;在網(wǎng)絡(luò)應(yīng)用流量越來越復(fù)雜的今天,控速時(shí)機(jī)也很難把握。
華為創(chuàng)造性地將智能無損算法iLossless-DCN引入到網(wǎng)絡(luò)聯(lián)接中來,用算法代替專家經(jīng)驗(yàn)實(shí)現(xiàn)實(shí)時(shí)精準(zhǔn)控速,保證網(wǎng)絡(luò)0丟包,實(shí)現(xiàn)規(guī)模不變,算力翻番。
全以太存儲(chǔ)網(wǎng)絡(luò),存儲(chǔ)性能提升87%
對(duì)于存儲(chǔ)網(wǎng)絡(luò),金融的雙活數(shù)據(jù)中心場(chǎng)景性能要求最為嚴(yán)苛。同城數(shù)據(jù)中心之間的距離一般在30公里到70公里不等,由于長(zhǎng)距光纖數(shù)據(jù)傳輸存在靜態(tài)時(shí)延(5μs/公里),距離越長(zhǎng)時(shí)延越大,與短距場(chǎng)景相比時(shí)延增長(zhǎng)了百倍,流控復(fù)雜度指數(shù)級(jí)增加。
為此,華為推出長(zhǎng)距無損iLossless-DCI算法,在短距無損的基礎(chǔ)上增加了距離變量,基于大數(shù)據(jù)分析提前應(yīng)對(duì)流量變化,最大可實(shí)現(xiàn)100GE鏈路70公里無損傳輸,跨數(shù)據(jù)中心鏈路較FC網(wǎng)絡(luò)可減少90%。在DC內(nèi)和跨DC的同等距離場(chǎng)景下,IOPS較FC網(wǎng)絡(luò)可提升87%,時(shí)延降低42%。
全生命周期自動(dòng)化,業(yè)務(wù)秒級(jí)部署與1-3-5智能運(yùn)維
針對(duì)業(yè)界SDN“設(shè)計(jì)校驗(yàn)靠人工,配置下發(fā)才自動(dòng)”的半自動(dòng)化運(yùn)維模式,華為將數(shù)字孿生方法論引入網(wǎng)絡(luò)管理領(lǐng)域,實(shí)現(xiàn)建全生命周期的自動(dòng)化。
基于網(wǎng)絡(luò)數(shù)字建模,可綜合評(píng)估400+影響網(wǎng)絡(luò)設(shè)計(jì)的因子,可推薦最優(yōu)網(wǎng)絡(luò)設(shè)計(jì)方案并實(shí)現(xiàn)配置變更的秒級(jí)校驗(yàn)。
基于網(wǎng)絡(luò)知識(shí)圖譜,可以實(shí)現(xiàn)故障1分鐘感知,3分鐘定位和5分鐘修復(fù)。
通過大數(shù)據(jù)挖掘與建模,識(shí)別網(wǎng)絡(luò)對(duì)象與對(duì)象間的關(guān)聯(lián)關(guān)系與故障擴(kuò)散規(guī)律,感知90%潛在風(fēng)險(xiǎn)。
全場(chǎng)景服務(wù)化體驗(yàn),跨云業(yè)務(wù)部署從月到天
多云場(chǎng)景下網(wǎng)絡(luò)異構(gòu)成為常態(tài),多廠商設(shè)備往往配套多種控制器。一方面,當(dāng)跨云業(yè)務(wù)變更時(shí),需求要分解到多個(gè)控制器;如果控制器能力不滿足,則需要依賴原廠商落入版本開發(fā),周期在3~6個(gè)月不等。另一方面,企業(yè)云管平臺(tái)需要同時(shí)對(duì)接多個(gè)控制器,適配工作量巨大。南向和北向的多接口模式造成跨云網(wǎng)絡(luò)部署動(dòng)輒耗時(shí)數(shù)月,成為算力跨區(qū)流通的瓶頸。
為此,華為定義統(tǒng)一的設(shè)備網(wǎng)元模型并構(gòu)筑開放的南向框架,可實(shí)現(xiàn)跨廠商設(shè)備的統(tǒng)一管理以及設(shè)備驅(qū)動(dòng)程序的動(dòng)態(tài)加載。同時(shí),CloudFabric 3.0北向可提供上千種豐富的網(wǎng)絡(luò)API服務(wù),實(shí)現(xiàn)云管平臺(tái)側(cè)靈活網(wǎng)絡(luò)編排,業(yè)務(wù)上線周期從數(shù)月縮短至一周。
全新CloudFabric 3.0,新以太釋放新算力
數(shù)據(jù)中心集合了極其豐富的軟硬件資源,從芯片到服務(wù)器,從存儲(chǔ)設(shè)備到網(wǎng)絡(luò)設(shè)施,從平臺(tái)軟件到應(yīng)用軟件,不一而足。要構(gòu)建強(qiáng)大算力,各類資源需要高度協(xié)同,深度融合。作為融合道路上的開拓者,華為推出超融合數(shù)據(jù)中心網(wǎng)絡(luò)CloudFabric 3.0解決方案,是對(duì)CloudFabric 2.0中解決方案的無損以太和自動(dòng)駕駛網(wǎng)絡(luò)兩大能力在全以太趨勢(shì)下的擴(kuò)展與增強(qiáng)。
基于三層融合架構(gòu),超融合數(shù)據(jù)中心網(wǎng)絡(luò)CloudFabric 3.0解決方案可助力數(shù)據(jù)高效流通與處理,100%釋放算力,為數(shù)字經(jīng)濟(jì)和企業(yè)數(shù)字化轉(zhuǎn)型構(gòu)筑堅(jiān)實(shí)的算力底座。