欧美,精品,综合,亚洲,好吊妞视频免新费观看,免费观看三级吃奶,一级a片女人自慰免费看

您當(dāng)前的位置是:  首頁 > 資訊 > 文章精選 >
 首頁 > 資訊 > 文章精選 >

DCN 學(xué)院派丨智能無損DCN,釋放AI算力巔峰

2020-03-27 16:28:35   作者:王 雷 | 華為數(shù)據(jù)中心網(wǎng)絡(luò)總裁   來源:CTI論壇   評(píng)論:0  點(diǎn)擊:


  人類社會(huì)正在進(jìn)入數(shù)字經(jīng)濟(jì)增長(zhǎng)周期。根據(jù)華為GCI調(diào)研結(jié)論,數(shù)字經(jīng)濟(jì)的增長(zhǎng)率是全球經(jīng)濟(jì)增長(zhǎng)率的2.5倍,數(shù)字經(jīng)濟(jì)的投資收益率為非數(shù)字經(jīng)濟(jì)的6.7倍,當(dāng)數(shù)據(jù)成為驅(qū)動(dòng)經(jīng)濟(jì)增長(zhǎng)的核心生產(chǎn)要素,誰掌握領(lǐng)先“數(shù)據(jù)基礎(chǔ)設(shè)施”才能贏得未來!我們知道,數(shù)據(jù)流動(dòng)起來才能產(chǎn)生價(jià)值,而數(shù)據(jù)中心網(wǎng)絡(luò)就是數(shù)據(jù)流動(dòng)的管道。那么,什么樣的數(shù)據(jù)中心網(wǎng)絡(luò)才能讓數(shù)據(jù)高效地流動(dòng)起來,這就是本文的出發(fā)點(diǎn)。
  企業(yè)數(shù)字化轉(zhuǎn)型升級(jí)
  AI點(diǎn)石成金
  人類社會(huì)的發(fā)展在經(jīng)歷了農(nóng)業(yè)時(shí)代、工業(yè)時(shí)代后,隨著信息化技術(shù)的發(fā)展,終于迎來了數(shù)字經(jīng)濟(jì)時(shí)代。據(jù)Gartner調(diào)研,75%的大型企業(yè)已經(jīng)將數(shù)字化轉(zhuǎn)型作為企業(yè)核心戰(zhàn)略。與農(nóng)業(yè)經(jīng)濟(jì)關(guān)注土地和勞動(dòng),工業(yè)經(jīng)濟(jì)關(guān)注資本和技術(shù)截然不同,數(shù)字經(jīng)濟(jì)的核心生產(chǎn)要素已經(jīng)轉(zhuǎn)變?yōu)閿?shù)據(jù)和智能。企業(yè)數(shù)字化轉(zhuǎn)型過程中產(chǎn)生大量的數(shù)據(jù),已經(jīng)成為企業(yè)核心資產(chǎn)的一部分,然而數(shù)據(jù)本身不是目的,知識(shí)和智慧才是永恒的價(jià)值。通過AI從數(shù)據(jù)中挖掘智慧,實(shí)現(xiàn)數(shù)據(jù)的商業(yè)價(jià)值變現(xiàn),成為當(dāng)前企業(yè)數(shù)字化轉(zhuǎn)型的主題。AI成為企業(yè)重塑商業(yè)模式、提升客戶體驗(yàn)和開創(chuàng)未來的關(guān)鍵推動(dòng)力。+AI,標(biāo)志著企業(yè)數(shù)字化轉(zhuǎn)型進(jìn)入了智能化新階段。
  過去的幾年來企業(yè)對(duì)AI的采用率爆發(fā)式增長(zhǎng),據(jù)華為GIV(Global Industry Vision)預(yù)測(cè),到2025年大企業(yè)對(duì)AI的采用率將達(dá)到97%。作為企業(yè)數(shù)據(jù)金礦的煉金術(shù),AI點(diǎn)石成金,成為企業(yè)數(shù)字化轉(zhuǎn)型到智能化升級(jí)成敗的關(guān)鍵。AI技術(shù)的大量使用,驅(qū)動(dòng)企業(yè)數(shù)據(jù)中心使命發(fā)生顛覆性變革。
  企業(yè)數(shù)據(jù)中心邁入AI時(shí)代
  釋放AI算力是關(guān)鍵
  企業(yè)智能化升級(jí)驅(qū)動(dòng)數(shù)據(jù)中心從云時(shí)代邁入了AI時(shí)代。相比而言,云數(shù)據(jù)中心更像是個(gè)業(yè)務(wù)支撐中心,以應(yīng)用為中心,通過云平臺(tái)實(shí)現(xiàn)IT資源的快速發(fā)放。而AI數(shù)據(jù)中心在云數(shù)據(jù)中心基礎(chǔ)上真正演進(jìn)成為商業(yè)價(jià)值中心,以數(shù)據(jù)為中心,聚焦于如何基于AI對(duì)數(shù)據(jù)進(jìn)行高效處理。
  AI驅(qū)動(dòng)DC重構(gòu)
  隨著數(shù)據(jù)中心AI時(shí)代到來,算力作為AI三大關(guān)鍵要素之一,需求更加旺盛和多樣化。算力貴、算力不足,已經(jīng)成為時(shí)代挑戰(zhàn),更高算力的GPU、AI芯片相繼涌現(xiàn)。而另一方面,由于網(wǎng)絡(luò)丟包的原因?qū)е掳嘿F的算力在實(shí)際應(yīng)用中不能有效的發(fā)揮。如果說衡量一個(gè)云數(shù)據(jù)中心的關(guān)鍵指標(biāo)是業(yè)務(wù)發(fā)放的效率,那么衡量AI數(shù)據(jù)中心的關(guān)鍵指標(biāo)就是AI運(yùn)行效率。
  如何提升AI數(shù)據(jù)中心的運(yùn)行效率?
  充足AI算力是前提。我們知道,深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)算法突破引爆了新一輪的AI浪潮,而深度學(xué)習(xí)需要到巨大的算力支撐,比如一次語音識(shí)別的AI訓(xùn)練涉及到20E(1E=1018次方)次的浮點(diǎn)計(jì)算,而谷歌機(jī)器翻譯算力需求量達(dá)到103E,即便用全世界最高性能的超級(jí)計(jì)算機(jī)Summit來計(jì)算,也需要較長(zhǎng)的時(shí)間。保證有充足的算力成為提升AI運(yùn)行效率基本前提,以AWS、華為等為代表的公有云廠商領(lǐng)導(dǎo)者正在采用x86/ARM CPU,GPU,NPU構(gòu)建業(yè)界最高性能的算力池。
  釋放算力是關(guān)鍵。以深度學(xué)習(xí)為特征的AI計(jì)算也依賴海量的數(shù)據(jù)的輸入(無論是AI訓(xùn)練樣本算據(jù)還是AI推理涉及到原始算據(jù)的輸入)。裝載算力的GPU/AI服務(wù)器只有獲得完整算據(jù)后才能進(jìn)行AI處理,否則只能空閑等待,因而數(shù)據(jù)的存取速度將直接影響算力的發(fā)揮。比如根據(jù)AWS公開數(shù)據(jù)顯示,公有云訓(xùn)練實(shí)例P3采用100GE的優(yōu)化網(wǎng)絡(luò),要比25G的TCP網(wǎng)絡(luò)在Mask R-CNN訓(xùn)練中性能提升5倍;而在推理實(shí)例G4中,利用100GE優(yōu)化網(wǎng)絡(luò),RestNet50模型推理性能提升4倍,Bert-Base模型推理性能提升多達(dá)34倍。同樣算力條件下,如何保證算力100%釋放甚至更為關(guān)鍵。
  AI數(shù)據(jù)中心架構(gòu)重塑
  0丟包的無損網(wǎng)絡(luò)成為基本訴求
  當(dāng)前的云數(shù)據(jù)中心建設(shè)基本思路是采用虛擬化技術(shù)對(duì)IT資源池化管理,通過Software Defined Everything思路完成資源的統(tǒng)一的按需自助/自動(dòng)化發(fā)放,最終實(shí)現(xiàn)Everything as a Service的云化服務(wù)形態(tài)。而為了滿足數(shù)據(jù)中心充分釋放AI算力從而使得AI高效運(yùn)行的訴求,面向AI時(shí)代的數(shù)據(jù)中心架構(gòu)正在重塑。業(yè)界提出構(gòu)建以全閃存存儲(chǔ)數(shù)據(jù)湖為核心,以GPU/AI多樣化計(jì)算為算力底座的AI時(shí)代數(shù)據(jù)中心架構(gòu),越來越得到廣泛認(rèn)可。
  AI數(shù)據(jù)中心架構(gòu)
  在AI數(shù)據(jù)中心新架構(gòu)中,作為數(shù)據(jù)中心核心組成的存儲(chǔ)和計(jì)算正在發(fā)生顛覆性的變革:全閃存化存儲(chǔ)介質(zhì)使得存儲(chǔ)時(shí)延降低百倍,GPU/AI智能計(jì)算使得計(jì)算性能提升百倍。計(jì)算和存儲(chǔ)的性能百倍提升導(dǎo)致傳統(tǒng)以太網(wǎng)的擁塞易丟包帶來的網(wǎng)絡(luò)瓶頸問題開始凸顯。根據(jù)業(yè)界統(tǒng)計(jì),即便在低于<10%鏈路帶寬的低負(fù)載流量環(huán)境下,突發(fā)流量引起的網(wǎng)絡(luò)的丟包率也接近1‰,而這1‰的丟包在AI時(shí)代會(huì)直接導(dǎo)致算力下降接近50%。隨著業(yè)務(wù)負(fù)載的增加,分布式多打一流量的增多,網(wǎng)絡(luò)丟包問題將更為嚴(yán)重。
  如何構(gòu)建一個(gè)0丟包的無損數(shù)據(jù)中心網(wǎng)絡(luò)成為面向AI時(shí)代的數(shù)據(jù)中心網(wǎng)絡(luò)的基本要求。
  業(yè)界首款內(nèi)置AI芯片的交換機(jī)
  構(gòu)筑智能無損DCN
  我們知道大規(guī)模網(wǎng)絡(luò)中,當(dāng)流量超過交換機(jī)的處理和緩存能力時(shí),傳統(tǒng)以太網(wǎng)基本的處理機(jī)制就是丟棄報(bào)文。無損網(wǎng)絡(luò)基本思路就是通過系列流量調(diào)度機(jī)制和措施,但其核心都在于控制發(fā)送端的發(fā)送速度,從而避免超過交換機(jī)處理能力的擁塞形成。
  如何根據(jù)交換機(jī)當(dāng)前的擁塞情況控制源端的發(fā)送速度?當(dāng)前業(yè)界基本的做法是在交換機(jī)端口設(shè)置隊(duì)列報(bào)文排隊(duì),一旦超過某一個(gè)閾值(臨界水線),則意味著即將發(fā)生擁塞,需要緊急向源端反送反壓降速信號(hào),從而降低發(fā)送速度規(guī)避擁塞?梢钥闯鲩撝捣浅jP(guān)鍵,它決定發(fā)送反壓信號(hào)的時(shí)機(jī),成為網(wǎng)絡(luò)中是否會(huì)發(fā)生擁塞的決定性因素,如何設(shè)置閾值是無損網(wǎng)絡(luò)技術(shù)創(chuàng)新的焦點(diǎn)。
  AS-IS傳統(tǒng)以太網(wǎng):靜態(tài)設(shè)置,粗暴反壓
  最早的無損以太交換機(jī)的基本實(shí)現(xiàn)依賴網(wǎng)絡(luò)管理員靜態(tài)設(shè)置閾值,特別考驗(yàn)管理員能力,一旦設(shè)置的太保守,可能降速太多,吞吐率很差;設(shè)置太激進(jìn)則無法起到無損的效果。為了調(diào)整好閾值往往需要有經(jīng)驗(yàn)的工程師調(diào)測(cè)1~2天,而網(wǎng)絡(luò)無法根據(jù)流量的變化動(dòng)態(tài)調(diào)整參數(shù),流量模型一旦發(fā)生變化則最優(yōu)參數(shù)失效,基本無法在大規(guī)模、多業(yè)務(wù)的AI數(shù)據(jù)中心中使用。
  TO-BE智能無損DCN:智能預(yù)測(cè),精準(zhǔn)控制
  網(wǎng)絡(luò)擁塞控制的未來在于智能化,智能預(yù)測(cè)流量的變化,并自動(dòng)設(shè)置相關(guān)的網(wǎng)絡(luò)參數(shù),從而實(shí)現(xiàn)最佳網(wǎng)絡(luò)調(diào)度。2019年初,華為發(fā)布了業(yè)界首款面向AI時(shí)代的CloudEngine數(shù)據(jù)中心交換機(jī),最大的創(chuàng)新點(diǎn)在于率先將AI芯片內(nèi)嵌交換機(jī)中,基于神經(jīng)網(wǎng)絡(luò)首創(chuàng)的iLossless擁塞控制算法,完成網(wǎng)絡(luò)的自調(diào)參、自優(yōu)化,從而克服了依賴人工參與配置參數(shù),無法動(dòng)態(tài)適應(yīng)網(wǎng)絡(luò)流量模型變化的關(guān)鍵問題,真正實(shí)現(xiàn)網(wǎng)絡(luò)0丟包,構(gòu)筑智能無損的數(shù)據(jù)中心網(wǎng)絡(luò)。
  智能無損DCN
  釋放AI算力巔峰
  基于CloudEngine交換機(jī)構(gòu)筑的智能無損DCN,網(wǎng)絡(luò)性能已經(jīng)無限逼近了理論最優(yōu)值,可以確保在任意擁塞鏈路0丟包的基礎(chǔ)上接近100%吞吐,全面釋放AI算力潛能。根據(jù)權(quán)威第三方測(cè)試機(jī)構(gòu)Tolly測(cè)試,在同樣GPU集群下,通過采用華為智能無損DCN,AI業(yè)務(wù)的訓(xùn)練效率比采用當(dāng)前業(yè)界其他網(wǎng)絡(luò)提升27%以上。
  華為智能無損DCN
  華為智能無損DCN,助力Atlas900沖擊全球算力巔峰。作為全球性能最快的AI訓(xùn)練集群Atlas 900由數(shù)千顆昇騰910 AI處理器組成的上百臺(tái)服務(wù)器節(jié)點(diǎn)互聯(lián)構(gòu)成。而其中互聯(lián)網(wǎng)絡(luò)采用由華為數(shù)據(jù)中心的CloudEngine系列交換機(jī)組成的智能無損DCN,單端口提供100Gbps的交換速率,將集群內(nèi)的所有AI服務(wù)器接入高速交換網(wǎng)絡(luò)。
  0丟包的智能無損DCN使得數(shù)據(jù)中心網(wǎng)絡(luò)實(shí)現(xiàn)三網(wǎng)融合成為可能,目前華為智能無損數(shù)據(jù)中心網(wǎng)絡(luò)AI Fabric已經(jīng)在全球互聯(lián)網(wǎng)、金融、制造等行業(yè)數(shù)字化領(lǐng)導(dǎo)者客戶的47個(gè)數(shù)據(jù)中心商用部署,成為面向AI時(shí)代的最佳數(shù)據(jù)中心網(wǎng)絡(luò)解決方案。
  DCN 學(xué)院派
  網(wǎng)絡(luò)面臨的挑戰(zhàn)與云計(jì)算、人工智能等新技術(shù)的創(chuàng)新是相生相伴的。數(shù)據(jù)中心網(wǎng)絡(luò)(DCN)一直是網(wǎng)絡(luò)新技術(shù)的前沿陣地和實(shí)驗(yàn)場(chǎng),最新的網(wǎng)絡(luò)架構(gòu)、最優(yōu)的網(wǎng)絡(luò)協(xié)議和最硬核的黑科技都在這里誕生并走向成熟,輻射并帶動(dòng)產(chǎn)業(yè)的發(fā)展。
  DCN學(xué)院派將精選優(yōu)質(zhì)內(nèi)容,分享數(shù)據(jù)中心網(wǎng)絡(luò)最新的前沿趨勢(shì)、產(chǎn)業(yè)觀點(diǎn)和技術(shù)創(chuàng)新。




 
【免責(zé)聲明】本文僅代表作者本人觀點(diǎn),與CTI論壇無關(guān)。CTI論壇對(duì)文中陳述、觀點(diǎn)判斷保持中立,不對(duì)所包含內(nèi)容的準(zhǔn)確性、可靠性或完整性提供任何明示或暗示的保證。請(qǐng)讀者僅作參考,并請(qǐng)自行承擔(dān)全部責(zé)任。

專題

CTI論壇會(huì)員企業(yè)