通過IT架構的敏捷性和高可控性應對急速上升的能耗成本
今天,數(shù)據(jù)中心管理的方方面面都在飛速發(fā)展,而運營預算卻很難跟得上前進的步伐。根據(jù)統(tǒng)計,數(shù)據(jù)總量每18個月就會翻一倍,應用端負載每2年將會翻一倍,然而運營預算卻需要8年才能翻一倍。
人們一直在要求IT行業(yè)以更低的成本做到更多的事情,而近年來數(shù)據(jù)中心對動態(tài)特性的要求也越來越高。智能設備、大數(shù)據(jù)、虛擬化和云技術不斷改變數(shù)據(jù)中心提供服務的模式,因此,靈活性、彈性和可測量性也變得愈加重要。
由于這些飛速的變化,數(shù)據(jù)中心管理的各個方面也變得愈加復雜。內(nèi)部網(wǎng)絡上數(shù)以千計的設備不停連接和斷開。同時,流動的計算資源池被自動分配管理。那么,在這種超級動態(tài)的環(huán)境下,是不是說IT管理團隊就無法有效識別閑置和過載的資源了?
如果確實如此,數(shù)據(jù)中心的能耗將繼續(xù)飆升。根據(jù)自然資源保護委員會的最新報告,目前,數(shù)據(jù)中心的能耗已驚人的占到了全球能耗總量的10%。
幸運的是,即便數(shù)據(jù)中心面臨的挑戰(zhàn)如此嚴峻,IT行業(yè)也絕非無能為力。
秘密武器的發(fā)現(xiàn)
頗具諷刺意味的是,今天的數(shù)據(jù)中心大部分由基于軟件定義的資源所組成,但控制能耗成本的秘密武器反而要依賴于硬件設備。機架式與刀片式服務器、開關、配電裝置以及許多其他數(shù)據(jù)中心設備在運行過程中都會提供大量能耗與溫度信息。鑒于數(shù)據(jù)中心的龐大規(guī)模和種類繁多的硬件設備使得人工收集和應用信息資源變得十分麻煩,這也促進了能耗管理方案供應商的蓬勃發(fā)展。
因此,數(shù)據(jù)中心的管理人員如今有多種選擇。他們可以利用內(nèi)置能耗管理的管理控制臺,讓集成商將能耗管理中間件軟件集成到現(xiàn)有的管理控制臺上,或獨立部署能耗管理中間軟件方案來獲取所必需的功能。
無論采用哪種方法來部署,一整套全面的能耗管理方案可以讓IT管理團隊查看、記錄并分析研究整個數(shù)據(jù)中心的能耗與溫度運行狀態(tài)。自動采集并集中的能耗與溫度信息可以被進一步繪制成數(shù)據(jù)中心每個空間的圖像信息,這些數(shù)據(jù)可以被用于分析并識別相應的運行規(guī)律,同時了解數(shù)據(jù)中心的工作負荷與其他變化。
清晰可見、記錄存檔的電力信息能讓數(shù)據(jù)中心的管理人員對電力使用情況有基本的認知,以便對數(shù)據(jù)中心的規(guī)劃和優(yōu)化做出更有利的決策。
最優(yōu)秀的能耗管理解決方案通過結合自動監(jiān)控記錄系統(tǒng)與實時控制功能,將優(yōu)化措施提升到了一個更高的層次。例如,在條件允許的情況下,或在恰當?shù)臅r段,可以對一些服務器或機架設立限定值,以便將功率限制在一定范圍內(nèi)。對于閑置時間超過特定時長的服務器,可以將其自動轉(zhuǎn)化為較為省電的睡眠模式。電力的使用可以根據(jù)業(yè)務重心進行靈活分配,這一功能也可以有效延長停電時備用電源的維持時間。優(yōu)秀的能耗解決方案甚至可以動態(tài)調(diào)節(jié)服務器的主頻,在不對服務質(zhì)量和應用性能產(chǎn)生負面影響的情況下,將能耗降至最低水平。
關心能耗水平的數(shù)據(jù)中心會充分利用這些功能,以達成一系列運營目標,例如精確規(guī)劃工作量、節(jié)約運營成本、延長數(shù)據(jù)中心設備壽命以及達成相關環(huán)保規(guī)范。
應用情況與效果證明
客戶在實踐中揭示了幾個普遍的部署動機而且對整體能耗解決方案和其最佳實踐所能達到何種效果、以及程度提供了深入的認知。
能耗監(jiān)控:識別并了解能耗使用的高峰期,是很多公司引入能耗管理方案的源動力?蛻魝兺ㄟ^了解這些信息,能夠在高峰時段減少15%的用電量,即便在高峰時段用電需求激增的情況下,依然可以減少數(shù)據(jù)中心每月的電費支出。能耗監(jiān)控也被用于對主機托管服務及其他服務用戶進行精確計費。
提升機柜密度:機房面積也是制約很多數(shù)據(jù)中心擴張的因素之一。在缺乏實時信息的情況下,傳統(tǒng)的固定供電方式依賴電源的額定值,或基于實驗數(shù)據(jù)的非額定值。實時電力監(jiān)控普遍證明,實際功耗通常遠低于額定值。加入監(jiān)控與功率上限機制后,數(shù)據(jù)中心可以更主動地增添機架數(shù)量,在同等功率范圍下將服務器機柜密度提升60%甚至80%以上。
及時發(fā)現(xiàn)閑置或低利用率的服務器:在工作負荷高峰期,類似的“幽靈”服務器占用了多達一半的用電量。能耗管理解決方案顯示,在任何時間點,這類服務器都占到數(shù)據(jù)中心所有服務器數(shù)量的10%到15%,這一信息可幫助數(shù)據(jù)中心管理人員更好地進行合并和虛擬化,以避免這種電力與空間的浪費。
提前發(fā)現(xiàn)潛在故障:電力監(jiān)控與控制不僅能監(jiān)控危險的高溫熱點并自動發(fā)出警報,而且能在停電時增加15%的備用電源運行時間,并延長25%的業(yè)務延續(xù)時間。
先進的溫度控制:實時溫度信息采集功能可幫助繪制數(shù)據(jù)中心的直觀熱度圖像,而又不必增設昂貴的溫度傳感器。使用溫度圖像可以顯著提升數(shù)據(jù)中心的監(jiān)控效果,監(jiān)控范圍可有效覆蓋整個樓層,甚至每臺設備。。這些溫度圖還可以改善容量規(guī)劃,協(xié)助避免制冷不足或過剩。通過更強的直觀圖像與設定限定值,數(shù)據(jù)中心管理層可以更安心地提升機房運行環(huán)境溫度。環(huán)境溫度每提升1攝氏度,就能節(jié)省5%到10%的散熱成本。
有效平衡能耗與性能表現(xiàn):數(shù)據(jù)中心通過改為使用設計更為智能的處理器,在不影響或幾乎不影響性能的情況下,可以有效降低15%到20%的功率消耗。
是時候嚴肅對待能耗問題了
數(shù)據(jù)中心的硬件設施依然舉足輕重。負責分配資源給應用和服務的軟件不斷進化,這要求對硬件設備進行實時精細化監(jiān)控。能耗管理解決方案的引入恰恰使得這一監(jiān)控機制以及能耗與溫度控制成為可能,且讓IT管理部門可以有效控制電力資源,而電力支出早已成為運營預算表上最大的單獨支出。
軟件與中間件解決方案能讓數(shù)據(jù)中心管理人員有效監(jiān)控硬件及其運行狀況,進而讓自動化進程更快、更安全且更加經(jīng)濟劃算,避免導致電力費用的急劇飆升。在今天能源缺乏的數(shù)據(jù)中心里面,有能耗感知的虛擬機遷移和工作調(diào)度應該成為一種行業(yè)標準。
作者介紹:
杰夫·克勞斯先生是美國英特爾公司數(shù)據(jù)中心管理器(DCM)解決方案總經(jīng)理。在英特爾公司,杰夫?藙谒箵碛13年以上的團隊管理經(jīng)驗。他的團隊正在開拓能耗與熱量管理中間件產(chǎn)品。杰夫?藙谒瓜壬钟胁ㄊ款D大學工商管理碩士MBA學位。