欧美,精品,综合,亚洲,好吊妞视频免新费观看,免费观看三级吃奶,一级a片女人自慰免费看

 首頁(yè) > 新聞 > 專家觀點(diǎn) >

大數(shù)據(jù)存儲(chǔ)管理系統(tǒng)面臨挑戰(zhàn)的分析探討

2014-06-09 14:41:17   作者:   來(lái)源:比特網(wǎng)   評(píng)論:0  點(diǎn)擊:


  隨著互聯(lián)網(wǎng)的不斷擴(kuò)張和云計(jì)算技術(shù)的進(jìn)一步推廣,海量的數(shù)據(jù)在個(gè)人、企業(yè)、研究機(jī)構(gòu)等源源不斷地產(chǎn)生。這些數(shù)據(jù)為日常生活提供了便利,信息網(wǎng)站可以推送用戶定制的新聞,購(gòu)物網(wǎng)站可以預(yù)先提供用戶想買(mǎi)的物品,人們可以隨時(shí)隨地分享。但是如何有效、快速、可靠地存取這些日益增長(zhǎng)的海量數(shù)據(jù)成了關(guān)鍵的問(wèn)題。傳統(tǒng)的存儲(chǔ)解決方案能提供數(shù)據(jù)的可靠性和絕對(duì)的安全性,但是面對(duì)海量的數(shù)據(jù)及其各種不同的需求,傳統(tǒng)的解決方案日益面臨越來(lái)越多的問(wèn)難,比如數(shù)據(jù)量的指數(shù)級(jí)增長(zhǎng)對(duì)不斷擴(kuò)容的存儲(chǔ)空間提出要求,實(shí)時(shí)分析海量的數(shù)據(jù)對(duì)存儲(chǔ)計(jì)算能力提出要求。一方面?zhèn)鹘y(tǒng)的存儲(chǔ)解決方案正在改變,比如多級(jí)存儲(chǔ)來(lái)不斷適應(yīng)大數(shù)據(jù)存儲(chǔ)管理系統(tǒng)的特點(diǎn)和要求,另一方面全新的存儲(chǔ)解決方案正日漸成熟,來(lái)有效滿足大數(shù)據(jù)的發(fā)展需求。

  1、大數(shù)據(jù)定義及其廣泛應(yīng)用與典型架構(gòu)

  越來(lái)越多的人可以通過(guò)網(wǎng)絡(luò)獲得包括架構(gòu)(IAAS)、平臺(tái)(PAAS)以及軟件(SAAS)等服務(wù),云計(jì)算為終端用戶提供了便捷而人性化的服務(wù),大大地降低他們的使用成本,優(yōu)化了用戶體驗(yàn),更拓展了互聯(lián)網(wǎng)企業(yè)自身的營(yíng)收業(yè)務(wù)。例如購(gòu)物網(wǎng)站通過(guò)記錄每位訪問(wèn)用戶在其網(wǎng)站上每一次的鼠標(biāo)點(diǎn)擊操作來(lái)預(yù)測(cè)用戶的喜好,并由后臺(tái)計(jì)算產(chǎn)生相關(guān)產(chǎn)品的購(gòu)物推薦,提高了廣告產(chǎn)品推廣的針對(duì)性同時(shí)也完善了個(gè)人用戶的購(gòu)物體驗(yàn)。隨著成千上萬(wàn)的終端用戶的并行訪問(wèn),僅用戶行為的跟蹤就會(huì)產(chǎn)生巨量的數(shù)據(jù),這些數(shù)據(jù)的處理與存儲(chǔ)對(duì)于互聯(lián)網(wǎng)企業(yè)的傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)來(lái)說(shuō)帶來(lái)了新的問(wèn)題和挑戰(zhàn),從而“大數(shù)據(jù)”的概念應(yīng)運(yùn)而生。所謂大數(shù)據(jù)或稱巨量資料、海量資料,指的是所涉及的資料量規(guī)模巨大到無(wú)法透過(guò)目前主流軟件工具,在合理時(shí)間內(nèi)達(dá)到擷取、管理、處理、并整理成為幫助企業(yè)經(jīng)營(yíng)決策更積極目的的資訊。

  大數(shù)據(jù)自誕生以來(lái)其規(guī)模也在不斷地發(fā)生改變,從開(kāi)始PB(PETA-BYTE)級(jí)別正快速地發(fā)展到EB(EXA-BYTE)級(jí)別,大數(shù)據(jù)規(guī)模的不斷快速擴(kuò)張是因?yàn)槠鋸V泛的數(shù)據(jù)源,這些數(shù)據(jù)有的正如前面例子所提到的,是每天線上跟蹤用戶日常行為所產(chǎn)生,或者是網(wǎng)絡(luò)中手機(jī)和傳感器數(shù)據(jù)采集而來(lái);有的則是企業(yè)自身多年以來(lái)信息積累而成,例如金融行業(yè)歷史數(shù)據(jù)來(lái)引導(dǎo)未來(lái)的投資方向,又如最大的電子商務(wù)網(wǎng)站淘寶根據(jù)其歷史記錄推出的數(shù)據(jù)魔方服務(wù)產(chǎn)品來(lái)幫助商家指定營(yíng)銷手段;有的是服務(wù)系統(tǒng)日志收集而來(lái),例如從網(wǎng)絡(luò)服務(wù)器的工作日志或者數(shù)據(jù)庫(kù)El志中提取到。這些各種各樣的數(shù)據(jù)來(lái)自不同的設(shè)備或者應(yīng)用,其格式也不盡相同,被實(shí)時(shí)或事后采集并保存到大數(shù)據(jù)存儲(chǔ)管理系統(tǒng)中,根據(jù)不同的應(yīng)用需求被大數(shù)據(jù)處理系統(tǒng)進(jìn)行離線或?qū)崟r(shí)或交互式的處理,之后可能的用途包括:(1)成為最終的數(shù)據(jù)報(bào)表反饋給應(yīng)用開(kāi)發(fā)人員或數(shù)據(jù)分析師;(2)成為快速查詢或者計(jì)算的結(jié)果反饋給前端應(yīng)用服務(wù);(3)成為更新后的數(shù)據(jù)表格傳送到數(shù)據(jù)庫(kù)中以供查詢;(4)被壓縮成備份數(shù)據(jù)存放到大數(shù)據(jù)存儲(chǔ)集群中。大數(shù)據(jù)的存儲(chǔ)與處理典型架構(gòu)(如圖1)已經(jīng)逐漸取代傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)成為數(shù)據(jù)中心核心部件,發(fā)揮著云計(jì)算時(shí)代重要的作用,并且使得數(shù)據(jù)中心發(fā)生著巨大的變化,迎接新的挑戰(zhàn)。

  2、大數(shù)據(jù)存儲(chǔ)與應(yīng)用的特點(diǎn)分析

  “大數(shù)據(jù)”是由數(shù)量巨大、結(jié)構(gòu)復(fù)雜、類型眾多數(shù)據(jù)構(gòu)成的數(shù)據(jù)集合,是基于云計(jì)算的數(shù)據(jù)處理與應(yīng)用模式,通過(guò)數(shù)據(jù)的整合共享,交叉復(fù)用形成的智力資源和知識(shí)服務(wù)能力。其常見(jiàn)特點(diǎn)可以概括為3V:Volume、Velocity、Variety(規(guī)模大、速度快、多樣性)。

  大數(shù)據(jù)具有數(shù)據(jù)規(guī)模大(Volume)且增長(zhǎng)速度快的特性,其數(shù)據(jù)規(guī)模已經(jīng)從PB級(jí)別增長(zhǎng)到EB級(jí)別,并且仍在不斷地根據(jù)實(shí)際應(yīng)用的需求和企業(yè)的再發(fā)展繼續(xù)擴(kuò)容,飛速向著ZB(ZETA-BYTE)的規(guī)模進(jìn)軍。以國(guó)內(nèi)最大的電子商務(wù)企業(yè)淘寶為例,根據(jù)淘寶網(wǎng)的數(shù)據(jù)顯示,至2011年底,淘寶網(wǎng)最高單日獨(dú)立用戶訪問(wèn)量超過(guò)1.2億人,比2010年同期增長(zhǎng)120%,注冊(cè)用戶數(shù)量超過(guò)4億,在線商品數(shù)量達(dá)到8億,頁(yè)面瀏覽量達(dá)到20億規(guī)模,淘寶網(wǎng)每天產(chǎn)生4億條產(chǎn)品信息,每天活躍數(shù)據(jù)量已經(jīng)超過(guò)50TB.所以大數(shù)據(jù)的存儲(chǔ)或者處理系統(tǒng)不僅能夠滿足當(dāng)前數(shù)據(jù)規(guī)模需求,更需要有很強(qiáng)的可擴(kuò)展性以滿足快速增長(zhǎng)的需求。

  (1)大數(shù)據(jù)的存儲(chǔ)及處理不僅在于規(guī)模之大,更加要求其傳輸及處理的響應(yīng)速度快(Velocity)。

  相對(duì)于以往較小規(guī)模的數(shù)據(jù)處理,在數(shù)據(jù)中心處理大規(guī)模數(shù)據(jù)時(shí),需要服務(wù)集群有很高的吞吐量才能夠讓巨量的數(shù)據(jù)在應(yīng)用開(kāi)發(fā)人員“可接受”的時(shí)間內(nèi)完成任務(wù)。這不僅是對(duì)于各種應(yīng)用層面的計(jì)算性能要求,更加是對(duì)大數(shù)據(jù)存儲(chǔ)管理系統(tǒng)的讀寫(xiě)吞吐量的要求。例如個(gè)人用戶在網(wǎng)站選購(gòu)自己感興趣的貨物,網(wǎng)站則根據(jù)用戶的購(gòu)買(mǎi)或者瀏覽網(wǎng)頁(yè)行為實(shí)時(shí)進(jìn)行相關(guān)廣告的推薦,這需要應(yīng)用的實(shí)時(shí)反饋;又例如電子商務(wù)網(wǎng)站的數(shù)據(jù)分析師根據(jù)購(gòu)物者在當(dāng)季搜索較為熱門(mén)的關(guān)鍵詞,為商家提供推薦的貨物關(guān)鍵字,面對(duì)每日上億的訪問(wèn)記錄要求機(jī)器學(xué)習(xí)算法在幾天內(nèi)給出較為準(zhǔn)確的推薦,否則就丟失了其失效性;更或者是出租車行駛在城市的道路上,通過(guò)GPS反饋的信息及監(jiān)控設(shè)備實(shí)時(shí)路況信息,大數(shù)據(jù)處理系統(tǒng)需要不斷地給出較為便捷路徑的選擇。這些都要求大數(shù)據(jù)的應(yīng)用層可以最快的速度,最高的帶寬從存儲(chǔ)介質(zhì)中獲得相關(guān)海量的數(shù)據(jù)。另外一方面,海量數(shù)據(jù)存儲(chǔ)管理系統(tǒng)與傳統(tǒng)的數(shù)據(jù)庫(kù)管理系統(tǒng),或者基于磁帶的備份系統(tǒng)之間也在發(fā)生數(shù)據(jù)交換,雖然這種交換實(shí)時(shí)性不高可以離線完成,但是由于數(shù)據(jù)規(guī)模的龐大,較低的數(shù)據(jù)傳輸帶寬也會(huì)降低數(shù)據(jù)傳輸?shù)男剩斐蓴?shù)據(jù)遷移瓶頸。因此大數(shù)據(jù)的存儲(chǔ)與處理的速度或是帶寬是其性能上的重要指標(biāo)。

  (2)大數(shù)據(jù)由于其來(lái)源的不同,具有數(shù)據(jù)多樣性的特點(diǎn)。

  所謂多樣性,一是指數(shù)據(jù)結(jié)構(gòu)化程度,二是指存儲(chǔ)格式,三是存儲(chǔ)介質(zhì)多樣性。對(duì)于傳統(tǒng)的數(shù)據(jù)庫(kù),其存儲(chǔ)的數(shù)據(jù)都是結(jié)構(gòu)化數(shù)據(jù),格式規(guī)整,相反大數(shù)據(jù)來(lái)源于日志、歷史數(shù)據(jù)、用戶行為記錄等等,有的是結(jié)構(gòu)化數(shù)據(jù),而更多的是半結(jié)構(gòu)化或者非結(jié)構(gòu)化數(shù)據(jù),這也正是傳統(tǒng)數(shù)據(jù)庫(kù)存儲(chǔ)技術(shù)無(wú)法適應(yīng)大數(shù)據(jù)存儲(chǔ)的重要原因之一。所謂存儲(chǔ)格式,也正是由于其數(shù)據(jù)來(lái)源不同,應(yīng)用算法繁多,數(shù)據(jù)結(jié)構(gòu)化程度不同,其格式也多種多樣。例如有的是以文本文件格式存儲(chǔ),有的則是網(wǎng)頁(yè)文件,有的是一些被序列化后的比特流文件等等。所謂存儲(chǔ)介質(zhì)多樣性是指硬件的兼容,大數(shù)據(jù)應(yīng)用需要滿足不同的響應(yīng)速度需求,因此其數(shù)據(jù)管理提倡分層管理機(jī)制,例如較為實(shí)時(shí)或者流數(shù)據(jù)的響應(yīng)可以直接從內(nèi)存或者Flash(SSD)中存取,而離線的批處理可以建立在帶有多塊磁盤(pán)的存儲(chǔ)服務(wù)器上,有的可以存放在傳統(tǒng)的SAN或者NAS網(wǎng)絡(luò)存儲(chǔ)設(shè)備上,而備份數(shù)據(jù)甚至可以存放在磁帶機(jī)上。因而大數(shù)據(jù)的存儲(chǔ)或者處理系統(tǒng)必須對(duì)多種數(shù)據(jù)及軟硬件平臺(tái)有較好的兼容性來(lái)適應(yīng)各種應(yīng)用算法或者數(shù)據(jù)提取轉(zhuǎn)換與加載(ETL)。

  3、傳統(tǒng)存儲(chǔ)在大數(shù)據(jù)應(yīng)用中面臨的挑戰(zhàn)

  作為數(shù)據(jù)存取的載體,大數(shù)據(jù)存儲(chǔ)管理系統(tǒng)與傳統(tǒng)的存儲(chǔ)系統(tǒng)仍然具有許多相似的特性,例如安全性、可用性、可靠性、可擴(kuò)性及高效性。

  1)安全性(Security)

  雖然大數(shù)據(jù)的存儲(chǔ)訪問(wèn)是位于企業(yè)的數(shù)據(jù)中心內(nèi)部,對(duì)于外部用戶已經(jīng)具有防火墻隔離功能,但是對(duì)于企業(yè)內(nèi)部來(lái)說(shuō)不同部門(mén)的數(shù)據(jù)也并非完全可以共享的,例如人事部門(mén)對(duì)于企業(yè)內(nèi)部工資的管理,或者金融企業(yè)歷史交易數(shù)據(jù)等。為每一個(gè)部門(mén)建立一個(gè)大數(shù)據(jù)的存儲(chǔ)管理平臺(tái)并不現(xiàn)實(shí),較為實(shí)用的方法是類似于傳統(tǒng)的數(shù)據(jù)庫(kù)訪問(wèn),所有部門(mén)共享一個(gè)大數(shù)據(jù)存儲(chǔ)池,通過(guò)添加必要的訪問(wèn)控制來(lái)實(shí)現(xiàn)數(shù)據(jù)訪問(wèn)的安全性。

  2)可用性(Availability)和可靠性(Reliability)

  數(shù)據(jù)的準(zhǔn)確性是作為存儲(chǔ)管理系統(tǒng)最為基礎(chǔ)的要求,對(duì)于大數(shù)據(jù)的存儲(chǔ)來(lái)說(shuō),其準(zhǔn)確性的要求可能沒(méi)有傳統(tǒng)數(shù)據(jù)庫(kù)這么高,因?yàn)槠鋽?shù)據(jù)規(guī)模龐大可以容忍較少量的數(shù)據(jù)錯(cuò)誤,但是數(shù)據(jù)準(zhǔn)確性依然是不能忽視的重要特性。傳統(tǒng)的存儲(chǔ)是通過(guò)冗余備份(例如磁盤(pán)陣列)、定期,強(qiáng)制寫(xiě)人磁盤(pán)、雙控制器來(lái)確保數(shù)據(jù)的準(zhǔn)確性,而在大數(shù)據(jù)存儲(chǔ)系統(tǒng)中則是通過(guò)其中較為簡(jiǎn)單的多副本(即冗余備份)方式做到容錯(cuò)的,一般來(lái)說(shuō)同一個(gè)機(jī)架上擁有兩份備份在不同的節(jié)點(diǎn)上,不同的機(jī)架上也有相應(yīng)的備份,從而達(dá)到數(shù)據(jù)丟失的自動(dòng)還原功能實(shí)現(xiàn)數(shù)據(jù)的可用性。而為了達(dá)到數(shù)據(jù)備份的一致性,在數(shù)據(jù)備份創(chuàng)建的過(guò)程中也有相應(yīng)的備份點(diǎn)及重傳機(jī)制作為保障。從技術(shù)方法上來(lái)說(shuō),兩者是十分相似的,甚至在大數(shù)據(jù)領(lǐng)域所采用的方法較之傳統(tǒng)的存儲(chǔ)系統(tǒng)技術(shù)更為簡(jiǎn)樸。

  3)可擴(kuò)性(Scalability)

  無(wú)論是大數(shù)據(jù)存儲(chǔ)系統(tǒng)還是傳統(tǒng)的存儲(chǔ)系統(tǒng),容量規(guī)劃都是一個(gè)重要的問(wèn)題,容量規(guī)劃一是要滿足現(xiàn)有的存儲(chǔ)空間和帶寬的需求,更重要的是考慮到系統(tǒng)擴(kuò)張后的容量升級(jí)。

  4)高效性(Efficiency)

  在存儲(chǔ)系統(tǒng)中,通過(guò)對(duì)用戶層透明的壓縮處理來(lái)實(shí)現(xiàn)空間及帶寬利用的有效性提升是一個(gè)普遍的做法,這個(gè)在傳統(tǒng)的存儲(chǔ)系統(tǒng)和大數(shù)據(jù)系統(tǒng)中都十分重要。尤其是對(duì)一些歸檔備份的數(shù)據(jù),自動(dòng)的壓縮開(kāi)啟以及不同壓縮算法的提供與選擇就顯得十分實(shí)用。

  除了以上的一些共性外,由于大數(shù)據(jù)的3V特性即Volume、Velocity、Variety(規(guī)模大、速度快、多樣性),傳統(tǒng)的數(shù)據(jù)存儲(chǔ)管理系統(tǒng)面臨著更多的挑戰(zhàn),有些甚至已經(jīng)完全不能滿足大數(shù)據(jù)的存儲(chǔ)計(jì)算的要求,而需要開(kāi)發(fā)新的針對(duì)大數(shù)據(jù)的數(shù)據(jù)存儲(chǔ)管理平臺(tái),如表1所示。

  5)擴(kuò)容方式

  雖然傳統(tǒng)存儲(chǔ)系統(tǒng)和大數(shù)據(jù)存儲(chǔ)系統(tǒng)都具有可擴(kuò)性,但是其擴(kuò)展方式是截然不同的。傳統(tǒng)存儲(chǔ)是縱向擴(kuò)容(Scale-up)即當(dāng)存儲(chǔ)容量不夠或者存儲(chǔ)磁盤(pán)帶寬不夠時(shí),在SAN或者NAS存儲(chǔ)池中繼續(xù)添加磁盤(pán)(Hard-drive)來(lái)達(dá)到增加容量和帶寬的作用,但是大數(shù)據(jù)時(shí)代縱向擴(kuò)容方式是無(wú)法滿足其需求的。首先,大數(shù)據(jù)的數(shù)據(jù)規(guī)模目前已經(jīng)是EB(EXA-BYTE)級(jí)別,將來(lái)甚至?xí)_(dá)到ZB(ZETA-BYTE),這個(gè)數(shù)量級(jí)別的存儲(chǔ)容量是無(wú)法通過(guò)單純的往網(wǎng)絡(luò)存儲(chǔ)池添加硬盤(pán)來(lái)實(shí)現(xiàn)的。其次,即使可以通過(guò)縱向擴(kuò)容達(dá)到更大數(shù)據(jù)規(guī)模的需求,其高額的硬件及管理軟件成本也是數(shù)據(jù)存儲(chǔ)管理中心無(wú)法承擔(dān)的。因此,對(duì)于大數(shù)據(jù)存儲(chǔ)系統(tǒng)來(lái)說(shuō)橫向擴(kuò)張才能夠很好的達(dá)到巨量數(shù)據(jù)規(guī)模的需求,才能夠?qū)崿F(xiàn)存儲(chǔ)系統(tǒng)的按需(ON-DEMAND)動(dòng)態(tài)規(guī)模增減。所謂的橫向擴(kuò)容是指當(dāng)存儲(chǔ)容量或者帶寬不足以滿足現(xiàn)有要求足時(shí),添加存儲(chǔ)節(jié)點(diǎn)來(lái)達(dá)到擴(kuò)容的目的。在大數(shù)據(jù)的應(yīng)用領(lǐng)域,每一個(gè)節(jié)點(diǎn)不需要高價(jià)的磁盤(pán)陣列(RAID),相反只需要一定數(shù)量的各種類型的硬盤(pán)以獨(dú)立工作單元方式進(jìn)行管理(即JBOD存儲(chǔ)設(shè)備)。根據(jù)Google的設(shè)想,這些節(jié)點(diǎn)甚至可以是一些成本較為低廉的日常用機(jī)器(甚至是臺(tái)式機(jī))。橫向擴(kuò)容意味著數(shù)據(jù)管理軟件將要統(tǒng)籌更多的節(jié)點(diǎn),面對(duì)更大的壓力。例如如果采用集中式的主節(jié)點(diǎn)管理,主節(jié)點(diǎn)的能力可能成為整個(gè)大數(shù)據(jù)存儲(chǔ)系統(tǒng)的性能瓶頸,尤其是當(dāng)規(guī)模的擴(kuò)大到成千上萬(wàn)個(gè)節(jié)點(diǎn)時(shí),單管理節(jié)點(diǎn)的模式是不可靠的;如果采用分布式主節(jié)點(diǎn)群管理,軟件的開(kāi)發(fā)成本和系統(tǒng)本身的復(fù)雜度相應(yīng)就會(huì)提高。

  6)存儲(chǔ)模式

  傳統(tǒng)的存儲(chǔ)系統(tǒng)是依賴于SAN或者NAS這樣的網(wǎng)絡(luò)存儲(chǔ)模式,這樣的存儲(chǔ)模式存在著如上所述縱向擴(kuò)容瓶頸,更重要的是它們將計(jì)算節(jié)點(diǎn)與存儲(chǔ)節(jié)點(diǎn)分隔開(kāi),通過(guò)網(wǎng)絡(luò)來(lái)共享一個(gè)或多個(gè)存儲(chǔ)池,最終使得數(shù)據(jù)的存取速度被限制在網(wǎng)絡(luò)的瓶頸上,即使通過(guò)縱向擴(kuò)容其存儲(chǔ)池容量和帶寬都得到了提高,最終卻受限于它們與數(shù)據(jù)處理節(jié)點(diǎn)之間的網(wǎng)絡(luò)帶寬上。而對(duì)于大數(shù)據(jù)的處理和存取來(lái)說(shuō),最終的速度都受制于SAN或者NAS的物理網(wǎng)絡(luò)帶寬,這是遠(yuǎn)遠(yuǎn)無(wú)法滿足EB級(jí)別數(shù)據(jù)規(guī)模的需求的。因?yàn)榫W(wǎng)絡(luò)存儲(chǔ)對(duì)于大數(shù)據(jù)意味著當(dāng)計(jì)算發(fā)生時(shí),PB或者EB級(jí)別的數(shù)據(jù)需要通過(guò)SAN或者NAS的網(wǎng)絡(luò)搬遷到計(jì)算節(jié)點(diǎn)上進(jìn)行各種應(yīng)用的處理,然后再將結(jié)果返回,而這樣巨量數(shù)據(jù)的搬遷本身也許比起計(jì)算應(yīng)用更加耗時(shí)。所以目前大數(shù)據(jù)存儲(chǔ)系統(tǒng)普遍采用的是DAS的方式,并且將計(jì)算資源搬遷到數(shù)據(jù)的存儲(chǔ)節(jié)點(diǎn)上發(fā)生,但是簡(jiǎn)單的DAS方式仍然給存儲(chǔ)管理系統(tǒng)的軟件層增加了許多的新問(wèn)題,例如通過(guò)網(wǎng)絡(luò)的跨節(jié)點(diǎn)數(shù)據(jù)訪問(wèn)管理,存儲(chǔ)數(shù)據(jù)塊的管理等。

  7)兼容集成

  對(duì)于大數(shù)據(jù)存儲(chǔ)系統(tǒng)的兼容集成特性涉及到若干方面,首先正由大數(shù)據(jù)的多樣性特點(diǎn)所決定,其存儲(chǔ)系統(tǒng)需要兼容各種種類的數(shù)據(jù),有結(jié)構(gòu)化、半結(jié)構(gòu)化及非結(jié)構(gòu)化數(shù)據(jù),而傳統(tǒng)的數(shù)據(jù)庫(kù)存儲(chǔ)則是管理結(jié)構(gòu)化的關(guān)系型數(shù)據(jù),其數(shù)據(jù)的種類比較單一;其次,大數(shù)據(jù)的存儲(chǔ)需要和各種數(shù)據(jù)源和數(shù)據(jù)存儲(chǔ)系統(tǒng)整合集成系統(tǒng)工作,正如之前典型的架構(gòu)所列舉,其數(shù)據(jù)交換接口需要兼容各種數(shù)據(jù)傳輸機(jī)制才能夠很好的服務(wù)數(shù)據(jù)中心的各種需求;再者,大數(shù)據(jù)計(jì)算要對(duì)大量的數(shù)據(jù)提供各種有效服務(wù),例如有些批處理(Batch.style)數(shù)據(jù)分析或者機(jī)器學(xué)習(xí)算法需要處理大量的數(shù)據(jù),有些交互式(Interactive-access)的數(shù)據(jù)訪問(wèn)或者查詢需要快速返回;有些流式(streaming)計(jì)算的及時(shí)運(yùn)算與響應(yīng),這些計(jì)算服務(wù)的數(shù)據(jù)都被存放在統(tǒng)一的大數(shù)據(jù)存儲(chǔ)系統(tǒng)之上,因?yàn)榉磸?fù)的搬遷大規(guī)模的數(shù)據(jù)對(duì)于任何大數(shù)據(jù)應(yīng)用來(lái)說(shuō)都是降低效率的致命短板,所以基于大數(shù)據(jù)的存儲(chǔ)系統(tǒng)可以支持各種上層應(yīng)用的需求,提供統(tǒng)一或者兼容性強(qiáng)的讀寫(xiě)接口;第四,大數(shù)據(jù)存儲(chǔ)管理系統(tǒng)需要支持各種介質(zhì)的存儲(chǔ)設(shè)備來(lái)滿足上層各種應(yīng)用的需求。例如對(duì)于經(jīng)常訪問(wèn)的熱點(diǎn)數(shù)據(jù),存儲(chǔ)系統(tǒng)可以從磁盤(pán)讀取數(shù)據(jù)的同時(shí)將數(shù)據(jù)緩存存放在內(nèi)存或者Flash(SSD)中,這要求大數(shù)據(jù)的存儲(chǔ)系統(tǒng)支持多級(jí)緩存操作,并且很好的兼容各種硬件存儲(chǔ)設(shè)備。

  8)故障維護(hù)

  相較于傳統(tǒng)存儲(chǔ)系統(tǒng),大數(shù)據(jù)的存儲(chǔ)系統(tǒng)成本不僅僅意味著花費(fèi)的多少,更多的涉及到其可用性。當(dāng)數(shù)據(jù)管理系統(tǒng)的硬件規(guī)模達(dá)到成千上萬(wàn)時(shí),每一個(gè)節(jié)點(diǎn)和節(jié)點(diǎn)的磁盤(pán)成本就會(huì)被成千上萬(wàn)地?cái)U(kuò)大,根據(jù)Google最初的設(shè)想,大數(shù)據(jù)的處理集群只需要采用低廉的日常用機(jī)即可(甚至可以是臺(tái)式機(jī)),而低廉的存儲(chǔ)設(shè)備加上眾多節(jié)點(diǎn)使得故障率會(huì)高于一般的傳統(tǒng)存儲(chǔ)系統(tǒng)。因而對(duì)于大數(shù)據(jù)的存儲(chǔ)系統(tǒng)來(lái)說(shuō),一是需要強(qiáng)大的容錯(cuò)軟件管理能力,二是需要更加有效的運(yùn)維系統(tǒng)來(lái)監(jiān)控各種故障的發(fā)生,尤其是對(duì)于大數(shù)據(jù)存儲(chǔ)系統(tǒng)可能擁有十萬(wàn)級(jí)別的硬盤(pán),磁盤(pán)故障可能每天都會(huì)發(fā)生。

  4、大數(shù)據(jù)存儲(chǔ)方案簡(jiǎn)介

  大數(shù)據(jù)存儲(chǔ)方案隨著大數(shù)據(jù)計(jì)算的發(fā)展也已經(jīng)歷時(shí)將近10年,有的已經(jīng)被廣泛應(yīng)用,有的則是被不斷的完善中,以下列舉若干較為著名的大數(shù)據(jù)存儲(chǔ)方案及其優(yōu)缺點(diǎn)。

  1)HDFS

  大數(shù)據(jù)計(jì)算最為代表性的就是Google在2004年提出的MapReduce框架和相應(yīng)的GFS存儲(chǔ)系統(tǒng)。2008年Yahoo的工程師根據(jù)MapReduce的框架推出了開(kāi)源的Hadoop[41項(xiàng)目,作為一個(gè)大數(shù)據(jù)處理典型開(kāi)源實(shí)現(xiàn),如今Hadoop項(xiàng)目已經(jīng)被廣泛應(yīng)用于各大互聯(lián)網(wǎng)企業(yè)的數(shù)據(jù)中心,并且正努力從一個(gè)開(kāi)源項(xiàng)目走向商業(yè)化應(yīng)用產(chǎn)品,不斷得到完善。而HDFS(Hadoop Distributed File System)就是支持Hadoop計(jì)算框架的分布式大數(shù)據(jù)存儲(chǔ)系統(tǒng),它具有大數(shù)據(jù)存儲(chǔ)系統(tǒng)幾項(xiàng)重要特性,具有很高的容錯(cuò)性、可擴(kuò)展性、高并發(fā)性,并且基于廉價(jià)存儲(chǔ)服務(wù)器設(shè)備,是目前最為流行的大數(shù)據(jù)存儲(chǔ)系統(tǒng)。但是它還有許多方面需要進(jìn)一步完善,例如目前HDFS自身不能與POSIX文件系統(tǒng)兼容,用戶需要通過(guò)其自定義的接口對(duì)數(shù)據(jù)進(jìn)行讀寫(xiě)管理,增加了各種數(shù)據(jù)存儲(chǔ)之間交換的開(kāi)發(fā)成本;又如目前HDFS為了到達(dá)高容錯(cuò)性,在數(shù)據(jù)中心中推薦及實(shí)際操作的副本數(shù)目設(shè)置為三,也就意味著用戶的任意一份數(shù)據(jù)都會(huì)被復(fù)制三份保存在存儲(chǔ)系統(tǒng)中,這樣造成存儲(chǔ)系統(tǒng)保存的數(shù)據(jù)量遠(yuǎn)大于實(shí)際用戶需要的存儲(chǔ)量,相比傳統(tǒng)的RAID存儲(chǔ)空間效率要低很多。

  2)Tachyon

  來(lái)自于美國(guó)加州大學(xué)伯克利分校的AMPLab的Tachyon是一個(gè)高容錯(cuò)的分布式文件系統(tǒng),允許文件以內(nèi)存的速度在集群框架中進(jìn)行可靠的共享,其吞吐量要比HDFS高300多倍。Tachyon都是在內(nèi)存中處理緩存文件,并且讓不同的作業(yè)任務(wù)或查詢語(yǔ)句以及分布式計(jì)算框架都能以內(nèi)存的速度來(lái)訪問(wèn)緩存文件。由于Tachyon是建立在內(nèi)存基礎(chǔ)上的分布式大數(shù)據(jù)文件系統(tǒng),所以其高吞吐量也是HDFS不能夠媲美的,當(dāng)然截止目前Tachyon也只是0.2 alpha發(fā)行版其穩(wěn)定性和魯棒性還有待檢驗(yàn)。

  3)其他

  Quantcast File Syste(QFS)是一個(gè)商陛能、容錯(cuò)、分布式的開(kāi)源大數(shù)據(jù)文件系統(tǒng),其開(kāi)發(fā)是為HDFS提供另一種選擇,但是其讀寫(xiě)性能可以高于HDFS,并能比HDFS節(jié)省50%存儲(chǔ)空間。Ceph是基于POSIX的沒(méi)有單點(diǎn)故障的PB級(jí)分布式文件系統(tǒng),從而使得數(shù)據(jù)能容錯(cuò)和無(wú)縫的復(fù)制,Ceph的客戶端已經(jīng)合并到Linux內(nèi)核2.6.34中;GlusterFS是一個(gè)可以橫向擴(kuò)展的支持PB級(jí)的數(shù)據(jù)量開(kāi)源存儲(chǔ)方案。GlusterFS通過(guò)TCP/IP或者InfiniBand RDMA方式將分布到不同服務(wù)器上的存儲(chǔ)資源匯集成一個(gè)大的網(wǎng)絡(luò)并行文件系統(tǒng),使用單一全局命名空間管理數(shù)據(jù)。GIuster存儲(chǔ)服務(wù)支持NFS、CIFS、HTTP、FTP以及Gluster自身協(xié)議,完全與POSIX標(biāo)準(zhǔn)兼容,F(xiàn)有應(yīng)用程序不需要作任何修改或使用專用API,就可以對(duì)Gluster中的數(shù)據(jù)進(jìn)行訪問(wèn)。

  5、小結(jié)

  存儲(chǔ)管理已然成為大數(shù)據(jù)研究和應(yīng)用的核心組件,各種改善人們El常生活、提高企業(yè)運(yùn)營(yíng)能力的實(shí)際應(yīng)用都離不開(kāi)數(shù)據(jù)的存取、分析和管理。本文從定義大數(shù)據(jù)開(kāi)始,描述了其廣泛應(yīng)用和典型的架構(gòu),著重分析了大數(shù)據(jù)存儲(chǔ)的三個(gè)主要特點(diǎn)(Volume規(guī)模大、Velocity速度快、Variety多樣性)以及傳統(tǒng)存儲(chǔ)針對(duì)大數(shù)據(jù)面臨的各種挑戰(zhàn)。最后本文簡(jiǎn)單介紹了幾種較為著名的大數(shù)據(jù)存儲(chǔ)解決方案。無(wú)論是傳統(tǒng)存儲(chǔ)還是大數(shù)據(jù)存儲(chǔ),都要不斷適應(yīng)大數(shù)據(jù)應(yīng)用的主要特點(diǎn)和基礎(chǔ)架構(gòu),通過(guò)不斷的改進(jìn)和完善來(lái)切實(shí)有效地存取和處理El漸豐富的信息量。

分享到: 收藏

專題