Apache Hadoop助力企業(yè)應(yīng)對(duì)他們最艱難的挑戰(zhàn)之一--利用海量數(shù)據(jù)創(chuàng)造價(jià)值。用戶普遍部署Hadoop框架,是因?yàn)樗軌驇椭髽I(yè)從各種不同類(lèi)型的大數(shù)據(jù)中獲得價(jià)值。獨(dú)立分析機(jī)構(gòu)Forrester Research公司發(fā)布的《Forrester浪潮:大數(shù)據(jù)Hadoop解決方案》(2014年一季度版)報(bào)告顯示,Hadoop的開(kāi)源架構(gòu)逐漸深入適應(yīng)企業(yè)環(huán)境,其瘋狂的發(fā)展勢(shì)頭已無(wú)法阻擋。其全新獨(dú)特的數(shù)據(jù)管理方案正在幫助企業(yè)變革大數(shù)據(jù)存儲(chǔ)、處理、分析及共享的方式。
不斷發(fā)展的HADOOP技術(shù)
依托其技術(shù)優(yōu)勢(shì),Hadoop已榮膺多項(xiàng)大獎(jiǎng),但與此同時(shí),與其真正所能提供技術(shù)能力相悖的錯(cuò)誤消息及過(guò)度承諾也困擾著這項(xiàng)技術(shù)。在部署Hadoop技術(shù)時(shí)提出不切實(shí)際的預(yù)期需求或誤入技術(shù)認(rèn)知誤區(qū),將導(dǎo)致浪費(fèi)時(shí)間,費(fèi)用上漲,業(yè)績(jī)乏善可陳。
了解Hadoop技術(shù)能力與限制,并相應(yīng)制定安裝計(jì)劃,將在未來(lái)充分發(fā)揮Hadoop技術(shù)能力。了解Hadoop技術(shù)的真相,并避開(kāi)以下常見(jiàn)誤區(qū),將幫助您順利部署Hadoop:
誤區(qū)一:Hadoop可替代數(shù)據(jù)倉(cāng)庫(kù)
真相:Hadoop框架自身不是完整的數(shù)據(jù)或分析解決方案,也不是用作或替代數(shù)據(jù)倉(cāng)庫(kù)的框架或平臺(tái)。就其自身而言,依托Hadoop技術(shù)開(kāi)發(fā)高成本效益的大數(shù)據(jù)平臺(tái)解決方案,與其它數(shù)據(jù)庫(kù)共享信息,使其成為數(shù)據(jù)倉(cāng)庫(kù)的完美組合。依托Hadoop技術(shù),企業(yè)將能夠通過(guò)新的途徑充分利用各種類(lèi)型的海量數(shù)據(jù)。
誤區(qū)二:Hadoop技術(shù)曇花一現(xiàn)
真相:Hadoop倍受青睞,其發(fā)展勢(shì)頭看上去勢(shì)不可擋,因此,它不會(huì)曇花一現(xiàn)。《Forrester浪潮:大數(shù)據(jù)Hadoop解決方案》(2014年一季度版)報(bào)告稱(chēng),Hadoop框架是大型企業(yè)必備的數(shù)據(jù)平臺(tái),是未來(lái)任何靈活數(shù)據(jù)管理平臺(tái)中最重要的組成部分。為充分利用Hadoop的技術(shù)優(yōu)勢(shì),下一代數(shù)據(jù)倉(cāng)庫(kù)將與Hadoop技術(shù)更深入地整合,管理規(guī)模更大,結(jié)構(gòu)更復(fù)雜的數(shù)據(jù)集。
誤區(qū)三:Hadoop技術(shù)是免費(fèi)的
真相:Hadoop的確是一套開(kāi)源產(chǎn)品,所有用戶均可免費(fèi)下載。但使用該技術(shù)卻并非免費(fèi),甚至需要更高的成本。高效運(yùn)用Hadoop技術(shù)需要接受?chē)?yán)格培訓(xùn)的專(zhuān)業(yè)人士,而長(zhǎng)期存儲(chǔ)數(shù)據(jù)亦需要高昂成本?紤]分析及多用戶因素,Hadoop技術(shù)的成本實(shí)際上要高于數(shù)據(jù)倉(cāng)庫(kù)。除開(kāi)源技術(shù)外,廠商還銷(xiāo)售支持各種功能的專(zhuān)用應(yīng)用程序,支持并拓展Hadoop使用范圍,為企業(yè)提供更多幫助。
誤區(qū)四:Hadoop解決方案是一款數(shù)據(jù)整合工具
真相:Hadoop實(shí)際上是專(zhuān)為特定數(shù)據(jù)類(lèi)型及負(fù)載設(shè)計(jì)的分布式文件系統(tǒng)。但該技術(shù)缺乏數(shù)據(jù)整合能力。如果Hadoop解決方案未能與大型數(shù)據(jù)管理生態(tài)系統(tǒng)結(jié)合使用,它將會(huì)成為另一個(gè)使信息相互隔離的數(shù)據(jù)孤島。一旦在數(shù)據(jù)倉(cāng)庫(kù)環(huán)境下部署Hadoop技術(shù),用戶即可查詢數(shù)據(jù)倉(cāng)庫(kù)及Hadoop中的信息。
誤區(qū)五:Hadoop是單一的開(kāi)源產(chǎn)品
真相:Hadoop是產(chǎn)品庫(kù)及技術(shù)庫(kù),包括Hadoop分布式文件系統(tǒng)、MapReduce、Pig、Hive、Falcon、Knox等。多家廠商開(kāi)發(fā)Hadoop產(chǎn)品,并加入具有差異化優(yōu)勢(shì)的功能。例如,Hortonworks數(shù)據(jù)平臺(tái)幫助企業(yè)采集、處理并共享任意格式、任意規(guī)模的數(shù)據(jù)。并不是所有Hadoop產(chǎn)品都是開(kāi)源的.forrester報(bào)告稱(chēng),對(duì)Hadoop產(chǎn)品的需求使廠商面對(duì)競(jìng)爭(zhēng)殘酷的市場(chǎng),他們需要抓住一切機(jī)會(huì)銷(xiāo)售他們特有的Hadoop解決方案。
釋放HADOOP技術(shù)的全部潛能
Hadoop為大型數(shù)據(jù)集存儲(chǔ)及處理提供可靠的解決方案,幫助企業(yè)克服以往數(shù)據(jù)使用成本高、數(shù)據(jù)結(jié)構(gòu)復(fù)雜的困難,高效利用各種類(lèi)型的海量數(shù)據(jù)。雖然Hadoop技術(shù)用途廣、優(yōu)勢(shì)多,但它卻無(wú)法取代數(shù)據(jù)倉(cāng)庫(kù)或數(shù)據(jù)整合工具。而通過(guò)與其它數(shù)據(jù)或分析解決方案整合,反而能夠提升Hadoop技術(shù)的價(jià)值。