大數(shù)據(jù)時代來了有人說現(xiàn)在是個信息大爆炸的時代,其實用“爆炸”來形容當今信息時代的特征是不確切的,“爆炸”不僅意味著多(多的容器裝不下了),還意味著無法控制和毀滅。我們當然不能讓信息“爆炸”,而要為我們所用,化危機為財富。
信息的載體是數(shù)據(jù),新摩爾定律表明,每18個月所產(chǎn)生的數(shù)據(jù)相當于有史以來產(chǎn)生的數(shù)據(jù)的總和,也就是說每一年半,數(shù)據(jù)就翻番。移動互聯(lián)網(wǎng)、物聯(lián)網(wǎng)等成為海量數(shù)據(jù)的催化劑,傳統(tǒng)的數(shù)據(jù)處理技術(shù)已漸漸對海量數(shù)據(jù)無能為力,如果不想讓海量暴增的數(shù)據(jù)失控,我們就需要對其進行“治理”,治理包括管理、開發(fā)、利用,要從大數(shù)據(jù)中挖掘出有價值的東西,為人類創(chuàng)造更多的智慧,這就是所謂的“大數(shù)據(jù)技術(shù)”,其核心就是要讓大數(shù)據(jù)“慧”說話(說出有智慧的話)。
大數(shù)據(jù)技術(shù)是一個籠統(tǒng)的概念,它包括了海量數(shù)據(jù)的分布式存儲技術(shù)、面向海量數(shù)據(jù)查詢和分析的并行計算技術(shù)、各種海量數(shù)據(jù)的挖掘算法、行業(yè)海量數(shù)據(jù)建模、各種使得大數(shù)據(jù)價值變現(xiàn)的應用,以及承載海量數(shù)據(jù)的硬件基礎設施等。大數(shù)據(jù)技術(shù)構(gòu)成了一個完整的信息生態(tài)鏈,將各行各業(yè)更緊密地聯(lián)系起來,“開放”、“融合”、“創(chuàng)新”成為大數(shù)據(jù)時代出現(xiàn)頻率最高的詞匯。
如今,大數(shù)據(jù)技術(shù)已經(jīng)在各行各業(yè)開始應用,特別是大型互聯(lián)網(wǎng)公司、運營商以及政府和金融等行業(yè)。相信5~10年內(nèi)大數(shù)據(jù)技術(shù)的應用會全面鋪開,充斥到社會的每一個角落,并且成為未來IT的基礎架構(gòu)。因此,確切地說,我們這個時代不是信息“爆炸”的時代,而是一個“大數(shù)據(jù)時代”!
運營商要向IT和互聯(lián)網(wǎng)轉(zhuǎn)型,金融機構(gòu)、政府組織也要向IT和互聯(lián)網(wǎng)轉(zhuǎn)型,全球最大的通信設備提供商——華為公司也在向IT和互聯(lián)網(wǎng)轉(zhuǎn)型。實際上,將來的每一個企業(yè)首先都是一個互聯(lián)網(wǎng)企業(yè)。用馬云的話說,企業(yè)在大數(shù)據(jù)時代和技術(shù)變革之前,必須要掌握對于未來的研判,重塑自己的文化基因和組織架構(gòu),必須“有所為有所不為”,去做一個社會化的企業(yè)。我的解讀就是企業(yè)要找準自己在大數(shù)據(jù)生態(tài)鏈上的位置,大數(shù)據(jù)技術(shù)必將把全社會各行業(yè)組織成一個有機的整體,任何企業(yè)都不能獨立于這個肌體之外。
FusionInsight:完全開放的大數(shù)據(jù)平臺在大數(shù)據(jù)領(lǐng)域,華為公司當然不會袖手旁觀。為社會創(chuàng)造價值、豐富人們的溝通和生活、成就客戶是華為人的使命。從2009年開始,華為在大數(shù)據(jù)領(lǐng)域投入了大量的資金和人力進行研發(fā),2011年,華為大數(shù)據(jù)解決方案橫空出世,最初命名為Galax HD,2013年改名為FusionInsight Hadoop。到目前為止,F(xiàn)usionInsight已在全球拓展了100多個大數(shù)據(jù)項目,有40多個項目已經(jīng)在交付,其中10多個已經(jīng)在商用?蛻糁饕植荚陔娦、金融、科研、公安和政府等行業(yè)。
FusionInsight是企業(yè)級大數(shù)據(jù)存儲、查詢、分析的統(tǒng)一平臺,為企業(yè)快速構(gòu)建海量數(shù)據(jù)信息處理系統(tǒng),通過對各類海量數(shù)據(jù)信息實時和非實時的分析和挖掘,幫助企業(yè)從海量數(shù)據(jù)信息中獲取到真正的價值,及時洞察和決策新的機會與風險。
FusionInsight是完全開放的大數(shù)據(jù)平臺,可運行在任意標準的x86服務器上,無需任何專用的硬件或存儲,并針對金融、運營商等數(shù)據(jù)密集型行業(yè)的運行維護、應用開發(fā)等需求打造了高可靠、高安全、易使用的運行維護系統(tǒng)和全量數(shù)據(jù)建模中間件,讓企業(yè)可以更快、更準、更穩(wěn)地從各類繁雜無序的海量數(shù)據(jù)中發(fā)現(xiàn)價值。
Google雖然是大數(shù)據(jù)技術(shù)的鼻祖,但Apache Hadoop開源社區(qū)卻是最有影響力的開源大數(shù)據(jù)技術(shù)的孵化器,大數(shù)據(jù)要走向開放、融合,開源是必然的趨勢。華為將大數(shù)據(jù)明確為ICT融合時代公司的戰(zhàn)略方向并加大投入,在美國以及中國香港、深圳、北京、西安匯集了各路大數(shù)據(jù)專家,持續(xù)回饋并引領(lǐng)Apache Hadoop開源社區(qū),對Apache Hadoop社區(qū)的貢獻在所有IT設備商中排名第一,持續(xù)推動社區(qū)的開放與發(fā)展。
華為FusionInsight團隊具備強大的本地化工程服務能力,不僅可以幫助客戶定位大數(shù)據(jù)內(nèi)核級問題,還針對行業(yè)應用開發(fā)了數(shù)據(jù)服務和能力開放使能環(huán)境,兼容客戶原有開發(fā)和使用環(huán)境,讓大數(shù)據(jù)更易使用并產(chǎn)生價值。FusionInsightHadoop發(fā)行版緊隨開源社區(qū)的最新技術(shù),快速集成最新組件,并在可靠性、安全性、管理性方面進行了企業(yè)級的增強和持續(xù)改進,始終保持技術(shù)領(lǐng)先。而且FusionInsight Hadoop保持了100%的開放性,決不使用私有架構(gòu)和組件。
FusionInsight Hadoop的企業(yè)級增強FusionInsight Hadoop的企業(yè)級增強主要表現(xiàn)在以下幾個方面:
- 高可靠性
FusionInsight Hadoop所有管理節(jié)點組件均實現(xiàn)HA;HBase集群實現(xiàn)1000公里以上的異地災備;表級集群備份、全量、增量、日志追趕、數(shù)據(jù)恢復(對本地存儲的業(yè)務數(shù)據(jù)進行完整性校驗,在發(fā)現(xiàn)數(shù)據(jù)遭破壞或丟失時進行自恢復)。
- 高安全性
FusionInsight Hadoop實現(xiàn)了基于用戶和角色的統(tǒng)一認證體系,實現(xiàn)對角色進行權(quán)限管理和審計,WEBUI服務還支持單點登錄認證。對HBase的權(quán)限控制支持HBase庫、表、列族和列等不同級別。Hive還支持合法用戶之間的數(shù)據(jù)安全隔離,保障用戶數(shù)據(jù)安全;支持合法用戶之間的授權(quán)訪問,允許用戶數(shù)據(jù)交叉訪問。
FusionInsight還可以對文件系統(tǒng)進行加密,Hive、HBase可以對表、字段加密,集群內(nèi)部用戶信息禁止明文存儲。加密算法插件化,可進行擴充,亦可自行開發(fā),并且加解密過程業(yè)務完全不感知。
高安全性還體現(xiàn)在對操作系統(tǒng)的安全加固,通過裁剪不必要組件,工具自動測試掃描,在業(yè)務節(jié)點、管理節(jié)點和用戶管理Portal等組件采取業(yè)界標準來實現(xiàn)操作系統(tǒng)加固,保證基礎設施的安全性。
- 高性能
針對數(shù)據(jù)密集型行業(yè)傳統(tǒng)數(shù)據(jù)庫、數(shù)據(jù)倉庫的大量關(guān)聯(lián)表設計,創(chuàng)新地實現(xiàn)了CTBase方案。CTBase可以將多個具有類似功能或存在關(guān)聯(lián)的業(yè)務表聚簇到一個HBase大表中,可提升一些關(guān)鍵場景的多表關(guān)聯(lián)查詢性能。另外,CTBase還提供了二級索引,RowKey Schema的維護管理等關(guān)鍵能力。同時,CTBase對HBase原生態(tài)API進行了封裝,提供更友好的二次開發(fā)界面。
FusionInsight Manager(FusionInsight運行維護中心)支持系統(tǒng)雙機和分布式并行處理,可10分鐘完成集群安裝;全自動化在線運行維護、自定義Dashboard、自動化的應用開發(fā)助手,讓企業(yè)可以輕松地管理大數(shù)據(jù)系統(tǒng);提供向?qū)缴、回退的界面操作,當升級過程異常時,支持自動安全回退,也支持觀察期手工觸發(fā)安全回退,可以在6分鐘內(nèi)完成Hadoop集群升級。
FusionInsight Hadoop還提供了北向接口,實現(xiàn)與企業(yè)現(xiàn)有網(wǎng)管系統(tǒng)集成;當前支持syslog接口,接口消息可通過配置適配現(xiàn)有系統(tǒng);整個Hadoop集群采用統(tǒng)一的集中管理,未來北向接口可根據(jù)需求靈活擴展。
- 解決方案配套能力
為讓開發(fā)者更方便地使用大數(shù)據(jù)技術(shù),在開源Hadoop平臺基礎上,華為FusionInsight Hadoop圍繞數(shù)據(jù)的采集、分析和消費,在典型場景如數(shù)據(jù)中心運維日志分析、歷史數(shù)據(jù)查詢、實時事件處理、客戶特征畫像等形成了系列解決方案,并跟隨客戶業(yè)務的發(fā)展不斷豐富。
綻放智慧的光彩華為FusionInsight大數(shù)據(jù)平臺可以為電信、金融、政府等行業(yè)大型企事業(yè)單位量身定制企業(yè)級的大數(shù)據(jù)解決方案,本著讓數(shù)據(jù)“慧”說話的目標,對企業(yè)數(shù)據(jù)全量建模、深度分析、深刻洞察,為企業(yè)的精準營銷、實時決策、客戶維系、數(shù)據(jù)開放等各種應用場景提供全面的技術(shù)保障。
用任正非總裁的話講,大數(shù)據(jù)時代也是大機會時代,但是華為不可以機會主義,華為人總是本著求實創(chuàng)新的精神,不惜10年磨一劍。經(jīng)過華為人的努力,F(xiàn)usionInsight必將成為大數(shù)據(jù)領(lǐng)域的一顆耀眼明珠,在茫茫的數(shù)據(jù)海洋中,綻放屬于它的智慧的光彩。
FusionInsight總體架構(gòu)圖