微軟全球資深副總裁張亞勤博士
2008年9月-2009年7月,我將自己對云計算的現(xiàn)實與未來的思考總結(jié)寫成了《云計算三部曲》。那時,云計算對許多人來說還是新鮮和深奧的概念;而今,云已是觸手可及。個人用戶將文檔、照片、視頻、游戲存檔記錄上傳至云中永久保存,企業(yè)客戶根據(jù)自身需求,可以搭建自己的私有云,或托管、或租用公有云上的IT資源與服務(wù),這些都已不是新鮮事。去年11月,我們宣布將Windows Azure平臺帶入中國,也意味著公有云已成為主流服務(wù)。作為云計算的殺手級應(yīng)用,“大數(shù)據(jù)”近來又引發(fā)了不少行業(yè)人士的關(guān)注和研討,此文將重點談?wù)劥髷?shù)據(jù)與云的關(guān)系,以及二者的結(jié)合,將對科技和商業(yè)生態(tài)產(chǎn)生怎樣的影響。
三大平臺之爭與大數(shù)據(jù)
三年前,我首次提出了“三大平臺之爭“,這是一場注定要曠日持久的爭奪戰(zhàn)。如今,三大平臺之爭也進入了新的階段。
第一個平臺是云。由于云計算基礎(chǔ)設(shè)施建設(shè)需要巨大的資金投入、長時間、大范圍的部署和持續(xù)的更新維護,有足夠的資源、實力去構(gòu)建大規(guī)模云計算平臺的企業(yè)并不多。所以當時我說,縱觀全球,也不會有太多的公司有資格成為云平臺的掌控者,如今看來,亞馬遜、微軟、谷歌、Rackspace等少數(shù)公司位于第一軍團。
我們正式發(fā)布Windows Azure平臺是在2010年初。它整合了微軟在云計算領(lǐng)域的經(jīng)驗積淀、創(chuàng)新能量和生態(tài)系統(tǒng)的傳統(tǒng)優(yōu)勢,三年來發(fā)展迅猛。隨著2012年9月,微軟云操作系統(tǒng)(包括Windows Server,Windows Azure和System Center)的正式發(fā)布,以及11月微軟與上海市政府、世紀互聯(lián)達成合作,宣布將Windows Azure平臺和Office 365服務(wù)引入中國,標志著微軟在中國的云計算實踐進入了全新的階段。
第二個平臺是智能終端,其本質(zhì)是iOS、Android和Windows之爭。2010年,“移動三國”的競爭才剛開始。轉(zhuǎn)眼間三年過去了,戰(zhàn)況是越來越激烈,而且這場戰(zhàn)役還會持續(xù)很久。蘋果、Google、微軟都在設(shè)法強化自身的生態(tài)系統(tǒng),微軟最近幾個月,陸續(xù)宣布了Windows 8、Windows Phone 8等一系列新終端平臺,目前的市場反響表明,微軟的轉(zhuǎn)型是基本成功的。
更為重要的是,除了PC、平板電腦、智能手機、游戲主機等常見的計算終端之外,微軟早已著眼于在更廣闊的、泛在互連的智能設(shè)備布局,比如智能汽車、智能電視、工業(yè)設(shè)備和手持設(shè)備等。11月宣布的Windows Embedded 8標準版預(yù)覽,支持觸摸及手勢交互,讓數(shù)以百億計的新機器與傳統(tǒng)的IT設(shè)備和網(wǎng)絡(luò)連接到一起。而從2012和2013年的CES展看,智能汽車會越來越熱,直至普及。
第三個平臺是凌駕于云和端之上的,反映真實關(guān)系的社會化商務(wù)和社交平臺。永不中斷的云服務(wù)和彼此連接的人群與海量設(shè)備,帶來的最大機會在于如何以人和數(shù)據(jù)為中心,發(fā)展出反映真實世界中人與人、人與機器、機器與機器關(guān)系的社會化網(wǎng)絡(luò),并在其上誕生消弭真實與虛擬界限、更加人性化、交互更自然的商務(wù)和社交平臺,以及應(yīng)用。我們看到,將現(xiàn)實社會關(guān)系數(shù)字化、網(wǎng)絡(luò)化、商業(yè)化的嘗試早已開始。但迄今為止,現(xiàn)實世界數(shù)字化的程度還不夠,真正超越國別、種族和文化壁壘的社會化網(wǎng)絡(luò)的平臺仍未建成,這也正是中國IT產(chǎn)業(yè)的重大機遇。
顯然,三大平臺里,云是前提,是基礎(chǔ)。過去我講過很多次,云計算其實在計算量越來越大、數(shù)據(jù)越來越多、越來越動態(tài)、越來越實時、越來越需要結(jié)構(gòu)化的產(chǎn)業(yè)背景下被催生出來的一種基礎(chǔ)架構(gòu)和商業(yè)模式。無論是云計算本身、或是智能終端,還是凌駕于云和端之上的,基于社會化網(wǎng)絡(luò)的平臺和應(yīng)用,都會讓數(shù)以百億計的機器、企業(yè)、個人隨時隨地都在獲取和產(chǎn)生新的數(shù)據(jù),即使是在摩爾定律的支撐下,計算設(shè)備硬件性能進化的速度也早已趕不上數(shù)據(jù)增長的速度,并且這一問題會日漸嚴峻——這樣的背景下,只有云才能解決“賦予數(shù)據(jù)以更大價值”的問題。這也就引出了新的話題,也是最近這段時間產(chǎn)業(yè)和社會都非常關(guān)注的“大數(shù)據(jù)”的話題。
“大數(shù)據(jù)“的崛起
如今,大數(shù)據(jù)的重要性越來越明顯,但就和云計算一樣,它也不是一個從天而降的新概念,而是在三個主要因素的驅(qū)動下,逐步成長成熟的。
第一個驅(qū)動力,就是業(yè)界常說的大數(shù)據(jù)的三個V(Volume, Variety, Velocity),而這三個V可以有多種解讀。
首先來看看第一個V,巨大的數(shù)據(jù)量與數(shù)據(jù)完整性。IT業(yè)界所指的數(shù)據(jù),誕生不過60多年。而一直到PC普及到千家萬戶之前,由于存儲、計算和分析工具的技術(shù)和成本限制,許多自然界和人類社會值得記錄的信號,并未形成數(shù)據(jù)——幾十年前,氣象、地質(zhì)、石油物探、出版業(yè)、媒體業(yè)和影視業(yè)是大量、持續(xù)產(chǎn)出信號的行業(yè),但那時90%以上采用的是存儲模擬信號,難以通過計算設(shè)備和軟件進行直接分析。那些擁有大量資金和人才的政府和企業(yè),也只能把少量最關(guān)鍵的信號,進行抽取、轉(zhuǎn)換、裝載到數(shù)據(jù)庫中。
值得注意的是,業(yè)界對達到怎樣的數(shù)量級才算是大數(shù)據(jù)并無定論,其實在很多行業(yè)的應(yīng)用場景里,數(shù)據(jù)集本身的大小并不是最重要的,是否完整才最重要。
第二個V,在海量、種類繁多的數(shù)據(jù)間發(fā)現(xiàn)其內(nèi)在關(guān)聯(lián);ヂ(lián)網(wǎng)時代,各種設(shè)備通過TCP/IP網(wǎng)絡(luò)連成了一個整體。進入Web 2.0時代,PC用戶不單單可以通過網(wǎng)絡(luò)獲取信息,還成為了信息的制造者和傳播者。這個階段,不僅是數(shù)據(jù)量開始了爆炸式增長,數(shù)據(jù)種類也開始變得繁多——從技術(shù)角度看,可以稱之為結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)和流式數(shù)據(jù)。我記得2005年,微軟亞洲研究院一年一度的“21世紀的計算”大會將主題設(shè)定為“Data Centric Computing”,也就是“以數(shù)據(jù)為中心的計算”,那時我們就已建立了這樣的認知:價值來自于數(shù)據(jù),或者說,數(shù)據(jù)一直都是有價值的商業(yè)資產(chǎn)——此前,人們往往過于重視“計算和存儲性能的提升”;而從那時起,我們就已更關(guān)注“數(shù)據(jù)分析和處理的效率”——對海量數(shù)據(jù)進行分析、處理和集成,找出原本看來毫無關(guān)系的那些數(shù)據(jù)的“關(guān)聯(lián)性”,把似乎沒有用的數(shù)據(jù)變成有用的信息,以支持我們做出的判斷。
第三個V,可以理解為更快地滿足實時性需求。如今,通過各種有線和無線電網(wǎng)絡(luò),人和人、人和各種機器、機器和機器之間無處不在的連接,這些連接不可避免地帶來數(shù)據(jù)交換,而數(shù)據(jù)交換的關(guān)鍵是降低延遲——要解決數(shù)據(jù)產(chǎn)生、傳輸、處理、存儲、抽取、分析、可視化等各個環(huán)節(jié)帶來的延時,以近乎實時(這意味著小于250毫秒)的方式呈獻給用戶。
如今,數(shù)據(jù)的實時化需求越來越清晰。用戶想駕車去吃飯,先用地圖應(yīng)用查詢餐廳的位置、預(yù)計行車路線的擁堵情況、停車場信息甚至是其他用戶對餐廳的評論。吃飯的過程中,他會用手機拍攝食物的照片,編輯簡短的評論,發(fā)布到微博上,還可以用LBS應(yīng)用查找在同一間餐廳吃飯的人,看有沒有好友在附近……
第二個驅(qū)動力,是云計算的普及和成為主流。經(jīng)常有一些朋友會問我說,云計算和大數(shù)據(jù)到底有什么區(qū)別?前兩年大家都在講云計算,現(xiàn)在怎么又變成大數(shù)據(jù)了?其實,云計算和大數(shù)據(jù)是一個硬幣的兩面,云計算是大數(shù)據(jù)的IT基礎(chǔ),而大數(shù)據(jù)是云計算的一個殺手級應(yīng)用。由于云計算的普及和成為主流,讓上述三個V不再成為挑戰(zhàn),反而成為大數(shù)據(jù)成長的驅(qū)動力。另一方面由于數(shù)據(jù)越來越多、越來越復雜、越來越實時,這就更加需要云計算去處理,所以二者之間是相輔相成的。舉例而言,30年前存儲1TB數(shù)據(jù)的成本大約是16億美元,如今存儲到云上只需不到100美元;但存儲下來的數(shù)據(jù),如果不以云計算進行挖掘和分析,就只是僵死的數(shù)據(jù),沒有太大價值。
第三個驅(qū)動力,是人工智能、機器學習和數(shù)據(jù)挖掘等技術(shù)的迅速發(fā)展。在這樣的背景下,微軟已經(jīng)可以為用戶提供三個層次的端到端大數(shù)據(jù)解決方案——其一是數(shù)據(jù)管理,即如何獲取、存儲和保護數(shù)據(jù);其二是數(shù)據(jù)豐富,即如何清洗、發(fā)現(xiàn)不同數(shù)據(jù)間的數(shù)據(jù)相關(guān)性;其三是,數(shù)據(jù)洞察力,即通過分析、呈現(xiàn)與決策工具,獲得洞察力,并最終通過付諸行動,產(chǎn)生價值。
通俗的說,就是將信號轉(zhuǎn)化為數(shù)據(jù),將數(shù)據(jù)分析為信息,將信息提煉為知識,以知識促成決策和行動。歸根到底,大數(shù)據(jù)的最終意義在于獲得洞察力和價值,這也正是大數(shù)據(jù)的第四個V(Value),這個V比前面的三個V都更重要。