智慧城市是以數(shù)據(jù)為中心、由數(shù)據(jù)驅(qū)動(dòng)的城市大數(shù)據(jù)生態(tài)系統(tǒng)。數(shù)據(jù)只有充分集中、達(dá)到一定量級(jí)才是大數(shù)據(jù)。從我國(guó)東部發(fā)達(dá)地區(qū)的實(shí)踐來(lái)看,數(shù)據(jù)匯聚是政府大數(shù)據(jù)發(fā)展的難點(diǎn)所在,已成為大數(shù)據(jù)主管部門的共識(shí)。
沒有匯聚就沒有大數(shù)據(jù)
建設(shè)城市級(jí)大數(shù)據(jù)中心,必將面對(duì)數(shù)據(jù)匯聚帶來(lái)的挑戰(zhàn)——數(shù)據(jù)源越來(lái)越廣、數(shù)據(jù)類型越來(lái)越多、數(shù)據(jù)量級(jí)越來(lái)越大。所謂大數(shù)據(jù),必須在技術(shù)上可管理,才能可利用。
大數(shù)據(jù)中心除了承載部門應(yīng)用系統(tǒng)的傳統(tǒng)“小”數(shù)據(jù)之外,還將歸集日常工作產(chǎn)生的電子文檔和多媒體等新型“大”數(shù)據(jù),并將引入城市視頻監(jiān)控和物聯(lián)網(wǎng)傳感器產(chǎn)生的流式數(shù)據(jù),乃至獲取企事業(yè)單位和互聯(lián)網(wǎng)的社會(huì)數(shù)據(jù)資源,必須解決怎么采集、怎么存儲(chǔ)、怎么管理的難題。如果不能做到“落得下、管得住、看得懂、拿得到”,就不能保證“一次匯聚、多次分享”。
實(shí)踐證明,大數(shù)據(jù)中心如果只是簡(jiǎn)單拷貝雜亂無(wú)序的海量數(shù)據(jù),無(wú)異于數(shù)據(jù)沼澤。大數(shù)據(jù)主要是非結(jié)構(gòu)化數(shù)據(jù),針對(duì)結(jié)構(gòu)化數(shù)據(jù)的政務(wù)信息資源目錄體系與交換體系跟不上十多年來(lái)政府信息化的發(fā)展和變化,技術(shù)和管理上的局限性日益凸顯。
政府大數(shù)據(jù)要走自己的路
大數(shù)據(jù)技術(shù)發(fā)源于互聯(lián)網(wǎng)企業(yè),但是,政府大數(shù)據(jù)與互聯(lián)網(wǎng)大數(shù)據(jù)有很大不同。政府大數(shù)據(jù)的基本特征是多源異構(gòu)、分散無(wú)序。政府?dāng)?shù)據(jù)源并非同一來(lái)源和單一類型,數(shù)據(jù)存儲(chǔ)并非高度集中和完全同構(gòu),采用人工編目方式無(wú)法承受為海量數(shù)據(jù)進(jìn)行元數(shù)據(jù)標(biāo)注的巨大壓力,必須升級(jí)到大數(shù)據(jù)架構(gòu)。政府大數(shù)據(jù)是社會(huì)公有屬性,外部?jī)r(jià)值大于內(nèi)部?jī)r(jià)值,外部利用是優(yōu)先方向,重點(diǎn)是公用數(shù)據(jù)集開發(fā)和資源化服務(wù)。忽略政府大數(shù)據(jù)的分散多樣性和價(jià)值取向,照搬互聯(lián)網(wǎng)企業(yè)經(jīng)驗(yàn),無(wú)法從根本上解決數(shù)據(jù)匯聚問題。
通常認(rèn)為,大數(shù)據(jù)是關(guān)注數(shù)據(jù)分析結(jié)果的A范式(分析型應(yīng)用)。實(shí)際上,大數(shù)據(jù)并非只有A范式,還有關(guān)注數(shù)據(jù)內(nèi)容本身的D范式(公用數(shù)據(jù)集)。在數(shù)據(jù)資源尚未充分集中形成規(guī)模量級(jí)的情況下,大部分政府應(yīng)該是優(yōu)先發(fā)展D范式,而不應(yīng)不切實(shí)際地追求A范式的突飛猛進(jìn)。
數(shù)據(jù)湖是什么?
2010年,James Dixon提出數(shù)據(jù)湖(Data Lake)的概念。數(shù)據(jù)湖是與數(shù)據(jù)倉(cāng)庫(kù)相對(duì)的概念,初衷是破解數(shù)據(jù)倉(cāng)庫(kù)的局限性:一是只能回答預(yù)先設(shè)定的問題,二是數(shù)據(jù)已經(jīng)被篩選包裝好,無(wú)法看見其原始狀態(tài)。James Dixon說(shuō):“如果數(shù)據(jù)集市是一個(gè)商店的瓶裝水,數(shù)據(jù)被過濾包裝結(jié)構(gòu)化以供使用——數(shù)據(jù)湖則是在更自然狀態(tài)下的大量的水。數(shù)據(jù)湖中的數(shù)據(jù)來(lái)源于不同地方,用戶可以進(jìn)入數(shù)據(jù)湖中按需提取所需要的數(shù)據(jù)”。
數(shù)據(jù)湖的核心原則是集中存儲(chǔ)原始的、未經(jīng)改變的全量數(shù)據(jù),在提取數(shù)據(jù)時(shí)才進(jìn)行轉(zhuǎn)換。數(shù)據(jù)湖存儲(chǔ)各種類型數(shù)據(jù),重點(diǎn)是非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),通過統(tǒng)一視圖提供開放訪問。數(shù)據(jù)湖必須具有強(qiáng)大的元數(shù)據(jù)管理能力,可保證所存儲(chǔ)數(shù)據(jù)資源的語(yǔ)義一致性,這是進(jìn)行大數(shù)據(jù)分析的基本前提。
數(shù)據(jù)湖與政府大數(shù)據(jù)價(jià)值鏈密切相關(guān)
數(shù)據(jù)湖處在政府大數(shù)據(jù)價(jià)值鏈的上游,是數(shù)據(jù)即服務(wù)和分析型應(yīng)用的源頭,對(duì)應(yīng)“匯聚”、“標(biāo)注”、“分發(fā)”三個(gè)環(huán)節(jié)。
- 對(duì)于匯聚而言,旨在建立統(tǒng)一數(shù)據(jù)采集體系和統(tǒng)一大數(shù)據(jù)資源池,優(yōu)化大數(shù)據(jù)供給側(cè)的數(shù)據(jù)處理流程。
- 對(duì)于標(biāo)注而言,旨在建立統(tǒng)一元數(shù)據(jù)管理體系和全景數(shù)據(jù)資源清單,建立對(duì)大數(shù)據(jù)需求側(cè)的強(qiáng)有力支撐。
- 對(duì)于分發(fā)而言,旨在建立大數(shù)據(jù)應(yīng)用與數(shù)據(jù)湖之間的暢通管道,實(shí)現(xiàn)從數(shù)據(jù)湖中即取即用。
華為“一云一湖一平臺(tái)”整體方案
華為憑借智慧城市建設(shè)和自身數(shù)據(jù)資產(chǎn)管理變革經(jīng)驗(yàn),以及大數(shù)據(jù)和人工智能方面的技術(shù)儲(chǔ)備,提出了“一云一湖一平臺(tái)”整體解決方案。
華為已率先發(fā)布了智慧城市數(shù)據(jù)湖解決方案,致力于打造大數(shù)據(jù)生態(tài)永不枯竭的源頭。華為以數(shù)據(jù)湖為核心的大數(shù)據(jù)整體方案具有三大優(yōu)勢(shì)。
- 超前實(shí)踐,先行探索。華為有18萬(wàn)員工,信息系統(tǒng)龐大而復(fù)雜,積累了海量數(shù)據(jù)資源,面臨著很多現(xiàn)實(shí)問題:跨領(lǐng)域數(shù)據(jù)獲取困難甚至無(wú)權(quán)獲取、過程數(shù)據(jù)大量丟失、無(wú)法滿足數(shù)字化運(yùn)營(yíng)和大數(shù)據(jù)分析應(yīng)用要求等。2017年,華為實(shí)施了數(shù)據(jù)資產(chǎn)管理變革項(xiàng)目,啟動(dòng)了產(chǎn)品領(lǐng)域數(shù)據(jù)湖建設(shè)任務(wù),成功實(shí)施了IPD數(shù)據(jù)湖解決方案,以統(tǒng)一的數(shù)據(jù)底座承載主題數(shù)據(jù),實(shí)現(xiàn)了集中的數(shù)據(jù)資產(chǎn)管理,“打破數(shù)據(jù)壁壘、實(shí)現(xiàn)數(shù)據(jù)聯(lián)接、主動(dòng)自助服務(wù)”。
- 瞄準(zhǔn)未來(lái),架構(gòu)領(lǐng)先。未來(lái)所有數(shù)據(jù)將平滑遷移到統(tǒng)一政務(wù)云,如果綜合考慮先進(jìn)性和實(shí)用性,初期可以傳統(tǒng)小數(shù)據(jù)架構(gòu)(傳統(tǒng)數(shù)據(jù)庫(kù))和新型大數(shù)據(jù)架構(gòu)(數(shù)據(jù)湖)并行存在,實(shí)行統(tǒng)一的元數(shù)據(jù)管理。而后期條件成熟時(shí),再將傳統(tǒng)小數(shù)據(jù)架構(gòu)融入新型大數(shù)據(jù)架構(gòu)。
- 自動(dòng)化,高效率。基于人工智能技術(shù)實(shí)現(xiàn)元數(shù)據(jù)的自動(dòng)化標(biāo)注,F(xiàn)有的目錄體系只適用于結(jié)構(gòu)化數(shù)據(jù),主要采用手工編目方法,存在工作量大、復(fù)雜性高、質(zhì)量低等缺點(diǎn)。在納入非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)之后,由于數(shù)據(jù)規(guī)模量級(jí)之大已不可能再采用手工編目方法,必須引入成熟的人工智能技術(shù),對(duì)視頻、語(yǔ)音和電子文檔等采用圖像識(shí)別、語(yǔ)音識(shí)別和自然語(yǔ)言處理等技術(shù),由機(jī)器人“閱讀”和“認(rèn)知”非結(jié)構(gòu)化數(shù)據(jù),自動(dòng)提取主題詞、關(guān)鍵字和生成標(biāo)簽,采用機(jī)器學(xué)習(xí)技術(shù)不斷提高編目質(zhì)量。
當(dāng)前,我國(guó)政府帶頭拉動(dòng)大數(shù)據(jù)發(fā)展,智慧城市數(shù)據(jù)湖呼之欲出。在智慧高青、北京城市副中心、蘭州新區(qū)等城市大數(shù)據(jù)工程項(xiàng)目中,華為復(fù)制了自身IPD數(shù)據(jù)湖建設(shè)的成功經(jīng)驗(yàn),加快推進(jìn)數(shù)據(jù)湖解決方案的落地,力求突破政府大數(shù)據(jù)匯聚難題,向智能型城市揚(yáng)帆起航。