上個月,歐盟委員會于2020年2月19日發(fā)布?xì)W盟數(shù)據(jù)戰(zhàn)略,積極推進(jìn)數(shù)字化轉(zhuǎn)型工作,打造歐盟單一數(shù)據(jù)市場,目的是強(qiáng)化技術(shù)主權(quán),提升企業(yè)競爭力。
2020年3月,中共中央政治局常務(wù)委員會召開會議提出,加快5G網(wǎng)絡(luò)、數(shù)據(jù)中心等新型基礎(chǔ)設(shè)施建設(shè)進(jìn)度。與傳統(tǒng)基建相比,新型基礎(chǔ)設(shè)施建設(shè)更能體現(xiàn)數(shù)字經(jīng)濟(jì)特征,能夠更好推動中國經(jīng)濟(jì)轉(zhuǎn)型升級。
如圖1,根據(jù)國家統(tǒng)計局?jǐn)?shù)據(jù),從2015年到2019年,全國居民人均可支配收入持續(xù)增加,2019年全年全國居民人均可支配收入30733元,扣除價格因素,實(shí)際增長5.8%。
圖1 2015年到2019年全國居民人均可支配收入持續(xù)增長
。▉碓,國家統(tǒng)計局官網(wǎng))
消費(fèi)者收入一方面在增加,一方面更追求個性化。在政策的大背景下,隨著移動互聯(lián)網(wǎng)的普及,5G的加快落地,對于企業(yè),做好數(shù)字化轉(zhuǎn)型,滿足消費(fèi)者千人千面的需求是必然的選擇。
此外,還有一個趨勢就是越來越多的企業(yè)利用數(shù)字化技術(shù),開展線上業(yè)務(wù),比如在疫情期間,有房地產(chǎn)企業(yè)開始在線上賣房。
數(shù)據(jù)是資產(chǎn)已經(jīng)是共識,我們的衣食住行不斷地產(chǎn)生數(shù)據(jù),依托這些數(shù)據(jù),使不少互聯(lián)網(wǎng)企業(yè)發(fā)展壯大。同樣的,在企業(yè)的日常運(yùn)營中也在不斷地產(chǎn)生數(shù)據(jù),如果能利用好這些數(shù)據(jù),將進(jìn)一步的提升企業(yè)競爭力。
在企業(yè)普遍開展數(shù)字化轉(zhuǎn)型的大潮之下,每家企業(yè)應(yīng)明確自己的數(shù)據(jù)戰(zhàn)略,為數(shù)字化轉(zhuǎn)型打好基礎(chǔ)。
數(shù)據(jù)戰(zhàn)略包括數(shù)據(jù)采集、存儲、分析、消費(fèi)。國際數(shù)據(jù)公司(IDC)和數(shù)據(jù)存儲公司希捷開展的一項(xiàng)研究發(fā)現(xiàn),2025年,全世界產(chǎn)生的新數(shù)據(jù)將從2018年的33ZB增至175ZB,中國每年將以超過全球平均值3%的速度產(chǎn)生并復(fù)制數(shù)據(jù)。據(jù)該研究報告,2018年中國約產(chǎn)生7.6ZB(1ZB約相當(dāng)于1萬億GB)的數(shù)據(jù),到2025年該數(shù)字將增至48.6ZB。與此同時,美國2018年約產(chǎn)生6.9ZB數(shù)據(jù),并將在2025年增至30.6ZB。
二、企業(yè)用好數(shù)據(jù),面臨四個挑戰(zhàn)
企業(yè)如何用好數(shù)據(jù),面臨以下四個挑戰(zhàn)
1. 企業(yè)內(nèi)部存在數(shù)據(jù)豎井,數(shù)據(jù)采集困難
企業(yè)內(nèi)部的數(shù)據(jù),往往存在數(shù)據(jù)豎井,格式不一致的問題。企業(yè)內(nèi)部的數(shù)據(jù),通常是按部門,按數(shù)據(jù)線保存。不同歷史時期,采用的數(shù)據(jù)庫不一樣,導(dǎo)致數(shù)據(jù)格式也不一致。要將數(shù)據(jù)統(tǒng)一采集存儲,需要打破部門壁壘,兼容各種數(shù)據(jù)格式。
2. 數(shù)據(jù)增速越來越大,數(shù)據(jù)存儲面臨挑戰(zhàn)
如前文所述,隨著新技術(shù)的采用,隨著信息化的深入,產(chǎn)生的數(shù)據(jù)越來越多,數(shù)據(jù)量飛速增加,大量的數(shù)據(jù)如何存儲成為一門技術(shù)活:如何能存儲海量的數(shù)據(jù),讓數(shù)據(jù)根據(jù)冷熱分層,讓數(shù)據(jù)存儲性價比更高成為挑戰(zhàn)。
3. 海量的數(shù)據(jù)分析需要專業(yè)的能力
數(shù)據(jù)分析越來越復(fù)雜,甚至成為一個生態(tài)系統(tǒng),對于一個企業(yè)來說,要做數(shù)據(jù)分析,往往需要一個團(tuán)隊(duì),需要購買商業(yè)產(chǎn)品,需要服務(wù)商的支持。如圖2,從mattturk.com網(wǎng)站總結(jié)的數(shù)據(jù)和AI生態(tài)藍(lán)圖可以看出數(shù)據(jù)分析的復(fù)雜性。
圖2 數(shù)據(jù)和AI生態(tài)藍(lán)圖
。▉碓矗琺attturk.com網(wǎng)站)
4. 安全合規(guī)方面面臨挑戰(zhàn)
我國于2017年6月1日正式實(shí)施《中華人民共和國網(wǎng)絡(luò)安全法》。在數(shù)據(jù)安全也有諸多規(guī)定。明確規(guī)定了網(wǎng)絡(luò)運(yùn)營者不得泄露、篡改、毀損其收集的個人信息;未經(jīng)被收集者同意,不得向他人提供個人信息。
歐盟于2018年5月25日正式實(shí)施了《通用數(shù)據(jù)保護(hù)條例》 (General Data Protection Regulation,簡稱GDPR),GDPR是一項(xiàng)保護(hù)歐盟公民個人隱私和數(shù)據(jù)的法律,其適用范圍不僅包括歐盟成員國境內(nèi)企業(yè)的個人數(shù)據(jù)、也包括歐盟境外企業(yè)處理歐盟公民的個人數(shù)據(jù)。
2019年5月28日國家互聯(lián)網(wǎng)信息辦公室發(fā)布《數(shù)據(jù)安全管理辦法》(征求意見稿)。征求意見稿中包括數(shù)據(jù)收集、數(shù)據(jù)處理使用和數(shù)據(jù)安全監(jiān)督管理等內(nèi)容。
這四個方面的挑戰(zhàn),中小企業(yè)面臨的挑戰(zhàn)更大,大型企業(yè)面臨的是效率問題,中小企業(yè)則面臨的是數(shù)據(jù)戰(zhàn)略如何落地的問題,而AWS推出的數(shù)據(jù)湖服務(wù),可以很好的解決這四個挑戰(zhàn)。
三、AWS數(shù)據(jù)湖,通過組合拳解決數(shù)據(jù)難題
圖3 AWS的數(shù)據(jù)湖服務(wù)架構(gòu)
。▓D來源,AWS公開資料)
如圖3,AWS的數(shù)據(jù)湖實(shí)際上由一系列產(chǎn)品和服務(wù)構(gòu)成:
- Amazon RDS:云托管的關(guān)系型數(shù)據(jù)庫,支持Amazon Aurora、MySql、Postgre SQL、MariaDB、Microsoft SQL Server、ORACLE等六種常用的關(guān)系型數(shù)據(jù)庫。
- Amazon Redshift:數(shù)據(jù)倉庫,性能強(qiáng)大、使用簡單,全托管的數(shù)據(jù)倉庫服務(wù),支持大規(guī)模并行處理, 支持從GB到TB規(guī)模數(shù)據(jù)的擴(kuò)展。
- Amazon EMR:大數(shù)據(jù)處理,在AWS上運(yùn)行Spark, Hadoop, Hive, Presto, Hbase等大數(shù)據(jù)分析,高度可擴(kuò)展的分析和機(jī)器學(xué)習(xí)服務(wù)。
- Amazon Kinesis:實(shí)時數(shù)據(jù),實(shí)時收集、處理并分析視頻和流數(shù)據(jù)。
- Amazon Athena:數(shù)據(jù)交互查詢,使用標(biāo)準(zhǔn)SQL對Amazon S3上的數(shù)據(jù)做交互查詢,無需基礎(chǔ)設(shè)施及配置,無需另外加載數(shù)據(jù)。
- AWS Glue:ETL 和數(shù)據(jù)目錄服務(wù),無服務(wù)器架構(gòu)的數(shù)據(jù)目錄和ETL服務(wù)。AWS Glue 使用能識別常用數(shù)據(jù)格式和數(shù)據(jù)類型的預(yù)構(gòu)建分類器(classifiers)抓取數(shù)據(jù)源并構(gòu)建數(shù)據(jù)目錄,包括 CSV、Apache Parquet、JSON 等。
- AWS Lake Formation:可以自動化構(gòu)建數(shù)據(jù)湖。
通過以上產(chǎn)品和服務(wù)的組合,AWS的數(shù)據(jù)湖有以下特點(diǎn):
1. 可以快速的構(gòu)建數(shù)據(jù)湖
AWS Lake Formation 可以自動化構(gòu)建數(shù)據(jù)湖,可以在數(shù)天內(nèi)構(gòu)建數(shù)據(jù)湖,而傳統(tǒng)方式需要一個經(jīng)驗(yàn)豐富的團(tuán)隊(duì),花費(fèi)數(shù)個月的時間。
2. 兼容多種數(shù)據(jù)格式,支持分級存儲
AWS數(shù)據(jù)湖支持關(guān)系型和非關(guān)系型數(shù)據(jù)庫,Amazon S3 提供五個存儲類別和自動數(shù)據(jù)生命周期管理。Amazon Redshift 的速度比其他云數(shù)據(jù)倉庫要快3倍。
3. 支持不同數(shù)據(jù)庫連接和數(shù)據(jù)交互查詢及
通過AWS Glue和Amazon Athena服務(wù),可以實(shí)現(xiàn)不同數(shù)據(jù)庫連接及數(shù)據(jù)湖數(shù)據(jù)交互查詢。
AWS Glue最主要有兩個功能,一個是ETL,ETL是Extract、Transform和Load,即數(shù)據(jù)的抽取、轉(zhuǎn)換和加載,從數(shù)據(jù)庫提取到數(shù)據(jù)倉庫使用的都是ETL。另外一個功能是數(shù)據(jù)目錄服務(wù)的功能,數(shù)據(jù)都存在數(shù)據(jù)湖里面,要對數(shù)據(jù)打標(biāo)簽,做分類工作,AWS Glue可以像爬蟲一樣對數(shù)據(jù)湖里的海量數(shù)據(jù)自動爬取,生成數(shù)據(jù)目錄的功能。
Amazon Athena支持使用SQL直接對S3數(shù)據(jù)交互式查詢,使快速存起來的海量的數(shù)據(jù)可以像傳統(tǒng)的使用SQL語言一樣,使用標(biāo)準(zhǔn)的數(shù)據(jù)庫查詢的語言,方便了技術(shù)人員的使用。
4. 支持多種數(shù)據(jù)分析方式
圖4 AWS數(shù)據(jù)分析組件
(圖來源,AWS公開資料)
如圖4,AWS支持多種數(shù)據(jù)分析方式,數(shù)據(jù)通過各種數(shù)據(jù)庫采集,進(jìn)入數(shù)據(jù)湖,然后進(jìn)行分析和展現(xiàn)。
數(shù)據(jù)分析Amazon EMR是重點(diǎn),Amazon EMR 提供在云中運(yùn)行 Apache Spark 和 Apache HIVE 工作負(fù)載。EMR 與 AWS 的其余部分進(jìn)行深度集成便于節(jié)省成本的功能,如 EC2 Spot 實(shí)例,從而將成本縮減高達(dá) 90%。
另外,AWS數(shù)據(jù)分析支持 SQL、R、Scala、Jupyter 和 Python語言,所有的服務(wù)均支持使用開放 API 以開放格式(例如 Apache Paquet、Apache OR、Apache Avro)并使用專有(適用于數(shù)據(jù)倉庫的 Redshift)和開放引擎(例如 Spark、Hive)訪問單一對象存儲 (S3) 中存儲的數(shù)據(jù)。
更進(jìn)一步,AWS數(shù)據(jù)湖可以和機(jī)器學(xué)習(xí)和人工智能服務(wù)Amazon SageMaker結(jié)合,把數(shù)據(jù)用來做機(jī)器學(xué)習(xí)、人工智能的數(shù)據(jù)分析,做更多的自動的預(yù)測性的分析。
5. 安全
AWS 提供了一套超越標(biāo)準(zhǔn)安全功能的工具,例如對安全策略積極監(jiān)控和統(tǒng)一管理的加密和訪問控制。例如,Amazon Macie 可幫助監(jiān)控數(shù)據(jù)湖,以確保不會意外地暴露憑據(jù)或個人身份信息 (PII)。Amazon Inspector 可幫助實(shí)施最佳實(shí)踐和識別可能被利用的配置問題,利用 AWS Lake Formation,可以在所有分析服務(wù)中對數(shù)據(jù)湖中的數(shù)據(jù)進(jìn)行一致性的訪問控制。
圖5 ,AWS數(shù)據(jù)湖平臺功能
。▓D來源,AWS公開資料)
AWS數(shù)據(jù)湖是成熟的解決方案,如圖5所示,可以提供多種功能,實(shí)現(xiàn)不同的業(yè)務(wù)價值。AWS數(shù)據(jù)湖已經(jīng)有許多用戶在使用,像娛樂業(yè)的二十一世紀(jì)?怂闺娪肮。還有包括一些金融的案例,比如FINRA,是一個美國的金融監(jiān)管機(jī)構(gòu),每天有超過1500億的事件、20PB的數(shù)量,它把所有金融的交易的信息都整合在一起,可以處理所有的內(nèi)部交易。還有納斯達(dá)克交易所,使用數(shù)據(jù)湖處理每天500億條的付款,使用數(shù)據(jù)湖把上市時間縮短了1/3。
四、總結(jié):AWS數(shù)據(jù)湖服務(wù)是數(shù)據(jù)戰(zhàn)略落地的強(qiáng)支點(diǎn)
疫情期間的健康碼經(jīng)過精準(zhǔn)的數(shù)據(jù)分析,極大的方便了大家的出行,也讓大家進(jìn)一步認(rèn)識了數(shù)據(jù)分析的便利性。當(dāng)前,從政府到企業(yè),都普遍認(rèn)識到了數(shù)據(jù)的重要性。數(shù)據(jù)要發(fā)揮作用,必須經(jīng)過多維度的分析。今后五年,企業(yè)必須擁有清晰正確的數(shù)據(jù)戰(zhàn)略并高效的落地,數(shù)據(jù)戰(zhàn)略是通往卓越的必經(jīng)之路,企業(yè)要么因?yàn)閿?shù)據(jù)戰(zhàn)略的高效落地而卓越,要么死亡。
AWS的數(shù)據(jù)湖服務(wù),能夠幫助企業(yè)解決數(shù)據(jù)的采集、存儲、分析、消費(fèi)等全周期的問題,為企業(yè)搭建了良好的數(shù)據(jù)平臺,是企業(yè)數(shù)據(jù)戰(zhàn)略落地的強(qiáng)支點(diǎn),能夠有力推動企業(yè)數(shù)字化轉(zhuǎn)型,是企業(yè)搶占先機(jī),贏得競爭優(yōu)勢的利器。