這種緊迫性源于這樣一個事實(shí):數(shù)據(jù)量正以令人難以置信的速度增長。國際數(shù)據(jù)公司(IDC)的數(shù)據(jù)顯示,全球數(shù)據(jù)總量預(yù)計將從2018年的33zettabyte字節(jié)(1zettabyte字節(jié)相當(dāng)于1萬億千兆字節(jié)--trillion gigabytes)增長到2025年的175zettabyte字節(jié),復(fù)合年增長率(CAGR)為61%。
自然,公司正在努力處理、存儲和保護(hù)其不斷擴(kuò)大的信息池,而不斷增長的數(shù)據(jù)量正在推動邊緣計算業(yè)務(wù)案例。在較高的層次上,邊緣計算是一種架構(gòu),它將位于數(shù)據(jù)中心(通常稱為核心)的云服務(wù)與靠近最終用戶的邊緣計算設(shè)備相結(jié)合,這些設(shè)備可以自主地滿足部分應(yīng)用程序功能。最近兩方面都發(fā)生了變化。
云計算為企業(yè)提供了一種比傳統(tǒng)系統(tǒng)更簡單的部署和管理計算機(jī)基礎(chǔ)設(shè)施的方法,但這種差距一直在擴(kuò)大。云將計算機(jī)處理集中在海量數(shù)據(jù)中心。據(jù)Gartner統(tǒng)計,2018年,90%的企業(yè)數(shù)據(jù)是在云端創(chuàng)建的,只有10%是在邊緣中創(chuàng)建的。
然而,到2025年,邊緣計算將占75%,云計算僅占25%。因此,一些云基礎(chǔ)設(shè)施的缺陷正在顯現(xiàn)。“專門的語音應(yīng)用程序,比如互聯(lián)汽車,需要將大量數(shù)據(jù)傳送到云端,但網(wǎng)絡(luò)可用性和質(zhì)量并不總是有保證,”Conversational Technologies的負(fù)責(zé)人Deborah Dahl解釋道。
隱私是另一個問題。“Dahl補(bǔ)充說:“人們越來越懷疑供應(yīng)商的動機(jī),不喜歡他們的個人信息進(jìn)入云端,因?yàn)樗麄儫o法控制這些信息,也無法知道這些信息會發(fā)生什么。”這種不安在醫(yī)療保健和金融服務(wù)等垂直行業(yè)尤其普遍,但很少有行業(yè)能完全幸免。此外,消費(fèi)者還擔(dān)心黑客可能會利用語音系統(tǒng)進(jìn)入自己家中。家長們尤其擔(dān)心從孩子身上收集到什么信息以及如何使用這些信息。
“因此,語音行業(yè)一直在尋求將計算能力和存儲能力推向網(wǎng)絡(luò)邊緣。語音平臺,如Amazon Alexa、Google Assistant、Microsoft Cortana和Nuance Communications的Dragon,從提供解決方案的一開始就基本上部署了邊緣技術(shù)。”Opus Research的創(chuàng)始人兼首席分析師Dan Miller解釋說:“有很多智能終端,比如揚(yáng)聲器、自動信息娛樂系統(tǒng)、信息亭和智能手機(jī),都有語音用戶界面。”
然而,本地發(fā)生的計算和分析量很小,主要由喚醒系統(tǒng)的命令組成。一個原因是他們的設(shè)計是幾年前開發(fā)的,當(dāng)時邊緣設(shè)備缺乏本地處理能力和電池電源。
隨著行業(yè)的發(fā)展,這些障礙已經(jīng)被清除,云計算的局限性已經(jīng)明確化。將大部分會話發(fā)送到云端進(jìn)行解碼、解釋和響應(yīng),會降低響應(yīng)時間,增加網(wǎng)絡(luò)基礎(chǔ)設(shè)施需求(及其成本),并引發(fā)安全問題。
邊緣計算對語音技術(shù)的許多好處
邊緣計算正在發(fā)展成為一種更具吸引力的選擇,因?yàn)樗治鰯?shù)據(jù)時更接近數(shù)據(jù)的創(chuàng)建位置,并將信息從終端設(shè)備到語音識別系統(tǒng)的移動最小化。更智能的邊緣系統(tǒng)可以支持音頻捕獲等功能;壓縮;傳輸;語言處理;還有語音追蹤。此外,將更大的單詞子集和自然語言處理功能放在更接近用戶的位置會帶來許多好處,包括:- 它增強(qiáng)了應(yīng)用程序的響應(yīng)能力,因?yàn)橄到y(tǒng)不會受到網(wǎng)絡(luò)或云數(shù)據(jù)中心速度減慢的阻礙。
- 它減少了互聯(lián)網(wǎng)帶寬的使用,向云發(fā)送簡單的文本消息,而不是復(fù)雜的語音記錄。
- 它降低了成本,使公司能夠削減網(wǎng)絡(luò)成本,因?yàn)樗鼈儌鬏數(shù)男畔⑤^少。
- 減少延遲。延遲是有問題的,數(shù)據(jù)從設(shè)備傳輸?shù)綀?zhí)行分析并返回結(jié)果所需的時間。將數(shù)據(jù)移近終點(diǎn)會縮短響應(yīng)時間,并允許在后臺處理選定的任務(wù),如將項(xiàng)目添加到購物列表或創(chuàng)建提醒。
- 它更好地支持任務(wù)關(guān)鍵型應(yīng)用程序。處理速度如此之快,以至于公司可以部署需要即時數(shù)據(jù)處理的實(shí)時應(yīng)用程序。
- 提供離線可用性。有了云,就不能保證網(wǎng)絡(luò)始終可用或可靠。通過邊緣計算,語音助手處理某些命令并執(zhí)行選擇功能,例如自動發(fā)出警報和發(fā)送提醒,即使設(shè)備處于飛行模式或超出覆蓋范圍。
- 它保持?jǐn)?shù)據(jù)的私有性,因?yàn)楣⿷?yīng)商可以進(jìn)行檢查,這樣用戶數(shù)據(jù)就保持在本地,而不會發(fā)送到云。
- 它符合隱私要求,如歐盟的一般數(shù)據(jù)保護(hù)條例(GDPR),該條例限制了信息的存儲位置;更少的移動意味著更少的潛在問題。
- 它提高了安全性,因?yàn)檫吘壪到y(tǒng)越來越善于區(qū)分和識別用戶聲音。本地處理可以通過重置系統(tǒng)配置文件快速阻止試圖闖入的人。
但要使邊緣計算全面運(yùn)行,還需要進(jìn)行一些基礎(chǔ)設(shè)施升級。一個好的起點(diǎn)是硬件。“圍繞本地自然語言處理這類事情的最大挑戰(zhàn)是將應(yīng)用程序和數(shù)據(jù)模型限制在便攜式設(shè)備上的小腳印上,”Miller解釋說。
供應(yīng)商必須升級他們的邊緣硬件,使其更強(qiáng)大。例如,亞馬遜的Echo設(shè)備使用該公司的AZ1神經(jīng)邊緣處理器,它需要的功耗減少20倍,內(nèi)存使用率降低85%,但語音處理能力卻翻了一番。此外,CEVA、Fluent。ai、NVIDIA、Intel和Syntiant等半導(dǎo)體供應(yīng)商正在開發(fā)專用中央處理單元、圖形處理單元、數(shù)字信號處理器和系統(tǒng)芯片語音處理解決方案,旨在以小型、節(jié)能的形式提供所需的處理能力。
傳統(tǒng)的無線廣域網(wǎng)(WAN)技術(shù)不適合邊緣計算。認(rèn)識到這些局限性,國際電信聯(lián)盟(International Telecommunications Union)、3GPP和互聯(lián)網(wǎng)工程任務(wù)組(Internet Engineering Task Force(IETF))開發(fā)了IMT-2020,即5G。它提供了許多增強(qiáng)功能,包括:
支持更多設(shè)備:新標(biāo)準(zhǔn)是為邊緣設(shè)計的。4G網(wǎng)絡(luò)支持每平方公里最多約4000臺設(shè)備;5G與100萬人合作。
減少延遲:4G延遲通常在20毫秒到30毫秒之間;5G是1毫秒到10毫秒。
更快的速度:4G以每秒1G的速度運(yùn)行;5G的最高速度高達(dá)每秒20G。
人工智能和機(jī)器學(xué)習(xí)的進(jìn)步使得語音系統(tǒng)變得更加復(fù)雜。檢測到關(guān)鍵字后,設(shè)備開始主動偵聽。更多的智能可以放在本地,因此邊緣系統(tǒng)可以在嘈雜的環(huán)境中更好地處理信息,例如繁忙的辦公室。新興的技術(shù)將用戶的聲音與周圍的聲音分開。
例如,波束形成處理來自多個麥克風(fēng)的音頻,以便將注意力集中在用戶所在的方向。如果員工從一個地方移動到另一個地方,語音跟蹤算法會調(diào)整麥克風(fēng)信號之間的平衡,這樣系統(tǒng)就能知道說話者在哪里,并能聽到他們在說什么。
軟件還可以抑制會話干擾。與消除噪音耳機(jī)的工作方式類似,該設(shè)備負(fù)責(zé)抑制干擾和音樂,即使在大聲播放時也是如此。
先進(jìn)的邊緣計算能力支持語音生物識別,防止未經(jīng)授權(quán)的用戶輸入信息,進(jìn)行購買,或更改關(guān)鍵系統(tǒng)設(shè)置。在處理敏感客戶或員工信息(如人力資源數(shù)據(jù)或帳單)的部門中,這些功能非常重要。
設(shè)備上的人工智能語音識別可以執(zhí)行高級安全功能。一種裝置探測到玻璃破碎的聲音并觸發(fā)警報。當(dāng)連接到攝像頭時,聲音會觸發(fā)對視頻的特寫錄制事件。
邊緣計算功能正在被添加到智能設(shè)備、計算機(jī)、打印機(jī)、家用電器、燈具、辦公設(shè)備和玩具中。用戶可以輸入命令來執(zhí)行任務(wù),比如打印文檔,或者幫助員工閱讀重要文檔。
邊緣計算提供了潛在的成本節(jié)約。供應(yīng)商語音識別的應(yīng)用程序編程接口(API)調(diào)用通常每1000個APIs調(diào)用花費(fèi)4美元。將智能放在離設(shè)備更近的地方可以消除它們并降低系統(tǒng)開銷。
邊緣計算是一項(xiàng)正在進(jìn)行的工作
然而,邊緣應(yīng)用程序開發(fā)工作非常復(fù)雜,處于開發(fā)的初級階段,需要一個更加健壯的生態(tài)系統(tǒng)。隨著數(shù)據(jù)從云端移動到邊緣,軟件復(fù)雜性增加。
IDC邊緣策略研究總監(jiān)Dave McCarthy表示,硬件平臺及其支持的通信協(xié)議日益多樣化也帶來了挑戰(zhàn)。將這些信息保存在一個地方,云計算比在多個地方協(xié)調(diào)信息要簡單得多。
規(guī)模也是一個問題。“邊緣適用于只有少量設(shè)備的應(yīng)用程序,但隨著供應(yīng)商規(guī)模擴(kuò)大到數(shù)百或數(shù)千臺,這種模式往往會崩潰,”Mc Carthy說。
缺乏標(biāo)準(zhǔn)使這一挑戰(zhàn)雪上加霜。目前,供應(yīng)商正在以自己的方式解決這些問題,因此軟件的可移植性和開發(fā)的一致性受到限制。
軟件更新和維護(hù)變得更加復(fù)雜,因?yàn)閿?shù)據(jù)必須在多個位置同步。“如果有一小部分可能的功能,比如說對于一個玩具,更新應(yīng)該是簡單的;如果一個應(yīng)用程序很復(fù)雜,比如說庫存,那么工作就會變得更麻煩。”
隨著數(shù)據(jù)從數(shù)據(jù)中心轉(zhuǎn)移到邊緣,公司也需要新的管理工具。如果沒有它們,他們可能無法監(jiān)視事務(wù)中每個步驟發(fā)生的情況,識別潛在的瓶頸,并在問題對性能產(chǎn)生負(fù)面影響之前理想地解決問題。
最后,請注意,這一領(lǐng)域是新的,因此基本上缺少所需的支持基礎(chǔ)設(shè)施和技能。很少有開發(fā)人員了解新的體系結(jié)構(gòu),而最佳實(shí)踐的開發(fā)才剛剛起步。總之,生態(tài)系統(tǒng)需要做很多工作。
邊緣計算找到了一個利基市場
由于邊緣語音系統(tǒng)的雛形,它們是例外而不是規(guī)則。它們存在于選擇性用例中,包括需要以下條件的用例:
速度,當(dāng)系統(tǒng)需要以難以置信的速度處理數(shù)據(jù)時,比如實(shí)時解決方案;
缺乏可用帶寬,當(dāng)機(jī)器生成大量數(shù)據(jù)時,將無法有效地發(fā)送到遠(yuǎn)程數(shù)據(jù)中心;
自治,解決方案需要能夠在沒有網(wǎng)絡(luò)連接的情況下運(yùn)行;和遵守,當(dāng)信息必須保持在特定區(qū)域內(nèi)以遵守法規(guī)時。
因此,專注于這一領(lǐng)域的供應(yīng)商數(shù)量很小。2019年11月,Nuance Communications剝離了Cerence,該公司成為一家獨(dú)立的汽車軟件公司。Cerence Drive語音識別系統(tǒng)用于3.5億輛汽車,其虛擬助手功能可執(zhí)行諸如打開空調(diào)和找到最近的Wi-Fi咖啡館等任務(wù)。
Sensor的邊緣解決方案嵌入了來自ATT、Hasbro、華為、谷歌、亞馬遜、三星、LG、摩托羅拉、GoPro、索尼、騰訊、Garmin、LG、Microsoft和聯(lián)想等數(shù)百家消費(fèi)電子廠商的30多億個產(chǎn)品中。
那么未來會怎樣呢?“我沒有看到大多數(shù)語音應(yīng)用程序使用邊緣技術(shù),但是那些需要低延遲、隱私和安全性的應(yīng)用程序會發(fā)現(xiàn)它很有吸引力,”Dahl總結(jié)道。
聲明:版權(quán)所有 非合作媒體謝絕轉(zhuǎn)載
作者:Paul Korzeniowski
原文網(wǎng)址:
https://www.speechtechmag.com/Articles/Editorial/Features/Speech-Technology-Inches-Closer-to-the-Edge--146809.aspx