CTI論壇(ctiforum.com) (編譯/老秦): 在經(jīng)歷了 2020 年的不安之后,2021 年應(yīng)該代表著一場(chǎng)重置。但隨著大流行頑固地與我們同在,這一年最終表明,COVID-19 給整個(gè)經(jīng)濟(jì)和社會(huì)帶來的許多變化很可能會(huì)成為永久性的。顯然,語(yǔ)音技術(shù)可以發(fā)揮重要作用。由于支持這些應(yīng)用程序的語(yǔ)音開發(fā)平臺(tái)和引擎的穩(wěn)步發(fā)展,配備對(duì)話式 AI 的智能虛擬助手將繼續(xù)變得更好,并承擔(dān)更多的客戶服務(wù)負(fù)擔(dān)。更高的聯(lián)絡(luò)中心數(shù)量和更多的語(yǔ)音技術(shù)用例,包括在醫(yī)療保健和金融領(lǐng)域,確保了對(duì)分析的穩(wěn)定需求,以幫助解碼客戶情緒。這些和其他語(yǔ)音技術(shù)的進(jìn)步確保了未來,雖然不可預(yù)測(cè),但也將保持令人興奮。如需詳細(xì)了解語(yǔ)音行業(yè)的貢獻(xiàn),請(qǐng)閱讀以下主題。
- 語(yǔ)音引擎的現(xiàn)狀
- 語(yǔ)音開發(fā)平臺(tái)現(xiàn)狀
- 語(yǔ)音分析的狀態(tài)
- 智能虛擬助手的現(xiàn)狀
- 語(yǔ)音生物識(shí)別的現(xiàn)狀
- 輔助技術(shù)現(xiàn)狀
- 人工智能的現(xiàn)狀
語(yǔ)音引擎的現(xiàn)狀
去年是語(yǔ)音引擎技術(shù)旋風(fēng)般的一年。該行業(yè)見證了大量創(chuàng)新和市場(chǎng)增長(zhǎng)。然而,障礙仍然存在,包括持續(xù)的 COVID-19 大流行和可能導(dǎo)致用戶沮喪的技術(shù)限制。
去年是語(yǔ)音引擎技術(shù)旋風(fēng)般的一年。該行業(yè)見證了大量創(chuàng)新和市場(chǎng)增長(zhǎng)。然而,障礙仍然存在,包括持續(xù)的 COVID-19 大流行和可能導(dǎo)致用戶沮喪的技術(shù)限制。
"迄今為止,語(yǔ)音技術(shù)引擎的主要主題是創(chuàng)新,"Khoros 首席技術(shù)官 Sejal Amin 說。 "在過去的十年里,語(yǔ)音技術(shù)領(lǐng)域已經(jīng)出現(xiàn)了許多新的社交媒體平臺(tái),人工智能和自然語(yǔ)言處理等先進(jìn)技術(shù)能力增加了它的多功能性和規(guī)模。"
ETS AI Research Labs 的研究工程師 Rutuja Ubale 表示,谷歌、亞馬遜、IBM 和微軟繼續(xù)在該領(lǐng)域占據(jù)主導(dǎo)地位,并繼續(xù)改進(jìn)其用于語(yǔ)音轉(zhuǎn)文本、自動(dòng)語(yǔ)音識(shí)別 (ASR)、文本轉(zhuǎn)- 用于聊天機(jī)器人、翻譯等的語(yǔ)音 (TTS)、對(duì)話管理和自然語(yǔ)言理解 (NLU)。
"這些 APIs 越來越多地被多家公司,尤其是處于早期開發(fā)階段的初創(chuàng)公司用于設(shè)計(jì)基于語(yǔ)音的應(yīng)用程序,以在他們沒有資源構(gòu)建內(nèi)部技術(shù)的情況下滿足不同的用戶需求,"Ubale 指出。
Verint 語(yǔ)音和文本分析副總裁 Daniel Ziv 表示,由于 Alexa 和 Siri 等語(yǔ)音界面的出現(xiàn),消費(fèi)者已經(jīng)習(xí)慣將語(yǔ)音作為一種自然界面,因此語(yǔ)音引擎的發(fā)展正在加速。
"世界上一些最大的公司以及初創(chuàng)企業(yè)社區(qū)都在對(duì)語(yǔ)音引擎技術(shù)和數(shù)據(jù)收集進(jìn)行投資,以幫助調(diào)整和優(yōu)化這些引擎。這是一個(gè)炙手可熱的市場(chǎng),創(chuàng)新迅速增長(zhǎng),圍繞語(yǔ)音、數(shù)據(jù)、情感和意圖打造了新的用例,"Ziv 說。
移動(dòng)應(yīng)用程序中的語(yǔ)音助手似乎是目前最熱門的趨勢(shì)--一種幾乎滲透到每個(gè)人日常生活中的力量。
"遠(yuǎn)場(chǎng) ASR 擴(kuò)展了智能電視和智能顯示器的語(yǔ)音助手功能,"Ubale 說。 "我也對(duì)將語(yǔ)音能力擴(kuò)展到教育和醫(yī)療保健領(lǐng)域感到特別興奮。"
2021 年語(yǔ)音的其他發(fā)展包括貨幣化、語(yǔ)音購(gòu)物和新的語(yǔ)音設(shè)備。
"我們已經(jīng)看到語(yǔ)音助手跨行業(yè)擴(kuò)展,越來越多的公司意識(shí)到語(yǔ)音人工智能技術(shù)的好處,并為他們的客戶尋求全渠道體驗(yàn)。品牌也開始考慮語(yǔ)音助手的重要方面,例如道德、性別、口音和文化偏見,"SoundHound 首席運(yùn)營(yíng)官 Michael Zagorsek 解釋道。
Yobe 的聯(lián)合創(chuàng)始人兼首席科學(xué)家 Hamid Nawab 對(duì)語(yǔ)音引擎在語(yǔ)言理解方面取得的進(jìn)步印象特別深刻,在無(wú)噪音環(huán)境中的準(zhǔn)確率超過 90%。
"它們非常有效和強(qiáng)大,這在很大程度上要?dú)w功于自然語(yǔ)言處理方面的工作,"Nawab 說。
年度回顧
去年出現(xiàn)了一些突出的發(fā)展:
- 微軟收購(gòu)了 Nuance Communications。
- Meta (Facebook) 引入了 Generative Spoken Language Model (GSLM),它可以在沒有標(biāo)簽或文本的情況下從音頻中學(xué)習(xí)語(yǔ)音表示,讓語(yǔ)音技術(shù)對(duì)語(yǔ)言更具包容性,提高使用稀有語(yǔ)言的能力,并捕捉語(yǔ)音中的細(xì)微差別。
- Meta AI 還發(fā)布了一個(gè)大型開源數(shù)據(jù)集 Multilingual LibriSpeech,其中包含 50,000 小時(shí)的八種語(yǔ)言語(yǔ)音數(shù)據(jù),可用于訓(xùn)練獨(dú)立或組合的 ASR 模型。
- Apple 為簡(jiǎn)單的導(dǎo)航任務(wù)推出了適用于 Siri 的設(shè)備上語(yǔ)音識(shí)別。
- 谷歌啟動(dòng)項(xiàng)目LaMDA(對(duì)話應(yīng)用語(yǔ)言模型)。
- 新數(shù)據(jù)被添加到任何人都可以用來訓(xùn)練語(yǔ)音應(yīng)用程序的通用語(yǔ)音數(shù)據(jù)集中。
- 發(fā)布了 wav2vec2 的多語(yǔ)言版本,稱為 XLSR(跨語(yǔ)言語(yǔ)音表示),可使用 128 種語(yǔ)言進(jìn)行訓(xùn)練。
- Vosk API 發(fā)布了適用于 20 種語(yǔ)言的輕量級(jí) ASR 模型,這些模型與其 API 兼容,可用于實(shí)時(shí)語(yǔ)音識(shí)別。
毫不奇怪,該行業(yè)已準(zhǔn)備好快速增長(zhǎng)。 IDC 預(yù)測(cè),全球?qū)υ捠饺斯ぶ悄苘浖袌?chǎng)將從 2020 年的 22 億美元增長(zhǎng)到 2025 年的 79 億美元,年復(fù)合增長(zhǎng)率為 28.8%。
"該市場(chǎng)的增長(zhǎng)繼續(xù)受到會(huì)話 AI、語(yǔ)音到文本、文本到語(yǔ)音、機(jī)器翻譯和獨(dú)立自然語(yǔ)言處理 (NLP) 軟件的增長(zhǎng)的推動(dòng),這些軟件用于創(chuàng)建會(huì)話 AI 解決方案并為其他類型的企業(yè)軟件提供對(duì)話功能,"Ziv 說。
還要考慮一下,TTS 市場(chǎng)預(yù)計(jì)將從 2020 年的 19.4 億美元增加到 2028 年的 56.1 億美元。
在對(duì)話式AI 領(lǐng)域,許多人對(duì)端到端口語(yǔ)理解 (SLU) 系統(tǒng)的開發(fā)感到興奮。
"雖然以前的努力旨在消除對(duì) ASR 的需求,并直接從原始語(yǔ)音轉(zhuǎn)向意圖和插槽識(shí)別,但新的努力旨在整合對(duì)話歷史以提高對(duì)人機(jī)對(duì)話的理解,"Ubale 說。 "雖然有幾家公司已經(jīng)在致力于在設(shè)備上部署 ASR,但亞馬遜最近關(guān)于融合 ASR 和設(shè)備上 SLU 的自然語(yǔ)言理解的研究也令人興奮。"
Amin 認(rèn)為,隨著公司推進(jìn)對(duì)話式客戶服務(wù),多語(yǔ)言模式的采用增加是最重要的進(jìn)步。
"轉(zhuǎn)向多語(yǔ)言語(yǔ)音助手可以提高可訪問性和品牌影響力,從而可以接觸到新的和以前可能無(wú)法進(jìn)入的市場(chǎng)的受眾?蛻舾鼉A向于忠于了解其人口統(tǒng)計(jì)數(shù)據(jù)的品牌," Amin 說。
去年另一個(gè)值得注意的發(fā)展是將核心序列建模擴(kuò)展到其他領(lǐng)域。
"研究人員表明,當(dāng)前語(yǔ)言模型背后的技術(shù)可用于解決廣泛的強(qiáng)化學(xué)習(xí)問題,"Nextiva 首席技術(shù)官 Phil Steitz 解釋說。 "我們還看到了跨多個(gè) AI/機(jī)器學(xué)習(xí)領(lǐng)域的可訪問性和易于實(shí)施的重大進(jìn)步。開源框架、模型和組件顯著降低了團(tuán)隊(duì)實(shí)施當(dāng)代 AI 解決方案的門檻。"
有效過濾背景噪音和了解嘈雜環(huán)境中的用戶仍然是該領(lǐng)域的主要困難。
"噪音會(huì)擾亂麥克風(fēng)拾取的語(yǔ)音模式。消除噪音的能力可以為在各種環(huán)境中與語(yǔ)音助手進(jìn)行交互打開大門,例如汽車、街道或背景噪音較多的區(qū)域,"Zagorsek 說。
Nawab 將此稱為"雞尾酒會(huì)問題"。
"盡管具有強(qiáng)大的自然語(yǔ)言理解能力,但機(jī)器學(xué)習(xí)尚未能夠解決這個(gè)問題,尤其是對(duì)于嘈雜的現(xiàn)實(shí)世界環(huán)境。這是語(yǔ)音轉(zhuǎn)文本、對(duì)話式人工智能平臺(tái)和語(yǔ)音助手的瓶頸,"他說。
Elektrobit 用戶體驗(yàn)總監(jiān) J?rg Scherer 表示,集成 AI 技術(shù)已將識(shí)別性能提高到可接受的水平。
"然而,對(duì)意圖的清晰理解仍然是一個(gè)挑戰(zhàn)。因此,需要考慮更多與上下文相關(guān)的信息,例如用戶的偏好、位置和對(duì)話歷史,以通過推理生成語(yǔ)音對(duì)話答案,"Scherer 建議道。
管理語(yǔ)音多樣性和控制偏見是另一個(gè)需要注意的粘性小部件。
"當(dāng)前的 ASR 模型現(xiàn)在非常擅長(zhǎng)清晰、緩慢的語(yǔ)音,但它們需要更好地識(shí)別不同的方言和專業(yè)詞匯,"Steitz 說。
另一個(gè)挑戰(zhàn)是在與客戶一起使用品牌 TTS 和真實(shí)的人類體驗(yàn)之間找到平衡,同時(shí)確保每個(gè)客戶群的每條消息都是不同的。
然后,人們?cè)絹碓綋?dān)心語(yǔ)音數(shù)據(jù)和隱私。 "組織需要有效地操作語(yǔ)音數(shù)據(jù),但要在不侵犯用戶和客戶隱私的情況下防止濫用,"Ziv 認(rèn)為。
展望未來
盡管面臨挑戰(zhàn),但預(yù)測(cè)要求未來令人興奮的發(fā)展。
"我預(yù)見到人工智能驅(qū)動(dòng)的語(yǔ)音技術(shù)將越來越多地被開發(fā)用于改善社會(huì),特別是醫(yī)療保健和教育領(lǐng)域,"Ubale 說。 "現(xiàn)在,大多數(shù)現(xiàn)成的功能提供的語(yǔ)音信息非常有限。但在未來,工程師和科學(xué)家將更多地投資于構(gòu)建基礎(chǔ)能力,以應(yīng)對(duì)試圖學(xué)習(xí)一門新語(yǔ)言的用戶面臨的特定挑戰(zhàn),為專業(yè)發(fā)展而重新技能或提升技能,以及克服特定的醫(yī)療需求。"
Zagorsek 設(shè)想了四個(gè)創(chuàng)新將強(qiáng)勁的領(lǐng)域:主動(dòng)語(yǔ)音助手、情緒檢測(cè)、擴(kuò)展的多語(yǔ)言和重音語(yǔ)言能力,以及增加的貨幣化。
"在不久的將來,我們將看到語(yǔ)音助手通過收集有關(guān)上下文和情況的信息,然后主動(dòng)提出有用的建議并采取行動(dòng)來發(fā)揮積極作用并提供更大的有用性,"Zagorsek 說。
Amin 預(yù)測(cè),隨著客戶繼續(xù)尋求人際互動(dòng),同理心將變得更加重要。 "通過異步消息傳遞和客戶語(yǔ)音等先進(jìn)技術(shù),可以更好地滿足客戶的需求并提供白手套體驗(yàn),從而產(chǎn)生同理心。"
Ziv 也同樣熱情。 "我預(yù)見到實(shí)時(shí)語(yǔ)音應(yīng)用程序的興起和持續(xù)發(fā)展勢(shì)頭,例如實(shí)時(shí)座席輔助,"他說。 "我還看到了與虛擬現(xiàn)實(shí)和語(yǔ)音交互的沉浸式人機(jī)語(yǔ)音的出現(xiàn),例如,鍵盤和通過手指發(fā)短信消失了。"
聲明:版權(quán)所有 非合作媒體謝絕轉(zhuǎn)載
原文網(wǎng)址:https://www.speechtechmag.com/Articles/Editorial/Features/The-2022-State-of-Speech-Engines-151325.aspx