CTI論壇(ctiforum.com)3月15日消息(編譯/老秦): 語音平臺(tái)市場(chǎng)今年似乎正在接近一個(gè)重要的拐點(diǎn)。最初圍繞這項(xiàng)技術(shù)的熱情已經(jīng)消退。部署繼續(xù)增加,但比最初預(yù)期的要緩慢。因此,供應(yīng)商正在改變他們的優(yōu)先事項(xiàng),目標(biāo)是這些變化將帶來突破,從而推動(dòng)市場(chǎng)采用。
語音應(yīng)用程序開發(fā)平臺(tái)是構(gòu)建商業(yè)和消費(fèi)者語音應(yīng)用程序的基礎(chǔ)。創(chuàng)建為用戶提供語音界面的基礎(chǔ)設(shè)施是一項(xiàng)艱巨的任務(wù),需要許多構(gòu)建塊。一些區(qū)塊已經(jīng)到位,但許多仍在開發(fā)中。
年度回顧
- 最初,供應(yīng)商的努力集中在添加更多語言和擴(kuò)展其開發(fā)工具的范圍。這些領(lǐng)域的努力仍在繼續(xù)。
- 3 月,微軟在 Azure 神經(jīng)文本轉(zhuǎn)語音中增加了對(duì) 11 種語言的支持。該供應(yīng)商現(xiàn)在可以使用 60 種語言、142 種神經(jīng)語音和總共 219 種語音。
- 4 月,提供語音人工智能和會(huì)話智能技術(shù)的SoundHound將其Houndify Voice AI 平臺(tái)擴(kuò)展到 22 種語言。有了它,開發(fā)人員可以將對(duì)話智能添加到他們的產(chǎn)品和服務(wù)中。
- 開發(fā)人員喜歡使用某些工具、語言和技能。作為回應(yīng),領(lǐng)先的供應(yīng)商也為其產(chǎn)品線添加了新的開發(fā)輔助工具。
- 7 月,亞馬遜發(fā)布了迄今為止最大的新工具版本。開發(fā)人員現(xiàn)在可以構(gòu)建特色技能卡,以在主屏幕旋轉(zhuǎn)中提升他們的技能。
此外,現(xiàn)在當(dāng) Alexa 響應(yīng)常見請(qǐng)求時(shí)會(huì)建議他們的技能,例如"Alexa,給我講個(gè)故事";"Alexa,我們來玩?zhèn)游戲吧";或"Alexa,我需要鍛煉。"個(gè)性化的技能建議基于客戶對(duì)相似技能的使用。新的上下文發(fā)現(xiàn)機(jī)制允許客戶使用自然語言并找到技能。
在禮包中是開發(fā)人員為他們的技能創(chuàng)建小部件的一種方式。有了它們,客戶可以通過屏幕輸入和語音與 Echo Show 或其他 Alexa 設(shè)備進(jìn)行交互。
展望未來
增加語言和工具的數(shù)量是有幫助的,但并不能解決主要的市場(chǎng)障礙:公司仍然難以構(gòu)建語音應(yīng)用程序部署的業(yè)務(wù)案例。"很少有公司來找我們構(gòu)建純語音應(yīng)用程序,"Chant 總裁兼創(chuàng)始人 John Earle 解釋道。
大約十年前宣布語音接口時(shí),供應(yīng)商模仿移動(dòng)應(yīng)用程序開發(fā)市場(chǎng)的努力,但語音并沒有像移動(dòng)應(yīng)用程序那樣迅速流行或變得無處不在。
市場(chǎng)領(lǐng)導(dǎo)者亞馬遜的經(jīng)驗(yàn)有助于說明該行業(yè)的演變并確定該行業(yè)的現(xiàn)狀。一方面,供應(yīng)商已經(jīng)相當(dāng)成功。超過 900,000 名開發(fā)人員創(chuàng)建了超過 130,000 項(xiàng) Alexa 技能,這些技能用于廣泛的主要消費(fèi)者應(yīng)用程序。
但在最初的匆忙之后,技能開發(fā)出現(xiàn)了顯著下降。 2019 年前 10 個(gè)月,Alexa 技能收入僅為 140 萬美元,遠(yuǎn)低于亞馬遜 550 萬美元的目標(biāo)。從那以后,亞馬遜沒有公布其技能數(shù)量、開發(fā)者收入或目標(biāo)。
為什么收入會(huì)下降?"最初的語音技能很豐富,但在許多情況下并不是很有用,尤其是對(duì)企業(yè)而言,"對(duì)話技術(shù)負(fù)責(zé)人兼萬維網(wǎng)聯(lián)盟多模式交互工作組主席 Deborah Dahl 解釋道。"它們發(fā)展迅速,在許多情況下沒有經(jīng)過深思熟慮。"
不過,企業(yè)寄予厚望。例如,Uniphore首席技術(shù)官BalajiRaghavan表示,他們必須進(jìn)行檢查以保護(hù)客戶數(shù)據(jù)隱私。他補(bǔ)充說,最小的錯(cuò)誤可能會(huì)導(dǎo)致嚴(yán)重的業(yè)務(wù)問題,例如當(dāng)銷售電話將呼叫者的意圖解釋為"去"而不是"不"時(shí),或者當(dāng)呼叫中心的客戶因失去親人而哭泣時(shí),但語音機(jī)器人會(huì)嘗試快速結(jié)束通話,以盡量減少處理時(shí)間。
由于其他一些原因,語音應(yīng)用程序開發(fā)落后于移動(dòng)市場(chǎng)應(yīng)用程序開發(fā)。一個(gè)因素是前者經(jīng)過多年成熟并建立了一個(gè)強(qiáng)大的生態(tài)系統(tǒng),代碼可以輕松混合和匹配。標(biāo)準(zhǔn)已經(jīng)出現(xiàn),使供應(yīng)商和第三方可以輕松混合和匹配軟件。因此,兼容的軟件具有高水平的互操作性和可移植性,使公司可以花更多的時(shí)間為他們的應(yīng)用程序添加所需的功能,而不是試圖讓基本的基礎(chǔ)設(shè)施部分協(xié)同工作。
因此,正在多方面開展工作以解決這些缺點(diǎn)。在某些情況下,供應(yīng)商負(fù)責(zé)鏟子工作。
亞馬遜一直處于語音互操作性計(jì)劃 (VII) 的前沿。其目標(biāo)是開發(fā)通用接口,以便多個(gè)語音座席理同時(shí)在單個(gè)設(shè)備上工作。
亞馬遜還開發(fā)了多座席設(shè)計(jì)指南,為創(chuàng)建此類解決方案提供了最佳實(shí)踐。該計(jì)劃獲得了 80 多家供應(yīng)商的支持,其中包括消費(fèi)電子品牌、汽車制造商、電信運(yùn)營商、硬件解決方案提供商和系統(tǒng)集成商。杜比、Facebook、Garmin 和小米都支持這項(xiàng)工作。
該計(jì)劃具有潛力,但它專注于亞馬遜自身生態(tài)系統(tǒng)的開發(fā)。范圍更廣的替代方案正在出現(xiàn)。
2020 年 6 月,Linux 基金會(huì)成立了開放語音網(wǎng)絡(luò)(OVN)。該計(jì)劃源于麻省理工學(xué)院 (MIT) Auto-ID 實(shí)驗(yàn)室、凱捷咨詢和英特爾的合作。
該聯(lián)盟確定語音座席需要合作,有時(shí)還需要相互合作。"開放語音網(wǎng)絡(luò) (OVN) 認(rèn)為,互操作性應(yīng)該使語音助手能夠共享對(duì)話、數(shù)據(jù)、上下文和控制,"Larson技術(shù)服務(wù)副總裁兼開放語音網(wǎng)絡(luò)高級(jí)顧問Jim Larson說。
OVN 概述了六個(gè)語音座席互操作性功能:
- 調(diào)用遠(yuǎn)程語音座席。目標(biāo)是為語音提供與現(xiàn)在互聯(lián)網(wǎng)上的數(shù)據(jù)相同的普遍功能。語音座席地址使其能夠到達(dá)任何網(wǎng)絡(luò)目的地,無論平臺(tái)或位置如何。
- 支持語音注冊(cè)系統(tǒng)。在互聯(lián)網(wǎng)上,域名系統(tǒng) (DNS) 通過互聯(lián)網(wǎng)將特定網(wǎng)站的請(qǐng)求路由到指定網(wǎng)站。語音注冊(cè)系統(tǒng) (VRS) 使語音座席所有者能夠注冊(cè)其軟件的唯一名稱,因此用戶可以直接連接到它們。
- 在語音座席之間切換。目前,語音座席是隱蔽的。該行業(yè)必須轉(zhuǎn)向用戶可以調(diào)用多個(gè)語音座席的模型。
- 處理隱式請(qǐng)求。現(xiàn)在,用戶必須直接提問。他們應(yīng)該能夠提出隱含的請(qǐng)求。
- 在語音座席之間共享數(shù)據(jù)和上下文。消費(fèi)者不希望必須回答每個(gè)語音座席的相同問題。語音座席需要能夠共享它收集的任何用戶數(shù)據(jù)并將其放入正確的上下文中。
- 擴(kuò)展公司的角色。角色是指由語音座席呈現(xiàn)的聲音和特征。當(dāng)用戶切換到第二個(gè)語音座席時(shí),開發(fā)人員可以在用戶切換到第二個(gè)語音座席時(shí)維護(hù)第一個(gè)語音座席的角色,而不是在語音座席之間切換時(shí)切換角色。
與此同時(shí),負(fù)責(zé)VoiceXML規(guī)范的萬維網(wǎng)聯(lián)盟一直在研究第三種選擇。 W3C 語音交互社區(qū)小組希望一個(gè)語音應(yīng)用程序?qū)⑿畔鬟f給第二個(gè)應(yīng)用程序。他們正在研究的領(lǐng)域包括:
- 發(fā)現(xiàn)具有特定專業(yè)知識(shí)的虛擬助手,例如可以提供天氣信息的虛擬助手;
- 語音識(shí)別器統(tǒng)計(jì)語言模型的標(biāo)準(zhǔn)格式;
- 參考常見概念的標(biāo)準(zhǔn)表示,例如時(shí)間;
- 對(duì)話界面的互操作性;和
- 對(duì)話管理或"工作流"語言的共同工作。
最終結(jié)果是開發(fā)語音行業(yè)標(biāo)準(zhǔn)的工作已經(jīng)開始,這將使軟件供應(yīng)商、第三方系統(tǒng)集成商和咨詢公司以及企業(yè)更容易將技術(shù)集成到他們的應(yīng)用程序中。目前,這項(xiàng)工作正在自主進(jìn)行。"從技術(shù)上講,合并的潛力很大,"Dahl說。
但障礙依然存在,首先是標(biāo)準(zhǔn)的統(tǒng)一。"許可和知識(shí)產(chǎn)權(quán)(需要解決知識(shí)產(chǎn)權(quán)問題),"她補(bǔ)充道。
語音開發(fā)平臺(tái)的基石不斷成型。供應(yīng)商正在擴(kuò)展他們的解決方案。語音座席互操作性項(xiàng)目正在獲得關(guān)注。預(yù)計(jì)這些可能性將在新的一年內(nèi)競爭接受,并使供應(yīng)商、企業(yè)和第三方更容易混合和匹配語音軟件。
聲明:版權(quán)所有 非合作媒體謝絕轉(zhuǎn)載
作者:Paul Korzeniowski
原文網(wǎng)址:https://www.speechtechmag.com/Articles/Editorial/Features/The-2022-State-of-Speech-Development-Platforms-151326.aspx