CTI論壇(ctiforum.com) (編譯/老秦): 語音供應(yīng)商正在探索新的途徑來擴(kuò)展其開發(fā)工具的使用。增強(qiáng)的建模精度,改進(jìn)的后端集成,對其他接口的擴(kuò)展以及更開放的系統(tǒng)是2019年的重點(diǎn)領(lǐng)域。2020年的重點(diǎn)是標(biāo)準(zhǔn)接口的開發(fā)和可移植性的提高。
年度回顧
在構(gòu)建解決方案時,語音供應(yīng)商致力于為用戶提供公司應(yīng)用程序的直觀界面。亞馬遜于6月份宣布的Alexa演示語言就是一種用于用戶界面設(shè)計的工具集。它具有技能個性化功能,使開發(fā)人員可以使用Alexa應(yīng)用程序捕獲的語音配置文件來創(chuàng)建個性化技能。語音配置文件可解決首選項(xiàng),記住設(shè)置并區(qū)分用戶。
改善語音識別是人們持續(xù)關(guān)注的領(lǐng)域。十月份,亞馬遜在其Alexa技能套件中添加了三套新工具。此開發(fā)工具包可幫助公司建立自助服務(wù)應(yīng)用程序。其中兩個功能是"自然語言理解(NLU)評估工具"和"話語沖突檢測",旨在提高語音模型的準(zhǔn)確性。前者測試成批的話語,并將語音應(yīng)用程序的自然語言處理(NLP)模型對它們的解釋與期望進(jìn)行比較。為了提高結(jié)果質(zhì)量,NLU評估工具依賴于消費(fèi)者通常說的命令,而不是由交互模型構(gòu)建的樣本話語。結(jié)果,系統(tǒng)通過識別有問題的話語來隔離訓(xùn)練區(qū)域。該工具還支持回歸測試,允許開發(fā)人員在向語音應(yīng)用添加新功能后創(chuàng)建并運(yùn)行評估。
NLU評估工具使用生產(chǎn)中的數(shù)據(jù)以匿名的高頻現(xiàn)場話語進(jìn)行測量,該數(shù)據(jù)旨在幫助調(diào)整對語音模型所做的任何更改的準(zhǔn)確性。
話語沖突檢測功能可以檢測偶然映射到多個意圖的話語,這是可能會降低NLP模型準(zhǔn)確性的一個因素。該功能會在構(gòu)建每個模型時自動運(yùn)行,并且可以在發(fā)布應(yīng)用程序的第一個版本之前使用,也可以隨著時間的推移添加意圖而使用。
除了前端開發(fā)之外,在過去幾個月中,還強(qiáng)調(diào)了與后臺業(yè)務(wù)應(yīng)用程序的集成。9月,Nuance Communications擴(kuò)展了Nuance智能互動平臺的功能,該平臺在市場營銷業(yè)務(wù)流程中增加了語音功能。開發(fā)環(huán)境現(xiàn)在具有連接到:
- 消息服務(wù),以便公司可以跨多個渠道自動化和改善人工協(xié)助的客戶參與度;
- 座席AI服務(wù),旨在為座席和主管提供相關(guān)的實(shí)時客戶信息;
- 安全和生物識別服務(wù),以改進(jìn)身份驗(yàn)證并防止欺詐;
- 后端集成,因此該平臺可與提供所需信息的第三方認(rèn)知引擎和數(shù)據(jù)源一起使用。
數(shù)據(jù)分析已成為第三方開發(fā)人員關(guān)注的另一個領(lǐng)域。亞馬遜增加了一個Get Metrics API,該API與第三方數(shù)據(jù)聚合平臺一起使用,允許開發(fā)人員評估各種指標(biāo),例如唯一客戶。它還支持創(chuàng)建監(jiān)視器,警報和儀表板,以突出可能影響客戶參與度的更改。
語音開發(fā)平臺傳統(tǒng)上具有不同程度的開放性。例如,蘋果公司一直致力于將其系統(tǒng)與自己的解決方案聯(lián)系在一起,這給開發(fā)人員使用替代產(chǎn)品帶來了挑戰(zhàn)。十月份,供應(yīng)商通過允許Siri使用第三方應(yīng)用程序來打開其系統(tǒng)。用戶可以調(diào)用第三方應(yīng)用程序(如WhatsApp)來代替Apple解決方案(如其自己的Messages應(yīng)用程序)。但是,第三方將需要將該功能添加到其軟件中。
展望未來
對于語音開發(fā)人員而言,可移植性一直是一項(xiàng)長期挑戰(zhàn)。"語音應(yīng)用程序開發(fā)人員發(fā)現(xiàn),每當(dāng)他們將軟件從一個語音引擎轉(zhuǎn)移到另一個語音引擎時,他們都必須重寫軟件的大部分內(nèi)容,"Conversational Technologies負(fù)責(zé)人,萬維網(wǎng)聯(lián)盟多模式交互工作組主席Deborah Dahl指出。
可移植性涉及許多問題。舊版系統(tǒng)旨在在數(shù)據(jù)中心的服務(wù)器上運(yùn)行。許多新系統(tǒng)具有云優(yōu)先設(shè)計。將軟件從一種遷移到另一種是一項(xiàng)復(fù)雜的工作。Nuance的智能參與平臺具有與云無關(guān)的靈活性,允許組織在Nuance的托管,公共和私有云中部署相同的解決方案。
設(shè)備支持是另一個重點(diǎn)領(lǐng)域。Nuance全渠道解決方案高級副總裁Tony Lorentzen表示:"我們將繼續(xù)看到語音成為新界面,越來越多的設(shè)備將啟用語音功能。"
然后,這些解決方案必須與傳統(tǒng)解決方案集成。亞馬遜的Alexa演示語言使開發(fā)人員可以為帶有屏幕的設(shè)備(例如臺式機(jī)和筆記本電腦)創(chuàng)建Alexa技能。
另一個可移植性問題是將軟件從一個系統(tǒng)遷移到另一個系統(tǒng)。從歷史上看,市場缺乏標(biāo)準(zhǔn)接口,因此企業(yè)和第三方每次使用不同的語音引擎時都必須完成共同的工作,例如分配存儲。
十月份,Nvidia推出了Jarvis,這是一種多模式AI軟件開發(fā)套件,該套件將語音,視覺和其他傳感器整合到一個系統(tǒng)中。該工具支持用于構(gòu)建,訓(xùn)練和部署GPU加速的人工智能系統(tǒng)的工作流,該系統(tǒng)可以結(jié)合手勢和眼睛運(yùn)動等視覺提示以及語音來建立上下文。
9月,亞馬遜牽頭成立了語音互操作性計劃小組,這是一個創(chuàng)建標(biāo)準(zhǔn)語音開發(fā)接口的計劃。該小組設(shè)定了以下四個目標(biāo):
- 開發(fā)與其他解決方案一起使用的語音服務(wù),同時保護(hù)客戶的隱私和安全;
- 構(gòu)建語音功能的設(shè)備,通過多個同時的喚醒詞來促進(jìn)選擇和靈活性;
- 發(fā)布使更容易在單個產(chǎn)品上集成多個語音服務(wù)的技術(shù)和解決方案;
- 加速機(jī)器學(xué)習(xí)和對話式AI研究,以改善語音服務(wù)的廣度,質(zhì)量和互操作性。
包括百度,微軟,Salesforce.com和Verizon在內(nèi)的30多家公司支持這項(xiàng)工作。蘋果和谷歌是缺席者。該小組的第一批成果有望在2020年到來。
聲明:版權(quán)所有 非合作媒體謝絕轉(zhuǎn)載
作者:Paul Korzeniowski
原文網(wǎng)址:https://www.speechtechmag.com/Articles/Editorial/Features/The-State-of-Speech-Developer-Platforms-139108.aspx