自動(dòng)語(yǔ)音識(shí)別(ASR)無(wú)處不在,我們經(jīng)常通過(guò)使用ASR技術(shù)的語(yǔ)音用戶(hù)界面與虛擬助理、電子設(shè)備和軟件應(yīng)用程序進(jìn)行交互。但更多時(shí)候,盡管ASR有了顯著的改進(jìn),但當(dāng)我們與這些智能設(shè)備和應(yīng)用程序交互時(shí),仍然感覺(jué)缺少了一個(gè)要素。ASR介導(dǎo)的互動(dòng)和我們正常的人與人之間的交流有很大區(qū)別,因?yàn)楫?dāng)我們與其他人互動(dòng)時(shí),我們會(huì)考慮他們的情緒狀態(tài)和表達(dá),并相應(yīng)地調(diào)整我們的反應(yīng)、理解和行為。
人類(lèi)的交流是豐富而復(fù)雜的。你可能聽(tīng)說(shuō)過(guò)經(jīng)常引用的7-38-55通訊規(guī)則。這個(gè)在20世紀(jì)60年代形成的公理聲稱(chēng),傳達(dá)我們交流的意圖和意義的重?fù)?dān)不是語(yǔ)言而是非語(yǔ)言線(xiàn)索。根據(jù)這一點(diǎn),實(shí)際說(shuō)出的單詞只占詞義的7%;語(yǔ)音表達(dá)和語(yǔ)調(diào)占38%;其余的55%的詞義是通過(guò)肢體語(yǔ)言傳達(dá)的。
我要指出的是,這條規(guī)則在所分配的百分比方面還沒(méi)有經(jīng)受住科學(xué)的審查,但它仍然很流行,并且包含了一個(gè)真理的核心,即從言語(yǔ)模式中可以收集到重要的信息信號(hào)。不僅是“什么”而且“如何”也很重要。當(dāng)同時(shí)考慮信息的語(yǔ)義和情感狀態(tài)時(shí),ASR技術(shù)的效果更好。
還要注意,我們這里的重點(diǎn)是語(yǔ)音情感識(shí)別,而不是通過(guò)使用情感標(biāo)記注入語(yǔ)調(diào)和情感,使機(jī)器生成的語(yǔ)音聽(tīng)起來(lái)更像人。自動(dòng)生成接近人類(lèi)語(yǔ)音的真實(shí)語(yǔ)音是一個(gè)受歡迎但不同的話(huà)題。如果當(dāng)前的許多ASR應(yīng)用程序看起來(lái)過(guò)于機(jī)械化或不切實(shí)際,那可能是因?yàn)樗鼈儗?duì)我們所說(shuō)的話(huà)的解釋過(guò)于字面化,而對(duì)潛在的情感沒(méi)有感覺(jué)。
語(yǔ)音情感識(shí)別有著廣泛的應(yīng)用領(lǐng)域,如下所述:
客戶(hù)支持和員工健康:分析語(yǔ)音通話(huà)以確定客戶(hù)的情緒狀態(tài)可以更好地處理客戶(hù)服務(wù)電話(huà)。例如,一個(gè)憤怒的客戶(hù)可以被引導(dǎo)到一個(gè)受過(guò)訓(xùn)練的支持座席那里,以處理這種情況。一旦確定了情緒,軟件就可以進(jìn)行編程,為心煩意亂的客戶(hù)定制一個(gè)對(duì)話(huà)腳本。
語(yǔ)音分析的座席談話(huà)可以提供線(xiàn)索,他們的壓力水平和情緒健康。對(duì)這些數(shù)據(jù)的時(shí)間序列分析可以識(shí)別客戶(hù)行為模式、員工和團(tuán)隊(duì)激勵(lì)水平的變化和趨勢(shì),以及其他可操作的見(jiàn)解。這些見(jiàn)解有助于提高員工敬業(yè)度和客戶(hù)滿(mǎn)意度。
冠狀病毒大流行導(dǎo)致了前所未有的遠(yuǎn)程工作安排,這些安排會(huì)影響員工士氣。基于SER的分析應(yīng)用程序可以幫助組織評(píng)估員工如何應(yīng)對(duì)這些新工作條件可能產(chǎn)生的孤立感。
醫(yī)療保健和輔助機(jī)器人:在療養(yǎng)院和護(hù)理中心,為病人和老年人提供的伴侶機(jī)器人引起了很大的興趣。這些機(jī)器人可以了解他們所幫助的用戶(hù)的不同情緒狀態(tài),這將大大提高他們的接受度和采納率。另一個(gè)用例涉及自閉癥患者,他們很難識(shí)別與他們互動(dòng)的人所表達(dá)的情感。SER應(yīng)用程序可以提供單詞背后的情感線(xiàn)索。
E-learning應(yīng)用程序:在線(xiàn)學(xué)習(xí)期間,學(xué)生可以體驗(yàn)各種情緒狀態(tài),包括焦慮、困惑和無(wú)聊。關(guān)于學(xué)習(xí)者當(dāng)前狀態(tài)的輸入,例如他們的興趣水平,可以用來(lái)改變教學(xué)節(jié)奏,或者可以促進(jìn)不同的教學(xué)風(fēng)格;所有這些都有助于提高學(xué)生的參與度并導(dǎo)致更好的學(xué)習(xí)結(jié)果。
體育和電子游戲:SER可以通過(guò)分析評(píng)論和生成精彩片段,幫助識(shí)別體育游戲或比賽的關(guān)鍵時(shí)刻和激動(dòng)人心的部分。用戶(hù)通過(guò)佩戴數(shù)字化身來(lái)進(jìn)行視頻游戲,這些化身的表情和動(dòng)作可以根據(jù)用戶(hù)表達(dá)的情感進(jìn)行修改,從而使游戲體驗(yàn)更具趣味性和吸引力。
這并不是一份詳盡的清單。事實(shí)上,SER的用例可以在涉及語(yǔ)音的各種其他人機(jī)交互場(chǎng)景中找到。SER的基礎(chǔ)是能夠正確地推導(dǎo)出潛在的情緒,但這究竟是如何工作的?SER如何補(bǔ)充書(shū)面語(yǔ)篇的情感分析?挑戰(zhàn)和限制是什么?
作為一個(gè)長(zhǎng)達(dá)幾十年的研究領(lǐng)域,SER有許多傳統(tǒng)的技術(shù),但我們也看到了新的深度學(xué)習(xí)方法的應(yīng)用。人工智能和深度學(xué)習(xí)方法如何幫助我們提高SER?我們將在《語(yǔ)音技術(shù)》(Speech Technology)的春季版上探討這些話(huà)題。
聲明:版權(quán)所有 非合作媒體謝絕轉(zhuǎn)載
作者:Kashyap Kompella
原文網(wǎng)址:https://www.speechtechmag.com/Articles/Columns/Interact/Speech-Emotion-Recognition-The-Next-Step-in-the-User-Experience-145605.aspx