隨著算法、數(shù)據(jù)、引擎等技術(shù)方面的突發(fā)猛進(jìn),智能語(yǔ)音機(jī)器人的應(yīng)用日益普及。但是在日常交互溝通上,智能語(yǔ)音機(jī)器人卻顯得不足夠“智能”,尤其是不能很好地支持打斷、插話,反應(yīng)慢或者自顧自話的問(wèn)題一直飽受詬病。
大多數(shù)語(yǔ)音機(jī)器人采用一問(wèn)一答方式:照本宣科 TTS 播報(bào)內(nèi)容,播報(bào)完成后,再去詢問(wèn)和傾聽(tīng)客戶的意見(jiàn),語(yǔ)音識(shí)別轉(zhuǎn)譯后再跳轉(zhuǎn)對(duì)應(yīng)的對(duì)話場(chǎng)景流程。如果是一位有耐心的客戶,由機(jī)器人主導(dǎo)對(duì)話節(jié)奏和流程,這樣是沒(méi)問(wèn)題的。但在實(shí)際溝通中,當(dāng)客戶往往喜歡根據(jù)自己的想法和判斷,對(duì)溝通進(jìn)行各種插話打斷,比如:
- “等一下”,客戶意圖是不需要機(jī)器人繼續(xù)說(shuō)下去,暫停思考一下,準(zhǔn)備切換話題;
- “那 XXXX 問(wèn)題呢”,客戶意圖是直接從當(dāng)前話題切換到下一個(gè)話題;
- “好,我知道了”,客戶對(duì)機(jī)器人的回答表示已經(jīng)足夠了解,希望終止當(dāng)前對(duì)話。
一旦出現(xiàn)打斷的情況,機(jī)器人如果不能及時(shí)響應(yīng)客戶的最新想法和指令意圖,仍然還在上一個(gè)頻道“自說(shuō)自話”,客戶體驗(yàn)就非常糟糕……
但是一聽(tīng)到聲音就打斷機(jī)器人講話,也會(huì)有各種各樣的問(wèn)題。各種意外的噪聲,比如關(guān)門(mén)聲、裝修、汽車(chē)、音樂(lè)等,這些并非客戶真實(shí)意圖,一旦打斷,就會(huì)造成錯(cuò)誤打斷;而混雜在環(huán)境噪聲中的真人說(shuō)話聲,識(shí)別不到的話,就會(huì)造成漏打斷。
綜上,在智能語(yǔ)音機(jī)器人應(yīng)用中,如何合理、準(zhǔn)確的判定客戶是否有效打斷,保證客戶智能交互體驗(yàn),一直是長(zhǎng)期存在的問(wèn)題。
解決:U-IPCC VAD 人聲檢測(cè)技術(shù)輕松應(yīng)對(duì),打造最佳智能服務(wù)體驗(yàn)
近日,在某智能客服項(xiàng)目中就遇到這個(gè)問(wèn)題,項(xiàng)目全局使用智能語(yǔ)音機(jī)器人接待與交互,需要語(yǔ)音機(jī)器人要足夠“智能”,打造極致客戶體驗(yàn),怎么辦呢?
遠(yuǎn)傳 U-IPCC7.0 開(kāi)發(fā)團(tuán)隊(duì)經(jīng)過(guò)科學(xué)研究、大膽嘗試,打造獨(dú)特的 U-IPCC VAD 人聲識(shí)別算法模型,并經(jīng)過(guò)大量測(cè)試優(yōu)化,成功為智能語(yǔ)音機(jī)器人賦能智能打斷能力:
U-IPCC7.0 在通話建立時(shí)主動(dòng)開(kāi)啟檢測(cè)外線客戶的語(yǔ)音流,當(dāng)檢測(cè)到語(yǔ)音被打斷時(shí),快速通過(guò)人聲識(shí)別算法模型識(shí)別出是人聲還是環(huán)境噪音。若判斷為人聲,U-IPCC7.0 立即停止當(dāng)前 TTS 播報(bào),將人聲語(yǔ)音報(bào)送 ASR 引擎識(shí)別及 NLP 協(xié)同,根據(jù)分析結(jié)果進(jìn)入下一輪人機(jī)交互場(chǎng)景:暫停、調(diào)整、停止——第一時(shí)間響應(yīng)客戶訴求,直接進(jìn)入新的對(duì)話場(chǎng)景,跟上客戶的最新節(jié)奏。
作為 U-IPCC7.0 智能打斷的核心——人聲識(shí)別算法模型,通過(guò)分析人聲語(yǔ)音與其他聲音數(shù)據(jù)(語(yǔ)氣詞、環(huán)境噪聲)的波形、能量等特征,提煉聲音特征規(guī)律形成上百種人聲及各種聲音模型,可有效屏蔽關(guān)門(mén)、裝修、汽車(chē)?yán)、音?lè)等各種環(huán)境噪聲,并可精準(zhǔn)識(shí)別混雜在噪聲中的人聲,避免錯(cuò)誤打斷及漏打斷。
經(jīng)過(guò)上千次的測(cè)試和優(yōu)化,U-IPCC7.0 人聲識(shí)別算法模型的應(yīng)用效果非常理想,基本上可達(dá)到人一說(shuō)話就可以立即停止播放,自動(dòng)進(jìn)入新的對(duì)話場(chǎng)景,而各種語(yǔ)氣詞及環(huán)境噪音則毫無(wú)影響。實(shí)測(cè)中,機(jī)器人的表現(xiàn)非常自然順暢,智能打斷成功率在 95% 以上。