與電腦面談
周密 陶建華 2007/07/06
人機(jī)交互技術(shù)(Human-Computer Interaction Techniques)是指通過(guò)計(jì)算機(jī)輸入、輸出設(shè)備,以有效的方式實(shí)現(xiàn)人與計(jì)算機(jī)對(duì)話的技術(shù)。隨著計(jì)算機(jī)的迅速普及,其使用者也從專(zhuān)家一級(jí)迅速擴(kuò)大到了未受過(guò)專(zhuān)門(mén)訓(xùn)練的普通用戶,由此強(qiáng)烈地刺激了人機(jī)交互界面的進(jìn)步。圖2 說(shuō)話人頭像系統(tǒng)
該模塊首先進(jìn)行人臉檢測(cè),對(duì)眼角、嘴角等特征點(diǎn)進(jìn)行粗略定位,然后根據(jù)小波變換進(jìn)行精細(xì)定位,最終得到較為精細(xì)的人臉表情參數(shù)初始值。之后運(yùn)用Lucas-Kanade算法進(jìn)行特征點(diǎn)的跟蹤,利用跟蹤得到的特征點(diǎn)位置首先根據(jù)Ekman的人臉表情編碼規(guī)則進(jìn)行編碼,然后根據(jù)所得到的編碼結(jié)果進(jìn)行表情識(shí)別。該系統(tǒng)不僅實(shí)現(xiàn)了全自動(dòng)的特征點(diǎn)定位和跟蹤,而且根據(jù)人臉特征點(diǎn)的分布模型,可以對(duì)跟蹤時(shí)特征點(diǎn)的丟失現(xiàn)象進(jìn)行補(bǔ)償。
2007-7-1語(yǔ)音識(shí)別及理解模塊
語(yǔ)音識(shí)別及理解模塊用于自動(dòng)監(jiān)聽(tīng)用戶的語(yǔ)音表達(dá)內(nèi)容。常用的方法有兩大類(lèi): 一種是使用關(guān)鍵詞檢出的方法,主要是找出一句話里有代表意義的詞,根據(jù)這些詞就可以理解整句話的意思,在這種情況下,輸入的語(yǔ)句必須嚴(yán)格符合系統(tǒng)所規(guī)定的語(yǔ)法結(jié)構(gòu);
另一種方法是基于連續(xù)語(yǔ)音的搜索,與一般聽(tīng)寫(xiě)機(jī)不同的是,這種搜索過(guò)程會(huì)把對(duì)話系統(tǒng)所應(yīng)用領(lǐng)域的信息添加進(jìn)去,這種方法效果比較好,但是在處理集外數(shù)據(jù)時(shí)則往往容易表現(xiàn)不穩(wěn)定。
由于天氣查詢是一個(gè)限定領(lǐng)域的系統(tǒng),因此我們選擇了基于關(guān)鍵詞檢索的方法。在識(shí)別的過(guò)程中: 首先利用聲學(xué)模型得到候選子詞序列; 然后在詞法層得到候選詞條序列,最后根據(jù)語(yǔ)法規(guī)則,即語(yǔ)言模型進(jìn)行句法層的搜索,得到最終的識(shí)別結(jié)果。
在模塊工作過(guò)程中,系統(tǒng)首先判斷語(yǔ)音識(shí)別的結(jié)果是否符合查詢語(yǔ)法,若符合語(yǔ)法,則給出正確的天氣查詢語(yǔ)言。比如已經(jīng)識(shí)別出來(lái)了“北京” 和“今天”,比照事先制定的語(yǔ)法結(jié)構(gòu),發(fā)現(xiàn)它們分別屬于“地點(diǎn)”和“時(shí)間”類(lèi)別,所以可以理解為:
“需要查詢北京明天的天氣”。當(dāng)系統(tǒng)無(wú)法識(shí)別出用于表達(dá)的含義時(shí),會(huì)進(jìn)行智能反饋,保證整個(gè)天氣查詢系統(tǒng)正常運(yùn)行。
在語(yǔ)音處理模塊中,我們還融入了語(yǔ)氣檢測(cè)和情感識(shí)別算法,能夠動(dòng)態(tài)地根據(jù)用戶的語(yǔ)音狀態(tài),判斷該說(shuō)話人用的是陳述語(yǔ)氣、疑問(wèn)語(yǔ)氣還是感嘆語(yǔ)氣,在有典型情緒的地方,還能夠輸出該說(shuō)話人的情感狀態(tài)。這些信息與語(yǔ)音識(shí)別結(jié)果一起送入到整個(gè)查詢系統(tǒng)的控制模塊中進(jìn)行集中決策。
說(shuō)話人頭像模塊
說(shuō)話人頭像模塊包括語(yǔ)音合成、人臉動(dòng)畫(huà)兩個(gè)子模塊。語(yǔ)音合成模塊是為了將天氣查詢獲得信息表達(dá)出來(lái)。本文中,語(yǔ)音合成模塊是基于中科院自動(dòng)化所設(shè)計(jì)的“繪聲”語(yǔ)音合成系統(tǒng),該系統(tǒng)能夠?qū)⑷我廨斎氲奈谋,以連續(xù)自然的聲音朗讀出來(lái),并能夠處理中文普通話、粵語(yǔ)、英語(yǔ)等多種語(yǔ)言或方言。
“面對(duì)面的人機(jī)交互系統(tǒng)”實(shí)現(xiàn)方法,涉及語(yǔ)音合成與識(shí)別、表情識(shí)別與生成、自然語(yǔ)音理解、多模態(tài)融合方法等多個(gè)學(xué)科領(lǐng)域。通過(guò)本項(xiàng)目的研究,可以對(duì)傳統(tǒng)人機(jī)交互模式進(jìn)行革命性的革新,使之更符合現(xiàn)代信息社會(huì)獲取信息的需要。同時(shí)在無(wú)人值守環(huán)境、智能交互平臺(tái)、虛擬現(xiàn)實(shí)、數(shù)字化娛樂(lè)等領(lǐng)域中,均有很強(qiáng)的應(yīng)用性,可以不分語(yǔ)種和人群地提供服務(wù),對(duì)信息服務(wù)業(yè)的長(zhǎng)期發(fā)展具有非常重要的意義。
語(yǔ)音合成模塊配上人臉動(dòng)畫(huà),可以實(shí)現(xiàn)栩栩如生的說(shuō)話人頭像系統(tǒng),讓用戶感覺(jué)到是在與一個(gè)虛擬人進(jìn)行交互。人臉動(dòng)畫(huà)的研究難點(diǎn)是如何與語(yǔ)音合成系統(tǒng)進(jìn)行配合,既保持語(yǔ)音、唇形、舌位的同步,又要能夠恰如其分地生成不同的表情。
中心控制(CTRL模塊)
中心控制模塊相當(dāng)于整個(gè)虛擬人的“大腦”,它從“眼睛”,“耳朵”處得到對(duì)方的語(yǔ)音和表情信息,經(jīng)過(guò)處理以后,做出適當(dāng)反饋,再由說(shuō)話人頭像系統(tǒng)說(shuō)出來(lái),它實(shí)際上實(shí)現(xiàn)了對(duì)話管理和多模態(tài)融合兩方面的功能。
對(duì)話管理
目前主要的對(duì)話管理的控制策略大概有三種,包括基于有限狀態(tài)機(jī)(finite-state based)、基于框架(frame based)以及基于代理(agent
based)的控制策略。
在總結(jié)了前人工作經(jīng)驗(yàn)和結(jié)合本系統(tǒng)的實(shí)際問(wèn)題的基礎(chǔ)上,我們?cè)趯?duì)話管理的具體實(shí)現(xiàn)上,將框架理論和有限狀態(tài)自動(dòng)機(jī)理論相結(jié)合,完成了一個(gè)智能的對(duì)話管理模塊。我們先將對(duì)話管理限制在天氣查詢領(lǐng)域。在系統(tǒng)中,通過(guò)人機(jī)之間的對(duì)話和確認(rèn),系統(tǒng)需要得到要查詢的時(shí)間和地點(diǎn)信息之后反饋查詢結(jié)果。
我們?yōu)樾枰玫降男畔⑾仍O(shè)計(jì)了一個(gè)槽結(jié)構(gòu)如下: Slot_name表示槽名,在本系統(tǒng)中就是City和Date。Slot_value 指示該項(xiàng)信息是否已經(jīng)得到,所以有2個(gè)狀態(tài):
Known 和Unkown。
圖3中,初始狀態(tài)為Unknown,當(dāng)收到用戶提供的信息時(shí),槽狀態(tài)轉(zhuǎn)化為Known,即為終止?fàn)顟B(tài)。當(dāng)再收到用戶的信息時(shí),槽狀態(tài)不變,只是具體的槽值發(fā)生了變化。
空口有憑:用聲音來(lái)付賬 2007-06-25 |
智能通信終端的關(guān)鍵技術(shù)研究 2007-06-19 |
聲控你的系統(tǒng) Vista語(yǔ)音識(shí)別全體驗(yàn) 2007-03-22 |
跨國(guó)巨頭猛攻語(yǔ)音識(shí)別技術(shù) 2007-03-09 |
自動(dòng)語(yǔ)音系統(tǒng):虛擬人物提供人性化呼叫業(yè)務(wù) 2007-01-23 |