性感美女在线免费视频,韩国美女直播免费视频

首頁(yè)>>>技術(shù)>>>語(yǔ)音應(yīng)用>>>語(yǔ)音識(shí)別(ASR)　　語(yǔ)音識(shí)別產(chǎn)品

與電腦面談

周密陶建華 2007/07/06

　　人機(jī)交互技術(shù)(Human-Computer Interaction Techniques)是指通過(guò)計(jì)算機(jī)輸入、輸出設(shè)備，以有效的方式實(shí)現(xiàn)人與計(jì)算機(jī)對(duì)話的技術(shù)。隨著計(jì)算機(jī)的迅速普及，其使用者也從專(zhuān)家一級(jí)迅速擴(kuò)大到了未受過(guò)專(zhuān)門(mén)訓(xùn)練的普通用戶，由此強(qiáng)烈地刺激了人機(jī)交互界面的進(jìn)步。

　　目前，語(yǔ)音識(shí)別與合成、臉部表情識(shí)別與生成、身體姿態(tài)分析等一系列研究成果開(kāi)始集成到電腦中，計(jì)算機(jī)開(kāi)始逐漸以語(yǔ)音和視頻的方式與人類(lèi)進(jìn)行交互。

　　本期專(zhuān)題從一個(gè)多模態(tài)融合面對(duì)面人機(jī)交互系統(tǒng)著手，介紹了人機(jī)交互領(lǐng)域關(guān)鍵的個(gè)性化語(yǔ)音生成、說(shuō)話人頭像、多模態(tài)情感識(shí)別等技術(shù)的最新研究和發(fā)展?fàn)顩r。

　　多模態(tài)融合建立人機(jī)交互平臺(tái)

　　采用鍵盤(pán)和鼠標(biāo)是人與計(jì)算機(jī)之間的典型交互方式。為了讓計(jì)算機(jī)更具擬人化的特征，并更好地為人類(lèi)服務(wù)，從上世紀(jì)八十年代開(kāi)始，語(yǔ)音識(shí)別與合成、臉部表情識(shí)別與生成、身體姿態(tài)分析等一系列研究成果開(kāi)始集成到電腦中，計(jì)算機(jī)開(kāi)始逐漸以語(yǔ)音和視頻的方式與人類(lèi)進(jìn)行交互。然而，即使如此，目前絕大多數(shù)的研究依然停留在單個(gè)通道上，語(yǔ)音和視頻通常作為兩個(gè)完全不相關(guān)的課題進(jìn)行研究。大多數(shù)人在人機(jī)對(duì)話平臺(tái)的設(shè)計(jì)上，要么是單純的語(yǔ)音信息，要么只采用臉部表情或姿態(tài)信息。真正將這些信息有效地融合并不多見(jiàn)。由于人們?cè)谙嗷ソ涣鬟^(guò)程中，語(yǔ)音、臉部表情和姿態(tài)往往是同步動(dòng)作，所表達(dá)的含義相互影響。舉例來(lái)說(shuō):

　　當(dāng)一個(gè)人說(shuō): “你今天做得不錯(cuò)�！比绻怯藐愂龌蚋袊@語(yǔ)氣，通常意味著肯定或表?yè)P(yáng); 如果是采用疑問(wèn)語(yǔ)氣，則可能是表達(dá)一定的詢問(wèn)或諷刺意味; 而即使用陳述語(yǔ)氣表達(dá)，但臉部表情卻是一副不屑一顧的樣子，這通常也意味著諷刺。

　　從這個(gè)簡(jiǎn)單的例子可以看出，在人與人的對(duì)話中，表達(dá)的文字信息與不同語(yǔ)氣和臉部表情的組合，可能會(huì)出現(xiàn)不同的含義。然而大部分傳統(tǒng)的人機(jī)對(duì)話研究，主要側(cè)重在單純的語(yǔ)音識(shí)別、合成和文字理解上，既缺乏對(duì)語(yǔ)氣（或情感）的識(shí)別，也缺乏有效的語(yǔ)音與表情同步分析工作。

　　事實(shí)上，從多模態(tài)融合（本文主要指語(yǔ)音和視頻信息融合）角度建立人機(jī)交互平臺(tái)已是近幾年非常熱的研究課題，與此相關(guān)的研究計(jì)劃還包括: 情感計(jì)算、普適計(jì)算等。國(guó)外有許多單位在從事相關(guān)技術(shù)的研究，如: MIT，CMU，UIUC，IBM等大學(xué)或跨國(guó)公司，國(guó)內(nèi)也有清華大學(xué)，浙江大學(xué)，中科院自動(dòng)化所、計(jì)算所、軟件所等相關(guān)單位在從事這方面的研究。即使如此，從總體上看，多模態(tài)融合方法的研究還只是處在初期階段。本文以中科院自動(dòng)化所建立的一個(gè)多模態(tài)天氣查詢系統(tǒng)為例，介紹一種人與電腦進(jìn)行面對(duì)面對(duì)話的交互模式。在這種交互模式中，用戶可以綜合使用語(yǔ)音、臉部表情、語(yǔ)氣等信息傳輸希望表達(dá)的內(nèi)容，而電腦則將獲得的天氣信息采用語(yǔ)音合成、人臉動(dòng)畫(huà)等方式生動(dòng)地進(jìn)行信息反饋。

　　系統(tǒng)概述

　　多模態(tài)天氣查詢系統(tǒng)包括語(yǔ)音識(shí)別及理解(ASR)、人臉跟蹤與表情識(shí)別(TRK)、說(shuō)話人頭像(ANM)、語(yǔ)音中情感識(shí)別(SP)、多模態(tài)對(duì)話管理(CTR)等幾個(gè)主要模塊。

　　系統(tǒng)與互聯(lián)網(wǎng)中天氣信息源進(jìn)行結(jié)合，實(shí)現(xiàn)了一定的天氣查詢功能: 當(dāng)用戶進(jìn)入攝像頭視野范圍內(nèi)時(shí)，系統(tǒng)自動(dòng)運(yùn)行人臉跟蹤模塊進(jìn)行人臉定位，找到人臉的有效區(qū)域，然后對(duì)眼角、嘴角等特征點(diǎn)進(jìn)行定位。

　　如果用戶沒(méi)有先開(kāi)始說(shuō)話，系統(tǒng)會(huì)用語(yǔ)音合成系統(tǒng)先說(shuō): “您好，請(qǐng)問(wèn)我能為您做些什么？”當(dāng)用戶開(kāi)始說(shuō)話后，系統(tǒng)的人臉表情跟蹤與識(shí)別、語(yǔ)音識(shí)別、語(yǔ)氣檢測(cè)及語(yǔ)音中情感識(shí)別三個(gè)模塊同時(shí)并行工作。語(yǔ)音識(shí)別的結(jié)果會(huì)自動(dòng)轉(zhuǎn)到對(duì)話管理模塊，在對(duì)話管理模塊中，將根據(jù)語(yǔ)音語(yǔ)氣和情感識(shí)別、人臉表情識(shí)別或動(dòng)作識(shí)別等信息綜合進(jìn)行判斷，若是提問(wèn)天氣信息，則將時(shí)間或地點(diǎn)信息輸入至中心控制模塊，時(shí)間和地點(diǎn)信息不完整時(shí)，系統(tǒng)會(huì)針對(duì)缺失信息提問(wèn)和確認(rèn)，直到得到完整有效的信息后開(kāi)始啟動(dòng)查詢，然后將結(jié)果通過(guò)虛擬角色表達(dá)出來(lái)。

　　說(shuō)話過(guò)程中，表情識(shí)別模塊實(shí)時(shí)分析用戶的表情及其他非語(yǔ)音信息，輔助語(yǔ)言的理解，如: 點(diǎn)頭或搖頭的動(dòng)作可以幫助信息的確認(rèn)，而用戶如果出現(xiàn)了驚訝、厭惡表情的時(shí)候，說(shuō)明對(duì)話過(guò)程出現(xiàn)了問(wèn)題，系統(tǒng)需要對(duì)關(guān)鍵信息進(jìn)行重新確認(rèn)了。

　　下面分別對(duì)不同模塊的工作方式進(jìn)行說(shuō)明。

　　人臉跟蹤與表情識(shí)別

圖2 說(shuō)話人頭像系統(tǒng)

　　該模塊首先進(jìn)行人臉檢測(cè)，對(duì)眼角、嘴角等特征點(diǎn)進(jìn)行粗略定位，然后根據(jù)小波變換進(jìn)行精細(xì)定位，最終得到較為精細(xì)的人臉表情參數(shù)初始值。之后運(yùn)用Lucas-Kanade算法進(jìn)行特征點(diǎn)的跟蹤，利用跟蹤得到的特征點(diǎn)位置首先根據(jù)Ekman的人臉表情編碼規(guī)則進(jìn)行編碼，然后根據(jù)所得到的編碼結(jié)果進(jìn)行表情識(shí)別。該系統(tǒng)不僅實(shí)現(xiàn)了全自動(dòng)的特征點(diǎn)定位和跟蹤，而且根據(jù)人臉特征點(diǎn)的分布模型，可以對(duì)跟蹤時(shí)特征點(diǎn)的丟失現(xiàn)象進(jìn)行補(bǔ)償。

　　2007-7-1語(yǔ)音識(shí)別及理解模塊

　　語(yǔ)音識(shí)別及理解模塊用于自動(dòng)監(jiān)聽(tīng)用戶的語(yǔ)音表達(dá)內(nèi)容。常用的方法有兩大類(lèi): 一種是使用關(guān)鍵詞檢出的方法，主要是找出一句話里有代表意義的詞，根據(jù)這些詞就可以理解整句話的意思，在這種情況下，輸入的語(yǔ)句必須嚴(yán)格符合系統(tǒng)所規(guī)定的語(yǔ)法結(jié)構(gòu); 另一種方法是基于連續(xù)語(yǔ)音的搜索，與一般聽(tīng)寫(xiě)機(jī)不同的是，這種搜索過(guò)程會(huì)把對(duì)話系統(tǒng)所應(yīng)用領(lǐng)域的信息添加進(jìn)去，這種方法效果比較好，但是在處理集外數(shù)據(jù)時(shí)則往往容易表現(xiàn)不穩(wěn)定。

　　由于天氣查詢是一個(gè)限定領(lǐng)域的系統(tǒng)，因此我們選擇了基于關(guān)鍵詞檢索的方法。在識(shí)別的過(guò)程中: 首先利用聲學(xué)模型得到候選子詞序列; 然后在詞法層得到候選詞條序列，最后根據(jù)語(yǔ)法規(guī)則，即語(yǔ)言模型進(jìn)行句法層的搜索，得到最終的識(shí)別結(jié)果。

　　在模塊工作過(guò)程中，系統(tǒng)首先判斷語(yǔ)音識(shí)別的結(jié)果是否符合查詢語(yǔ)法，若符合語(yǔ)法，則給出正確的天氣查詢語(yǔ)言。比如已經(jīng)識(shí)別出來(lái)了“北京” 和“今天”，比照事先制定的語(yǔ)法結(jié)構(gòu)，發(fā)現(xiàn)它們分別屬于“地點(diǎn)”和“時(shí)間”類(lèi)別，所以可以理解為: “需要查詢北京明天的天氣”。當(dāng)系統(tǒng)無(wú)法識(shí)別出用于表達(dá)的含義時(shí)，會(huì)進(jìn)行智能反饋，保證整個(gè)天氣查詢系統(tǒng)正常運(yùn)行。

　　在語(yǔ)音處理模塊中，我們還融入了語(yǔ)氣檢測(cè)和情感識(shí)別算法，能夠動(dòng)態(tài)地根據(jù)用戶的語(yǔ)音狀態(tài)，判斷該說(shuō)話人用的是陳述語(yǔ)氣、疑問(wèn)語(yǔ)氣還是感嘆語(yǔ)氣，在有典型情緒的地方，還能夠輸出該說(shuō)話人的情感狀態(tài)。這些信息與語(yǔ)音識(shí)別結(jié)果一起送入到整個(gè)查詢系統(tǒng)的控制模塊中進(jìn)行集中決策。

　　說(shuō)話人頭像模塊

　　說(shuō)話人頭像模塊包括語(yǔ)音合成、人臉動(dòng)畫(huà)兩個(gè)子模塊。語(yǔ)音合成模塊是為了將天氣查詢獲得信息表達(dá)出來(lái)。本文中，語(yǔ)音合成模塊是基于中科院自動(dòng)化所設(shè)計(jì)的“繪聲”語(yǔ)音合成系統(tǒng)，該系統(tǒng)能夠?qū)⑷我廨斎氲奈谋�，以連續(xù)自然的聲音朗讀出來(lái)，并能夠處理中文普通話、粵語(yǔ)、英語(yǔ)等多種語(yǔ)言或方言。

　　“面對(duì)面的人機(jī)交互系統(tǒng)”實(shí)現(xiàn)方法，涉及語(yǔ)音合成與識(shí)別、表情識(shí)別與生成、自然語(yǔ)音理解、多模態(tài)融合方法等多個(gè)學(xué)科領(lǐng)域。通過(guò)本項(xiàng)目的研究，可以對(duì)傳統(tǒng)人機(jī)交互模式進(jìn)行革命性的革新，使之更符合現(xiàn)代信息社會(huì)獲取信息的需要。同時(shí)在無(wú)人值守環(huán)境、智能交互平臺(tái)、虛擬現(xiàn)實(shí)、數(shù)字化娛樂(lè)等領(lǐng)域中，均有很強(qiáng)的應(yīng)用性，可以不分語(yǔ)種和人群地提供服務(wù)，對(duì)信息服務(wù)業(yè)的長(zhǎng)期發(fā)展具有非常重要的意義。

　　語(yǔ)音合成模塊配上人臉動(dòng)畫(huà)，可以實(shí)現(xiàn)栩栩如生的說(shuō)話人頭像系統(tǒng)，讓用戶感覺(jué)到是在與一個(gè)虛擬人進(jìn)行交互。人臉動(dòng)畫(huà)的研究難點(diǎn)是如何與語(yǔ)音合成系統(tǒng)進(jìn)行配合，既保持語(yǔ)音、唇形、舌位的同步，又要能夠恰如其分地生成不同的表情。

　　中心控制（CTRL模塊）

　　中心控制模塊相當(dāng)于整個(gè)虛擬人的“大腦”，它從“眼睛”，“耳朵”處得到對(duì)方的語(yǔ)音和表情信息，經(jīng)過(guò)處理以后，做出適當(dāng)反饋，再由說(shuō)話人頭像系統(tǒng)說(shuō)出來(lái)，它實(shí)際上實(shí)現(xiàn)了對(duì)話管理和多模態(tài)融合兩方面的功能。

　　對(duì)話管理

　　目前主要的對(duì)話管理的控制策略大概有三種，包括基于有限狀態(tài)機(jī)(finite-state based)、基于框架(frame based)以及基于代理(agent based)的控制策略。

　　在總結(jié)了前人工作經(jīng)驗(yàn)和結(jié)合本系統(tǒng)的實(shí)際問(wèn)題的基礎(chǔ)上，我們?cè)趯?duì)話管理的具體實(shí)現(xiàn)上，將框架理論和有限狀態(tài)自動(dòng)機(jī)理論相結(jié)合，完成了一個(gè)智能的對(duì)話管理模塊。我們先將對(duì)話管理限制在天氣查詢領(lǐng)域。在系統(tǒng)中，通過(guò)人機(jī)之間的對(duì)話和確認(rèn)，系統(tǒng)需要得到要查詢的時(shí)間和地點(diǎn)信息之后反饋查詢結(jié)果。

　　我們?yōu)樾枰玫降男畔⑾仍O(shè)計(jì)了一個(gè)槽結(jié)構(gòu)如下: Slot_name表示槽名，在本系統(tǒng)中就是City和Date。Slot_value 指示該項(xiàng)信息是否已經(jīng)得到，所以有2個(gè)狀態(tài): Known 和Unkown。

　　圖3中，初始狀態(tài)為Unknown，當(dāng)收到用戶提供的信息時(shí)，槽狀態(tài)轉(zhuǎn)化為Known，即為終止?fàn)顟B(tài)。當(dāng)再收到用戶的信息時(shí)，槽狀態(tài)不變，只是具體的槽值發(fā)生了變化。

　　根據(jù)系統(tǒng)的實(shí)際需求，同時(shí)考慮到系統(tǒng)的靈活性和魯棒性，我們?cè)O(shè)計(jì)了如下的狀態(tài)轉(zhuǎn)移過(guò)程: S0為系統(tǒng)的初始狀態(tài)，S3為系統(tǒng)的終止?fàn)顟B(tài)。狀態(tài)轉(zhuǎn)換過(guò)程中的轉(zhuǎn)換條件，是信息融合的結(jié)果，不僅僅是語(yǔ)音信號(hào)的信息，也包含了圖像的信息。

　　多模態(tài)融合

　　所謂多模態(tài)融合就是將電腦“看到”和“聽(tīng)到”的信息都考慮進(jìn)來(lái)，幫助理解說(shuō)話人真正的意圖。在語(yǔ)音識(shí)別中加入語(yǔ)法后大大提高了語(yǔ)音識(shí)別的準(zhǔn)確率，而人臉跟蹤模塊能夠得到現(xiàn)有人臉的絕對(duì)位置和特征點(diǎn)的相對(duì)位置，知道人臉絕對(duì)位置的變化可以幫助判斷點(diǎn)頭、搖頭的動(dòng)作，而利用特征點(diǎn)的相對(duì)位置信息可以知道說(shuō)話人的情感狀態(tài)信息，在我們的系統(tǒng)中主要用到了點(diǎn)頭、搖頭信息和“厭惡”，“高興”2種情感狀態(tài)來(lái)判斷對(duì)電腦提出問(wèn)題的確認(rèn)和人是否對(duì)電腦的回答表示滿意。在今后的工作中，我們可以考慮結(jié)合語(yǔ)音分析的結(jié)果，利用雙模態(tài)的信息，提高情感識(shí)別的準(zhǔn)確性和魯棒性。

通信世界網(wǎng)(www.cww.net.cn)

相關(guān)鏈接:

空口有憑：用聲音來(lái)付賬 2007-06-25

智能通信終端的關(guān)鍵技術(shù)研究 2007-06-19

聲控你的系統(tǒng) Vista語(yǔ)音識(shí)別全體驗(yàn) 2007-03-22

跨國(guó)巨頭猛攻語(yǔ)音識(shí)別技術(shù) 2007-03-09

自動(dòng)語(yǔ)音系統(tǒng)：虛擬人物提供人性化呼叫業(yè)務(wù) 2007-01-23

分類(lèi)信息: