文本-可視語音轉(zhuǎn)換及其應用
王志明 蔡蓮紅 2001/06/04
語音信號、視覺信號和文字是人類信息和知識的主要載體,也是人類進行學習和交流的重要工具。在電子和通信技術迅速發(fā)展的今天,多種媒體之間的交互作用越來越受到人們的重視,如語音合成(text-to-speech)與自動語音識別實現(xiàn)了文字和語音的互相轉(zhuǎn)換;自動機器唇讀、圖像輔助語音識別和音視頻聯(lián)合編碼則利用了語音和圖像之間的內(nèi)在聯(lián)系。
經(jīng)過數(shù)十年的發(fā)展,語音合成技術已經(jīng)走入實用階段,在信息咨詢、電話銀行、車站播報系統(tǒng)等各個方面有了廣泛的應用。近年來出現(xiàn)了另一種多媒體研究熱潮,即把聲音和文字、圖像集成在一起,形成直接由文本到可視語音的轉(zhuǎn)換(text-to-visual speech,TTVS),使人們在聽計算機說話的同時能看到一個合成的人臉,使人機交互界面更為友好、和諧。
對視覺語音(visual speech)的研究正是這樣一種綜合考慮聲音和圖像的多媒體技術。視覺語音是指人們在用語言交流時所表達出的面部表情和動作,它能在一定程度上傳達人們想要表達的意思,并能幫助人們加深對語言的理解。研究表明,在環(huán)境噪聲較大或聽者有聽力障礙的情況下,如果在給出聲音信息的同時能給出一個“講話的頭”(talking head),即表現(xiàn)說話者面部表情和嘴部、眼部等變化情況,則會大大改善人們對聲音的理解。在人機交互的過程中,如果人們面對的不是單純的文本,而是一個會說話的人物形象,則使人覺得計算機界面更為友善,方便人們與計算機的交流。近幾年來,對視覺語音的研究越來越受到人們的重視,已成為多媒體和人機交互技術研究領域相當活躍的研究方向。
TTVS的實現(xiàn)
對于TTVS,其實現(xiàn)方法可分為以下兩類:
基于參數(shù)控制的方法 首先對人臉建立一個網(wǎng)格模型,包括多個多邊形(一般是三角形)和頂點。由一組參數(shù)來控制每個頂點的運動,再通過圖像變形技術實現(xiàn)人臉上各個像素點的運動,來生成人們說話時的各種面部表情。該方法的優(yōu)點是需要的數(shù)據(jù)量小、控制靈活、可移植性強;缺點是合成的圖像往往帶有人工制作的痕跡,但對于這一點,各國研究者正在努力改善。
基于數(shù)據(jù)驅(qū)動的方法 類似于語音合成中的波形拼接合成法。通過對人們說話時可能出現(xiàn)的各種表情進行錄像,從中提取大量的原始數(shù)據(jù),建立圖像數(shù)據(jù)庫。在合成時從庫中選擇合適的圖像進行拼接,并進行一些消除圖像邊緣效應和抖動的處理,生成動態(tài)的連續(xù)的說話者的面部表情。該方法的優(yōu)點是合成的人臉圖像質(zhì)量高,較為逼真、自然;缺點是在建立模型的訓練階段需要大量的原始數(shù)據(jù),生成的數(shù)據(jù)庫需要保存大量的圖像數(shù)據(jù),且所有數(shù)據(jù)完全是針對某個特定人的,無法移植到其他人身上。
現(xiàn)在運行的系統(tǒng)中多為參數(shù)控制系統(tǒng),其中控制參數(shù)也多采用MPEG-4所定義的人臉動畫參數(shù)(facial animation parameter,FAP)。MPEG-4制定了一整套人臉模型化描述方法,包括用于定義人臉模型的面部定義參數(shù)(facial define parameters,FDP)和一組用于定義人臉面部動作的人臉動畫參數(shù)FAP。其中FDP通過對人臉上84個特征點的位置信息來定義人臉模型,這些點不僅包括外表看得見的人臉特征點,還包括了舌頭、牙齒等口腔內(nèi)器官的特征點,如圖1所示。
FAP一共有68個參數(shù),包括兩個高級參數(shù)和66個低級參數(shù)。高級參數(shù)是視位(viseme)和表情(expression),視位分為15個,分別表示人們發(fā)某一音位時的面部動作;表情分為高興、悲傷、憤怒、害怕、厭惡、驚奇六種。66個低級參數(shù)用來控制部分FDP特征點的運動,進而形成各種復雜的人臉動作。這些標準的制定極大地推動了參數(shù)控制合成方法的發(fā)展,使這種方法在人機交互、計算機網(wǎng)絡交談、游戲動畫等方面得到更為廣泛的應用,圖2 是參數(shù)控制的TTVS系統(tǒng)的基本框架。
圖1 MPEG所定義的FDP特征點
圖2 TTVS系統(tǒng)的基本框架
VSonic系統(tǒng)
目前,國內(nèi)外眾多研究機構(gòu)和公司均十分關注TTVS的研究,如MIT、AT&T、Microsoft、Motorola等。目前,清華大學計算機系已經(jīng)開發(fā)出了具有自主版權(quán)的漢語TTVS系統(tǒng)。
清華大學計算機系致力于人機語音交互的研究始于1979年。在20年的研究中,得到了國家自然科學基金、國家863計劃、國家重點攻關項目和軍事預研項目的資助,取得了一系列國內(nèi)外領先的研究成果,并多次獲獎。在語音合成方面,我們深入地研究了聲學模型、韻律模型、文本分析、韻律描述語言等語音合成中的關鍵技術,并于1993年推出了漢語TTS軟件產(chǎn)品。1999年實現(xiàn)了基于數(shù)據(jù)驅(qū)動的漢語TTS系統(tǒng)Sonic,獲得了高自然度的語音輸出。
為了增強TTS系統(tǒng)界面的友善性,清華大學計算機系于2000年著手研究漢語語音的可視化,為其原有的Sonic系統(tǒng)配上發(fā)音人的頭像,形成了新的漢語文本-可視語音轉(zhuǎn)換系統(tǒng)VSonic,系統(tǒng)界面如圖3所示。
圖3 VSonic系統(tǒng)運行界面
在VSonic系統(tǒng)中,人臉模型是一個由三角形組成的二維網(wǎng)格人臉模型,整個模型共包括約220個點和350個三角形,如圖4所示。模型中的頂點涵蓋了由MPEG-4定義的主要FDP特征點,模型的驅(qū)動參數(shù)是標準的FAP參數(shù)。人臉合成是以單一的真實人臉正面照片為基礎,在FAP參數(shù)的控制下對人臉圖像進行變形處理(warping),首先求得FDP特征點的運動向量,再通過其余點與這些點的位置及拓撲關系求得模型中所有頂點的運動向量。根據(jù)頂點的運動向量和對三角形的平面近似,利用雙線性插值方法求得所有像素點的運動向量,從而使人臉“動”起來。對于口腔內(nèi)的圖像,我們采用固定的模型,具有真實的牙齒和口腔內(nèi)圖像紋理,并能根據(jù)開口度的大小和上下唇的突出度來調(diào)整亮度。
系統(tǒng)由語音合成部分提供時間同步信息,實現(xiàn)完全同步的語音和圖像播放。系統(tǒng)中語音的發(fā)音速度可調(diào),圖像以固定的幀速率播放,不受語音快慢的影響。當語音速度加快時,每個音節(jié)的圖像幀數(shù)將減少;反之,當語音速度放慢時每個音節(jié)的圖像幀數(shù)將增加。圖像的幀速率可根據(jù)系統(tǒng)性能來調(diào)節(jié),使系統(tǒng)在各種性能的機器上均能保持語音與圖像的同步。
圖4 人臉網(wǎng)格模式
除了能夠生成各種各樣的說話口形外,VSonic還能表現(xiàn)出眨眼等簡單的面部動作,以增強系統(tǒng)的自然性。系統(tǒng)的另一特點是其可移植性非常好,可以使人臉模型從一張人臉更換到另一張人臉。只要有一張正面人臉照片,借助系統(tǒng)提供的工具,經(jīng)過簡單的鼠標操作即可在數(shù)分鐘內(nèi)實現(xiàn)系統(tǒng)中人臉模型的更換。
TTVS的應用和展望
文本-可視語音轉(zhuǎn)換系統(tǒng)不僅提高了人機交互界面的友善性,豐富了人們的生活,還在許多領域中有著重要的實際意義。下面我們介紹幾種TTVS在實際生活中的應用。
(1) 制作虛擬電視節(jié)目主持人
這是TTVS一個很好的應用實例。虛擬電視節(jié)目主持人在許多國家已經(jīng)走上了屏幕,引起了廣大觀眾的極大興趣。圖5是英國報業(yè)聯(lián)合通訊社推出的第一個虛擬新聞播報員“阿娜諾娃”(Ananova)。
(2)增強語音的可懂性
實驗表明,在噪聲環(huán)境下,能看到說話者的人臉相當于提高了8~12dB的語音信噪比。因此,在環(huán)境噪聲較大的情況下,如在工廠車間、高速運行的交通工具上或戰(zhàn)爭前線進行人機交互時,如果在機器給出語音的同時能給出一個合成的人臉,則能大大改善人們對語音的理解。另外,在聽話者有聽力障礙的情況下,也有類似的效果。
圖5 Ananova
(3)網(wǎng)上聊天
現(xiàn)在網(wǎng)上聊天主要是通過窗口中的文本進行交流,如果人們在網(wǎng)上聊天也可以像實際生活中聊天一樣,既可以聽到聲音,又可以看到說話者的人臉,將會大大增強使用者的興趣并方便交流。但現(xiàn)在網(wǎng)絡帶寬不能滿足實時傳輸聲音和圖像數(shù)據(jù)的需求,如果在用戶的計算機上安裝了TTVS系統(tǒng),則可以在網(wǎng)上只傳送文本信息,而在本地由TTVS合成語音和圖像,使用戶既聽到聲音又看到說話者的人臉。若在文本中再加入少量的標注信息,還可以使人臉表現(xiàn)出各種各樣的表情。再進一步,如果在用戶的計算機上安裝上話筒和相應的語音識別軟件,則用戶可以脫離鍵盤,就像日常生活中一樣,與對方面對面地聊天。
另外,在越來越廣泛的商業(yè)、娛樂人機交互的過程中,如新產(chǎn)品介紹、電子游戲等,如果人們面對的不是單純的文本或聲音,而是一個會說話的人物形象,則使人覺得更為親切,更容易接受,從而提高商業(yè)銷售額,給企業(yè)帶來巨大的經(jīng)濟利益。
總之,TTVS技術的出現(xiàn)是多媒體技術迅速發(fā)展的產(chǎn)物,也迎合了社會發(fā)展的需求。它給人們的生活增添了新的色彩,使計算機更人性化,人們與計算機的交流變得更為簡單。相信在不久的將來,它將會在眾多的技術、商業(yè)和娛樂領域得到廣泛的應用,并逐步進入我們每個人的生活。
《計算機世界》 2001/06/04
統(tǒng)一消息平臺中的語音技術 2001-06-04 |
數(shù)據(jù)挖掘走入語音處理 2001-06-04 |
神經(jīng)網(wǎng)絡與漢語TTS韻律模型 2001-06-01 |
語音技術的拓展與展望 2001-06-01 |
語音門戶:讓網(wǎng)絡接入更便捷 2001-05-11 |