數(shù)據(jù)挖掘走入語(yǔ)音處理
王瑋 蔡蓮紅 2001/06/04
數(shù)據(jù)挖掘技術(shù)
數(shù)據(jù)挖掘(data mining)技術(shù)是對(duì)數(shù)據(jù)庫(kù)采取半自動(dòng)的方式,尋找特定的模式、關(guān)聯(lián)規(guī)則、變化規(guī)律、異常信息等具有統(tǒng)計(jì)意義的結(jié)構(gòu)和事件。自20世紀(jì)90年代以來(lái),數(shù)據(jù)挖掘就成為最具活力的研究領(lǐng)域之一,吸引了眾多研究者從事這方面的研究。
1.?dāng)?shù)據(jù)挖掘方法的特點(diǎn)
數(shù)據(jù)挖掘方法與統(tǒng)計(jì)方法的不同之處主要體現(xiàn)在:通常的統(tǒng)計(jì)方法是在已有的假設(shè)基礎(chǔ)上,從大量的數(shù)據(jù)中得到驗(yàn)證,而數(shù)據(jù)挖掘則是從大量的數(shù)據(jù)中得到嶄新的模式、結(jié)論和假設(shè);數(shù)據(jù)挖掘方法是純粹的給予數(shù)據(jù)驅(qū)動(dòng)的方式,而統(tǒng)計(jì)方法則更多地引入人為因素并加以分析。探索式數(shù)據(jù)分析是統(tǒng)計(jì)方法中與數(shù)據(jù)挖掘最相似的分支,但它所面向的數(shù)據(jù)集還是比數(shù)據(jù)挖掘?qū)ο笮〉枚唷?/font>
2.?dāng)?shù)據(jù)挖掘的過(guò)程
數(shù)據(jù)挖掘過(guò)程可粗略地分為:?jiǎn)栴}定義(task definition)、數(shù)據(jù)準(zhǔn)備和預(yù)處理(data preparation and preprocessing)、數(shù)據(jù)挖掘(data mining)以及結(jié)果的解釋和評(píng)估(interpretation and evaluation)等階段。
問(wèn)題定義 在該過(guò)程中,數(shù)據(jù)挖掘人員必須與領(lǐng)域?qū)<壹白罱K用戶(hù)緊密協(xié)作,一方面明確實(shí)際工作對(duì)數(shù)據(jù)挖掘的要求,另一方面通過(guò)對(duì)各種學(xué)習(xí)算法的對(duì)比進(jìn)而確定可用的學(xué)習(xí)算法。后續(xù)的學(xué)習(xí)算法選擇和數(shù)據(jù)集準(zhǔn)備都是在此基礎(chǔ)上進(jìn)行的。
數(shù)據(jù)挖掘 該階段首先根據(jù)對(duì)問(wèn)題的定義明確挖掘的任務(wù)或目的,如分類(lèi)、聚類(lèi)、關(guān)聯(lián)規(guī)則發(fā)現(xiàn)或序列模式發(fā)現(xiàn)等。之后要決定使用什么樣的算法。選擇實(shí)現(xiàn)算法要考慮兩個(gè)因素:一是不同的數(shù)據(jù)有不同的特點(diǎn),因此,需要用與之相關(guān)的算法來(lái)挖掘;二是要根據(jù)用戶(hù)或?qū)嶋H運(yùn)行系統(tǒng)的要求,有的用戶(hù)可能希望獲取描述型的(descriptive)、容易理解的知識(shí)(采用規(guī)則表示的挖掘方法顯然要好于神經(jīng)網(wǎng)絡(luò)之類(lèi)的方法),而有的用戶(hù)只是希望獲取預(yù)測(cè)準(zhǔn)確度盡可能高的預(yù)測(cè)型(predictive)知識(shí),并不在意獲取的知識(shí)是否易于理解。
結(jié)果解釋和評(píng)估 數(shù)據(jù)挖掘階段發(fā)現(xiàn)的模式,經(jīng)過(guò)評(píng)估,可能存在冗余或無(wú)關(guān)的模式,這時(shí)需要將其剔除;模式也有可能不滿(mǎn)足用戶(hù)要求,這時(shí)則需要整個(gè)發(fā)現(xiàn)過(guò)程回退到前續(xù)階段,如重新選取數(shù)據(jù)、采用新的數(shù)據(jù)變換方法、設(shè)定新的參數(shù)值,甚至換一種算法等。
3.挖掘結(jié)果質(zhì)量評(píng)價(jià)
數(shù)據(jù)挖掘結(jié)果質(zhì)量的好壞有兩個(gè)影響因素:一是所采用的數(shù)據(jù)挖掘技術(shù)的有效性,二是用于挖掘的數(shù)據(jù)的質(zhì)量和數(shù)據(jù)量。如果選擇了錯(cuò)誤的數(shù)據(jù)或不適當(dāng)?shù)膶傩裕驅(qū)?shù)據(jù)進(jìn)行了不適當(dāng)?shù)霓D(zhuǎn)換,則挖掘結(jié)果不會(huì)好。整個(gè)挖掘過(guò)程是一個(gè)不斷反饋的過(guò)程。
4.主要模型
(1) 關(guān)聯(lián)規(guī)則模型
發(fā)現(xiàn)數(shù)據(jù)庫(kù)中數(shù)據(jù)項(xiàng)之間的相互關(guān)系是十分重要的,根據(jù)這種關(guān)系可以使用戶(hù)從數(shù)據(jù)中找到有意義的模式和趨勢(shì)。以超級(jí)市場(chǎng)為例,每個(gè)記錄包含了一次采購(gòu)商品的列表,其中關(guān)聯(lián)關(guān)系告訴我們兩件或更多商品之間的關(guān)系。如80%的顧客購(gòu)買(mǎi)了面包和牛奶,其中有60%的顧客在買(mǎi)面包的同時(shí)買(mǎi)了牛奶。我們把這種面包和牛奶之間的關(guān)聯(lián)關(guān)系用下列規(guī)則方式表示為:面包→ 牛奶 |(60%,80%)。數(shù)據(jù)項(xiàng)的關(guān)聯(lián)關(guān)系也可以在多個(gè)項(xiàng)之間產(chǎn)生,例如:面包、牛奶 → 甜醬 | (60%,40%)等。目前采用的典型關(guān)聯(lián)算法有Aprioir算法和PHP散列表算法等。
(2) 神經(jīng)網(wǎng)絡(luò)模型
神經(jīng)網(wǎng)絡(luò)方法是模擬人腦神經(jīng)元結(jié)構(gòu),以MP模型和Hebb學(xué)習(xí)規(guī)則為基礎(chǔ)而建立的,主要有三大類(lèi)多種神經(jīng)網(wǎng)絡(luò)模型。
前饋式網(wǎng)絡(luò) 以感知機(jī)、反向傳播模型、函數(shù)型網(wǎng)絡(luò)為代表,可用于預(yù)測(cè)、模式識(shí)別等方面。
反饋式網(wǎng)絡(luò) 以Hopfield的離散模型和連續(xù)模型為代表,分別用于聯(lián)想記憶和優(yōu)化計(jì)算。
自組織網(wǎng)絡(luò) 以ART模型、Kohonen模型為代表,用于聚類(lèi)。
神經(jīng)網(wǎng)絡(luò)的知識(shí)體現(xiàn)在網(wǎng)絡(luò)連接的權(quán)值上,是一個(gè)分布式矩陣結(jié)構(gòu)。神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)體現(xiàn)在神經(jīng)網(wǎng)絡(luò)權(quán)值的逐步計(jì)算上(包括反復(fù)迭代或累加計(jì)算)。
(3) 粗糙集理論模型
粗糙集理論是一種研究不精確、不確定性知識(shí)的數(shù)學(xué)工具,由波蘭科學(xué)家Z.Pawlak于1982年首先提出。粗糙集的研究主要基于分類(lèi)。分類(lèi)和概念(concept)同義,一種類(lèi)別對(duì)應(yīng)于一個(gè)概念(類(lèi)別一般表示為外延即集合,而概念常以?xún)?nèi)涵的形式表示如規(guī)則描述)。知識(shí)由概念組成,如果某知識(shí)中含有不精確概念,則該知識(shí)不精確。粗糙集對(duì)不精確概念的描述方法是:通過(guò)上近似概念和下近似概念這兩個(gè)精確概念來(lái)表示。一個(gè)概念(或集合)的下近似(lower approximation)概念(或集合)指的是,其下近似中的元素肯定屬于該概念;一個(gè)概念(或集合)的上近似(upper approximation)概念(或集合)指的是,其上近似中的元素可能屬于該概念。粗糙集方法有幾個(gè)優(yōu)點(diǎn):不需要預(yù)先知道額外信息,如統(tǒng)計(jì)中要求的先驗(yàn)概率和模糊集中要求的隸屬度;算法簡(jiǎn)單、易于操作。
在語(yǔ)音信號(hào)處理中的應(yīng)用
目前,數(shù)據(jù)挖掘研究主要集中在對(duì)新的算法及新的類(lèi)型的研究上。由于對(duì)數(shù)據(jù)挖掘方法的研究不僅涉及數(shù)據(jù)挖掘的算法,同時(shí)對(duì)于需要處理的數(shù)據(jù)類(lèi)型也有很高的要求,傳統(tǒng)的數(shù)據(jù)挖掘的對(duì)象主要是超級(jí)市場(chǎng)中貨籃型數(shù)據(jù)及經(jīng)濟(jì)型數(shù)據(jù),幾乎很少涉及語(yǔ)音數(shù)據(jù)的挖掘研究。這一方面是由于語(yǔ)音數(shù)據(jù)非常復(fù)雜,包含很多信息,如基頻信息、時(shí)長(zhǎng)信息、幅度信息、位置信息以及重音信息等,簡(jiǎn)單來(lái)說(shuō)就是同一個(gè)音節(jié)在不同的語(yǔ)句中會(huì)表現(xiàn)出不同的信息特征,即不同的語(yǔ)境會(huì)使音節(jié)自身的屬性值發(fā)生變化,且語(yǔ)音數(shù)據(jù)是一種時(shí)序數(shù)據(jù),在一句話(huà)中音節(jié)的排列是有先后順序的,同時(shí)語(yǔ)音音節(jié)之間也存在著很強(qiáng)的音聯(lián)關(guān)系。所有這些信息特征對(duì)整個(gè)合成系統(tǒng)輸出的可懂度以及自然度會(huì)產(chǎn)生很大影響。
另一方面,語(yǔ)音數(shù)據(jù)挖掘的研究需要研究者在語(yǔ)音合成工作積累的基礎(chǔ)上才能有效地進(jìn)行。由于數(shù)據(jù)挖掘技術(shù)對(duì)處理對(duì)象的要求很高,因此,直接錄制音節(jié)的波形文件是無(wú)法處理的,必須經(jīng)過(guò)嚴(yán)格的預(yù)處理過(guò)程,如對(duì)錄音波形進(jìn)行音節(jié)切分和音節(jié)標(biāo)注,這需要大量的人力和物力資源。沒(méi)有強(qiáng)大的語(yǔ)音處理能力的積累是不可能的。清華大學(xué)語(yǔ)音處理實(shí)驗(yàn)室長(zhǎng)期從事語(yǔ)音信號(hào)的研究,具有豐富的語(yǔ)音數(shù)據(jù)源,即我們通常所說(shuō)的“熟語(yǔ)料”,這使基于數(shù)據(jù)驅(qū)動(dòng)的挖掘研究成為可能。將數(shù)據(jù)挖掘技術(shù)應(yīng)用于語(yǔ)音信號(hào)處理可以解決部分現(xiàn)階段較難解決的語(yǔ)音技術(shù)難題,同時(shí)盡可能減少人為經(jīng)驗(yàn)因素對(duì)語(yǔ)音處理的影響,完成對(duì)語(yǔ)音處理從定性到定量的轉(zhuǎn)變。因此,將數(shù)據(jù)挖掘方法應(yīng)用于語(yǔ)音合成具有重要的意義和廣闊的前景。
1.關(guān)聯(lián)規(guī)則模型獲得漢語(yǔ)韻律參數(shù)之間的關(guān)聯(lián)關(guān)系
語(yǔ)音合成經(jīng)歷了長(zhǎng)期的研究發(fā)展過(guò)程,完成了從實(shí)驗(yàn)室向市場(chǎng)應(yīng)用的過(guò)渡,但是,合成系統(tǒng)輸出的語(yǔ)音機(jī)器味仍然比較濃,與人類(lèi)自然流暢的發(fā)音相比還有較大的差距。這其中主要是受到系統(tǒng)中韻律模塊研究的制約,由于韻律模塊無(wú)法對(duì)復(fù)雜的韻律特征進(jìn)行有效描述,因此,合成系統(tǒng)的輸出就受到了很大的影響。
韻律特征主要是指音節(jié)的時(shí)長(zhǎng)、基頻的包絡(luò)變化、能量的變化及適當(dāng)?shù)耐nD等眾多參數(shù)屬性,在這些屬性中,對(duì)合成系統(tǒng)的自然度影響最顯著的是音節(jié)的基頻變化和音長(zhǎng)的變化。目前,合成系統(tǒng)中的基頻變化規(guī)律大多是根據(jù)語(yǔ)言學(xué)的研究得出的一些定性的描述,這些定性規(guī)則能夠?yàn)楹铣蛇^(guò)程提供一些參考,但是無(wú)法在合成過(guò)程中直接使用這些規(guī)則,而且這些規(guī)則也很難覆蓋所有的基頻變化現(xiàn)象,同時(shí)對(duì)這些規(guī)則的維護(hù)和完善也很困難,在具體應(yīng)用中仍存在較大的不足。由于韻律規(guī)則在語(yǔ)音合成中發(fā)揮著重要作用,迫切需要采用新的處理方法加以解決。
數(shù)據(jù)挖掘技術(shù)中關(guān)聯(lián)規(guī)則模型可以很好地發(fā)現(xiàn)數(shù)據(jù)項(xiàng)之間存在的相互關(guān)系,同時(shí)有大量的挖掘算法可供選擇,因此,基于關(guān)聯(lián)規(guī)則的模型可以從大規(guī)模語(yǔ)音庫(kù)中提取更為全面和準(zhǔn)確的語(yǔ)音韻律相互關(guān)系。首先通過(guò)對(duì)“熟語(yǔ)料”庫(kù)中基頻數(shù)據(jù)和時(shí)長(zhǎng)數(shù)據(jù)進(jìn)行預(yù)處理,離散化成相應(yīng)的屬性值,獲得前后音節(jié)的基頻信息和時(shí)長(zhǎng)信息之間的關(guān)聯(lián)關(guān)系,從而加以指導(dǎo)合成系統(tǒng)的選音,滿(mǎn)足在不同語(yǔ)境下音節(jié)參數(shù)變化的需求。
2.?dāng)?shù)據(jù)挖掘技術(shù)獲得漢語(yǔ)韻律的變化規(guī)律
在傳統(tǒng)的語(yǔ)音研究中,往往是用手工得到語(yǔ)音的基頻,求出其調(diào)值,然后根據(jù)不同情況下調(diào)值的變化得到連續(xù)變調(diào)規(guī)律,再將其應(yīng)用于語(yǔ)音合成系統(tǒng)中進(jìn)行韻律控制。這是在定性基礎(chǔ)上進(jìn)行的研究,存在很多不足之處。一方面,由于語(yǔ)音數(shù)據(jù)的變化隨機(jī)性很大,對(duì)少量的語(yǔ)音數(shù)據(jù)進(jìn)行處理不能得到較為全面的變調(diào)規(guī)律,而大量語(yǔ)音數(shù)據(jù)如果完全用人工來(lái)處理,工作量會(huì)很大;另一方面,用人工進(jìn)行語(yǔ)音數(shù)據(jù)處理,往往會(huì)由于一些先入為主的概念而很難得到較為完全的規(guī)律。
基于語(yǔ)音合成中的基音同步疊加技術(shù),可利用數(shù)據(jù)挖掘技術(shù)進(jìn)行韻律變化規(guī)律的學(xué)習(xí),采用數(shù)據(jù)挖掘技術(shù)中的神經(jīng)網(wǎng)絡(luò)方法、數(shù)據(jù)項(xiàng)聚類(lèi)以及粗糙集理論的有機(jī)結(jié)合進(jìn)行綜合評(píng)判,利用神經(jīng)網(wǎng)絡(luò)具有的自組織和自學(xué)習(xí)特性,將經(jīng)過(guò)聚類(lèi)處理的語(yǔ)音基頻數(shù)據(jù)和時(shí)長(zhǎng)數(shù)據(jù)分別轉(zhuǎn)化成神經(jīng)網(wǎng)絡(luò)的輸入和輸出節(jié)點(diǎn),經(jīng)過(guò)網(wǎng)絡(luò)學(xué)習(xí)來(lái)獲得一些典型的基頻曲線(xiàn)和時(shí)長(zhǎng)映射關(guān)系。由于神經(jīng)網(wǎng)絡(luò)自身理論還存在不夠完善的地方,因此,可以輔助以粗糙集理論進(jìn)行適當(dāng)?shù)男拚垣@得期望的模式。在這些映射的基礎(chǔ)上,可通過(guò)簡(jiǎn)單的變換獲得典型模式,利用這些典型模式,就可在定量的基礎(chǔ)上,對(duì)基頻的變化規(guī)律從較高層次進(jìn)行韻律規(guī)則的研究。
3.基于數(shù)據(jù)驅(qū)動(dòng)方式的重音確定
在連續(xù)語(yǔ)流中,各音節(jié)的響亮程度并不完全相同,有的音節(jié)聽(tīng)起來(lái)比其他音節(jié)重,簡(jiǎn)單地說(shuō),這就是重音。以詞為考查對(duì)象,音位學(xué)可劃分為正常重音、對(duì)比重音和弱重音。人們?cè)诳谡Z(yǔ)交流中,常把在表情傳意方面較重要的詞讀得重些,把其余的詞讀得輕些。語(yǔ)句重音是指由于句子語(yǔ)法結(jié)構(gòu)、邏輯語(yǔ)義或心理情感表達(dá)的需要而產(chǎn)生的句子中的重讀音,它不同于詞重音,因?yàn)樵~重音只出現(xiàn)在詞結(jié)構(gòu)中。語(yǔ)句重音一般分為三種:語(yǔ)音重音、邏輯重音、心理重音。
通常研究者認(rèn)為,重音的聲學(xué)征兆主要表現(xiàn)在時(shí)長(zhǎng)、音高與音強(qiáng)三個(gè)方面,也往往是三者的結(jié)合。不同語(yǔ)言的重音特點(diǎn)不一樣,對(duì)于漢語(yǔ),老一輩語(yǔ)音學(xué)家趙元任先生認(rèn)為,“漢語(yǔ)重音首先是延長(zhǎng)持續(xù)時(shí)間和擴(kuò)大調(diào)域,其次才是增加強(qiáng)度!爆F(xiàn)代語(yǔ)音學(xué)家也認(rèn)為,漢語(yǔ)重音主要表現(xiàn)在時(shí)長(zhǎng)的增加(或者說(shuō)是基音周期數(shù)的增加);其次是調(diào)域的擴(kuò)大和音高的提升,調(diào)型完整地展開(kāi);與發(fā)音強(qiáng)度的關(guān)系并不是主要的。
以上都是定性的分析,從定性到定量的轉(zhuǎn)換是采用基于數(shù)據(jù)驅(qū)動(dòng)的方式進(jìn)行,從大量語(yǔ)料數(shù)據(jù)本身的特點(diǎn)來(lái)分析重音,并且依據(jù)重音的特點(diǎn)輔助以韻律學(xué)規(guī)律,合成更自然的語(yǔ)音信號(hào)。
數(shù)據(jù)挖掘是一種在大量數(shù)據(jù)庫(kù)中發(fā)現(xiàn)隱藏新知識(shí)的計(jì)算技術(shù)方法。數(shù)據(jù)挖掘提取的是定性的模型,并且很容易被轉(zhuǎn)化為邏輯規(guī)則或用可視化的形式表達(dá)。因此,將數(shù)據(jù)挖掘與人機(jī)交互接口緊密聯(lián)系在一起將對(duì)計(jì)算機(jī)語(yǔ)音信號(hào)處理的研究工作產(chǎn)生巨大的推動(dòng)力,為語(yǔ)音信號(hào)處理提供了一條嶄新的研究途徑?梢灶A(yù)見(jiàn),采用數(shù)據(jù)挖掘方法可以較好地解決目前語(yǔ)音信號(hào)處理中部分難點(diǎn)問(wèn)題,從而進(jìn)一步提高語(yǔ)音合成和語(yǔ)音識(shí)別技術(shù)的實(shí)用化程度。
《計(jì)算機(jī)世界》 2001/06/04
統(tǒng)一消息平臺(tái)中的語(yǔ)音技術(shù) 2001-06-04 |
文本-可視語(yǔ)音轉(zhuǎn)換及其應(yīng)用 2001-06-04 |
神經(jīng)網(wǎng)絡(luò)與漢語(yǔ)TTS韻律模型 2001-06-01 |
語(yǔ)音技術(shù)的拓展與展望 2001-06-01 |
語(yǔ)音門(mén)戶(hù):讓網(wǎng)絡(luò)接入更便捷 2001-05-11 |