中文信息處理的主流技術是什么?
黃昌寧 2002/07/08
在自然語言處理(NLP)上,從小規(guī)模受限語言處理走向大規(guī)模真實文本處理,是一個意義深遠的里程碑式的轉折。 不管經過多少時間,語料庫方法和統(tǒng)計語言模型依然是當前中文信息處理的主流技術。
作者簡介:
黃昌寧: 1961年畢業(yè)于清華大學自動控制系,現(xiàn)任微軟亞洲研究院高級研究員兼博士后工作站負責人,此前他是清華大學計算機系的教授和博士生導師,長期領導清華大學計算語言學課題組的科研與教學工作。
從20世紀50年代初機器翻譯課題被提出算起,自然語言處理(NLP)的研發(fā)歷史至少也有50年了。90年代初,NLP的研究目標開始從小規(guī)模受限語言處理走向大規(guī)模真實文本處理。把這個新目標正式列入大會主題的是1990年在赫爾辛基舉行的“第13屆國際計算語言學大會”。那些只有幾百個詞條和數(shù)十條語法規(guī)則的受限語言分析系統(tǒng),通常被業(yè)內人士戲稱為“玩具”,不可能有什么實用價值。政府、企業(yè)和廣大計算機用戶期盼的是像漢字輸入、語音聽寫機、文-語轉換(TTS)、搜索引擎、信息抽取(IE)、信息安全和機器翻譯(MT)那樣的、有能力處理大規(guī)模真實文本的實用化系統(tǒng)。 正是基于對這個里程碑式轉折的關注,筆者在1993年就列舉了四種大規(guī)模真實文本處理的應用前景:新一代信息檢索系統(tǒng);按客戶要求編輯的報紙;信息抽取,即把非結構化的文本轉化為結構化的信息庫;大規(guī)模語料庫的自動標注。值得慶幸的是,今天所有這四個方向都有了實用化或商品化的成果。
盡管全世界都把大規(guī)模真實文本處理看做是NLP的一個戰(zhàn)略目標,但這不等于說受限領域的機器翻譯、語音對話、電話翻譯和其他一些基于深層理解的自然語言分析技術或理論研究,就不應當再搞了。目標和任務的多樣化是學術界繁榮昌盛的一個標志。問題是要考慮清楚NLP的主戰(zhàn)場在哪里,我們的主力應當部署在哪里。
中文難辦嗎?
談到中文信息處理所面臨的重大應用課題,如企業(yè)和廣大計算機用戶所期盼的漢字輸入、語音識別等,大家似乎并沒有什么分歧。但是當討論深入到實現(xiàn)這些課題的方法或技術路線時,分歧馬上就涇渭分明了。第一種意見認為,中文信息處理的本質是漢語理解,也就是要對漢語真實文本實施句法-語義分析。持這種意見的學者主張,以往在中文信息處理中使用的概率統(tǒng)計方法已經走到了盡頭,為了在理解或語言層面上解決中文信息處理問題,就必須另辟蹊徑,這條蹊徑便是語義學。據(jù)說這是因為漢語不同于西方語言,漢語的句法相當靈活,漢語本質上是一種意合語言等。
與上述意見相對立的觀點是:前面提到的絕大多數(shù)應用系統(tǒng)(MT除外)其實都是在沒有句法-語義分析的情況下實現(xiàn)的,因此談不上“理解”。 如果一定要說“理解”,那么只是用圖靈實驗來證實的所謂“理解”。
上述雙方爭論的焦點是方法,但目標和方法通常是密不可分的。如果我們同意把大規(guī)模真實文本處理作為NLP的戰(zhàn)略目標,那么實現(xiàn)這一目標的理論和方法也必然要跟著變化。無獨有偶,1992年在蒙特利爾召開的“第四屆機器翻譯的理論和方法國際會議(TMI-92)”宣布大會的主題是“機器翻譯中的經驗主義和理性主義方法”。這就是公開承認,在傳統(tǒng)的基于語言學和人工智能方法(即理性主義)的NLP技術以外,還有一種基于語料庫和統(tǒng)計語言模型的新方法(即經驗主義)正在迅速崛起。
NLP的戰(zhàn)略目標和相應的語料庫方法都是從國際學術舞臺的大視野中獲得的,中文信息處理自然也不例外。那種認為中文文本處理特別困難,以至要另辟蹊徑的觀點,缺少有說服力的事實根據(jù)。拿信息檢索(IR)來說,它的任務是從一個大規(guī)模的文檔庫中尋找與用戶的查詢相關的文檔。怎樣表示文檔和查詢的內容,以及如何度量文檔和查詢之間的相關程度,就成為IR技術需要解決的兩個基本問題。召回率和精確率則是評價一個IR系統(tǒng)的兩個主要指標。由于文檔和查詢都是用自然語言表述的,這個任務可以用來說明中文和西方語言所面臨的問題和所采用的方法其實是十分相似的。一般來說,各文種的IR系統(tǒng)都用文檔和查詢中的詞頻(tf)和倒文檔頻率(idf)來表示文檔和查詢的內容,所以本質上是一種統(tǒng)計方法。
世界文本檢索大會TREC (http://trec.nist.gov/ ) 的最大特點是通過提供大規(guī)模訓練語料和統(tǒng)一評測方法來支持IR技術的研發(fā)。研究團隊必須通過大會的統(tǒng)一評測并名列前茅,才能獲準到會上來做報告。1992年起TREC每年舉辦一屆大會,并得到美國國防部(DARPA)和國家標準技術局(NIST)的資助。會議對包括中文、日文在內的多文種文檔庫開展了IR評測。結果表明,中文IR并沒有因為存在分詞問題就比其他文種做得差,而且迄今沒有證據(jù)表明各語種的NLP,包括基于概念的或基于句法-語義分析的技術,能明顯提高IR系統(tǒng)的性能。
什么是主流技術?
語料庫方法和統(tǒng)計語言模型不但沒有過時,而且在可比的統(tǒng)一評測中被證明是當前各國語言信息處理的一種主流技術。
1. N元模型
設wi是文本中的任意一個詞,如果已知它在該文本中的前兩個詞 wi-2w-1,便可以用條件概率P(wi|wi-2w-1)來預測wi出現(xiàn)的概率。這就是統(tǒng)計語言模型的概念。一般來說,如果用變量W代表文本中一個任意的詞序列,它由順序排列的n個詞組成,即W=w1w2...wn,則統(tǒng)計語言模型就是該詞序列W在文本中出現(xiàn)的概率P(W)。利用概率的乘積公式,P(W)可展開為:
P(W) = P(w1)P(w2|w1)P(w3| w1 w2)...P(wn|w1 w2...wn-1)
不難看出,為了預測詞wn的出現(xiàn)概率,必須知道它前面所有詞的出現(xiàn)概率。從計算上來看,這種方法太復雜了。如果任意一個詞wi的出現(xiàn)概率只同它前面的兩個詞有關,問題就可以得到極大的簡化。 這時的語言模型叫做三元模型 (tri-gram):
P(W)≈P(w1)P(w2|w1)∏i(i=3,...,nP(wi|wi-2w-1)
符號∏i i=3,...,n P(...) 表示概率的連乘。一般來說,N元模型就是假設當前詞的出現(xiàn)概率只同它前面的N-1個詞有關。重要的是這些概率參數(shù)都是可以通過大規(guī)模語料庫來計算的。比如三元概率有
P(wi|wi-2wi-1) ≈ count(wi-2wi-1wi) /count(wi-2wi-1)
式中count(...) 表示一個特定詞序列在整個語料庫中出現(xiàn)的累計次數(shù)。
統(tǒng)計語言模型有點像天氣預報中使用的概率方法,用來估計概率參數(shù)的大規(guī)模語料庫好比是一個地區(qū)歷年積累起來的氣象記錄。而用三元模型來做天氣預報,就好比是根據(jù)前兩天的天氣情況來預測今天的天氣。天氣預報當然不可能百分之百準確,但是我們大概不會因此就全盤否定這種實用的概率方法吧。
2. 語音識別
語音識別作為計算機漢字輸入的另一種方式越來越受到業(yè)內人士的青睞。所謂聽寫機就是語音識別的一種商品。那么當前商品化的聽寫機采用的是什么技術呢?
其實,語音識別任務可視為對以下條件概率極大值的計算問題:
W*= argmaxW P(W|speech signal)
= argmaxW P(speech signal|W) P(W) / P(speech signal)
= argmaxW P(speech signal|W) P(W)
式中數(shù)學符號argmaxW 表示對不同的候選詞序列W計算條件概率P(W|speech signal)的值,從而使W*成為條件概率值最大的詞序列。它也就是當前輸入語音信號speech signal所對應的輸出詞串了。
公式第二行是利用貝葉斯定律轉寫的結果,因為條件概率P(speech signal|W)比較容易估值。公式的分母P(speech signa ) 對給定的語音信號是一個常數(shù),不影響極大值的計算,故可以從公式中刪除。在公式第三行所示的結果中,P(W)叫做統(tǒng)計語言模型;P(speech signal|W) 叫做聲學模型。
據(jù)調查,目前市場上中文和英文的聽寫機產品都是用詞的三元模型實現(xiàn)的, 幾乎完全不用句法-語義分析手段。這說明不同語言的產品技術往往是相通的。沒有證據(jù)表明,中、英兩種語言的聽寫機在性能指標上有顯著的差異。所以那種斷言中文信息處理一定比西方語言困難,實現(xiàn)中文信息處理必須另辟蹊徑的說法,其實是站不住腳的。
三元模型(或一般的N元模型)只利用了語言的表層信息(或知識),即符號(字、詞、詞性標記等)序列的同現(xiàn)信息。誰也沒有說它是十全十美的。在這一領域中,下一個研究目標應當是結構化對象(如句法樹或語義框架)的統(tǒng)計模型。當然能做到語言理解是了不起的成果,它肯定會比目前這種統(tǒng)計語言模型強得多,這是不爭的事實。問題是目前國內外還沒有哪一種語言的句法-語義分析系統(tǒng)可以勝任大規(guī)模真實文本處理的重任。因此,對于世界各國的語言來說,當前的主流技術仍是語料庫方法和統(tǒng)計語言模型。
3. 詞性標注
至少像短語結構文法這樣一類的語法規(guī)則是建立在詞類基礎上的。無怪乎語言學界有句行話說,沒有詞類就沒法講語法了。所以在自然語言的句法分析過程中,大概都有一個詞性標注的階段。不難理解,漢語的自動分詞和詞性標注的精確率,將直接影響到后續(xù)的句法分析結果。據(jù)觀察,在漢語句法分析結果中,有高達60%的分析錯誤來源于分詞和詞性標注的錯誤。
在英語的詞庫中約 14% 的詞形(type)具有不只一個詞性,而在一個語料庫中,總詞次數(shù)(tockens)中約 30% 是兼類詞。從這個統(tǒng)計數(shù)字中可以估計出詞性標注任務的難度。歷史上曾經先后出現(xiàn)過兩個方法迥異的英語詞性標注系統(tǒng):TAGGIT系統(tǒng)擁有3000條上下文相關規(guī)則, 而CLAWS系統(tǒng)完全采用概率統(tǒng)計方法。兩個系統(tǒng)各自完成了100萬詞次的英語語料庫的自動詞性標注任務。評則結果(見下表)表明,采用概率統(tǒng)計方法的CLAWS系統(tǒng)的標注精度達到96%,比TAGGIT系統(tǒng)提高了近20個百分點。經過改進的CLAWS系統(tǒng)日后承擔了英國國家語料庫BNC一億條英語詞的詞性標注任務。
具體來說,CLAWS系統(tǒng)采用的是詞類標記的二元模型。如果令 C = c1...cn 和 W = w1...wn分別代表詞類標記序列和詞序列,則詞性標注任務可視為在已知詞序列W的情況下,計算如下條件概率極大值的問題:
C*= argmaxC P(C|W)
= argmaxC P(W|C)P(C) / P(W)
≈ argmaxC ∏i i=1,...,nP(wi|ci)P(ci|ci-1 )
P(C|W) 表示:已知輸入詞序列W的情況下,出現(xiàn)詞類標記序列C的條件概率。數(shù)學符號argmaxC 表示通過考察不同的候選詞類標記序列C, 來尋找使條件概率P(C|W) 取最大值的那個詞序列W*。后者應當就是對W的詞性標注結果。
公式第二行是利用貝葉斯定律轉寫的結果,由于分母P(W) 對給定的W是一個常數(shù),不影響極大值的計算,故可以從公式中刪除。接著對公式進行近似。首先,引入獨立性假設,認為詞序列中的任意一個詞wi的出現(xiàn)概率近似,只同當前詞的詞性標記ci有關,而與周圍(上下文)的詞類標記無關。即詞匯概率
P(W|C) ≈ ∏i i=1,...,nP(wi|ci )
其次,采用二元假設,即近似認為任意詞類標記 ci的出現(xiàn)概率只同它緊鄰的前一個詞類標記ci-1有關。因此有:
P(C) ≈∏i i=,...,n P(ci|ci-1)
P(ci|ci-1) 是詞類標記的轉移概率,也叫做二元模型。
上述這兩個概率參數(shù)也都可以通過帶詞性標記的語料庫來分別估計:
P(wi|ci) ≈ count(wi,ci) / count(ci)
P(ci|ci-1) ≈ count(ci-1ci) / count(ci-1)
順便指出,國內外學者用詞類標記的二元或三元模型實現(xiàn)的中、英文詞性自動標注都達到了約95%的標注精確率。
評測為什么是惟一的評判標準
有評測才會有鑒別。評判一種方法優(yōu)劣的惟一標準是相互可比的評測,而不是設計人員自己設計的“自評”,更不是人們的直覺或某個人的“遠見”。近年來,在語言信息處理領域,通過評測來推動科學技術進步的范例很多。國家“863計劃”智能計算機專家組曾對語音識別、漢字(印刷體和手寫體)識別、文本自動分詞、詞性自動標注、自動文摘和機器翻譯譯文質量等課題進行過多次有統(tǒng)一測試數(shù)據(jù)和統(tǒng)一計分方法的全國性評測,對促進這些領域的技術進步發(fā)揮了非常積極的作用。
在國際上,美國國防部先后發(fā)起的TIPSTER 和 TIDES兩個和語言信息處理相關的計劃,就被稱為“評測驅動的計劃”。它們在信息檢索(TREC)、信息抽。∕UC)、命名實體識別(MET-2)等研究課題上,既提供大規(guī)模的訓練語料和測試語料,又提供統(tǒng)一的計分方法和評測軟件,以保證每個研究小組都能在一種公平、公開的條件下進行研究方法的探討,推動科學技術的進步。TREC、MUC和MET-2等會議所組織的多文種評比活動也有力地說明,其他語言采用并證明有效的方法,對中文也一樣適用,不同文種應用系統(tǒng)的性能指標大體相當。固然,每種語言都有它自己的個性,然而這些個性不應當被用來否定語言的共性,并在事實不足的情況下做出錯誤的判斷。
為了推動中文信息處理的發(fā)展,讓我們拿起評測這個武器,扎扎實實地研究其適用技術,不要再想當然了。建議政府科研主管部門在制定項目計劃時,至少要在一個項目的總經費中拿出10%左右的撥款用于資助該項目的評測。沒有統(tǒng)一評測的研究成果,終究不是完全可信的。
計算機世界報
解決語音門戶 2002-06-17 |
比爾-蓋茨能講中文? 微軟語音技術大"探秘" 2002-05-09 |
語音合成技術: 啟動“第三種引擎” 2002-04-02 |
構建更加人性化的交談式語音應用 2002-03-11 |
回歸到“通天塔”之前 2002-03-11 |