在第二屆聲紋識別產業(yè)發(fā)展與創(chuàng)新研討會上,中國科學院院士、清華大學人工智能研究院院長張鈸首次談到第三代人工智能與聲紋識別產業(yè),本文為張鈸院士發(fā)言內容總結,全文約2900字。
我們?yōu)槭裁刺岢龅谌斯ぶ悄埽?/strong>
它與聲紋識別產業(yè)有什么關系?
人工智能這60年間一共做了兩件事。
一是發(fā)展第一代人工智能,就是大家比較熟悉的符號模型,也叫知識驅動。
基本思路是:智能來自何處?來自知識,知識是人類智能的源泉。這是最早建立人工智能的時候所建立的基本思想。這個思想對聲音的處理,就是對語音識別,包括聲紋都有一些影響。
第一代人工智能時期
大概在70、80年代基本上統(tǒng)治了人工智能,所以人工智能對各個領域都有影響。對聲音處理的主要影響是大家試圖通過發(fā)聲和聽覺的機理來建立計算模型。早期做過很多努力,但是并沒有成功。主要原因是我們對人類聽覺機理了解的很少,這也是人工智能遇到的最大困難。我們對智能是什么到現(xiàn)在為止還沒有一個公認的科學定義,但是我們要在這種情況下去搞人工智能,怎么搞?這就出現(xiàn)一個很大的問題。
當初大家覺得可以搞人工智能,就認為人類的智能來自于知識,知識在很多情況下可以用自然語言表達出來。根據這個思路,對比如醫(yī)療診斷或者其他的領域都做了一些所謂以知識為基礎的推理系統(tǒng),這就是大家非常熟悉的專家系統(tǒng)。它的基本思路就是認為人類的知識可以用自然語言表達出來,因此我們可以把這些知識表達在計算機里頭,計算機對知識進行加工,這是第一代人工智能。
第一代人工智能到到90年代以前不是特別成功,90年代以后人工智能有了很多新的發(fā)展,給知識驅動的方法也帶來新的活力。
第二個就是現(xiàn)在大家非常熟悉的連接主義或者深度學習。
第二代人工智能時期
講的簡單一點就是基于大數(shù)據的深度學習。90年代后,第一代人工智能進入低潮開始衰退,正好第二代人工智能引起了高潮。
深度學習為什么現(xiàn)在這么受歡迎,一個非常重要的原因是,原來輸進去的語音和圖像必須人工抽取特征,然后把這些特征輸?shù)缴窠浘W絡去,對它進行分類。有了深度學習以后有了很大改變,只需要輸入原始的信息就可以了。聲音基本上可以用原始的波形輸進去,圖像可以輸入原始的像素組成的點陣,由網絡自動抽取特征。這樣一來就使得深度學習變成了一個大眾化的工具,不要求你有專業(yè)領域的知識,誰都可以用。
過去搞人臉識別必須知道抽取臉部哪部分的特征最有效,F(xiàn)在你只要把組成人臉的像素輸進去就可以。換句話講,以前搞人臉識別,大部分時間要花去研究特征的提取,現(xiàn)在有了深度學習,這一部分的工作完全不需要了,這也給語音識別帶來很大的影響。
語音識別在2011年以前,基本上正確率是80%,誤識率20%,幾乎不能用。到2015年的時候超過95%,到了2017年的時候,所有商業(yè)應用的語音識別系統(tǒng)全是用深度學習,包括亞馬遜、微軟、我們國家的百度、訊飛,都是用同一原理-深度學習。所以大家做到的水平基本上都差不多,在95%以上。
那么我們再看一下第一二代人工智能的局限性。這些局限性對產業(yè)的發(fā)展影響非常大,首先應用場景就有很大的局限,應用場景必須要滿足一下這5個條件:
必須具有豐富的知識或者大量的數(shù)據。如果這兩個都沒有,就做不了人工智能。第一代人工智能認為智能的資源是來自知識,這是人工智能創(chuàng)建人一致的認識。深度學習的發(fā)展,大家又認識到到數(shù)據對人工智能的重要性。人工處理數(shù)據的能力遠不如計算機,相反,計算機處理數(shù)據的能力則遠超過人類,這也是深度學習成功的原因所在。
如果符合豐富的知識或經驗、完全信息、確定性、靜態(tài)、單領域和單任務這5個條件,人工智能完全可以做到超過人類。即使問題非常復雜,比如圍棋,但它完全符合這5個條件,所以計算機戰(zhàn)勝人類理所當然。只要符合這5個條件,就算今天超不過,明天計算機肯定會超過。
這5個條件的限制是非常嚴格的,很多問題不滿足這些條件。
對語音識別來講,如果有噪聲,就不滿足“確定性”這一條件。所以在有噪聲的情況下,語音識別的性能就會降低非常多。
最后一個非常重要的問題是人工智能安全。
目前的人工智能技術,特別是基于大數(shù)據的深度學習算法具有4個不:不安全、不可信、不可靠,不易推廣。
安全問題對語音區(qū)別也有很大的影響。剛才說過,深度學習給語音識別帶來非常大的好處,它的識別率原來幾乎不能用,到現(xiàn)在完全可以商用。但語音識別技術也非常脆弱和非常不安全。
下面的例子用來說明語音識別的脆弱性。
英文(語音)原話是這樣:“沒有數(shù)據集這篇文章是沒用的”,如果在這句話加上一點點噪聲,人聽起來完全一樣沒有變。計算機聽起來卻變成完全不同的話——“好的,谷歌瀏覽evil。com”。
換句話講,非常不安全,非常容易受攻擊,這就非常危險。
為什么現(xiàn)在聲紋識別比較魯棒?這個問題我是從鄭方老師那里受到啟發(fā)。聲紋現(xiàn)在沒有完全使用基于大數(shù)據的深度學習方法,據鄭老師講使用深度學習效果并不太好。
為什么聲紋識別到現(xiàn)在為止還沒有找到一個非常有效的攻擊手段?原因之一可能在這里,就是運用了多種的預處理方法,“預處理”實際上體現(xiàn)了某種知識的運用。所以目前來講我認為聲紋識別帶有第三代人工智能的一些特點,所以它相對來講比較魯棒。
我們提倡第三代人工智能。
第三代人工智能一共是三句話:
1.構建可解釋和魯棒的人工智能理論和方法。
2.發(fā)展安全、可信、可靠和可擴展的人工智能技術。(就是把目前人工智能四個缺陷的“不”去掉)
3.推動AI的創(chuàng)新應用。
我們要解決AI的產業(yè)問題,必須解決前面講的兩個問題,不解決的話AI的產業(yè)的是很難做大做強。解決問題的思路也比較簡單,即把知識驅動與數(shù)據驅動結合起來。結合起來的效果是什么?即充分利用了以下4個要素:知識、數(shù)據、算法和算力。
第一代人工智能使用了知識、算法和算力,當時算力很差,所以第一代人工智能不是很成功。第二代人工智能,我們把重點瞄準后面三個要素,數(shù)據、算法和算力。第二代人工智能之所以比較成功,由于這三個要素都很給力。
充分利用四個要素說起來容易做起來卻非常難,因為知識和數(shù)據表現(xiàn)形式完全不一樣。另外,知識很難獲取,我們剛才說做人工智能的困難在哪?智能本身都沒搞清楚怎么去做人工智能?當前多數(shù)人走的是:Brain inspired computing(腦啟發(fā)下計算)的道路,有的把它翻譯成“類腦計算”,讓大家以為是個全新的東西。
大家都很關注人工智能的產業(yè)化,我這里列出的人工智能獨角獸企業(yè)(來自胡潤統(tǒng)計),全世界共40家,其中美國占20家,中國占15家,我國穩(wěn)居老二地位。其他英國、日本、以色列等國家相對都很少。但無論是國內還是國際企業(yè)都面臨進一步做大做強的挑戰(zhàn)。
如何把聲紋產業(yè)做大做強?我認為主要是要尋找新的應用場景。我們團隊現(xiàn)在正在把語音識別或聲紋識別技術應用到呼吸系統(tǒng)的診斷上,取得很好的效果,也可以考慮把聲音識別的技術用到診斷機械故障等等。
清華大學人工智能研究院目前已經成立了9個中心,其中兩個偏重于基礎研究,一個是從機器學習的角度,一個是從知識處理的角度。我認為,知識和數(shù)據是驅動人工智能往前發(fā)展的兩個輪子。