臨近年底,一些投資人開始為AI“降溫”,引導(dǎo)行業(yè)冷靜看待當(dāng)前的AI技術(shù)和商業(yè)化應(yīng)用。如果投資人的觀點(diǎn)還不足以服眾,那么在AI領(lǐng)域奮戰(zhàn)20多年的行業(yè)前輩,或許能從技術(shù)角度給我們一些更現(xiàn)實(shí)的啟示。
近期,愛分析對(duì)捷通華聲董事長(zhǎng)張連毅進(jìn)行了訪談,探討了他關(guān)于當(dāng)前人工智能各項(xiàng)技術(shù)的發(fā)展水平和行業(yè)應(yīng)用現(xiàn)狀、以及對(duì)接下來(lái)全行業(yè)發(fā)展態(tài)勢(shì)的看法。
圖:捷通華聲董事長(zhǎng)張連毅
張連毅1989年畢業(yè)于清華大學(xué),從1990年開始致力于將清華的OCR技術(shù)商業(yè)化。2000年,他和清華大學(xué)陳明博士與中科院聲學(xué)所研究員呂士楠共同創(chuàng)建捷通華聲,主要提供語(yǔ)音合成技術(shù)。2016年,捷通華聲正式登陸新三板。
如今,這家有著17年歷史的公司已經(jīng)構(gòu)建了涵蓋語(yǔ)音識(shí)別、語(yǔ)音合成、聲紋識(shí)別、語(yǔ)義理解、OCR、手寫識(shí)別、人臉識(shí)別、指紋識(shí)別、機(jī)器翻譯、數(shù)據(jù)挖掘等十項(xiàng)技術(shù)的全方位人工智能平臺(tái),為包括金融、電信、能源、交通、教育、醫(yī)療、政府、汽車、IT互聯(lián)網(wǎng)等眾多行業(yè)客戶提供AI技術(shù)和解決方案。
張連毅認(rèn)為,包括語(yǔ)音、圖像識(shí)別、語(yǔ)義理解等在內(nèi)的人工智能技術(shù)尚不完美,是全社會(huì)對(duì)AI技術(shù)接受度的提高帶動(dòng)了各項(xiàng)技術(shù)商業(yè)化需求的猛增。然而,一些公司及行業(yè)人士對(duì)AI技術(shù)宣傳過(guò)度,其實(shí)是在誤導(dǎo)大眾。這種誤導(dǎo),將不利于AI技術(shù)未來(lái)的發(fā)展和應(yīng)用。此外他還指出,從2011年到2016年上半年是AI技術(shù)啟蒙的5年,而接下來(lái)的3-5年,則是AI產(chǎn)業(yè)格局的定型階段。
愛分析節(jié)選部分精彩內(nèi)容,與您分享。
AI技術(shù)尚不完美,應(yīng)用和商業(yè)化要看行業(yè)要求
Q:OCR屬于人工智能技術(shù)嗎?
A:以前人工智能和人機(jī)交互是分開講的,現(xiàn)在合起來(lái)了。我認(rèn)為人工智能可以理解為兩個(gè)層次,人機(jī)交互是淺層次,讓機(jī)器像人一樣能看會(huì)聽,而讓機(jī)器具備像人一樣的思維和推理能力,是深層次。OCR屬于圖像識(shí)別領(lǐng)域一項(xiàng)比較傳統(tǒng)的技術(shù),它屬于人機(jī)交互,是淺層次的人工智能。
當(dāng)然,雖然它較為傳統(tǒng),但也不是完全成熟,也是近幾年隨著深度學(xué)習(xí)技術(shù)的發(fā)展才取得了一些突破,對(duì)于模糊、壓線、重疊、有背景色等情況下的識(shí)別準(zhǔn)確率有了顯著提升。另外從開發(fā)者的需求來(lái)看,各行各業(yè)對(duì)OCR技術(shù)的需求仍然非常旺盛,包括藥瓶上的文字識(shí)別、票據(jù)識(shí)別、物流行業(yè)的快遞單識(shí)別等等。所以O(shè)CR技術(shù)是人工智能領(lǐng)域一項(xiàng)行業(yè)需求正旺的傳統(tǒng)技術(shù)。
Q:國(guó)內(nèi)有哪些做OCR技術(shù)的源頭?
A:OCR技術(shù)90年開始興起,主要源頭就是清華(以捷通華聲、文通為代表)、中科院(以漢王科技為代表)、摩托羅拉(以上海合合信息為代表),以及新加坡國(guó)立研究院,國(guó)內(nèi)也有兩家代表企業(yè)。
Q:現(xiàn)在圖像和語(yǔ)音識(shí)別還需要人工校對(duì)嗎?
A:都需要。外界的一些近乎100%準(zhǔn)確率的語(yǔ)音識(shí)別演示,其實(shí)是經(jīng)過(guò)了專門訓(xùn)練的,實(shí)際使用場(chǎng)景下不會(huì)有那么高的準(zhǔn)確率。當(dāng)然各行各業(yè)對(duì)語(yǔ)音識(shí)別效果的要求不一樣,比如醫(yī)療、法律等領(lǐng)域是不允許出現(xiàn)錯(cuò)誤的,那么技術(shù)公司要么在后方設(shè)呼叫中心,進(jìn)行人工校對(duì),比如Nuance就有一個(gè)幾千人的團(tuán)隊(duì)在做校對(duì)工作,要么就是加強(qiáng)專門的數(shù)據(jù)訓(xùn)練,來(lái)降低錯(cuò)誤率,在實(shí)際使用中,對(duì)于部分小錯(cuò)誤,再讓用戶進(jìn)行自主校對(duì)。
Q:現(xiàn)在行業(yè)內(nèi)語(yǔ)音識(shí)別準(zhǔn)確率基本在什么水平?
A:手機(jī)APP和電話信道分別是16K和8K聲道,現(xiàn)在手機(jī)APP的16K聲道識(shí)別率基本都在95%左右,8K電話信道識(shí)別率最高只有85%,當(dāng)然之前才60-70%。
Q:聲紋識(shí)別現(xiàn)在有哪些難點(diǎn)?
A:?jiǎn)我宦暤缆暭y識(shí)別還可以,但是跨聲道的聲紋識(shí)別還不行,比如從電話信道到手機(jī),從手機(jī)到麥克風(fēng)等,就很難識(shí)別。
Q:如何看待當(dāng)前的人臉識(shí)別技術(shù)和市場(chǎng)?
A:我理解,人臉識(shí)別的技術(shù)要求是跟行業(yè)應(yīng)用掛鉤的。現(xiàn)在很多創(chuàng)業(yè)公司都把人臉識(shí)別用在金融、安防領(lǐng)域。如果用在公司考勤,98%以上的識(shí)別準(zhǔn)確率足夠了,但如果用在金融領(lǐng)域,比如刷臉支付,就算做到99.99%,還是會(huì)有0.01%的誤差。
所以我認(rèn)為,人工智能在金融領(lǐng)域的應(yīng)用,單一技術(shù)有難以承受的風(fēng)險(xiǎn),技術(shù)無(wú)法保證100%正確,只有通過(guò)多項(xiàng)技術(shù)融合,多重驗(yàn)證,才能保證萬(wàn)無(wú)一失,F(xiàn)在生物特征識(shí)別的準(zhǔn)確率相比模式識(shí)別并不是很高,只有虹膜識(shí)別是最高的,所以捷通會(huì)把聲紋、人臉、指紋、證照識(shí)別一起用上。
Q:人臉識(shí)別技術(shù)目前有哪些難點(diǎn)?
A:人臉識(shí)別最大的難點(diǎn)是光線,光太強(qiáng)、太暗都無(wú)法保證很好的識(shí)別效果。技術(shù)再先進(jìn)也還是會(huì)受到環(huán)境因素的影響。就像清華的張鈸院士一直不看好無(wú)人車,因?yàn)闊o(wú)人車主要靠視覺(jué),在天黑、刮風(fēng)下雨、霧霾等條件下視覺(jué)會(huì)受到很大限制。
Q:您怎么看待無(wú)人車?
A:當(dāng)然現(xiàn)在無(wú)人車很熱,我個(gè)人認(rèn)為無(wú)人車在一些特定領(lǐng)域,比如無(wú)人軌道,就是在某段路開,不允許有人,這是可以的。但是要在日常的大馬路上開,除了前面提到的攝像頭視覺(jué)方案會(huì)遇到的問(wèn)題以外,還有人、物、景的鑒別問(wèn)題。之前特斯拉出事故,至少說(shuō)明在某些情況下無(wú)人車還是不能很好地識(shí)別物體和環(huán)境狀況。另外,交通事故的責(zé)任界定也是一個(gè)很大的問(wèn)題。
當(dāng)然行業(yè)內(nèi)現(xiàn)在會(huì)采用一些多傳感器融合的方案來(lái)減少視覺(jué)方面的限制,但是我想說(shuō),我們?yōu)槭裁匆欢ㄒ匀说纳鳛榇鷥r(jià)?無(wú)論是車?yán)锏娜,還是車外的人。我們還不至于依靠技術(shù)實(shí)現(xiàn)便捷而用自己的生命作為賭價(jià)。
Q:行業(yè)內(nèi)還有一個(gè)觀點(diǎn),沒(méi)有無(wú)人駕駛,同樣還是有很高的事故發(fā)生率,無(wú)人駕駛成熟以后還是能夠在一定程度上提高安全性的,您怎么看待這種觀點(diǎn)?
A:技術(shù)成熟以后提高安全性是沒(méi)錯(cuò)的,但是人的事故責(zé)任是比較容易界定的,而無(wú)人車的話是不容易界定的,它的風(fēng)險(xiǎn)是不可預(yù)測(cè)的,人的風(fēng)險(xiǎn)是可以預(yù)測(cè)的。當(dāng)然無(wú)人車作為一種技術(shù)追求還是值得去研究和探索的,可能真的有一天會(huì)實(shí)現(xiàn),但是我認(rèn)為還是比較遠(yuǎn)的,除了車上的傳感器,相關(guān)的配套基礎(chǔ)設(shè)施也得跟上,這個(gè)還是需要時(shí)間,目前可預(yù)見的技術(shù)確實(shí)還達(dá)不到。
AI火熱得益于行業(yè)接受度提高,未來(lái)3-5年AI格局將定型
Q:對(duì)人工智能的發(fā)展階段怎么看?
A:捷通是2011年7月轉(zhuǎn)的型,到2016年6月正好是一個(gè)完整的5年。
我認(rèn)為人工智能的產(chǎn)業(yè)發(fā)展有兩個(gè)階段,2016年6月之前的5年是啟蒙階段。這5年里面的玩家,基本上都是以前做這個(gè)行當(dāng)?shù)钠髽I(yè),比如捷通華聲、云知聲、思必馳、曠視、商湯、小i機(jī)器人、海鑫科金、得意音通、中科信利,上市公司有科大訊飛、漢王科技。
進(jìn)入到2016年下半年,百度、騰訊、阿里、搜狗、華為等“航母”也開進(jìn)來(lái)了,人工智能真正的戰(zhàn)役才開始。所以這之后的5年,是產(chǎn)業(yè)格局逐漸成型的階段。目前大部分客戶都是抱著試一試的心態(tài),而不是真正在使用技術(shù),所以現(xiàn)在很多單一領(lǐng)域的需求很分散,還沒(méi)有形成剛需。接下來(lái)的兩三年內(nèi),產(chǎn)業(yè)格局就會(huì)逐漸形成,四年之后格局就會(huì)慢慢定下來(lái)。
到時(shí)候,人工智能一定會(huì)出類似BAT一樣的巨頭,因?yàn)闀r(shí)勢(shì)造英雄。
Q:是否認(rèn)為當(dāng)前人工智能過(guò)熱?
A:確實(shí)過(guò)熱。這個(gè)產(chǎn)業(yè)確實(shí)在崛起,所以不能過(guò)低估計(jì)整個(gè)產(chǎn)業(yè),但是也不能過(guò)高估計(jì)它的技術(shù)。人工智能技術(shù)的發(fā)展,不是得益于大家所看到的語(yǔ)音識(shí)別95%、97%的識(shí)別準(zhǔn)確率,而是得益于整個(gè)社會(huì)對(duì)人工智能的理解和包容。
原來(lái)人們對(duì)人工智能的態(tài)度是,錯(cuò)一個(gè)字都不滿意,我說(shuō)話你就得能聽懂。但是這些年慢慢發(fā)展下來(lái),人們發(fā)現(xiàn)雖然有錯(cuò)字,但是我可以包容和嘗試了,你試試語(yǔ)音,他試試圖像,所以現(xiàn)在需求蜂擁而至。正是這種包容極大地促進(jìn)了人工智能技術(shù)的應(yīng)用。
當(dāng)然這種包容和嘗試還是更多的在商業(yè)領(lǐng)域。一些語(yǔ)音公司最開始做2C產(chǎn)品,實(shí)際上剛出來(lái)的時(shí)候熱幾天,之后就沒(méi)人用了。相比之下,把語(yǔ)音技術(shù)用在智能客服領(lǐng)域是一個(gè)比較正確的方向。從現(xiàn)階段來(lái)看,垂直領(lǐng)域的商業(yè)化會(huì)走得更快一些。
Q:如何看待當(dāng)前一些人工智能會(huì)戰(zhàn)勝和取代人類的說(shuō)法?
A:AlphaGo贏了之后,有人問(wèn)我人工智能會(huì)不會(huì)戰(zhàn)勝人類,我認(rèn)為這個(gè)問(wèn)題要看機(jī)器戰(zhàn)勝人類的什么。如果說(shuō)在某些方面的話,那么在計(jì)算器誕生以后,機(jī)器就已經(jīng)戰(zhàn)勝人類了。
不管別人怎么說(shuō),我理解,人工智能是人類的伙伴,它的誕生是為了幫助人類,成為人類的助手。它不是不可能取代人類,但有一個(gè)前提,我們?nèi)祟惸懿荒芟雀忝靼孜覀兊纳喜∷朗窃趺椿厥拢?/div>
人工智能是仿人,人類之所以能把撞得很破的汽車復(fù)原,是因?yàn)槿司ㄆ嚨恼w構(gòu)造,但是人類對(duì)自身大腦的了解少之又少,而AI的核心又恰恰是在大腦,所以要造出一個(gè)超越人類的AI起碼是建立在人類對(duì)自身有足夠了解的基礎(chǔ)上。
人工智能未來(lái)的發(fā)展一定是伴隨著人類對(duì)自身的理解不斷加深,等到這種理解達(dá)到一定程度,我們才能去談人工智能能否戰(zhàn)勝人類,F(xiàn)在討論這個(gè)問(wèn)題還為時(shí)過(guò)早,現(xiàn)在我們更應(yīng)該關(guān)注的是這些技術(shù)怎么來(lái)服務(wù)行業(yè)、服務(wù)社會(huì)大眾,減輕工作負(fù)擔(dān)和壓力、提高工作效率、降低成本,同時(shí)給大眾帶來(lái)一些娛樂(lè)和便捷。
Q:如何看待讓人工智能參加高考并考上一本這個(gè)項(xiàng)目?
A:這其實(shí)是我最不認(rèn)同的一件事情。
中國(guó)的父母有兩個(gè)心病,一個(gè)擔(dān)心家人生病,一個(gè)是擔(dān)心子女教育。中國(guó)的教育是固化的填鴨式教育,毫不夸張地說(shuō),就是摧殘兒童。真正的教育應(yīng)該是啟蒙式的,引導(dǎo)你去發(fā)現(xiàn)事物的本質(zhì)。而我們是灌輸式的僵化教育。
讓人工智能參加高考并不能證明什么,就算幾年以后人工智能參加高考成功了,也只能證明一件事,中國(guó)的考題式教育已經(jīng)到了無(wú)以復(fù)加的地步。因?yàn)椴还苁谴痤},還是寫作文,從技術(shù)上看并不難,只要把海量的題庫(kù)拿過(guò)來(lái),讓機(jī)器去學(xué)習(xí)、訓(xùn)練就行了。這個(gè)過(guò)程并沒(méi)有創(chuàng)造什么,并沒(méi)有對(duì)中國(guó)的教育進(jìn)行一些有益的改變。
所以我們的企業(yè)可以去探索人工智能的應(yīng)用方向,比如幫助孩子寫寫字、練練普通話和英語(yǔ)口語(yǔ),那是可以的,但是不要夸大它在教育領(lǐng)域的應(yīng)用。企業(yè)一定要服務(wù)行業(yè),而不能誤導(dǎo)行業(yè),因?yàn)檫@種誤導(dǎo)是誤國(guó)誤民的。
Q:如何看待當(dāng)前AI類公司的高估值?
A:首先需要肯定這個(gè)領(lǐng)域還是有一些很優(yōu)秀的公司存在。
但是從技術(shù)角度講,這個(gè)領(lǐng)域的門檻并沒(méi)有想象中那么高。很多公司都是基于國(guó)外的開源技術(shù)在做,原創(chuàng)技術(shù)并不多。既然是開源的,大家都可以學(xué),并不是說(shuō)誰(shuí)就有很高的門檻。比如這兩三年,國(guó)內(nèi)就冒出了很多做語(yǔ)音的公司。
所以目前的高估值一方面是因?yàn)檫@個(gè)市場(chǎng)真的起來(lái)了,另一方面不排除有一些包裝的成分在里面。
我向來(lái)不相信獨(dú)角獸,因?yàn)槿斯ぶ悄馨鞣N各樣的技術(shù),單靠一項(xiàng)技術(shù)是不可能壟斷的。這是一個(gè)風(fēng)起云涌的時(shí)代,創(chuàng)新會(huì)一直持續(xù)下去。企業(yè)當(dāng)然還是要構(gòu)建核心技術(shù),但是想依靠核心技術(shù)壟斷行業(yè)是不太可能的。
人工智能企業(yè)還是要本著開放、共享的心態(tài)來(lái)做。一家人工智能公司能否實(shí)現(xiàn)長(zhǎng)遠(yuǎn)發(fā)展,關(guān)鍵在于能否正確理解人工智能,而不在于單一技術(shù)的領(lǐng)先。如果不能正確理解人工智能,也許可以活著,但是能走多遠(yuǎn)能爬多高,可能就是一個(gè)問(wèn)號(hào)。
靈云平臺(tái)更多信息:www.AIcloud.com
體驗(yàn)靈云客服機(jī)器人:010-82826886-8898
相關(guān)閱讀:
- ·AI格局3年定型,捷通華聲能否成為十項(xiàng)全能冠軍2017-01-11 10:49:25
- ·從語(yǔ)音到全方位人工智能 AI技術(shù)的融合發(fā)展之路2016-12-08 09:26:57
- ·捷通華聲:讓每一家企業(yè)都擁有人工智能2016-08-29 10:40:59
- ·清華人工智能論壇:對(duì)話院士張鈸2016-06-17 09:23:26
- ·訪談捷通華聲靈云 展望中國(guó)人工智能產(chǎn)業(yè)2015-12-28 14:58:54
- ·從捷通靈云看智能客戶服務(wù)發(fā)展趨勢(shì)2015-12-07 15:20:59
- ·這家國(guó)內(nèi)老牌人工智能公司的使命是造“智能人”2015-08-31 10:40:02
- ·專訪王東:凝聚清華力量 推動(dòng)中國(guó)人工智能產(chǎn)業(yè)崛起2015-08-28 16:00:08
- ·捷通華聲: 呼叫中心全方位智能客服的戰(zhàn)略云圖2015-03-23 10:40:41
- ·捷通華聲副總工程師劉偉權(quán):人工智能引領(lǐng)智慧交通2015-01-29 14:44:24