2019年12月20日,由CTI論壇(www.yh9t5.com)主辦的"行業(yè)應(yīng)用及市場分析主題沙龍暨CTI論壇2019年度編輯推薦獎頒獎"活動在創(chuàng)業(yè)大街成功召開,并公布了"2019年度CTI論壇編輯推薦獎"的評選結(jié)果。深圳黃鸝智能科技有限公司總經(jīng)理劉志應(yīng)邀出席此次活動并發(fā)表了精彩的關(guān)鍵詞演說《極致》。
圖:深圳黃鸝智能科技有限公司總經(jīng)理劉志
以下為深圳黃鸝智能科技總經(jīng)理劉志的發(fā)言稿全文:
大家下午好,我是深圳黃鸝智能科技總經(jīng)理劉志。相信在座的各位聽說過深圳黃鸝智能科技公司的不超過5個人,因為這個公司是今年8月份才剛剛成立的,所以在呼叫中心行業(yè)我絕對是一個新人,今天跟很多前輩學(xué)到了很多東西。黃鸝智能科技應(yīng)該算是我的第三次創(chuàng)業(yè),我今天演講的主題關(guān)鍵詞是"極致",其實也是想跟大家分享一下我這三次創(chuàng)業(yè)當中的一些小故事。
我應(yīng)該算是國內(nèi)比較早一波做人工智能領(lǐng)域的,在2001年我在清華大學(xué)讀研究生的時候就一直在做語音技術(shù)。2005年的時候,我第一次創(chuàng)業(yè),那個時候是做嵌入式的語音識別,我們公司是全球第一個在蘋果一代手機上做撥號軟件的公司,當時和國外的合作伙伴一起做了VoiceDialer,收獲了幾百萬的第一桶金。其實語音識別在那個時候就蠻火的了,但是,很不幸,第一次創(chuàng)業(yè)算是失敗的,回過頭來總結(jié),第一次為什么會失?我們發(fā)現(xiàn)問題出在技術(shù)上我們沒有做到極致。
語音識別相關(guān)的技術(shù)是什么時候真正成熟起來的呢?2009年蘋果的Siri出來之后,其實還沒有帶動整個產(chǎn)業(yè),隨后Amazon?Echo出來之后,才使得語音的價值逐步的被大家所認識。實際上語音作為人機交互的一個重要手段,在很早之前,微軟比爾蓋茨就說過,他堅信語音是未來是人機交互的一個重要入口,可以取代鍵盤、鼠標,取代很多很多其他的外設(shè)。但是為什么這么多年語音一直沒有真正地能夠進入到應(yīng)用?從我第一次的創(chuàng)業(yè)經(jīng)歷,我有一個非常深刻的感受就是,技術(shù)要達到一個臨界點才有商用價值。我們可以簡單地用四個字來總結(jié),什么樣的臨界點?以前的技術(shù),四個字來講叫做"技不如人"。
什么意思呢?人工智能技術(shù)的水平,它達不到我們?nèi)祟惖乃健偛牌鋵嵱泻芏鄬<乙捕继岬搅,人工智能將來是期望要代替人類(replace),至少在一部分工作上,那么如果技術(shù)的能力達不到人的基本要求的話,怎么來代替?這是我第一次創(chuàng)業(yè)給我?guī)淼囊粋非常深刻的教訓(xùn)。那么轉(zhuǎn)而我就在思考,既然當時的技術(shù)達不到能夠去代替人這樣的一個程度,那么技術(shù)可以做點什么呢?我就轉(zhuǎn)到了第二次創(chuàng)業(yè),教育行業(yè),跨度稍微有點大。教育行業(yè)我做了什么?當然還是做語音,我們做中小學(xué)生,包括成人的口語測評。學(xué)語言的時候,我們用機器來代替老師評價學(xué)生的口語發(fā)音,包括到現(xiàn)在來評價一些語法、語義等等。當時切入這一行有一個很簡單的想法,因為做口語測評,對語音識別的要求沒有那么高。
我們剛開始做什么題型?主要做跟讀和朗讀。我先把文本給學(xué)生看到,然后學(xué)生照著把它讀出來。這個時候其實對識別沒有太高的要求,因為我預(yù)先就知道學(xué)生要說的是什么,這種時候識別的準確率其實是降低了,但是新的挑戰(zhàn)來了。我把它叫做對于業(yè)務(wù)的場景或者叫做對于用戶的需求,讓技術(shù)怎樣和應(yīng)用場景以及業(yè)務(wù)去結(jié)合?這是我們要去挑戰(zhàn)的第二個極致。在這個場景里面,我簡單的舉幾個例子,可能大家就能夠感受到它要解決的問題是什么?我們可以想象中國人學(xué)英語,為什么不是國外的系統(tǒng),不是英國的系統(tǒng),美國的系統(tǒng)來指導(dǎo)我們。其實很早就有做這個英語發(fā)音評價的企業(yè),像Nuance公司等很多大的企業(yè),也做這件事情,為什么它的系統(tǒng)在中國一直沒有辦法去落地生根,因為我們中國人說的英語和地道的英語有很多差異。
我舉一個非常簡單的例子,我們說very good。英文中這個v音,它是一個咬下唇的發(fā)音。但是在座有很多人是中式發(fā)音,聽起來沒問題,對不對?但其實是錯的。
我們漢語當中沒有這個"v"音,機器識別的時候他會很敏感,他就把這個點抓出來。所以我們用國外的系統(tǒng)給中國學(xué)生打分的時候,經(jīng)常打的分慘不忍睹。那么要解決這個問題,我們就要把中國學(xué)生常見的發(fā)音錯誤給它挑出來,然后去針對性的進行模型訓(xùn)練等等一系列的工作。這些工作和技術(shù)有關(guān),但是更重要的是和業(yè)務(wù)場景有關(guān)。那么,光克服了這個挑戰(zhàn)就夠了嗎?光在這些點上做到極致就夠了嗎?實際上還遠遠不夠。
當我們擁有5000多萬的用戶的時候,我們就會發(fā)現(xiàn)場景又發(fā)生了變化,面臨的挑戰(zhàn)又發(fā)生了變化。我們遇到了什么樣的情況?學(xué)生在家里學(xué)習(xí),在學(xué)校學(xué)習(xí),都會有大量的噪聲干擾。在家學(xué)習(xí)的時候,家里可能開著電視,在學(xué)校學(xué)習(xí)的時候,很多時候就跟我們今天大家坐在這個會場上一樣,相互之間的距離非常近,學(xué)生和學(xué)生之間的聲音相互干擾,有一些女生聲音比較小,旁邊男孩子的聲音就把她全部掩蓋住了。不要說機器識別不出來,人也識別不出來,老師有時候都聽不見學(xué)生說的是什么。那么針對這個問題,我們又想辦法去解決,去提升這個針對應(yīng)用場景的挑戰(zhàn)。如果我們不能做到極致的話,實際上還是沒有辦法給用戶提供完整的解決方案。因為有很多好的學(xué)生,他為了追求完美,一旦出現(xiàn)問題,他會反復(fù)反復(fù)的讀,真的有很多學(xué)生都讀哭了,那么針對這個問題我們繼續(xù)做降噪技術(shù)的突破。做技術(shù)的人很多時候會想要把技術(shù)做到極致,但是在做之前,我想說我們要思考為什么要做它?我們解決的是什么問題?今天我們在教育領(lǐng)域,已經(jīng)開發(fā)了專為教育用的耳機,這個耳機能達到什么效果?剛好今天大家可能聽到這兒,可能已經(jīng)有點疲乏了,我們做一個小的互動游戲。我?guī)Я宋覀兊囊豢顚W(xué)生耳機,我一會帶上它,然后我想請大家給我制造噪聲,你們能想象的,越大的噪聲越好。我打開的是一個錄音軟件CoolEdit,搞語音搞音頻的很多人應(yīng)該都知道。那么接下來我說話的時候也請大家說話,然后我再把它播放出來。
錄音開始,我現(xiàn)在在說話,請大家制造噪聲……待會我請大家一起聽一聽。正如大家聽到的,現(xiàn)在播放的只有我錄進去的聲音,并沒有大家發(fā)出的噪音。這個技術(shù)現(xiàn)在已經(jīng)不止用在教育領(lǐng)域了,在我們國家最尖端的軍事應(yīng)用上,也已經(jīng)用了我們這個技術(shù)用來做通信和識別,因為聲音的價值就是兩點:第1點,用于人和人的通信;第2點,用于人和機器的理解。
語音交互確實是一個入口,但是這個入口要解決的問題,遠遠不只是喚醒、識別、聲紋等,而是必須要做整體的解決方案。今天,黃鸝智能這個新興企業(yè)進入呼叫中心行業(yè)來,為大家?guī)淼氖鞘裁?實際上是帶來了這樣一款新的產(chǎn)品--自適應(yīng)通話降噪盒,我們將通話降噪算法植入這樣一個小小的盒子,現(xiàn)有市面上的耳機只要加上它,就可以達到我剛才展示的降噪效果。不管是用來和客戶溝通,還是接后端的語音質(zhì)檢、智能客服等各種系統(tǒng),它都能夠幫助我們給客戶帶來極致的感受,讓智能化真正落地。以上就是我今天分享給大家的。我也希望和大家一起來共同創(chuàng)造極致,創(chuàng)造不可能,讓聲音智能改善人類的生活與工作品質(zhì),謝謝!
黃鸝智能科技自適應(yīng)通話降噪盒 清晰聲音,交互萬物。為話務(wù)耳機的語音發(fā)送端消除噪聲,提供清晰流暢的語音拾取。合作請聯(lián)系:Kevin 13692103765 點擊視頻詳細了解!
黃鸝智能科技自適應(yīng)通話降噪盒 清晰聲音,交互萬物。為話務(wù)耳機的語音發(fā)送端消除噪聲,提供清晰流暢的語音拾取。合作請聯(lián)系:Kevin 13692103765 點擊視頻詳細了解!