欧美,精品,综合,亚洲,好吊妞视频免新费观看,免费观看三级吃奶,一级a片女人自慰免费看

安徽中科大訊飛信息科技有限公司總裁劉慶峰專訪

2004-09-13 14:31:00   作者:   來源:CTI論壇   評(píng)論:0  點(diǎn)擊:


<  劉慶峰博士,中文語音產(chǎn)業(yè)的知名人物。1999年,作為學(xué)生的他傳奇般地創(chuàng)立了科大訊飛,當(dāng)時(shí)一度成為大學(xué)生創(chuàng)業(yè)的典范,在此后的5年時(shí)間里,使中文語音產(chǎn)業(yè)成為國人的天下,在語音合成(Text To Speech)方面不斷推陳出新,創(chuàng)立了中文語音技術(shù)發(fā)展的一個(gè)又一個(gè)里程碑?拼笥嶏w也已從幾個(gè)學(xué)生創(chuàng)始的小公司成長為規(guī)模龐大的中文語音技術(shù)開發(fā)基地……

  作者:劉總,您看起來非常年輕。
  劉:我73年出生的,31歲。

  作者:我們都聽說您在這行業(yè)是年輕有為,能簡單地介紹一下您大概的創(chuàng)業(yè)經(jīng)歷嗎?

  劉:我90年進(jìn)中國科技大學(xué),學(xué)的是電子工程系,因?yàn)槌煽儽容^好,92年就進(jìn)了中國科技大學(xué)和國家計(jì)算機(jī)研究開發(fā)中心聯(lián)合設(shè)立的人機(jī)語音通訊實(shí)驗(yàn)室。95年本科畢業(yè),保送上研究生,那時(shí)就開始作為語音合成這個(gè)項(xiàng)目的負(fù)責(zé)人了。我在本科畢業(yè)論文階段,就在做一個(gè)語音合成的合成器,模擬人發(fā)音的整個(gè)過程,用數(shù)字信號(hào)技術(shù)來處理這個(gè)模型。這個(gè)是我自己獨(dú)立設(shè)計(jì)的,效果挺不錯(cuò),參加了863評(píng)比,當(dāng)時(shí)引起了較大的轟動(dòng)。
95年做語音技術(shù)用參數(shù)合成,做到了一般的波型合成的音質(zhì),效果還是很好的。我在那時(shí)就帶些人正式開始承擔(dān)實(shí)驗(yàn)室所參加的測試。我在科大本科時(shí)成績很好,在與數(shù)學(xué)、物理相關(guān)的學(xué)科中幾乎都是第一名,又是班長,本來是想出國的,但因?yàn)閷?duì)語音合成技術(shù)有濃厚的興趣,就留下來讀了研究生。98年研究生畢業(yè),當(dāng)時(shí)科學(xué)院系統(tǒng)最高的榮譽(yù)-中國科學(xué)院長獎(jiǎng)金特別獎(jiǎng)給了我。

  作者:當(dāng)時(shí)這個(gè)獎(jiǎng)金是發(fā)給研究生的?

  劉:是的,是發(fā)給研究生里面學(xué)習(xí)和科研都做得最好的學(xué)生。后來98年參加國際會(huì)議時(shí)也是,在新加坡開的首屆國際漢語語音研討會(huì),我得了唯一學(xué)生最佳論文獎(jiǎng)。

  作者:那劉總在讀研究生的時(shí)候有沒有想過要出國去發(fā)展,據(jù)我所知,中科大的學(xué)生還是相對(duì)比較熱衷于出國深造的?

  劉:我當(dāng)時(shí)出國基礎(chǔ)很好,很多大學(xué)都要我去?珊髞硌芯可厴I(yè)之所以會(huì)放棄出國,最主要還是看到了產(chǎn)業(yè)化的前景。如果要出國有兩個(gè)選擇,要么去美國幾個(gè)做語音比較好的大學(xué),要么到東京大學(xué),東京大學(xué)做語音是很棒的。無論去哪里其實(shí)都可能會(huì)跟我原來的實(shí)驗(yàn)室形成競爭,這是讓我放心不下的一個(gè)很大的因素。第二個(gè)就是,科大當(dāng)時(shí)那種開放式的研發(fā)體系,不拘一格的研究團(tuán)隊(duì)組合,可以把我們當(dāng)時(shí)做了一半的想法更快地落實(shí)下去,因?yàn)槲覀冊(cè)?8年863評(píng)比時(shí)是第一名,有很好的評(píng)價(jià),而且那時(shí)就明確地知道還有很大的余地在后面。第三就是產(chǎn)業(yè)化前景。我記得從96年開始,863提倡'頂天立地','頂天'就是核心技術(shù)要做到國際領(lǐng)先,'立地'就是要立足于市場,能夠產(chǎn)業(yè)化。當(dāng)時(shí)我們已經(jīng)開始在對(duì)外開展產(chǎn)業(yè)化合作了,當(dāng)時(shí)到華為出差一個(gè)多星期,把我們的語音技術(shù)和他們的系統(tǒng)融合,有很大的感觸;98年給福建工商系統(tǒng)做查詢系統(tǒng),在把技術(shù)產(chǎn)品產(chǎn)業(yè)化方面得到了很多啟發(fā)。

  我原來想只做技術(shù),對(duì)管理、財(cái)務(wù)、市場、銷售這些事情一點(diǎn)興趣也沒有。我當(dāng)時(shí)的口號(hào)是'要把科大的語音實(shí)驗(yàn)室做成中國的貝爾實(shí)驗(yàn)室',把科大一批非常優(yōu)秀的同學(xué)都留下來了。開始只有我一個(gè)人,98年到99年留下了十幾個(gè)人,我做總工組建研發(fā)隊(duì)伍。那時(shí)科大BBS站上的六個(gè)版主在訊飛,包括黑客版版主、編程版、還有科大BBS站長。我們的創(chuàng)業(yè)團(tuán)隊(duì),真的是留下了這么一幫很優(yōu)秀、很有沖勁、有激情的人。

  到了98年底感覺到,一個(gè)新的過程在被大眾接受時(shí)需要一個(gè)很長的過程,這個(gè)過程中如果你的產(chǎn)品方向確定不好就是問題。

  語言是人們溝通和獲取信息最自然便捷的手段,不管是教育、交通、銀行、電信等等,都能用到語音,如果你每一塊都去做,就象狗熊掰玉米一樣,每樣都沒有著落。我們?cè)谡Z言學(xué)研發(fā)的進(jìn)展還是比較快,參加火炬計(jì)劃國家十年展,我們做的是'天音話王',就是人和電腦對(duì)話,在曙光2000CPU、東軟醫(yī)療上的應(yīng)用,都是非常典型的成果。感覺技術(shù)上做得是挺不錯(cuò),又拿了軟博會(huì)的金獎(jiǎng),但是產(chǎn)業(yè)化做的非常累,根本推不出來,到年底時(shí)連發(fā)工資的錢都沒有了。所以到1999年大家都說你一定要出來挑頭,我們給自己干,我也覺得不這么做不行了。最主要是對(duì)產(chǎn)業(yè)本身的最前端性的看法你要有,我們提倡的科大訊飛走的道路是創(chuàng)新型的文化。也就是說你要比用戶更了解這個(gè)技術(shù)下一步可能達(dá)到什么,哪些東西是有可能做到的;這些可能做到的東西中有哪些是用戶可能會(huì)接受的,是能夠打動(dòng)消費(fèi)者的。所以實(shí)際上是開發(fā)全新的市場,而不是在現(xiàn)有的市場上去增強(qiáng)。這個(gè)就是對(duì)技術(shù)趨勢的把握能力和對(duì)哪些技術(shù)能打動(dòng)消費(fèi)者走向市場的把握能力,這兩塊結(jié)合起來是特別重要的。而結(jié)合起來以后,你教育市場需要花費(fèi)巨大的時(shí)間和精力,另外在全新的產(chǎn)品研發(fā)過程中的不斷摸索和完善,使得你不可能同時(shí)做非常多的事情,一定要有很清晰的脈絡(luò)和戰(zhàn)略。那時(shí)我就感覺到,如果由不是非常懂行的人來領(lǐng)導(dǎo),不論此人多聰明、多有想法,都是很難的。于是,我們就成立了自己的公司--科大訊飛。

  到99年底選了三家投資方,三百萬的公司就變成了估價(jià)五千萬。

  有錢以后首先是把國家863支持了這么多年的語言所、聲學(xué)所這兩塊并起來,請(qǐng)所里我們認(rèn)為跟我們最有互補(bǔ)、做開發(fā)最好的專家成立聯(lián)合實(shí)驗(yàn)室。

  這么做在當(dāng)時(shí)也非常符合他們的要求。這兩個(gè)機(jī)構(gòu)本來要自己做完整的系統(tǒng),面向市場做銷售,很累。而且他們的研究生畢業(yè)都走了,98、99年微軟、IBM在中國設(shè)立研發(fā)中心,把這些機(jī)構(gòu)里的跟語音相關(guān)的研究室、實(shí)驗(yàn)室連鍋端走,人都挖走。而我們提供了一個(gè)安全的機(jī)制,讓他們能安心地從事他們所擅長的研究,我們提供研究經(jīng)費(fèi),還可以派人協(xié)助他們從事的研究。從基礎(chǔ)上做了有效的整合,使得我們下一步的研發(fā)能夠更快。

  2000年底剛?cè)谕曩Y,而我們的收入很少,壓力真的很大。股東方面是要看效益的,希望我們能做些掙錢的事,我們頂住了,覺得要做訊飛該做的事情。那正是意氣風(fēng)發(fā)的時(shí)候,我們的人也不多,在安徽本地要做一些信息化建設(shè)的項(xiàng)目、系統(tǒng)集成就能掙錢,但我們當(dāng)時(shí)沒做,覺得這不是一個(gè)方向。我們覺得關(guān)鍵是要有核心技術(shù)和核心產(chǎn)品的突破,我們就提出了'語音平臺(tái)戰(zhàn)略'。象Intel提供CPU,大家做各種服務(wù)器和各個(gè)領(lǐng)域的電腦一樣。我們提供語音平臺(tái),讓各行業(yè)熟悉這些行業(yè)應(yīng)用的、有開發(fā)能力的廠商在他們的系統(tǒng)和產(chǎn)品里進(jìn)行推廣。

  到目前為止,股權(quán)經(jīng)過了兩次比較大的變化,一次是99年底,一次是2001年6月份聯(lián)想、Intel的進(jìn)入。在這個(gè)過程中,我們始終確保了我們的創(chuàng)業(yè)團(tuán)隊(duì)是第一大股東,不光在經(jīng)營上是主導(dǎo),在開股東大會(huì)表決確定公司的方向時(shí)我們也是主導(dǎo)。2000年7月,語音平臺(tái)終于開發(fā)出來了,在Intel在上海的實(shí)驗(yàn)室進(jìn)行了測試和優(yōu)化,又通過了華為的測試。到2000年底,我們的合作伙伴有了50多家。"巨大中華"、Intel、聯(lián)想、上海貝爾阿爾卡特、東軟……全都進(jìn)來了,大家覺得我們做的東西跟別人不一樣。2000底我們開始逐步扭虧為盈。

  作者:那跟剛才提到的巨頭們合作,是否是完全把你們的語音平臺(tái)嵌入到他們的產(chǎn)品里面?

  劉:對(duì)。當(dāng)時(shí)有了50個(gè)開發(fā)商,對(duì)我們的信心有很大的鼓舞。2001年6月時(shí),開發(fā)商有了大約100個(gè)了。那時(shí)正值全球網(wǎng)絡(luò)泡沫破滅,納斯達(dá)克股市大跌的時(shí)候。這時(shí)聯(lián)想、Intel和科技部火炬來投資,還有上海第一的民營企業(yè)上海復(fù)興。在這個(gè)過程中,做為語音產(chǎn)業(yè)的領(lǐng)導(dǎo)者和拓荒者的雙重角色是我們始終堅(jiān)持著的原則。

  作者:在您的眼里,其他做語音的企業(yè),比起訊飛來說是要小很多的嗎?

  劉:是的。他們不論從公司規(guī)模、研發(fā)投入、市場應(yīng)用都要小很多,只是在局部領(lǐng)域跟我們有一些競爭。我也并不希望這個(gè)產(chǎn)業(yè)中只有訊飛一家,還是希望能聽到更多不同的聲音。

  大家應(yīng)該在廣闊的應(yīng)用里百家爭鳴,百花齊放,形成一種良性的合作。國際上對(duì)語音行業(yè)是持續(xù)關(guān)注的,也是投入了很多精力的,但在中國市場沒有投入重兵是因?yàn)橹袊袌鰞?nèi)有訊飛這樣不易戰(zhàn)勝的對(duì)手。目前訊飛在產(chǎn)業(yè)中的地位是確定了。在前五年中,我們的團(tuán)隊(duì)發(fā)展到二百人,在中國科大、中科院聲學(xué)所、社科院語言所建立了三個(gè)聯(lián)合實(shí)驗(yàn)室。這個(gè)團(tuán)隊(duì)可以說是歷經(jīng)了風(fēng)雨,同甘共苦,是非常好的團(tuán)隊(duì)。

  這幾年當(dāng)中,我們從充滿夢想變得理智而腳踏實(shí)地,在創(chuàng)業(yè)過程中得到磨煉很重要。公司成立之初,華為等IT巨頭正在大張旗鼓地招人。電子計(jì)算機(jī)領(lǐng)域的人全要,年薪起薪7-13萬,而我們留下來的人月薪是1600元。所有的人在99年都簽了三年的勞動(dòng)合同和保密協(xié)議,沒有一個(gè)人提待遇提福利的。我本來在98年留下來時(shí),是想試試看的,還保留了出國的機(jī)會(huì)。比如保送我上博士我不愿意,是自己考的,因?yàn)榭忌系牟┦侩S時(shí)可以出國。后來沒有走,也有個(gè)很大原因就是因?yàn)檫@個(gè)團(tuán)隊(duì),因?yàn)檫@些兄弟。

  作者:您在98年后馬上接著讀博士,但當(dāng)時(shí)還是用了很大的精力在語音研發(fā)和公司的運(yùn)作上。是嗎?

  劉:我讀博士時(shí),我們第二梯隊(duì)的研發(fā)還沒有完全成長起來,當(dāng)時(shí)的關(guān)鍵技術(shù)開發(fā)還是由我來參與的。從02年底到03年開始,他們已經(jīng)能夠?qū)⒀芯砍袚?dān)起來,現(xiàn)在我主要只是把握產(chǎn)品戰(zhàn)略,討論一下研究路線,具體的就不參與了,F(xiàn)在從事產(chǎn)業(yè)經(jīng)營,時(shí)間和精力就不夠了。

  作者:劉總,在語音合成的技術(shù)層面上好象有兩種不同的模式吧。是否能介紹一下?
劉:一種是參數(shù)合成,一種是波形拼接,兩種方法是曲線前進(jìn)的。參數(shù)合成就是模擬人的整個(gè)發(fā)音的生理過程,從腹部出來的氣流經(jīng)過聲帶的調(diào)整變成脈動(dòng)氣流,經(jīng)過聲道、牙齒和鼻變成聲音出來,這個(gè)過程可以用一個(gè)濾波器來模擬發(fā)音器官。前面肺部的氣流就可以有一個(gè)激勵(lì)源,就好象向一個(gè)管子里用鼓風(fēng)機(jī)不斷地鼓入不同的東西,管子變化出不同的形狀,聲音就出來了。語音很大的問題是,同一個(gè)字的聲音在不同的語句里,不同的字詞排列,不同的節(jié)湊、情況下,發(fā)音都不盡相同。

  要讓一個(gè)機(jī)器念出人的聲音來,就好象要蓋一個(gè)大樓,首先是要有一系列的規(guī)則,在當(dāng)前的一句話里每一個(gè)字、每一個(gè)音節(jié),它的聲調(diào)、時(shí)長、能量的參數(shù)是什么樣,就好象大樓的設(shè)計(jì)圖紙一樣;

  第二,你要有蓋樓的磚頭,最好是各種初定形狀,有些適合做柱子、有些適合做邊角;

  第三,你要有磚刀,把它切成你圖紙中所需要的各種形狀,最后拼起來就蓋成大樓了。我們留的那些參數(shù)就相當(dāng)于那些磚頭、原材料,經(jīng)過一種管子,變成聲音出來。使用這種方法,在參數(shù)中的協(xié)同發(fā)音比較好調(diào)節(jié),聽起來會(huì)比較流暢,它基于這種濾波器的模式,很多參數(shù)相互之間可以變得很平滑。但是它的缺點(diǎn)是,由參數(shù)生成出一個(gè)個(gè)的音節(jié)然后拼成的,與原始的音節(jié)相比總歸多少會(huì)在音質(zhì)上有一些差距。它的自然度比較好,但聽來音質(zhì)上差一些,有點(diǎn)模糊。

  波形拼接,就是從原始語音中把聲音取出來直接拼,在聲音剝離上做很小的調(diào)整,這種方法的好處是聽起來每個(gè)音都很清楚,但可能會(huì)一字一頓的,自然度比較差。這兩個(gè)方法是可以融合的。最早做語音的首先是用波形拼接,94年中科院聲學(xué)所做得非常好,到95年我們提出了參數(shù)合成,得了第一。98年我們基于波形拼接有很多獨(dú)特的方法,在國際會(huì)議又拿了最高獎(jiǎng),跟第二名拉出了很大的差距。99年、2000年時(shí),國際上又出現(xiàn)了大語量庫的方法,它就是一種波形拼接,但是它用統(tǒng)計(jì)的辦法從海量數(shù)據(jù)庫里去找。

  我們的語音技術(shù)現(xiàn)在做到超過一般的講話人是沒問題,可以達(dá)到接近播音員的水平。但是要讓它做得更靈活,比如說能夠自動(dòng)地判斷語氣、語調(diào)的重點(diǎn),判斷文章的結(jié)構(gòu),這個(gè)就要涉及到對(duì)人類高級(jí)神經(jīng)活動(dòng)的生理解剖學(xué),這個(gè)突破不了,我們很難做到完整意義上的突破,所以語音要做到跟真人一樣,這個(gè)配套學(xué)科的突破必須要有。但在此之前,我們做到的很多東西已經(jīng)可以使它非常棒了。我們將在今年年底,最遲明年1季度推出一個(gè)新的技術(shù),你對(duì)著我們的系統(tǒng)講幾分鐘話后,我們的系統(tǒng)可以模仿你講話,現(xiàn)在國家領(lǐng)導(dǎo)人也很重視。這個(gè)的關(guān)鍵技術(shù)我們?cè)谘芯,包括摘要跟語言配套的進(jìn)展,我能夠把2萬字的內(nèi)容變成200字的摘要,你先看看有沒興趣再去看全文。語音技術(shù)的突破一定依賴于語言技術(shù),這方面我們的進(jìn)展也很快。我們那三個(gè)聯(lián)合實(shí)驗(yàn)室研究的是更前端性的,訊飛自己有很強(qiáng)的基礎(chǔ)研究中心,主要瞄準(zhǔn)未來一、兩年中馬上將可能用到的東西,同時(shí)消化吸收這三個(gè)實(shí)驗(yàn)室的東西。

  作者:95、96年時(shí),我就開始從事CTI行業(yè),那時(shí)就感覺到語音識(shí)別好象很快就能好了,現(xiàn)在又過去了近10年,好象還是當(dāng)初那樣的感覺,沒有什么本質(zhì)的突破。您能不能再談?wù)務(wù)Z音識(shí)別方面的情況?

  劉:語音識(shí)別和語音合成這兩個(gè)技術(shù)從關(guān)鍵技術(shù)的突破點(diǎn)上來說有很多的共通的地方。語音合成只要能念出某一個(gè)標(biāo)準(zhǔn)、令人舒服的聲音就行了;如果做對(duì)某一個(gè)特定的人的語音識(shí)別比較容易做得好,但如果強(qiáng)調(diào)的是非特定人的、任意詞匯的、各種噪音環(huán)境下的,這個(gè)就難了。

  語音識(shí)別從應(yīng)用和技術(shù)上可以分為三種類型,一種識(shí)別就是聲控――命令控制,你說出命令,它完成操作。

  第二,身份確認(rèn),在一些非高度保密場合,作為一種輔助手段,配合鑰匙的使用,現(xiàn)在也是很不錯(cuò)了。

  最難的是語音聽寫,你念完后屏幕上就出來了,F(xiàn)在的語音識(shí)別就象一個(gè)小孩子一樣,這個(gè)孩子學(xué)會(huì)了所有的漢字,知道讀音,那么給他一篇文章他能讀出來,但分詞斷句可能會(huì)有錯(cuò)誤,但大概還是能聽得懂。但是你讓他聽寫,特別是專業(yè)文章,他就會(huì)錯(cuò)得亂七八糟。多音字、新詞匯等等,漢語中存在很多問題。如果他只有耳朵和嘴巴,沒有大腦、知識(shí),他沒法聽寫正常,這是第一個(gè)障礙。第二個(gè)障礙是語音聽寫本身的市場有問題,導(dǎo)致這些企業(yè)或者研究機(jī)構(gòu)并沒有花大力氣去投入。市場需求量不大,軟件盜版問題,開拓市場的費(fèi)用,這些都使得大家對(duì)這方面的投入持保留態(tài)度。近幾年這項(xiàng)技術(shù)幾乎沒有什么進(jìn)步,最多就是在詞典庫、在針對(duì)特定領(lǐng)域的文本的語料的收集做得好一些。我認(rèn)為語音識(shí)別技術(shù)下一步重點(diǎn)需要突破的是在聲控識(shí)別中智能的程度,包括節(jié)外詞的處理,和一句話中關(guān)鍵詞的提取。另外一個(gè)就是面對(duì)特定場合的噪音環(huán)境,比如汽車環(huán)境,或是在一些特定領(lǐng)域的噪音處理,應(yīng)該作為語音產(chǎn)業(yè)下一步的重點(diǎn)。 作者:在國內(nèi)做語音的廠商好象不是很多,全國一年總體的市場份額大約是在1個(gè)多億吧?
劉:我感覺是的。

相關(guān)閱讀:

分享到: 收藏

專題