欧美,精品,综合,亚洲,好吊妞视频免新费观看,免费观看三级吃奶,一级a片女人自慰免费看

 首頁 > 新聞 > 專家觀點 >

捷通華聲靈云——全方位的智能人機交互開放平臺

2013-08-12 14:19:37   作者:   來源:通信世界網   評論:0  點擊:


  2013第二屆運商終端與應用創(chuàng)新合作大會于8月7-8日在國賓酒店召開,來自產業(yè)各界近500位嘉賓出席,針對運營商終端定制、產業(yè)合作、流量經營等焦點話題展開深入交流。通信世界網作為直播媒體將對本次大會進行直播。

 捷通華聲靈云——全方位的智能人機交互開放平臺
捷通華聲首席架構師陳明

  陳明:大家下午好!我是北京捷通華聲首席架構師陳明,給大家介紹一下靈云平臺人機交互的平臺,捷通華聲品牌不是很強,簡單介紹一下捷通華聲,另外講一下靈云平臺介紹、應用和解決方案。

  捷通華聲成立于2000年10月,一直致力于云的交互、手寫識別智能交互系統的研究應用開發(fā),公司的主要愿景和理想,讓人機交互變成人與人溝通簡單自然,包括我本人和公司創(chuàng)始人,以及聘請兩位老科學家,指導我們做語音合成和手寫識別教授,我們都是在這個領域多年經驗,一直成為讓人機交互越來越自然,成為我們很大的夢想。超前追溯一下可以追到1998年,成立捷通軟件公司,推出漢字輸入系統,當時集成OCR手寫識別、語音識別、TDS協同,現在有一些輸入法集成進來,我們15年前做了這個事情,只不過在PC上邊,當時技術或多或少有不成熟地方,這個參加推出來以后,我們公司下決心一個技術方面要有掌握核心技術,因為當時技術都是集成第三方的技術,包括當時用的云識別是IBM的VRS,想有自己的產品技術,2000年成立捷通華聲,相繼一年以后推出TTS技術和手寫識別技術,TTS技術是國內實用化技術,02年的時候因為一個機遇,假如聯通和高通合作的業(yè)務開發(fā)里邊,因此進入移動互聯網行業(yè),03年中標北京重大科技奧運項目,開發(fā)多語種智能平臺,奠定公司在語音行業(yè)的地位,06年參與移動百寶箱業(yè)務08年我們業(yè)務接入電信天翼。09年中標中國高鐵項目,站臺播報技術都是我們提供,2010年公司看到云技術、大數據技術發(fā)展,也想轉化商業(yè)模式,希望我們提供人機交互模式,提供開發(fā)商,希望把技術放在云端,讓用戶使用,促成靈云的誕生,2011年底推出靈云平臺,經過一年半發(fā)展,現在也是靈云平臺比較成熟。

  經過十幾年發(fā)展,公司在各個領域、各個行業(yè)緊密合作伙伴,包括運營商、手機廠商等合作伙伴。

  二、靈云平臺介紹

  希望把手寫識別、語音識別、語音合成等等人機交互系統放在云端,讓用戶在使用各種設備,在任何時間點都可以像用水、用電一樣使用智能人機交互技術,實現人機交互人與人溝通簡單自然的目標。這是我們平臺架構,主要有多個服務結點,都包含任務的分配,轉化具體服務器進行處理,不同的語音識別組成服務器的池,我們有一個中央統一運維管理系統,云平臺很大的優(yōu)點,我們能夠收集大量用戶上傳的視聽資料,對于我們做手寫識別的技術,不斷提升我們識別率,開發(fā)者可以通過我們登陸社區(qū)平臺申請應用,下載SDK進行相關的開發(fā)。

  靈云平臺第一個特點高度融合的平臺,這個平臺融合很多人機交互能力,我們接口是比較統一的接口,保持比較大的一致性,然后用戶可以很容易訪問其他能力,另外底層能力接口定義規(guī)范,新的能力可以很融入加入里邊,現在跟人臉廠商討論,希望把他們技術引入我們平臺上邊去。單一能力可能自己做自學、不斷優(yōu)化的工作,在統一平臺做一些工作,試圖多個出入模塊里邊,把用戶數據進行統一的學習、數據挖掘,提高我們質量。

  靈云平臺第二個特點是云加端方式,本地處理各自有各自的優(yōu)點,中國環(huán)境不是很好,互聯互通問題情況下,除了提供云的能力以外,其實我們也提供本地端的處理方式,可以不依賴于網絡,達到更好的可用性和更好響應時間,實際計算處理可以放在本地做,另外一些場景下邊云加端識別策略,云識別場景下對于云端,本地端對本地通訊錄、本地應用達到更好的識別率,可以進行協同識別策略兩邊結果進行判斷,達到選擇更好、更有可能的結果,使用戶體驗更好。

  第三個特點可定制,除了提供公有云以外,可以根據客戶需求定制云解決方案,前一段時間給百度定制云合成的私有云,根據他們運維和監(jiān)控需求,把我們部署結構、日志輸出都按照他們要求更改,當然針對其他客戶也可以做這樣的宏觀。模型、音庫、模板可以根據特殊領域進行定制,大大提高領域的識別率和合成效果,比如音庫可以跟企業(yè)合作,為他們專門進行錄音,制造專門企業(yè)自己用的音符,跟其他聲音不一樣,這是我們一些特點。

  從核心技術方面,主要集中在云交互和圖象識別兩個方面,后期也跟一些廠商合作,希望將來能夠拓展到生物特征識別、人臉識別方面,也把它加入我們應用平臺上邊去。

  語音合成技術是捷通華聲做了十多年,現在自然度、流暢度已經很高,我們提供多語種、多音色、多領域的優(yōu)化,使聲音基本上可以很好,這個公司在行業(yè)一半的市場份額,大家平時打電話銀行、排隊叫號好多都是提供服務的。

  語音識別方面前期主要做嵌入詞比較多,目前我們連續(xù)識別達到適用的水平,基本達到90%左右,另外采用圖像壓縮方式,使識別速度比較快,比較大提高識別率,我們測試結果基本能到41%以上。另外針對云服務收集上來的語料,一直進行模型優(yōu)化訓練,使識別率不斷提高。

  手寫識別技術,行疊寫是我們公司率先提出,極大的優(yōu)化用戶無線體驗,另外手寫技術支持語種非常廣泛,目前支持27種識別。光學字符識別本人以前做這方面,近年來隨著終端設備越來越強大,攝象頭越來越好,實際拍照出來東西對它進行處理,有一些新的挑戰(zhàn),比如光照的影響或者拍的時候角度,包括復雜景物下文字處理,這是十年間做文檔類字符識別不考慮,兩年前主要做一些工作,主要集中圖象識別上,包括證照、票據識別上。

  自然語言理解技術,對自然語言進行分析然后進行意圖理解,在這個基礎上推出像智能客服、手機助手產品,另外也跟車載、智能家電廠商合作,做理解技術包括語音交互的產品。

分享到: 收藏

專題