北京捷通華聲語音技術(shù)有限公司(簡稱“捷通華聲”)今日在北京中關(guān)村舉行“2012靈云發(fā)布會”。會上,捷通華聲發(fā)布了語音識別、語義理解和光學(xué)字符識別三項HCI技術(shù),其中語音識別準(zhǔn)確率已達到90%以上。
此前,捷通華聲一直以語音合成技術(shù)和手寫技術(shù)聞名于業(yè)界。而如今其語音合成技術(shù)依然保持領(lǐng)先,有超過50%的市占率。而手寫識別也占據(jù)了約35%的市場份額,且支持42種語言及手寫/疊寫識別,突破了用戶疊寫字跡無法識別的局限。
圖1:參會嘉賓通過手寫識別獲取簽到資料
除了已有HCI技術(shù),捷通華聲在發(fā)布會上又發(fā)布了語音識別、語義理解和光學(xué)字符識別三項新技術(shù)。語音識別是指機器對人聲的識別,主要有“所說即所點”、“智能意圖控制”、“語音輸入”三種應(yīng)用場景。語義理解是機器對人類語言的理解,目前大多應(yīng)用在智能問答場景中。光學(xué)字符識別,則是對印刷體文本資料中的文字和版面信息識別的過程。
在語音識別方面,捷通華聲針對三種不同場景做了專門優(yōu)化。“所說即所點”是用人聲來代替點擊操作,解決了車載等無法便捷實現(xiàn)點擊的場景局限。目前這方面的識別正確率已超過95%,識別響應(yīng)時間從原來的2.7秒降到了0.3秒。
而“智能意圖控制”是人通過語音控制周圍環(huán)境,執(zhí)行一系列命令操作的過程,比如人與智能手機客戶端小唐龍的互動,成功實現(xiàn)了人機互動的便捷生活。第三大場景“語音輸入”則是將人的聲音轉(zhuǎn)換成文字,目前捷通華聲這一技術(shù)在微博短信中的語音輸入正確率已超過90%。
圖2:靈云輸入法與小唐龍下載區(qū)
至今,靈云已擁有語音合成(TTS)、語音識別(ASR)、手寫識別(HWR)、光學(xué)字符識別(OCR)、人工智能(AI)等多項HCI核心技術(shù)。通過捷通華聲工程師團隊的努力,這些技術(shù)被成功放置到靈云平臺上,且其客戶端程序被大大縮減至3M。通過這3M大小的應(yīng)用程序,客戶可以調(diào)用所有的靈云能力,從而為不同領(lǐng)域、行業(yè)企業(yè)提供了多種HCI解決方案,包括無紙化辦公方案、電子簽批方案、電子表單處理方案、語音技術(shù)方案、智能客服系統(tǒng)方案等。
除了支持多項HCI技術(shù),靈云還可以掛接第三方的HCI能力,力求將多樣化的HCI技術(shù)加載到靈云平臺上,服務(wù)服務(wù)廣大的用戶。而“云+端”的方式,使得靈云性能更優(yōu)化,響應(yīng)速度更快,極大地方便了用戶的使用。而作為一個開放性平臺,靈云定制化的目標(biāo)更加明確,滿足各種場景應(yīng)用和需求。捷通華聲董事長張連毅表示,通過靈云以及各項HCI技術(shù)的不斷創(chuàng)新,捷通華聲希望能達成“讓人與機器的交流像人與人一樣自然”的愿景。