欧美,精品,综合,亚洲,好吊妞视频免新费观看,免费观看三级吃奶,一级a片女人自慰免费看

 首頁 > 新聞 > 專家觀點(diǎn) >

車載語音交互步入深度訂制

--普強(qiáng)聯(lián)手四維圖新發(fā)生了什么故事

2016-06-27 17:27:54   作者:   來源:車云網(wǎng)   評(píng)論:0  點(diǎn)擊:


  普強(qiáng)信息技術(shù)(北京)有限公司的核心技術(shù)是語音識(shí)別和語義理解,在今年CES Asia四維圖新展臺(tái)亮相了一款前裝語音助手產(chǎn)品。
  CEO何國濤談規(guī)劃愛用“我的理想”。他把公司汽車語音產(chǎn)品分為三級(jí)進(jìn)階:第一步實(shí)現(xiàn)車內(nèi)自然語音識(shí)別和理解;第二步成為更接近自然對(duì)話的語音助手,可以多輪對(duì)話和隨機(jī)打斷;第三步做多模態(tài)人機(jī)交互。
  2009年誕生于硅谷,2010年落定中國,車云菌坐在普強(qiáng)位于中關(guān)村云基地的辦公室時(shí),現(xiàn)實(shí)正走在第二階段。
  “本地+云端”、“軟件+硬件”
  今年5月CES Asia展示的是眾泰SR7前裝車載導(dǎo)航產(chǎn)品,由普強(qiáng)、四維圖新、眾泰合作開發(fā)。
  在硬件上,普強(qiáng)提供了陣列麥克風(fēng)可動(dòng)態(tài)定位追蹤聲音位置,優(yōu)化藍(lán)牙通訊和語音識(shí)別效果。車載降噪DSP芯片可降低風(fēng)噪胎噪和發(fā)動(dòng)機(jī)引擎等車內(nèi)噪音并進(jìn)行去回聲處理。
  現(xiàn)場(chǎng)產(chǎn)品功能支持喚醒和自然語音交互,在展會(huì)現(xiàn)場(chǎng)的嘈雜環(huán)境依然準(zhǔn)確識(shí)別出各種指令,操控被定制到操作系統(tǒng)層級(jí)。連接藍(lán)牙后,可以與手機(jī)共享音樂列表、通訊錄等信息,并且可以通過語音進(jìn)行操控。
  從產(chǎn)品表現(xiàn)來看,屬于一階段自然語音識(shí)別和理解。詢問車端表現(xiàn)時(shí),車云菌從CTO李全忠得到了一組數(shù)據(jù)。在城市環(huán)路40-80公里/小時(shí)車速下,識(shí)別率可以達(dá)到95%以上。90-120公里/小時(shí)行駛時(shí),識(shí)別率平均在90%左右。在此基礎(chǔ)上,空調(diào)車窗開啟和麥克風(fēng)位置,也會(huì)不同程度地影響識(shí)別率。
  正在進(jìn)行的二階段語音助手項(xiàng)目,李全忠認(rèn)為技術(shù)已經(jīng)實(shí)現(xiàn)。目前普強(qiáng)自有的語音識(shí)別模型在大多數(shù)統(tǒng)計(jì)學(xué)方法之外,部分采用了神經(jīng)網(wǎng)絡(luò)算法,在一些意圖理解、語義匹配等方面,會(huì)用到部分深度學(xué)習(xí)技術(shù)。用上神經(jīng)網(wǎng)絡(luò)算法后,識(shí)別率上的躍升會(huì)達(dá)到10個(gè)百分點(diǎn),“如果后續(xù)優(yōu)化變種,可能會(huì)帶來相對(duì)20%的提升空間”。
  李全忠認(rèn)為,普強(qiáng)從一到二的突破難點(diǎn),反而是車端硬件CPU和內(nèi)存受限。普強(qiáng)計(jì)劃年底隨車亮相的可多輪對(duì)話和隨機(jī)打斷語音助手,會(huì)使用一個(gè)“本地+云端”的混合方案,通過云端強(qiáng)大的服務(wù)器運(yùn)算能力,完成更多自然交互,同時(shí)在網(wǎng)絡(luò)信號(hào)不佳時(shí),交由本地識(shí)別。
  房子好不好,要靠骨架,也要靠藝術(shù)家
  在CEO何國濤看來,自家的技術(shù)和別人沒有太多區(qū)別。“技術(shù)只是骨架,房子好不好要靠藝術(shù)家,需要另一種腦子想辦法”。現(xiàn)場(chǎng)接介紹產(chǎn)品的 ZiJun畢業(yè)于加州伯克利大學(xué)認(rèn)知科學(xué)專業(yè),是普強(qiáng)的交互設(shè)計(jì)師,正是何國濤口中的“藝術(shù)家”之一。
  交互設(shè)計(jì)師要做的就是利用和良好的交互規(guī)則接近理想的用戶體驗(yàn),確保產(chǎn)品能被用戶輕松玩轉(zhuǎn),易用的同時(shí)讓用戶心情愉悅。這其中也包括各種有效的交互方式,并能對(duì)它們進(jìn)行增強(qiáng)和擴(kuò)充。普強(qiáng)認(rèn)為在注重產(chǎn)品技術(shù)的同時(shí),更要注重從產(chǎn)品、界面、工作流、到用戶層面的交互設(shè)計(jì)。語音助手不但可以預(yù)測(cè)用戶需求,還能更準(zhǔn)確理解用戶需求以滿足駕駛環(huán)境中特殊的信息交互。
  比如在用戶開口前語音助手該如何打招呼,相比較“你好”,直接提問“你好,你想去哪里?”是不是更好更主動(dòng)地預(yù)測(cè)了需求。當(dāng)用戶自帶口音回答“我要去京師律師大廈”后,導(dǎo)航有沒有必要再確定一次。在地址確定界面,要不要考慮按鍵操作和語音兩種交互方式靈活切換,讓用戶根據(jù)習(xí)慣選擇。
  簡單來說,語音助手在交互中將更加主動(dòng)。有了上下文,推測(cè)和心理預(yù)期,自然聽得更明白,理解得更清楚。
  但這些“藝術(shù)家”并不是單純地調(diào)研想法,事實(shí)上,認(rèn)知科學(xué)是一門涉及心理學(xué)、神經(jīng)科學(xué)、語言學(xué)、計(jì)算機(jī)的交叉學(xué)科,本身與技術(shù)也有著深入交織。普強(qiáng)在技術(shù)上考慮到交互設(shè)計(jì)師需要的更多創(chuàng)作空間,在框架設(shè)計(jì)時(shí)將語音識(shí)別引擎和流程做了比較好的分割,涉及流程上的優(yōu)化,本身并不會(huì)對(duì)產(chǎn)品產(chǎn)生影響。
  當(dāng)“藝術(shù)家”將越來越多的交互串聯(lián),產(chǎn)品使用中的不自然會(huì)逐漸稀釋。何國濤的最終理想是將多種交互方式融合,讓車像人一樣擁有視覺、聽覺等多種感知能力。比如攝像頭看嘴型變化和聲學(xué)識(shí)別結(jié)合,根據(jù)人眼注視方向和語音交互結(jié)合起來。用戶也許會(huì)有自己習(xí)慣使用的一兩種習(xí)慣,而“不需要把某種交互干掉”。
  因?yàn)樯疃人郧把b
  查看普強(qiáng)的融資歷史,除了來自硅谷企業(yè)家黃炎松百萬美元天使輪,戈壁領(lǐng)投的 500萬美元A輪,最近一次的B輪1000多萬美元的投資方中,領(lǐng)投的是四維圖新。這也是普強(qiáng)和四維圖新同臺(tái)亮相CES Asia的原因。
  何國濤把前兩輪的融資都砸進(jìn)了研發(fā),隨著技術(shù)逐漸成熟,四維圖新帶來的資源有了更大的想象空間。?
  不久之前,四維圖新收購杰發(fā)科技布局自動(dòng)駕駛和車聯(lián)網(wǎng),借助杰發(fā)科技在車載領(lǐng)域的芯片業(yè)務(wù),普強(qiáng)有機(jī)會(huì)將語音模塊直接做到芯片中帶動(dòng)出貨。四維圖新投資的車載系統(tǒng)供應(yīng)商和驪安,也整合了普強(qiáng)的語音助手聲學(xué)產(chǎn)品在前后裝鋪開業(yè)務(wù)。
  但何國濤最關(guān)注的不僅僅是跑量,在兩個(gè)方向中,他更重視前裝。因?yàn)檎Z音助手所需的系統(tǒng)定制要達(dá)到操作系統(tǒng)級(jí)別,甚至更加底層的GPU,這在更加強(qiáng)調(diào)體驗(yàn)的前裝才有更多機(jī)會(huì)。未來利用語音調(diào)用車輛更多內(nèi)部功能需要與CAN總線對(duì)接,也注定了與主機(jī)廠發(fā)生更多關(guān)聯(lián)。在目前科大訊飛占據(jù)大規(guī)模份額的前裝語音識(shí)別領(lǐng)域,普強(qiáng)需要一個(gè)標(biāo)桿自證實(shí)力。
  有業(yè)內(nèi)人士介紹,在沒有系統(tǒng)捆綁方案的情況下,語音識(shí)別提供商給到車廠的語音識(shí)別代碼,大多經(jīng)過包裝,往往整句輸入整句輸出,因此在更加細(xì)節(jié)定制上存在復(fù)雜的額外開發(fā),這也恰好是現(xiàn)階段從自然語音識(shí)別更進(jìn)一步,需要打破的藩籬。近期也有消息稱,科大訊飛正在車機(jī)市場(chǎng)有所布局,或許也是出于定制的考慮。
  自然不難想到,入口打開意味著更多數(shù)據(jù)收入囊中。大數(shù)據(jù)爆發(fā)繁榮了深度學(xué)習(xí)。當(dāng)源源不斷的數(shù)據(jù)樣本涌來,算法才有更多可供訓(xùn)練優(yōu)化的樣本。
  值得注意的是,當(dāng)人們強(qiáng)調(diào)大數(shù)據(jù)的海量時(shí),不能忽視精專。理想狀態(tài)下,四維普強(qiáng)合作的“車機(jī)、后視鏡、行車記錄儀”,都可以成為入口。四維的POI數(shù)據(jù)及其伙伴企業(yè)滴滴打車每天數(shù)億條的信息,也都更貼近產(chǎn)品使用場(chǎng)景,更適合用來快速地訓(xùn)練一顆深度大腦。
  有數(shù)項(xiàng)語音專利在身的何國濤,因?yàn)閷9ナ袌?chǎng)業(yè)務(wù)已經(jīng)不再Coding。他向車云菌透露,公司目前在進(jìn)行一些關(guān)于UBI的小小研究。普強(qiáng)從保險(xiǎn)公司和移動(dòng)互聯(lián)網(wǎng)等領(lǐng)域切入市場(chǎng)時(shí)也陸續(xù)有過數(shù)據(jù)累計(jì),隨著主機(jī)廠及四維圖新的合作深入,聲音會(huì)帶來更多化學(xué)反應(yīng)。
分享到: 收藏

專題