東芝開發(fā)出語音區(qū)分技術(shù)，可快速區(qū)分10余人聲音

2014-08-29 08:36:54 作者：來源：日經(jīng)技術(shù)在線評論：0 　點擊：

　　東芝開發(fā)出了可用于會議記錄等的語音區(qū)分軟件技術(shù)。該軟件技術(shù)應(yīng)用于開會等場合時，可以準(zhǔn)確區(qū)分出10余人的聲音。軟件可在筆記本電腦及平板終端等移動產(chǎn)品上運行，只要有普通的立體聲麥克風(fēng)就可以使用。該技術(shù)將在2014年9月3～5日于日本札幌市舉行的日本音響學(xué)會2014年秋季研究發(fā)布會上發(fā)布。

　　東芝開發(fā)出語音區(qū)分技術(shù)，可快速區(qū)分10余人的聲音此次開發(fā)的新技術(shù)結(jié)合“輸入聲音的特點”和“說話人的方位信息”來區(qū)分聲音。利用聲音特點區(qū)分聲音時，如果說話的人數(shù)增多，聲音的特點會隨之增多，難以區(qū)別。東芝為解決該問題設(shè)計的方法是結(jié)合說話人的方位信息。就是根據(jù)多個麥克風(fēng)所錄音的相位差來推斷說話人所在的方位。根據(jù)這一信息來提高分辨的準(zhǔn)確度。

　　對此，存在的問題是需要特殊指向性的麥克風(fēng)；推斷方位的處理量大、計算成本高等。另外，由于難以區(qū)分位于同一方位的不同說話人，有時也會影響分辨性能。

　　為此，東芝此次開發(fā)出了使用普通立體聲麥克風(fēng)的快速且準(zhǔn)確的方位推斷算法和不影響分辨性能的組合算法。比如，使用配備Core i7（最大工作頻率為2.7GHz）CPU和4GB主存的個人電腦，普通會議（參與者為10人左右）在錄音結(jié)束后5秒左右就能完成分辨處理。分辨成功率（能否準(zhǔn)確區(qū)分說話人聲音）方面，原方法為50%左右，而新技術(shù)達(dá)到了70%以上。

　　新技術(shù)計劃在2014年度內(nèi)完成。將嵌入到會議記錄輔助軟件等產(chǎn)品中。新技術(shù)不含語音轉(zhuǎn)換（如將內(nèi)容做成文字?jǐn)?shù)據(jù)）功能，所以有可能與該公司的語音識別技術(shù)配套提供。

相關(guān)熱詞搜索：東芝語音區(qū)分

上一篇:第十三屆中國互聯(lián)網(wǎng)大會在京召開

下一篇:谷歌語音搜索更新：同時支持識別多達(dá)五種語言

相關(guān)閱讀：

分享到：