欧美,精品,综合,亚洲,好吊妞视频免新费观看,免费观看三级吃奶,一级a片女人自慰免费看

您當前的位置是:  首頁 > 資訊 > 國內 >
 首頁 > 資訊 > 國內 >

捷通華聲靈云:揭開語音識別能力的神秘面紗

2022-02-15 08:19:18   作者:   來源:CTI論壇   評論:0  點擊:


  信息是如何從我們的大腦傳遞給計算機的?從早期的鍵盤到我們口袋里的觸摸屏,我們逐步擴展了人機數(shù)字交互的方式。隨著自動語音識別(ASR)技術的發(fā)展,人工智能系統(tǒng)與真正“人類”交流的方式的差距逐漸縮短。
  本質上講,語音識別可將人的語音轉換為文字,允許人機進行語音對話。
  揭開語音識別能力的神秘面紗
  現(xiàn)今的語音識別主要通過將數(shù)據(jù)集直接輸入算法來進行語音模型的訓練。通常,工業(yè)界為了適應不同年齡、不同地域、不同人群、不同信道、不同終端和不同噪聲環(huán)境的應用環(huán)境,往往需要大量語音語料和文本語料來進行訓練,使之有效提高識別率。隨著移動互聯(lián)網的發(fā)展,大量文本和語音語料可從多個渠道進行獲取,為語音識別的語言模型和聲學模型的訓練提供了豐富的資源,使得通用大規(guī)模語言模型和聲學模型成功構建。
  靈云語音識別能力基于捷通華聲公司最新一代的識別算法、解碼器核心、現(xiàn)今的聲學模型和語言模型訓練方法,在核心的聲學模型、語言模型、解碼器上都有創(chuàng)新和突破。目前,靈云語音識別系統(tǒng)的主力模型為CTF模型,該模型有效的提升了語音識別引擎的執(zhí)行效率、增強了對不同口音、語速的適配能力,大幅提升了多人會談、遠揚講話的識別率。
  靈云語音識別能力基于聲學模型,用于搭建音頻信號和音素,就像應用數(shù)字溫度計將溫度度數(shù)轉換為數(shù)字一樣,聲學模型可將聲波轉換為計算機語言。靈云語音識別系統(tǒng)應用端到端(E2E)模型,可快速拓展多語種,減少解碼時間,提高語音識別準確率。
  靈云語音識別能力可以準確實現(xiàn)話者分離,不但在多人會議談話場景下應用智能會議記錄中至關重要,而且還可避免因兩位發(fā)言者同時發(fā)言的語音組合一個無意義的記錄而造成的混淆。靈云語音識別的話者分離模塊采用了聲紋識別技術及語義理解技術,新版本引擎在原有話者分離算法基礎上,增加了對采用字詞分割輔助的方法進行話者分離的支持。該算法下,在正常 VAD 切分獲得初始分段的基礎上,還會使用免 VAD 的 方法先進行識別,得到識別出的詞邊界,再利用此邊界對初始分段進行修正,并輔助話者的聚類。
  靈云語音識別技術的應用
  捷通華聲作為國內最早期從事人工智能技術研發(fā)和產業(yè)化應用的企業(yè),在成立之初便確定“融合技術、融合應用、融合服務”發(fā)展理念,以場景需求為導向,本著對核心技術孜孜不倦的探索精神和務實推進的原則,在保持技術先進性的同時,不斷創(chuàng)新場景應用。
  靈云語音識別能力在各行各業(yè)都有出色承擔應用程序和創(chuàng)新用例,在會議、談話、演講等現(xiàn)實場景中,它都可為客戶提供語音支撐技術,為客戶提供便捷工作、生活方式。
  以呼叫中心為例,靈云語音識別能力可部署到全自動聊天機器人中,可監(jiān)控客戶人機交互,以更快地解決問題以及改進員工培訓。“某公司應用靈云語音識別能力將客戶事件平均處理時間減少40%,自助服務率從 5% 提高到20%,員工成本降低多達 500 萬,提高服務轉化率近 50%,極大提升了客戶滿意度和員工敬業(yè)度”。
 
【免責聲明】本文僅代表作者本人觀點,與CTI論壇無關。CTI論壇對文中陳述、觀點判斷保持中立,不對所包含內容的準確性、可靠性或完整性提供任何明示或暗示的保證。請讀者僅作參考,并請自行承擔全部責任。

專題

CTI論壇會員企業(yè)