不過(guò),對(duì)于社交產(chǎn)品團(tuán)隊(duì)來(lái)講,現(xiàn)有的語(yǔ)音內(nèi)容審核+實(shí)時(shí)音視頻服務(wù),部署、調(diào)試、運(yùn)維的成本高,而且很多方案對(duì)有背景音樂(lè)、噪聲的音頻識(shí)別效果差。為了解決這個(gè)問(wèn)題,我們正式推出聲網(wǎng) Agora 一站式智能語(yǔ)音識(shí)別方案。
現(xiàn)有的方案都是如何實(shí)現(xiàn)的呢?
一般來(lái)講,一個(gè)社交產(chǎn)品需要對(duì)接三種廠商:CDN廠商,用來(lái)推流、拉流,實(shí)現(xiàn)普通的直播;RTC 廠商,用來(lái)實(shí)現(xiàn)低延時(shí)的實(shí)時(shí)互動(dòng)直播;內(nèi)容審核廠商,通過(guò) AI、人工進(jìn)行審核。接入的架構(gòu)基本如下圖所示,可簡(jiǎn)單概括為三步:
- 內(nèi)容經(jīng)過(guò)轉(zhuǎn)碼或直接推流至 CDN;
- 內(nèi)容審核廠商從 CDN 拉流,然后進(jìn)行 AI 、人工內(nèi)容審核;
- 完成審核后,傳回給服務(wù)器端。
圖:傳統(tǒng)的實(shí)時(shí)音視頻內(nèi)容審核流程
這種舊方式帶來(lái)的問(wèn)題顯而易見(jiàn)。首先,開(kāi)發(fā)者需要對(duì)接三個(gè)廠商,要進(jìn)行多次部署、調(diào)試,其中有很多調(diào)試的成本與風(fēng)險(xiǎn)。而且,當(dāng) CDN 出現(xiàn)故障時(shí),需要較長(zhǎng)時(shí)間來(lái)排查問(wèn)題。另外,在這個(gè)過(guò)程中,開(kāi)發(fā)者還需要支付額外的拉流成本。
另一方面,目前的方案還需要解決噪聲問(wèn)題。因?yàn)橐纛l社交有很多種場(chǎng)景,比如語(yǔ)音FM、語(yǔ)音聊天室、音樂(lè)社交、娛樂(lè)直播,這些場(chǎng)景常常伴有環(huán)境噪聲和背景音樂(lè),會(huì)影響現(xiàn)有內(nèi)容審核方案的識(shí)別率。
聲網(wǎng)Agora 一站式智能語(yǔ)音識(shí)別方案
聲網(wǎng)現(xiàn)已提供業(yè)界獨(dú)有的一站式智能語(yǔ)音識(shí)別方案。如上圖架構(gòu)所示,開(kāi)發(fā)者只需要在應(yīng)用中集成聲網(wǎng) Agora SDK,即可讓音頻在 Agora SD-RTN? 網(wǎng)絡(luò)中實(shí)時(shí)傳輸?shù)倪^(guò)程中完成語(yǔ)音內(nèi)容識(shí)別與審核。我們?cè)谠械膶?shí)時(shí)語(yǔ)音互動(dòng)直播的基礎(chǔ)上,整合了業(yè)界 Top 3 語(yǔ)音識(shí)別服務(wù)。同時(shí),基于聲網(wǎng)的 AI 音頻降噪引擎,來(lái)提高音頻質(zhì)量,優(yōu)化語(yǔ)音識(shí)別效果。
語(yǔ)音識(shí)別的流程如下圖所示。首先通過(guò)聲網(wǎng)獨(dú)家研發(fā)的 AI 音頻降噪引擎消除背景音,優(yōu)化音頻質(zhì)量,讓語(yǔ)音更加清晰。我們?cè)诰W(wǎng)絡(luò)電臺(tái)、語(yǔ)音交友等互聯(lián)網(wǎng)平臺(tái)聽(tīng)到的語(yǔ)音音頻通常有兩類(lèi),一類(lèi)是普通的語(yǔ)音,另一類(lèi)是非文字的聲音,如嬌喘和ASMR,后者是不存在任何語(yǔ)義的。所以我們會(huì)通過(guò)不同的模塊來(lái)檢測(cè),將語(yǔ)音轉(zhuǎn)化為文字通過(guò)內(nèi)容安全引擎進(jìn)一步過(guò)濾,結(jié)合“多意義上下文短文本垃圾檢測(cè)”、“Deep Learning 垃圾檢測(cè)”、“規(guī)則引擎”和“分類(lèi)器”等模塊,過(guò)濾掉音頻中涉政、涉黃(包括嬌喘、ASMR)、暴恐、辱罵等違規(guī)內(nèi)容。人工審核團(tuán)隊(duì)可以通過(guò)Web端后臺(tái),對(duì)機(jī)器審核的結(jié)果進(jìn)行抽查和復(fù)審,不斷優(yōu)化機(jī)器審核的準(zhǔn)確率。這一過(guò)程可以大幅降人工審核成本,提升效率。
目前該解決方案可檢測(cè)出廣告、涉黃、涉政、暴恐、謾罵等違規(guī)內(nèi)容,適用于視頻直播、語(yǔ)音聊天室、娛樂(lè)直播、語(yǔ)音 FM、音樂(lè)社交等實(shí)時(shí)音視頻社交互動(dòng)場(chǎng)景。
聲網(wǎng)Agora一站式智能語(yǔ)音識(shí)別方案優(yōu)勢(shì)包括:
1、調(diào)用 RESTful API,一站式接入聲網(wǎng) Agora 目前提供了實(shí)時(shí)音頻通話(huà) SDK。在應(yīng)用中集成 Agora SDK 后,開(kāi)發(fā)者可以通過(guò)調(diào)用 RESTful API,即可為自己的應(yīng)用增加語(yǔ)音內(nèi)容審核服務(wù)。相比傳統(tǒng)內(nèi)容審核方案,聲網(wǎng)方案可以節(jié)省開(kāi)發(fā)時(shí)間、服務(wù)器等接入成本。
2、AI 降噪,識(shí)別率更高
面對(duì)語(yǔ)音識(shí)別中常見(jiàn)的噪聲、背景音樂(lè)等音質(zhì)問(wèn)題。我們會(huì)通過(guò)聲網(wǎng) AI 音頻降噪引擎對(duì)音頻進(jìn)行優(yōu)化,以提升語(yǔ)音的識(shí)別率。與此同時(shí),用戶(hù)的語(yǔ)音、音頻體驗(yàn)也會(huì)得到提升。在今年的 RTC 2019 實(shí)時(shí)互聯(lián)網(wǎng)大會(huì)上,我們還將進(jìn)一步分享 AI 音頻降噪背后的技術(shù)實(shí)踐,敬請(qǐng)期待。
3、語(yǔ)音交互低延時(shí)
聲網(wǎng) SDK 實(shí)現(xiàn)了全球端到端76ms 的實(shí)時(shí)音視頻低延時(shí)傳輸。聲網(wǎng)Agora SD-RTN? 實(shí)時(shí)通信網(wǎng)絡(luò)采用私有 UDP 協(xié)議進(jìn)行傳輸,基于軟件定義優(yōu)化路由選擇最優(yōu)傳輸路徑,自動(dòng)規(guī)避網(wǎng)絡(luò)擁塞和骨干網(wǎng)絡(luò)故障帶來(lái)的影響。在能保證低延時(shí)傳輸?shù)耐瑫r(shí),聲網(wǎng)Agora SDK還支持 48kHz 高音質(zhì)語(yǔ)音。