1.概述
1.1項(xiàng)目背景
隨著5G網(wǎng)絡(luò)的快速建設(shè)、AI智能技術(shù)和視頻通訊技術(shù)的快速發(fā)展,多種技術(shù)融合帶來(lái)新的解決方案,服務(wù)與更多的金融業(yè)務(wù)場(chǎng)景。本方案借助微信小程序視頻平臺(tái),與AI智能雙錄平臺(tái)實(shí)現(xiàn)無(wú)縫融合,實(shí)現(xiàn)AI虛擬機(jī)器人智能雙錄系統(tǒng),提高用戶(hù)體驗(yàn)、降低人工成本。
1.2方案概述
本方案采用AI智能技術(shù)、虛擬人技術(shù)、視頻通訊技術(shù)的無(wú)縫融合,提供AI智能虛擬人雙錄解決方案,通過(guò)4G/5G通訊鏈路服務(wù)于車(chē)貸用戶(hù)。
1) ASR語(yǔ)音識(shí)別技術(shù):通過(guò)ASR識(shí)別用戶(hù)回答的問(wèn)題;
2) TTS文本轉(zhuǎn)語(yǔ)音技術(shù):通過(guò)TTS播報(bào)業(yè)務(wù)流程話(huà)術(shù);
3) 業(yè)務(wù)流程配置管理:可動(dòng)態(tài)配置業(yè)務(wù)流程,相關(guān)業(yè)務(wù)中話(huà)術(shù)的參數(shù)自定義等;
4) 視頻客服通訊平臺(tái):提供實(shí)時(shí)的雙向視頻交互服務(wù)能力平臺(tái)、虛擬人視頻技術(shù)、實(shí)時(shí)雙錄功能;
5) 虛擬人與視頻客服平臺(tái)融合技術(shù):虛擬人與用戶(hù)進(jìn)行視頻的技術(shù)融合,虛擬人音話(huà)同步,提供真實(shí)的用戶(hù)體驗(yàn);
6) 微信小程序接入網(wǎng)關(guān):提供微信小程序視頻與視頻客服平臺(tái)通訊接入能力;
7) 人臉識(shí)別技術(shù):實(shí)時(shí)識(shí)別用戶(hù)人臉,保證業(yè)務(wù)辦理過(guò)程中為用戶(hù)本人單獨(dú)辦理;
8) 微信小程序SDK:提供Highlevel的SDKAPI,簡(jiǎn)單易用的與小程序快速集成;
9) 業(yè)務(wù)流程管理:智能業(yè)務(wù)流程管理,根據(jù)業(yè)務(wù)場(chǎng)景
1.3 技術(shù)架構(gòu)圖
2. 需求分析
2.1. 業(yè)務(wù)場(chǎng)景描述
用戶(hù)通過(guò)微信小程序辦理車(chē)貸業(yè)務(wù)視頻審核錄制,接通AI視頻客服后,通過(guò)人臉識(shí)別技術(shù)進(jìn)行身份核實(shí),通過(guò)TTS技術(shù)與ASR技術(shù)的整合,回答審核過(guò)程中的問(wèn)題,直到業(yè)務(wù)辦理完成。業(yè)務(wù)辦理過(guò)程全程錄音、錄像,并保留業(yè)務(wù)辦理數(shù)據(jù),提交業(yè)務(wù)系統(tǒng)進(jìn)行人工審核或智能審核。
2.2. 關(guān)鍵功能
- 人臉識(shí)別,當(dāng)用戶(hù)人臉與辦單用戶(hù)人臉不一致時(shí),提示用戶(hù)非本人(照片1:1比對(duì),比對(duì)源由小程序提供)
- 人臉確認(rèn),當(dāng)用戶(hù)人臉不在畫(huà)面中時(shí)提示用戶(hù)需保持人臉在畫(huà)面中央(照片1:1比對(duì)功能,確保人臉在畫(huà)面中)上述功能點(diǎn)存在小程序上架風(fēng)險(xiǎn)(見(jiàn)4.1)
- 視頻通話(huà)及視頻錄像支持Logo水印、時(shí)間水印。(見(jiàn)4.2.1)
- 視頻支持480P清晰度(見(jiàn)4.2.1)
- 視頻錄制,支持錄制虛擬人像及用戶(hù)畫(huà)面(見(jiàn)4.2.2)
- 支持虛擬人像背景更換(見(jiàn)4.2.3)
- 視頻質(zhì)檢:每30S抓取人臉并發(fā)送人臉識(shí)別供應(yīng)商進(jìn)行比對(duì),若不一致則提示需保持人臉一致(見(jiàn)4.2.4)
- 支持位置獲取并展示在頁(yè)面(見(jiàn)4.2.5)
- 中斷后支持彈窗通知,彈窗選擇退出或自動(dòng)退出(見(jiàn)4.2.6小程序優(yōu)化異常處理模塊)
- 視頻錄制完成后,放置到指定位置,支持下載和在線(xiàn)調(diào)用(見(jiàn)4.3.1訂單管理)
- 支持話(huà)術(shù)配置及話(huà)術(shù)內(nèi)支持變量參數(shù)(見(jiàn)4.3.3)
- 客戶(hù)回答語(yǔ)義轉(zhuǎn)化肯定和否定的特定參數(shù)值(面簽配置管理模塊需增加語(yǔ)音語(yǔ)義轉(zhuǎn)換模塊)
- 同一筆訂單如錄制第一次失敗,第二次失敗,第三次成功,則第一次和第二次錄制的文件保存X天,支持調(diào)用查看,訂單管理支持一筆訂單對(duì)應(yīng)多個(gè)錄像問(wèn)題。
3. 遠(yuǎn)程視頻面簽系統(tǒng)架構(gòu)設(shè)計(jì)
3.1. 系統(tǒng)設(shè)計(jì)原則
穩(wěn)定性原則:產(chǎn)品成熟穩(wěn)定,系統(tǒng)應(yīng)有健全的安全防范措施,對(duì)于關(guān)鍵應(yīng)用或模塊實(shí)現(xiàn)設(shè)備冗余,應(yīng)用集群、數(shù)據(jù)庫(kù)集群,系統(tǒng)應(yīng)能在正常和高峰業(yè)務(wù)處理中穩(wěn)定運(yùn)行,提供連續(xù)可靠的服務(wù)。實(shí)現(xiàn)流量控制、差錯(cuò)處理、重發(fā)機(jī)制、超時(shí)控制,以滿(mǎn)足大數(shù)據(jù)量和大交易量下實(shí)時(shí)聯(lián)機(jī)交易要求,批量數(shù)據(jù)處理和聯(lián)機(jī)交易處理間不互相影響,保障系統(tǒng)7*24小時(shí)正常運(yùn)行,保證系統(tǒng)運(yùn)行的連續(xù)性和穩(wěn)定性。
安全性原則:系統(tǒng)應(yīng)采用完善的安全保密機(jī)制,保證各種數(shù)據(jù)不被破壞、非法訪(fǎng)問(wèn)和惡意修改,保證客戶(hù)和銀行交易數(shù)據(jù)的正確性、完整性、一致性、安全性。
實(shí)用性原則:系統(tǒng)必須保證其實(shí)用性,切實(shí)符合本行的建設(shè)要求,全面滿(mǎn)足業(yè)務(wù)需求。系統(tǒng)應(yīng)具有友好的用戶(hù)界面,操作簡(jiǎn)便、高效。
易于維護(hù)性原則:系統(tǒng)設(shè)計(jì)應(yīng)便于維護(hù),遵循模塊化、組件化、參數(shù)化的原則,易于改造和擴(kuò)展,可靈活設(shè)置,方便維護(hù)和管理。系統(tǒng)能夠提供全面的系統(tǒng)管理和維護(hù)平臺(tái),便于技術(shù)人員維護(hù)。
交易監(jiān)控原則:為便于技術(shù)維護(hù)人員掌握系統(tǒng)交易運(yùn)行情況。監(jiān)控應(yīng)清晰明了,提供操作日志和交易日志等可審計(jì)數(shù)據(jù)的存儲(chǔ)、查詢(xún),便于技術(shù)維護(hù)人員進(jìn)行系統(tǒng)維護(hù),應(yīng)提供完備自動(dòng)的日志備份和清理機(jī)制。
數(shù)據(jù)標(biāo)準(zhǔn)化原則:系統(tǒng)建設(shè)應(yīng)符合數(shù)據(jù)管理的工業(yè)標(biāo)準(zhǔn)、金融行業(yè)規(guī)范,符合人民銀行和銀保監(jiān)會(huì)各類(lèi)監(jiān)管標(biāo)準(zhǔn)要求。
開(kāi)放性原則:軟硬件平臺(tái)和數(shù)據(jù)庫(kù)系統(tǒng)應(yīng)具備開(kāi)放性,系統(tǒng)提供豐富的外部接口。
效率性原則:系統(tǒng)的建設(shè)應(yīng)具備業(yè)務(wù)和技術(shù)上有前瞻性,系統(tǒng)設(shè)計(jì)架構(gòu)合理,處理效率高,資源占用率低,避免過(guò)多的數(shù)據(jù)冗余。不僅能滿(mǎn)足現(xiàn)階段業(yè)務(wù)需求,也要充分考慮滿(mǎn)足未來(lái)3-5年的業(yè)務(wù)發(fā)展需要,具備一定的創(chuàng)新引領(lǐng)能力。
可擴(kuò)展原則:系統(tǒng)設(shè)計(jì)應(yīng)當(dāng)具備良好的擴(kuò)展能力,包括處理能力的擴(kuò)展和數(shù)據(jù)接入的擴(kuò)展性,系統(tǒng)開(kāi)發(fā)遵循組件化、模塊化、參數(shù)化、高內(nèi)聚、松耦合的設(shè)計(jì)原則,保證軟件系統(tǒng)架構(gòu)易于改造和擴(kuò)展,提高軟件的復(fù)用性、可維護(hù)性和開(kāi)發(fā)效率,以適應(yīng)我行未來(lái)發(fā)展中對(duì)系統(tǒng)性能或功能提升的要求。
對(duì)新業(yè)務(wù)的前瞻性:AI小程序視頻虛擬面簽解決方案提供的功能能完全符合現(xiàn)有需求,不增加與需求無(wú)關(guān)的冗余功能,同時(shí)還保證在未來(lái)幾年內(nèi),隨著業(yè)務(wù)的創(chuàng)新,系統(tǒng)可以適應(yīng)需求的變化,只需擴(kuò)展相應(yīng)的功能模塊或并發(fā)許可即可滿(mǎn)足未來(lái)業(yè)務(wù)的升級(jí)。
可升級(jí)為人工視頻客服服務(wù)平臺(tái),為本行提供AI智能雙錄及人工視頻客服服務(wù)能力,鑒于利舊性原則,系統(tǒng)應(yīng)具備現(xiàn)有服務(wù)環(huán)境擴(kuò)展新的服務(wù)組件即可滿(mǎn)足未來(lái)的業(yè)務(wù)需求。
未來(lái)可和語(yǔ)音平臺(tái)實(shí)現(xiàn)統(tǒng)一路由、統(tǒng)一報(bào)表、統(tǒng)一排隊(duì)等功能,節(jié)省行內(nèi)建設(shè)成本。
3.1.1. 微信小程序
項(xiàng)目 | 建議配置 |
微信小程序 | IOS:9.0及以上、iPhone6及以上 |
Android:6.0及以上 |
3.2. AI視頻面簽系統(tǒng)網(wǎng)絡(luò)架構(gòu)
系統(tǒng)網(wǎng)絡(luò)架構(gòu)圖
3.3. 遠(yuǎn)程視頻面簽系統(tǒng)性能
3.3.1. 系統(tǒng)并發(fā)量
系統(tǒng)投入使用后,一期支持10并發(fā)在線(xiàn)用戶(hù)接入,系統(tǒng)要保證支持10用戶(hù)并發(fā)情況下系統(tǒng)的穩(wěn)定運(yùn)行,不能飽和擁塞;系統(tǒng)設(shè)計(jì)能力支持32用戶(hù)單機(jī)接入能力。
3.3.2. 網(wǎng)絡(luò)性能要求
1)具備智能抗丟包能力,網(wǎng)絡(luò)延時(shí)短,確?蛻(hù)在聯(lián)通、移動(dòng)、電信等運(yùn)營(yíng)商網(wǎng)絡(luò)下業(yè)務(wù)辦理的流暢,畫(huà)面不卡頓;
2)正常網(wǎng)絡(luò)環(huán)境下,AI視頻開(kāi)畫(huà)時(shí)間<3秒;
3)微信小程序網(wǎng)絡(luò)延時(shí)小于1000ms,保障業(yè)務(wù)辦理的流暢性;
4)接通成功率大于95%;
5)視頻清晰度支持360P-720P;
6)滿(mǎn)足客戶(hù)國(guó)內(nèi)以及國(guó)外主要地區(qū)發(fā)起互動(dòng)視頻的能力,視頻畫(huà)面清晰流暢不卡頓;
7)系統(tǒng)所有統(tǒng)計(jì)分析功能的響應(yīng)時(shí)間不超過(guò)3秒。
4. AI視頻面簽小程序SDK主要功能
4.1. 人臉識(shí)別
用戶(hù)在視頻面簽時(shí)實(shí)時(shí)采集人臉照片,調(diào)用人臉識(shí)別接口動(dòng)態(tài)對(duì)比身份證照片和人臉照片,確認(rèn)是否為用戶(hù)本人使用本人身份證辦理業(yè)務(wù)。
4.2. AI視頻面簽小程序SDK
視頻面簽小程序SDK提供能力如下:
1) 發(fā)起視頻呼叫:接通AI虛擬視頻客服,辦理面簽業(yè)務(wù)。
2) 結(jié)束視頻呼叫:結(jié)束AI虛擬視頻客服對(duì)話(huà),完成或終止業(yè)務(wù)辦理。
3) 顯示地位位置:實(shí)時(shí)動(dòng)態(tài)獲取手機(jī)的地位位置信息,提供精確的位置信息,并上傳業(yè)務(wù)系統(tǒng)。
4)視頻通話(huà)中抓取人臉照片
4.2.1. AI視頻面簽智能問(wèn)答
- 視頻支持480P清晰度
- 虛擬人視頻質(zhì)量支持480P及以上,可根據(jù)網(wǎng)絡(luò)波動(dòng)自動(dòng)調(diào)整視頻分辨率。
- 支持視頻合成時(shí)帶水印,用戶(hù)辦理業(yè)務(wù)時(shí),視頻顯示Logo水印及時(shí)間戳水印。
- 視頻錄像水印支持:視頻錄像合成后的錄像文件,支持預(yù)制水印與錄像合成,支持時(shí)間戳水印及地理位置信息。錄像中需包含文本或圖片水印,水印可在服務(wù)器端配置管理。
4.2.2. 視頻錄制
用戶(hù)辦理業(yè)務(wù)的過(guò)程全程錄音錄像,生成單一的MP4錄像文件。
1) 用戶(hù)視頻、音頻
2) AI虛擬人視頻、音頻
3) 用戶(hù)微信小程序UI:用戶(hù)手機(jī)位置信息
4) 用戶(hù)微信小程序UI:用戶(hù)手機(jī)中時(shí)間戳信息
5) 用戶(hù)微信小程序UI:企業(yè)logo及背景。
6) 支持虛擬人像背景更換
4.2.3. 支持虛擬人像背景更換
虛擬人像背景支持虛擬背景技術(shù),可自定義背景圖片,可在服務(wù)器端配置更換背景圖片
4.2.4. 視頻質(zhì)檢
業(yè)務(wù)場(chǎng)景:用戶(hù)在辦理業(yè)務(wù)錄制過(guò)程中,為保證用戶(hù)的人臉始終在視頻窗口內(nèi),可以全程錄制用戶(hù)的人像,記錄在錄像中,需要使用人臉識(shí)別,判斷用戶(hù)的人臉是否在視頻窗口內(nèi),如用戶(hù)人臉離開(kāi)視頻窗口,則給出提示。
視頻動(dòng)態(tài)人臉質(zhì)檢:每30S抓取人臉并發(fā)送人臉識(shí)別供應(yīng)商進(jìn)行比對(duì),若不一致則提示用戶(hù)請(qǐng)保持。
4.2.5. 位置信息展示
微信小程序?qū)崟r(shí)獲取用戶(hù)當(dāng)前位置信息,并顯示在視頻通話(huà)頁(yè)面中,位置信息上傳業(yè)務(wù)系統(tǒng)進(jìn)行記錄。
4.2.6. 其他功能
中斷后支持彈窗通知,彈窗選擇退出或自動(dòng)退出
業(yè)務(wù)辦理過(guò)程中,如遇到中斷(用戶(hù)回復(fù)不符合業(yè)務(wù)流程),則彈窗提醒立即手動(dòng)結(jié)束,或倒計(jì)時(shí)自動(dòng)結(jié)束。
4.3. AI視頻面簽業(yè)務(wù)配置模塊功能
4.3.1. AI面簽訂單管理
AI視頻平臺(tái)與行里業(yè)務(wù)系統(tǒng)集成對(duì)接,每筆呼叫攜帶隨路數(shù)據(jù),上傳業(yè)務(wù)系統(tǒng),生產(chǎn)相應(yīng)的訂單業(yè)務(wù)工單,業(yè)務(wù)工單關(guān)聯(lián)對(duì)應(yīng)的錄像錄音文件。
同一筆訂單如錄制第一次失敗,第二次失敗,第三次成功,則第一次和第二次錄制的文件保存X天,支持調(diào)用查看,訂單管理支持一筆訂單對(duì)應(yīng)多個(gè)錄像問(wèn)題。
4.3.2. 錄像管理
AI視頻平臺(tái)提供錄像管理功能,支持錄像下載、錄像在線(xiàn)播放、錄像與業(yè)務(wù)系統(tǒng)關(guān)聯(lián)。
用戶(hù)在辦理業(yè)務(wù)過(guò)程中,每筆業(yè)務(wù)的錄像文件可關(guān)聯(lián)業(yè)務(wù)流水號(hào),在業(yè)務(wù)系統(tǒng)中暖可記錄每筆雙錄業(yè)務(wù)的錄像下載地址,可關(guān)聯(lián)錄像文件,支持在業(yè)務(wù)系統(tǒng)中在線(xiàn)錄像播放、支持錄像下載。支持功能如下:
1) 錄像管理
2) 錄像下載
3) 在線(xiàn)播放
4) 生成錄音MP3文件
5) 生成錄像MP4文件
6) 錄像水印疊加,支持預(yù)制圖片水印、視頻交互中的時(shí)間戳水印、地理位置水印。
4.3.3. 話(huà)術(shù)配置及話(huà)術(shù)內(nèi)支持變量參數(shù)
系統(tǒng)統(tǒng)支持話(huà)術(shù)自定義管理配置,可以根據(jù)業(yè)務(wù)場(chǎng)景配置不同的業(yè)務(wù)場(chǎng)景話(huà)術(shù)。AI視頻平臺(tái)提供話(huà)術(shù)配置管理方法,可以按照業(yè)務(wù)需求,靈活配置對(duì)應(yīng)的話(huà)術(shù),及跟進(jìn)接入用戶(hù)的信息、業(yè)務(wù)工單,播放對(duì)應(yīng)的變量參數(shù)。
后期可結(jié)合NLP語(yǔ)音語(yǔ)義理解服務(wù),提供智能業(yè)務(wù)場(chǎng)景處理。
5. AI視頻面簽系統(tǒng)關(guān)鍵指標(biāo)
序號(hào) | 類(lèi)別 | 技術(shù)要求 |
---|---|---|
1 | 系統(tǒng)架構(gòu) | 系統(tǒng)支持高可靠、高并發(fā)、核心媒體組件支持負(fù)載均衡。 |
2 | 系統(tǒng)安全性 | 系統(tǒng)符合金融行業(yè)的安全要求: 支持HTTPS、TLS、RTSP等 |
3 | 跨平臺(tái) | 支持Linux系統(tǒng):CentOS、Redhat等。 |
4 | 應(yīng)用場(chǎng)景 | 車(chē)貸智能雙錄 |
5 | 錄音錄像 | 錄像格式:MP4 錄音格式:MP3 |
6 | 錄像方式 | 服務(wù)器在線(xiàn)實(shí)施錄制 |
7 | TTS | 定制音庫(kù):僅需要2小時(shí)錄音樣本 方言口音:粵語(yǔ)、湖南話(huà)、維吾爾語(yǔ)、藏語(yǔ)、四川、東北等 Mos評(píng)分在3.8以上,離線(xiàn)效果在3.5以上。 文本處理正確率在95%以上,平均響應(yīng)時(shí)長(zhǎng)小于 3s/50字 |
8 | ASR | 轉(zhuǎn)寫(xiě)的WER在90%以上 支持流式接口,平均響應(yīng)速度應(yīng)小于10ms 支持普通話(huà)、粵語(yǔ)、四川話(huà)等混合識(shí)別 需支持智能斷句匹配標(biāo)點(diǎn),置信息度 需支持?jǐn)?shù)字、日期、時(shí)間等實(shí)體識(shí)別,支持詞語(yǔ)屬性標(biāo)記和詞&句時(shí)間戳 文法格式智能轉(zhuǎn)換包括電話(huà)號(hào)碼、車(chē)牌、日期、時(shí)間以及量詞的規(guī)整,如“五點(diǎn)三十”引擎會(huì)識(shí)別規(guī)整為“5:30” |
9 | 虛擬人像 | 自定義虛擬人像:支持自定義虛擬人像,提供虛擬人像錄制方式。 音唇同步:虛擬人像講話(huà)時(shí)嘴型與TTS播報(bào)的語(yǔ)音保持同步。 |
10 | 視頻質(zhì)量 | 360P及以上 微信小程序視頻延時(shí)不高于1m |
11 | 視頻SDK | 支持多層級(jí)SDK客戶(hù)可基于不同的層級(jí)的API與業(yè)務(wù)系統(tǒng)集成且可以深度定制開(kāi)發(fā): 1) Business Scenario API 簡(jiǎn)單易用,適合需要快速上線(xiàn),不需要了解音視頻通訊原理及深度開(kāi)發(fā)的客戶(hù); 2) 協(xié)議層API : 提供協(xié)議控制、呼叫控制及業(yè)務(wù)控制API ,用戶(hù)可基于此類(lèi)API 深度定制業(yè)務(wù)流程; 3) MediaEngine API: 音視頻控制API,客戶(hù)可基于API控制音視頻流、自定義音視頻控制,與AI 相整合; 4) 音視頻編碼 API :控制音視頻碼率、分辨率、幀率、音頻采樣率等; |
12 | 音視頻編碼 | 音頻編碼: G711, G722, G723, G729, AMR NW/SW, SILK NW/WB, OPUS, ISAC, GSM, ILBC 視頻編碼 : H263, H264, H264 AVC/SVC, H.265 AVC/SVC, VP9 分辨率: QCIF, CIF, QVGA,VGA, 352P, 480P, 720P, 1080P, 4K 音頻引擎: AEC(echo cancellation), AGC (Auto Gain Control), PLC, Jitter Buffer, CNG, VAD, NS 視頻引擎: Video encoding and decoding , Packet loss Recovery High level API 傳輸算法: FEC, Net Checker 傳輸協(xié)議: SIP/IMS, MRCP V2, RTP/RTCP/SRTP |