這兩篇論文分別是The DKU-Duke-Lenovo System Description for the Fearless StepsChallenge Phase III(昆山杜克-聯想第三屆“無畏腳步挑戰(zhàn)賽”系統描述),以及The 2020 Personalized Voice Trigger Challenge: Open Database, Evaluation Metrics and the Baseline Systems(2020個性化語音喚醒挑戰(zhàn)賽:開放數據庫,評價標準以及基線系統)。
第一篇論文介紹了今年聯想和昆山杜克聯隊參加第三屆無畏腳步挑戰(zhàn)賽(Fearless Steps Challenge)的獲獎系統。
無畏腳步挑戰(zhàn)賽---用語音技術解讀人類首次登月語音
該挑戰(zhàn)賽在Interspeech2019大會上由德克薩斯大學達拉斯分校發(fā)起,今年已是第三屆。挑戰(zhàn)賽基于人類第一次登月任務---阿波羅11號登月真實通訊語音數據,包括從發(fā)射到返回地球各階段,3位宇航員和29個負責不同任務的站點之間的通訊語音,設置了5類語音分析和識別任務,包括:
- 語音端點檢測(SAD,Speech Activity Detection)
- 聲紋識別(SID,Speaker Identification)
- 說話人日志(SD,Speaker Diarization)
- 語音識別(ASR,Automatic Speech Recognition)
- 對話分析(CA,Conversational Analysis)
阿波羅11號登月語音數據包含600多個說話人,類型復雜,包含環(huán)境噪聲、信道噪聲、設備噪聲等干擾因素,每一個信道采集的聲音都可能包含幾個或者十幾個其他信道的干擾,因此屬于高難度的實時通訊和自然交談場景,為語音識別和分析任務帶來了很大的挑戰(zhàn)。
語音端點檢測任務獲得國際第二名
在本次比賽中,聯想和昆山杜克聯隊參加了其中的端點檢測、聲紋識別和說話人日志三項子任務,最終在端點檢測任務中獲得了國際第二名,而聲紋識別和說話人日志分別獲得冠軍。
聲紋識別任務獲得國際第一名
語音端點檢測用以檢測連續(xù)語音中人說話的起始點,即有效話音檢測?焖贉蚀_的端點檢測算法,不僅能夠提升語音識別準確率,還可以提高計算效率,通常在語音識別、聲紋識別等任務中擔負著前端預處理作用。
而聲紋識別是判斷一段語音是否是某個目標人所說。除了在安全領域的應用,在智能物聯網設備以及智慧客服、智能辦公等垂直行業(yè)中也有廣泛的應用需求。
說話人日志,則是基于聲紋識別的擴展任務,即檢測一段語音中什么人、什么時間在說話。該技術在智能會議場景中有重要作用,結合語音識別可以形成帶有發(fā)言人信息的自動會議紀要。
基于聲紋識別的個性化語音喚醒
另外一篇入圍論文,即2020個性化語音喚醒挑戰(zhàn)賽:開放數據庫,評價標準以及基線系統,介紹了由聯想研究院與昆山杜克大學、北京郵電大學聯合主辦的“2020個性化語音喚醒挑戰(zhàn)賽”(PVTC 2020 - Personalized Voice Trigger Challenge)及基線系統的情況。PVTC2020是國際語音通信協會中文口語語言處理專委會旗艦會議ISCSLP2021(International Symposium on Chinese Spoken Language Processing)的組成部分。本次挑戰(zhàn)賽考察的是帶有聲紋認證功能的語音喚醒技術,喚醒詞是聯想產品中最廣泛應用的喚醒詞之一“小樂小樂”。活動歷時3個月,參賽團隊來自著名高校、知名企業(yè)和人工智能創(chuàng)業(yè)公司,包括北京大學、西北工業(yè)大學、廈門大學、小米、出門問問、普強、實地地產、杭州國芯等,其中來自小米、西工大、出門問問、實地地產的四支隊伍分別躋身不同賽道的前三名。這次活動為業(yè)界同行構建了良好的交流平臺,促進了資源和技術共享,推動了學術界和工業(yè)界更密切的合作。
另外,在剛剛揭曉的Interspeech 2021副語言語音屬性評測中(ComParE 2021),聯想研究院團隊在靈長類動物叫聲分類任務中奪得國際第三名。音頻分類是語音領域一個重要的方向,應用場景非常廣泛,如檢測環(huán)境噪聲、特殊音頻場景和事件,在智能家居、智慧城市等行業(yè)都有重要應用。
ComParE是Interspeech系列評測之一,在語音領域屬于重量級評測。語音是語言的聲音表現形式,不僅包含了語言語義信息,同時也傳達了說話人、語種、性別、年齡、情感、信道、嗓音、病理、生理、心理等多種豐富的副語言語音屬性信息。ComParE的目的就是識別或檢測各類副語言語音屬性,如情感識別、哭聲檢測、嗓音病理識別、方言語種識別等。
作為聯想智能語音技術核心研發(fā)團隊,聯想研究院人工智能實驗室語音團隊已經構建了全鏈自研語音技術棧,全面賦能聯想的智能設備、智能化服務和行業(yè)智能化解決方案。
兩篇語音技術論文鏈接,歡迎訪問:
1.The DKU-Duke-Lenovo System Description for theFearless Steps Challenge Phase III:
https://www.isca-speech.org/archive/pdfs/interspeech_2021/wang21i_interspeech.pdf
2.The 2020 Personalized Voice Trigger Challenge:Open Database, Evaluation Metrics and the Baseline Systems:
https://www.isca-speech.org/archive/pdfs/interspeech_2021/jia21b_interspeech.pdf