大量的數(shù)據(jù)滋養(yǎng)了過去停滯不前的人工智能,使其達到了新的里程碑。而在商業(yè)應用上,企業(yè)主特別關心的是那些「跟人有關的數(shù)據(jù)」,也就是顧客的數(shù)據(jù)。
錄音是一個歷史悠久的技術。貼近顧客的客戶服務產(chǎn)業(yè),基于法規(guī)和商業(yè)理由,存放了大量的錄音檔。這些錄音檔,有時能用來證明或是確認服務人員與顧客的對話。但長期以來都像是個黑盒子,看不清里面有什么。直到這幾年,這個黑盒子才開始與數(shù)據(jù)分析的趨勢接軌。
第一個原因,是人們漸漸無法忍受不透明的數(shù)據(jù)。許多新興企業(yè)透過網(wǎng)絡營銷,并販賣商品,絕大部分都是原生于網(wǎng)絡的文字數(shù)據(jù)。這些文字數(shù)據(jù)都非常容易被集中管理,檢索,與分析。但過傳統(tǒng)方式留下的聲音與影像,并不是那么容易用機器分析,需要真人慢慢判讀。這種落差,讓企業(yè)想找出新的方法重新檢視舊數(shù)據(jù)。
另一個契機,就是近年影像和聲音辨識技術的重大進展。影像識別已經(jīng)帶來像是自動駕駛等等創(chuàng)新應用。語音識別也到了可商用的準確度。事實上,每個人口袋里的智能型手機都有簡短互動的語音識別能力。但說到真正能發(fā)揮語音識別技術的,還是莫過于日夜都有大量錄音涌入的客服中心產(chǎn)業(yè)。
錄音透明化
從一些訪談中我們觀察到,現(xiàn)今許多客服主管,仍必須用人工聽錄音的方式,試圖找出服務過程的缺失與細節(jié)。
有個案例是來自知名的商業(yè)銀行,關于顧客打來抱怨保單的金額和當初銷售不符。在這種情況下,客服主管必須逐一聽過前面每一通錄音,才能確認到底是銷售人員的缺失,還是顧客自己搞錯了。
在這個幾乎什么都可以搜尋的時代,客服主管卻只能一通一通的慢慢聽錄音,是一件非常耗費心力的事。
數(shù)據(jù)的價值,是建立在數(shù)據(jù)的可搜尋性。沒有辦法被搜尋的數(shù)據(jù),就沒有價值,也就沒有意義。然而,改變這項限制的時機與工具已經(jīng)成熟。企業(yè)必須思考一個問題:有什么數(shù)據(jù)是我們還不能搜尋分析的?
而對客服中心來說,就是如何讓錄音成為可分析的數(shù)據(jù)。
這將帶來非常多好處:
- 看見客訴的前因后果
- 發(fā)現(xiàn)客服人員的互動問題
- 挖掘潛在的銷售機會
錄音數(shù)據(jù)的透明化,可說是關乎企業(yè)的時間成本,以及潛在銷售獲利的關鍵。
關鍵技術
要做到錄音可分析,現(xiàn)在有三個主要步驟:第一,運用語音轉(zhuǎn)文字(SpeechtoText)的算法把音文件轉(zhuǎn)成文字數(shù)據(jù);第二,運用搜索引擎或分析工具過濾并處理;最后,用可視化的方式呈現(xiàn)給使用者。
要做到這三件事,需要的關鍵技術如下:
- 容易擴容的儲存系統(tǒng)(Software Defined Storage)
原始錄音檔需要非常大量的儲存空間,轉(zhuǎn)譯成文字后若要做更多應用,也需要與其他數(shù)據(jù)(例如社群媒體、文字客服等數(shù)據(jù))整合,這些都需要能夠乘載大量數(shù)據(jù)的儲存系統(tǒng)。另一方面,因應錄音量可能暴增,必須具備彈性擴容的能力。這對傳統(tǒng)的字料庫與服務器都是很大的挑戰(zhàn)。許多新興企業(yè)會采用云端服務,例如亞馬遜云端服務(Amazon Web Service)提供了在線巨量且方便擴容的儲存。但基于客服中心的數(shù)據(jù)涉及顧客的個人信息,如果不適合直接使用云端服務,企業(yè)就必須有能力自建軟件定義儲存(software defined storage)系統(tǒng)。才能在脫機的狀態(tài)下,提供大量且彈性的儲存。
- 語音轉(zhuǎn)文字引擎(Speech-to-Text Engine)
語音轉(zhuǎn)文字引擎,是讓錄音可以被分析的關鍵。上述提到,語音識別的成熟度已經(jīng)相當高,但由于需要大量訓練用數(shù)據(jù),對一般企業(yè)來說仍不是一個能夠自建的工具;谶@個理由,許多云端公司都有提供語音轉(zhuǎn)文字的API可以使用。像是IBM的Bluemix,或是Microsoft Azure。但同樣的,客服產(chǎn)業(yè)的特殊性可能不適合直接使用云端服務。此時就需要跟專業(yè)的語音識別公司合作。建立一個辨識率高的引擎并不容易,有許多環(huán)節(jié)需要調(diào)整。英文辨識良好的引擎未必能對中文運作,就算同一個語言,不同地區(qū)的口音也會造成影響。另一個需要花心思的環(huán)節(jié),是辨識后文字的處理方式。如何斷詞,標記等等,都會影響到后續(xù)的文字分析是否準確。
- 搜索引擎與數(shù)據(jù)處理工具(Search Engine and Data Processing Tool)
現(xiàn)今做數(shù)據(jù)分析的技術已經(jīng)非常普遍,像是熱門的Hadoop,Spark等數(shù)據(jù)處理工具。還有讓企業(yè)能夠自建高效搜索引擎的Apache Lucene,Elasticsearch等等。對客服中心來說,自建搜索引擎是非常適合的選項。錄音經(jīng)過語音識別成為文本文件,然后被搜索引擎索引,進而成為可搜尋的數(shù)據(jù)。如前文提到,有時客服中心的需求是追蹤特定的電話內(nèi)容,透過搜索引擎,就可以在毫秒間定位到對應的錄音。
- 彈性的模型匹配功能(Pattern Matching Feature)
為了讓使用者能夠鎖定特定的錄音,或是分析錄音之間的趨勢,必須能夠彈性地定義匹配方式,也就是如何設計一個適切的模型匹配(Pattern Matching)功能。技術上可以運用搜索引擎與機器學習,視需求找出精準或模糊的匹配結果。
- 友善的操作接口(User Interface for Analysts)
最后一個關鍵是操作接口。接口的實作方式很多,而要做出跨平臺方便使用的接口,較主流的做法是使用Html5網(wǎng)頁技術。然而,好的操作性必須倚賴設計,錄音分析的獨特性,在于必須兼顧量與質(zhì)兩者。一方面要能夠看出海量數(shù)據(jù)間的大趨勢,另一方面也要能夠鎖定個別錄音,去挖掘客戶對話中的癥結點在哪里。這需要獨特的接口設計,用視覺畫圖表的方式呈現(xiàn)大數(shù)據(jù),并對個別錄音能夠做深入紀錄。
企業(yè)必須體認到,透過這些技術,客服中心可以擁有前所未有的利器,可以剖開錄音的黑盒子,讓聲音成為有意義的數(shù)據(jù)。