欧美,精品,综合,亚洲,好吊妞视频免新费观看,免费观看三级吃奶,一级a片女人自慰免费看

您當(dāng)前的位置是:  首頁 > 資訊 > 文章精選 >
 首頁 > 資訊 > 文章精選 >

評(píng)估虛擬助理(IVA):如何確定哪一個(gè)適合你?

2021-06-25 09:51:38   作者:   來源:   評(píng)論:0  點(diǎn)擊:


  CTI論壇(ctiforum.com)(編譯/老秦):也許你一直在考慮在你的業(yè)務(wù)中使用智能虛擬助理(IVA)。您希望自動(dòng)化客戶服務(wù),幫助您的客戶在您的網(wǎng)站上找到他們想要的內(nèi)容,或者為您的員工提供工具。在任何一個(gè)搜索引擎上呆上幾分鐘,都會(huì)發(fā)現(xiàn)無數(shù)的供應(yīng)商說他們的產(chǎn)品是“智能的”、“自然的”或者“就像和人說話一樣”;其他人吹噓自己是“真正的會(huì)話”和“革命”,還有許多其他發(fā)光的描述。當(dāng)然,你想使用最好的技術(shù),但你怎么知道哪一個(gè)是最好的,甚至哪一個(gè)替代品是好的,足以完成你心目中的工作?
 
  顯然,簡(jiǎn)單地看供應(yīng)商網(wǎng)站并不是最好的方法。每個(gè)供應(yīng)商都會(huì)聲稱他們的技術(shù)是最好的?纯碮ouTube的演示和與銷售人員交談也不會(huì)有什么幫助。供應(yīng)商會(huì)有偏見,演示是基于非常仔細(xì)策劃的互動(dòng)。隨便試用一個(gè)系統(tǒng)幾分鐘就會(huì)產(chǎn)生誤導(dǎo)性的結(jié)果。是否有一個(gè)可靠的,客觀的方法來衡量系統(tǒng)的準(zhǔn)確性?
  其他產(chǎn)品可以與標(biāo)準(zhǔn)度量進(jìn)行比較。我們有每加侖汽車的英里數(shù),電器的能源消耗量,顯示器的屏幕分辨率。不幸的是,我們還沒有針對(duì)智能虛擬助理的這些指標(biāo)。即使我們把“最好的”縮小到“最準(zhǔn)確的”,主觀性仍然有很大的空間。
  為了可靠地比較系統(tǒng),我們?nèi)绾螠y(cè)量智能虛擬助理的精確度?不幸的是,我們沒有任何官方標(biāo)準(zhǔn),但這里有一些似乎很有希望的想法。
  測(cè)量IVAs的方法
  讓我們首先說,任何公平的比較都必須基于廣泛接受的衡量標(biāo)準(zhǔn)和程序。一個(gè)實(shí)際的評(píng)估也不能太貴或太費(fèi)時(shí),所以我們不需要完美,只是一個(gè)足夠好的比較。
  首先,這里有一些有前途的策略。
  1、系統(tǒng)可能以兩種不同的方式出錯(cuò),因此我們必須同時(shí)衡量這兩種方式。系統(tǒng)可能會(huì)給出錯(cuò)誤的答案,但也可能無法給出它應(yīng)該知道的問題的答案。從技術(shù)上講,給出錯(cuò)誤的答案是不準(zhǔn)確的。沒有給出系統(tǒng)應(yīng)該知道的答案是調(diào)用失敗。在大量的測(cè)試問題中,我們可以得到整體關(guān)于調(diào)用失敗和精確性的分?jǐn)?shù),這將給我們系統(tǒng)的準(zhǔn)確性一個(gè)分?jǐn)?shù)。雖然調(diào)用失敗和精確性不是官方標(biāo)準(zhǔn),但它們被研究人員廣泛接受。
  2、一個(gè)較新的指標(biāo)是敏感性和特異性平均值(SSA)。這是谷歌為其聊天機(jī)器人Meena開發(fā)的。測(cè)試人員查看成對(duì)的用戶查詢和系統(tǒng)響應(yīng),并根據(jù)它們的敏感程度和具體程度對(duì)響應(yīng)進(jìn)行評(píng)分。“敏感性”的含義是顯而易見的。特異性會(huì)懲罰像“那很好”這樣的一般性回答。像“那很好”這樣含糊不清的回答是數(shù)字助理試圖掩蓋其無知的信號(hào)。敏感性和特異性得分相結(jié)合,得到一個(gè)總的SSA得分。這一指標(biāo)的一個(gè)吸引人的特點(diǎn)是,對(duì)回答打分的用戶不必知道正確的答案,他們只需能夠決定答案的“合理性”和“具體性”如何。
  3、另一個(gè)值得一提的指標(biāo)是亞馬遜AlexaPrize中使用的指標(biāo)。它不能測(cè)量準(zhǔn)確度;相反,它通過跟蹤用戶與應(yīng)用程序交互的時(shí)間來衡量應(yīng)用程序的吸引力。對(duì)于像老年伴侶這樣的應(yīng)用程序來說這可能是一個(gè)有用的指標(biāo),老年同伴的目標(biāo)是讓用戶參與應(yīng)用程序,但精度不是一個(gè)主要要求。
  評(píng)估IVA表現(xiàn)
  不僅要使測(cè)量標(biāo)準(zhǔn)化,而且評(píng)價(jià)也要遵循一個(gè)標(biāo)準(zhǔn)過程:(1)有可重復(fù)的結(jié)果;(2)外部變量控制;以及(3)防止游戲結(jié)果。一個(gè)很好的例子是2015年著名的大眾汽車排放丑聞,當(dāng)時(shí)大眾汽車在測(cè)試過程中關(guān)閉了排放裝置,這樣他們就可以謊報(bào)更好的排放評(píng)級(jí)。他們被抓住了。結(jié)果對(duì)大眾汽車不利;其首席執(zhí)行官因此辭職。
  評(píng)估過程的一些最佳做法包括:
  1、對(duì)同一個(gè)應(yīng)用程序進(jìn)行跨系統(tǒng)比較,這可以更通俗地稱為“比較蘋果”。比較執(zhí)行不同應(yīng)用程序的系統(tǒng)是不公平的,因?yàn)橐粋(gè)應(yīng)用程序可能比另一個(gè)更難。例如,一個(gè)應(yīng)用程序中可能有更多的意圖和實(shí)體,這將降低該系統(tǒng)的分?jǐn)?shù)。用于開發(fā)應(yīng)用程序的數(shù)據(jù)可以是一個(gè)開放的公共數(shù)據(jù)集,就像Clinc開發(fā)的數(shù)據(jù)集一樣,也可以是特定垂直方向上應(yīng)用程序的內(nèi)部數(shù)據(jù)。對(duì)于沒有特定應(yīng)用程序(比如Alexa或Siri)的泛型助手,會(huì)有一些已發(fā)布的數(shù)據(jù),比如我的應(yīng)用程序中使用的數(shù)據(jù)。
  2、非重疊數(shù)據(jù)的培訓(xùn)和測(cè)試系統(tǒng)。如果一個(gè)系統(tǒng)是在以后測(cè)試的數(shù)據(jù)上訓(xùn)練的,那么當(dāng)各種新的、以前看不見的數(shù)據(jù)出現(xiàn)時(shí),測(cè)試將不能代表實(shí)際的工作條件。這將是一個(gè)游戲系統(tǒng)的例子。
  把它們放在一起
  那么回到最初的問題,如何正確評(píng)估智能虛擬助理呢?--下面是我們的一般建議。首先,不要把評(píng)估建立在主觀測(cè)試的基礎(chǔ)上。一個(gè)評(píng)估,包括幾分鐘的試用演示可能會(huì)非常誤導(dǎo)。第二,使用常見的測(cè)量方法,比如調(diào)用、精確度和SSA。第三,遵循一個(gè)標(biāo)準(zhǔn)流程:使用相同的數(shù)據(jù)集進(jìn)行所有比較,并將訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)分開。
  遵循這些準(zhǔn)則將導(dǎo)致可靠和有意義的比較。將這些信息與其他的需求開發(fā)工具、運(yùn)行時(shí)成本、易維護(hù)性結(jié)合起來,您就可以成功地部署智能虛擬助理了。
  聲明:版權(quán)所有 非合作媒體謝絕轉(zhuǎn)載
  作者:Deborah Dahl
  原文網(wǎng)址:
  https://www.speechtechmag.com/Articles/Columns/Standards/Assessing-IVAs-How-Do-You-Determine-Which-One-Is-Right-for-You-147371.aspx
 
【免責(zé)聲明】本文僅代表作者本人觀點(diǎn),與CTI論壇無關(guān)。CTI論壇對(duì)文中陳述、觀點(diǎn)判斷保持中立,不對(duì)所包含內(nèi)容的準(zhǔn)確性、可靠性或完整性提供任何明示或暗示的保證。請(qǐng)讀者僅作參考,并請(qǐng)自行承擔(dān)全部責(zé)任。

專題

CTI論壇會(huì)員企業(yè)