2018年7月6日易谷網(wǎng)絡(luò)“智能服務(wù)與營(yíng)銷新方案發(fā)布會(huì)”在北京泛太平洋酒店順利舉辦。智鈾科技創(chuàng)始人兼CEO夏粉發(fā)表了題為《基于AutoML的智能推薦技術(shù)》的主題演講。
夏粉:大家好!剛才提到“機(jī)器學(xué)習(xí)”,現(xiàn)在它是熱門詞,當(dāng)我讀博士時(shí)它是冷門詞。我的導(dǎo)師是機(jī)器學(xué)習(xí)的泰斗王玨老師,他說“你來(lái)我這,將來(lái)找不到工作,畢業(yè)之后只能當(dāng)老師。”誰(shuí)也沒想到,人工智能、大數(shù)據(jù)、物聯(lián)網(wǎng)都起來(lái)了,機(jī)器學(xué)習(xí)變得熱門了。
我今天的主題是“基于AutoML的智能推薦技術(shù)。”
我是機(jī)器學(xué)習(xí)的博士,有15年以上的機(jī)器學(xué)習(xí)的經(jīng)驗(yàn),15年前機(jī)器學(xué)習(xí)是個(gè)冷門。我在學(xué)術(shù)界機(jī)器學(xué)習(xí)頂級(jí)會(huì)議和雜志上都有文章。現(xiàn)在是智鈾科技創(chuàng)始人,專注于自動(dòng)化機(jī)器學(xué)習(xí),就是AutoML技術(shù)產(chǎn)品和研發(fā)。曾經(jīng)在百度任資深科學(xué)家,在百度期間負(fù)責(zé)百度的超大規(guī)模機(jī)器學(xué)習(xí)團(tuán)隊(duì),在百度期間我曾經(jīng)研發(fā)了一個(gè)大規(guī)模稀疏架構(gòu)自動(dòng)化機(jī)器學(xué)習(xí)平臺(tái)Pulsar,覆蓋百度90%的業(yè)務(wù)線,包括百度核心業(yè)務(wù)線鳳巢、金融、糯米等,在百度內(nèi)部機(jī)器學(xué)習(xí)平臺(tái)中用戶數(shù)排名第一。
推薦在日常生活中各個(gè)場(chǎng)景都會(huì)發(fā)生,我們吃飯時(shí)希望美團(tuán)推薦餐廳,在上網(wǎng)時(shí)希望推薦合適的廣告,在信息資訊時(shí)希望給我們推薦合適的資訊,在打電話給客服時(shí)希望它推薦給我們滿意的客服。
這是百度搜索的圖,當(dāng)用戶在百度搜索引擎查詢“北京美食”時(shí),這個(gè)頁(yè)面下方有一個(gè)廣告塊,我們希望廣告塊推薦用戶滿意的廣告。對(duì)一個(gè)系統(tǒng)來(lái)說,這件事情是怎么發(fā)生的?當(dāng)用戶輸入檢索詞時(shí),怎么檢索系統(tǒng)?從它的廣告庫(kù)里成千上億的廣告庫(kù)里挑選廣告。廣告怎么挑選?它有很多維度,比如廣告滿意度、相關(guān)性、點(diǎn)擊率等,這個(gè)系統(tǒng)會(huì)綜合各因素,從上億的廣告里找出一個(gè)用戶滿意的廣告。
從我剛才的描述中發(fā)現(xiàn),所謂的推薦一定要有一個(gè)目標(biāo),這個(gè)目標(biāo)可能是你的相關(guān)性,也可能是點(diǎn)擊率,也可能是相關(guān)性和滿意度的綜合體,但無(wú)論如何,這里面核心的問題是需要對(duì)場(chǎng)景做精準(zhǔn)預(yù)測(cè)。以點(diǎn)擊率為例,希望用戶輸入查詢時(shí),推薦一個(gè)點(diǎn)擊率比較高的廣告。點(diǎn)擊率這件事情是什么?實(shí)際上是一個(gè)模型,模型是描述系統(tǒng)里各因素的相關(guān)關(guān)系,什么叫相關(guān)關(guān)系?以這個(gè)為例,我們希望用戶在這個(gè)場(chǎng)景下點(diǎn)擊這個(gè)廣告的可能性,這就是相關(guān)性。推薦系統(tǒng)的核心是建模,我們希望找到這樣的規(guī)律,找到這個(gè)規(guī)律的過程,就是建模的過程。建模就是學(xué)習(xí)概念。
對(duì)比使用推薦技術(shù)和不使用推薦技術(shù)的廣告系統(tǒng),當(dāng)使用推薦技術(shù)以后,發(fā)現(xiàn)在廣告投放的相關(guān)性上得到提升,在點(diǎn)擊率上得到提升,在收入上也同樣得到提升。原因是什么?因?yàn)槲覀兘四P,通過模型能夠預(yù)測(cè)出來(lái)將來(lái)發(fā)生的事情,可以通過預(yù)測(cè)來(lái)達(dá)到想要的目標(biāo),比如我通過預(yù)測(cè)廣告點(diǎn)擊率比較高,所以把點(diǎn)擊率高的廣告挑出來(lái),自然推薦時(shí)就會(huì)得到很高的點(diǎn)擊率。
推薦技術(shù)的核心問題是建模問題,但建模問題并不是一個(gè)嶄新問題。自從人類文明以來(lái),人類就一直在建模。當(dāng)我們沒有計(jì)算機(jī)的時(shí)候、沒有數(shù)據(jù)的時(shí)候,怎么建模?用人腦建模。人腦會(huì)看到很多事情,比如有一句話叫“閱人無(wú)數(shù)”,指的是看的人多了以后,會(huì)根據(jù)言談舉止推測(cè)人的性格,這個(gè)建模過程是在腦袋里面的。第一代建模技術(shù)主要表現(xiàn)在人工規(guī)則、表現(xiàn)在統(tǒng)計(jì)方法。
當(dāng)計(jì)算機(jī)出現(xiàn)的時(shí)候,進(jìn)入第二代建模方法“機(jī)器學(xué)習(xí)”,它克服了人工建模的犯錯(cuò),而且當(dāng)因素變多時(shí)候,人很難發(fā)現(xiàn)因素間的關(guān)系,這時(shí)需要借鑒機(jī)器學(xué)習(xí)的方法。當(dāng)數(shù)據(jù)量有限時(shí),這時(shí)建的模型是小規(guī)模模型。當(dāng)深度學(xué)習(xí)、互聯(lián)網(wǎng)企業(yè)加入時(shí),互聯(lián)網(wǎng)擁有更大算力、更多數(shù)據(jù),這時(shí)建模會(huì)容納更多數(shù)據(jù),計(jì)算更精確,是第三代建模技術(shù)。大家感知比較多的是第三代建模技術(shù),因?yàn)榈诙菍W(xué)術(shù)研究場(chǎng)景,到第三代時(shí)大家真的感到人工智能時(shí)代來(lái)臨了。
第二代和第三代建模解決的是什么問題?第一代計(jì)算機(jī)會(huì)得到模型,但它并不能得到好的模型。如果你想建一個(gè)好的模型,這時(shí)還差一個(gè)事情,各個(gè)企業(yè)轉(zhuǎn)人工智能得招人、招科學(xué)家,直接用第二代、第三代技術(shù)不能得到好的模型,如果得到好的模型必須聘請(qǐng)科學(xué)家,好科學(xué)家的數(shù)量是稀缺,嚴(yán)重制約企業(yè)在人工智能的發(fā)展。如果希望人工智能造福各行各業(yè),我們一定要降低門檻,去除對(duì)科學(xué)家的依賴。這時(shí)第四代建模技術(shù)是AutoML技術(shù)來(lái)臨,主要的特點(diǎn)是去除對(duì)科學(xué)家的依賴,不光用計(jì)算機(jī)建一個(gè)模型,而且是建一個(gè)好的模型。
這是機(jī)器學(xué)習(xí)的建模流程,原始數(shù)據(jù)特征抽取之后進(jìn)行數(shù)據(jù)預(yù)處理,然后對(duì)特征預(yù)處理-選擇算法-調(diào)參-評(píng)估-預(yù)測(cè)-得到模型。通過不斷的迭代才得到不斷的模型,有好的模型才能夠得到預(yù)測(cè)。舉個(gè)類似的場(chǎng)景,以做飯為例,數(shù)據(jù)相當(dāng)于原料,比如米、蔬菜,第一步數(shù)據(jù)預(yù)處理,對(duì)蔬菜進(jìn)行清洗,把不干凈的、老的地方去除,第二步特征預(yù)處理,類似于菜的搭配,選擇算法可以理解為選擇鍋,高壓鍋或者平底鍋,調(diào)參可以理解為掌握火候,這個(gè)菜好不好吃可以進(jìn)行口味的調(diào)整,如果菜不好吃就要重復(fù)這個(gè)流程。五星級(jí)的廚師是反復(fù)進(jìn)行這個(gè)流程。
機(jī)器學(xué)習(xí)建模場(chǎng)景在一開始是沒有經(jīng)驗(yàn)的,我從自動(dòng)化所加入百度時(shí),對(duì)廣告建模也沒有經(jīng)驗(yàn),我是怎么有經(jīng)驗(yàn)的?重復(fù)這個(gè)過程。這個(gè)過程中非常痛苦的,我?guī)?0個(gè)人重復(fù)了3年這個(gè)事情。但做的過程中給百度帶來(lái)了巨大的利益,每次調(diào)參,模型變得越來(lái)越精準(zhǔn),收益在逐漸調(diào)整。
對(duì)于早期的互聯(lián)網(wǎng)公司經(jīng)歷了第三代的學(xué)習(xí)技術(shù),大量依賴于科學(xué)家和人力成本。有沒有辦法去除這個(gè)依賴?有!目前的解決方案是AutoML,把中間重復(fù)的、繁雜的調(diào)參過程去除,類似于做飯去除了對(duì)廚師的依賴,我們給大家一個(gè)智能鍋,把原料放進(jìn)去以后,它自動(dòng)給你加工出一個(gè)菜,而且保證這個(gè)菜的口味非常好吃,這就是AutoML技術(shù)要研究的內(nèi)容。
目前學(xué)術(shù)界和工業(yè)界都對(duì)此展開研究,在國(guó)際機(jī)器學(xué)習(xí)大會(huì)以及神經(jīng)處理大會(huì)NIPS上,最近幾年把它列為專門的議題在討論。同樣,在企業(yè)界,谷歌于2017年已經(jīng)把AutoML技術(shù)作為它的云戰(zhàn)略重要組成部分。谷歌為了提升它云的占有率,提出了三大戰(zhàn)略,其中就有AutoML技術(shù),主要是為了搶占云的市場(chǎng),AutoML技術(shù)是對(duì)一個(gè)企業(yè)非常重要的技術(shù)。
這個(gè)技術(shù)很熱,但也困難,是機(jī)器學(xué)習(xí)領(lǐng)域最前沿的技術(shù)之一。它為什么困難?第一,參數(shù)調(diào)節(jié)非常復(fù)雜,跟做菜一樣有很多工序,每個(gè)工序都需要調(diào)。第二,目標(biāo)函數(shù)不可導(dǎo),比如做飯選擇平底鍋還是高壓鍋,這個(gè)鍋的選擇是突變過程,不能對(duì)菜的好壞形成連續(xù)影響,這帶來(lái)了優(yōu)化挑戰(zhàn)。第三,評(píng)估代價(jià)特別大,以做飯為例,需要把所有的東西做完以后才知道好吃不好吃,中間過程沒有辦法評(píng)估。
技術(shù)非常難,但正因?yàn)槔щy,才激起機(jī)器學(xué)習(xí)專家的熱情。包括我本人也對(duì)此非常熱情,從我加入百度時(shí),就一直在研究這套技術(shù)。這套技術(shù)的學(xué)術(shù)現(xiàn)狀是這樣的,目前一兩個(gè)主流方法,第一種方法是減少搜索代價(jià),還以做飯為例,做一半可以確定菜好不好吃,比如菜炒焦了,后面再怎么調(diào)也不會(huì)好吃,要及時(shí)止損,減少迭代次數(shù)。第二種方法是AutoML,一個(gè)高級(jí)廚師做宮爆雞丁時(shí)覺得跟魚香肉絲相似,所以就沒必要再摸索宮爆雞丁的過程,這時(shí)用AI訓(xùn)練,比如訓(xùn)練人臉識(shí)別過程,而訓(xùn)練的過程是人工的,訓(xùn)練的過程用機(jī)器,相當(dāng)于用機(jī)器人訓(xùn)練機(jī)器人,這是AutoML的方法,及時(shí)止損和得到效率的極大提升。
智鈾科技是目前少數(shù)幾個(gè)跟谷歌一樣掌握自動(dòng)化機(jī)器學(xué)習(xí)的公司之一,我們不斷對(duì)學(xué)術(shù)界現(xiàn)狀做了了解,除此之外還獨(dú)創(chuàng)很多算法。舉個(gè)例子,我們?cè)谀P退惴ㄉ,建立了萬(wàn)億的神經(jīng)網(wǎng)絡(luò),是目前世界最大的神經(jīng)網(wǎng)絡(luò)。在特征學(xué)習(xí)用獨(dú)特的算法,這個(gè)算法一個(gè)下午就可以相當(dāng)于用30個(gè)人調(diào)3年。我們還有參數(shù)學(xué)習(xí)方法。
對(duì)于AutoML的展望,第一代人工智能是學(xué)習(xí)分類器,讓大家感覺到人工智能來(lái)了。第二代是學(xué)習(xí)特征,能夠找出這個(gè)圖片有哪些特征表示。第三代是學(xué)習(xí)如何學(xué)習(xí),就是給了你目標(biāo)以后,希望人工智能能夠自動(dòng)學(xué)習(xí)出目標(biāo)來(lái),而不需要人工干預(yù)。第四代是學(xué)習(xí)學(xué)習(xí)什么,機(jī)器自動(dòng)思考該學(xué)習(xí)什么,而不像前三代由人來(lái)指定學(xué)什么。
智鈾科技是一家年輕公司,成立一年多,公司使命是“致力于企業(yè)級(jí)自動(dòng)化機(jī)器學(xué)習(xí)平臺(tái)研發(fā)”,希望通過我們的技術(shù),降低企業(yè)應(yīng)用AI門檻,為用戶提供數(shù)據(jù)分析、模型調(diào)參等一站式服務(wù),幫助企業(yè)構(gòu)建人工智能核心,實(shí)現(xiàn)AI驅(qū)動(dòng),而且這個(gè)驅(qū)動(dòng)是低成本的。降低去除科學(xué)家的依賴。
我們盡管成立時(shí)間不長(zhǎng),但推出了小智產(chǎn)品,它擁有當(dāng)前最先進(jìn)的AutoML技術(shù)。產(chǎn)品亮點(diǎn)主要有:第一,自動(dòng)化構(gòu)建高精度模型。第二,簡(jiǎn)單易用,全程可視化。第三,模型快速部署發(fā)布。第四,模型準(zhǔn)確性高、速度快,達(dá)到高級(jí)科學(xué)家的水平。第五,支持海量數(shù)據(jù)建模。右邊是合作案例,包括銀行、互聯(lián)網(wǎng)金融、內(nèi)容營(yíng)銷、基因等等。