欧美,精品,综合,亚洲,好吊妞视频免新费观看,免费观看三级吃奶,一级a片女人自慰免费看

您當(dāng)前的位置是:  首頁 > 資訊 > 文章精選 >
 首頁 > 資訊 > 文章精選 >

人工智能領(lǐng)域的關(guān)鍵核心技術(shù):自然語言處理

2020-07-08 11:24:25   作者:林峰、李炎   來源:CTI論壇   評(píng)論:0  點(diǎn)擊:


  人工智能(Artificial Intelligence,簡稱AI)作為新一輪科技革命和產(chǎn)業(yè)變革的重要驅(qū)動(dòng)力量,正在深刻改變世界。而自然語言處理(Natural Language Processing,簡稱NLP)是AI領(lǐng)域的關(guān)鍵核心技術(shù),它推動(dòng)著語言智能的持續(xù)發(fā)展和突破,并越來越多地應(yīng)用于各個(gè)行業(yè)。正如國際知名學(xué)者周海中先生曾經(jīng)所言:“自然語言處理是極有吸引力的研究領(lǐng)域,它具有重大的理論意義和實(shí)用價(jià)值。
 
  NLP主要研究能實(shí)現(xiàn)人與計(jì)算機(jī)之間用自然語言進(jìn)行有效通信的各種理論和方法。而用自然語言與計(jì)算機(jī)進(jìn)行通信,有著十分重要的實(shí)際應(yīng)用意義,也有著革命性的理論意義。實(shí)現(xiàn)人機(jī)間自然語言通信意味著要使計(jì)算機(jī)既能理解自然語言文本的意義,也能以自然語言文本來表達(dá)給定的意圖、思想等;前者稱為自然語言理解(Natural Language Understanding,簡稱NLU),后者稱為自然語言生成(Natural Language Generation,簡稱NLG)。因此,NLP大體包括了NLU和NLG兩個(gè)部分。因?yàn)樘幚碜匀徽Z言的關(guān)鍵是要讓計(jì)算機(jī)”理解“自然語言,所以通常把NLU視為NLP,也稱為計(jì)算語言學(xué)。
  NLP是一門融語言學(xué)、計(jì)算機(jī)科學(xué)、數(shù)學(xué)于一體的科學(xué)。因此,這一領(lǐng)域的研究將涉及自然語言,即人們?nèi)粘J褂玫恼Z言,所以它與語言學(xué)的研究有著密切的聯(lián)系,但又有重要的區(qū)別。NLP并不是一般地研究自然語言,而是研制能有效地實(shí)現(xiàn)自然語言通信的計(jì)算機(jī)系統(tǒng),特別是其中的軟件系統(tǒng)。因而它是計(jì)算機(jī)科學(xué)的一部分?梢哉f,NLP是計(jì)算機(jī)科學(xué)、語言學(xué)、AI等關(guān)注計(jì)算機(jī)和人類語言之間的相互作用的領(lǐng)域。目前,人們對(duì)AI的需求也從計(jì)算智能、感知智能到了以NLP為代表的認(rèn)知智能的層面。沒有成功的NLP,就不會(huì)有真正的認(rèn)知智能。因此,NLP被視為AI的核心問題之一,也被喻為AI皇冠上的明珠。
  由于AI包括感知智能(比如圖像識(shí)別、語言識(shí)別和手勢識(shí)別等)和認(rèn)知智能(主要是語言理解知識(shí)和推理),而語言在認(rèn)知智能起到最核心的作用。如果能把語言問題解決了,AI最難的部分也就基本解決了。美國微軟公司創(chuàng)始人比爾·蓋茨先生曾經(jīng)表示,”語言理解是人工智能領(lǐng)域皇冠上的明珠“。前微軟公司全球執(zhí)行副總裁沈向洋先生也在公開演講時(shí)說:“懂語言者得天下……下一個(gè)十年,人工智能的突破在自然語言的理解……人工智能對(duì)人類影響最為深刻的就是自然語言方面”。由于理解自然語言需要關(guān)于外在世界的廣泛知識(shí)以及運(yùn)用操作這些知識(shí)的能力,所以NLP也被視為解決AI完備(AI-complete)的核心問題之一?梢哉f,NLP目前是AI領(lǐng)域的關(guān)鍵核心技術(shù),對(duì)它的研究也是充滿魅力和挑戰(zhàn)的。
  最早的NLP研究工作是機(jī)器翻譯。1949年,美國知名科學(xué)家沃倫o韋弗先生首先提出了機(jī)器翻譯設(shè)計(jì)方案。20世紀(jì)60年代,許多科學(xué)家對(duì)機(jī)器翻譯曾有大規(guī)模的研究工作,耗費(fèi)了巨額費(fèi)用;但他們顯然是低估了自然語言的復(fù)雜性,語言處理的理論和技術(shù)均不成熟,所以進(jìn)展不大。當(dāng)時(shí)的主要做法是存儲(chǔ)兩種語言的單詞、短語對(duì)應(yīng)譯法的大辭典,翻譯時(shí)一一對(duì)應(yīng),技術(shù)上只是調(diào)整語言的同條順序。但日常生活中語言的翻譯遠(yuǎn)不是如此簡單,很多時(shí)候還要參考某句話前后的意思,需要上下文聯(lián)系起來才能正確翻譯--這就是機(jī)譯技術(shù)難度高之所在。
  大約20世紀(jì)90年代開始,NLP領(lǐng)域發(fā)生了巨大的變化。這種變化有兩個(gè)明顯的特征:(1)對(duì)系統(tǒng)的輸入,要求研制的NLP系統(tǒng)能處理大規(guī)模的真實(shí)文本,而不是如以前的研究性系統(tǒng)那樣,只能處理很少的詞條和典型句子。只有這樣,研制的系統(tǒng)才有真正的實(shí)用價(jià)值。(2)對(duì)系統(tǒng)的輸出,鑒于真實(shí)地理解自然語言是十分困難的,對(duì)系統(tǒng)并不要求能對(duì)自然語言文本進(jìn)行深層的理解,但要能從中抽取有用的信息。同時(shí),由于強(qiáng)調(diào)了“大規(guī)模”和“真實(shí)文本”,所以下面兩方面的基礎(chǔ)性工作也得到了重視和加強(qiáng):(1)大規(guī)模真實(shí)語料庫的研制。大規(guī)模的經(jīng)過不同深度加工的真實(shí)文本的語料庫,是研究自然語言統(tǒng)計(jì)性質(zhì)的基礎(chǔ);如果沒有這樣的語料庫,統(tǒng)計(jì)方法只能是無源之水。(2)大規(guī)模、信息豐富的詞典的編制工作。因此規(guī)模為幾萬,十幾萬,甚至幾十萬詞,含有豐富的信息(如包含詞的搭配信息)的計(jì)算機(jī)可用詞典對(duì)NLP的重要性是很明顯的。
  系統(tǒng)的輸入與輸出這兩個(gè)特征在NLP的諸多領(lǐng)域都有所體現(xiàn),其發(fā)展直接促進(jìn)了計(jì)算機(jī)自動(dòng)檢索技術(shù)的出現(xiàn)和興起。實(shí)際上,隨著計(jì)算機(jī)技術(shù)的不斷發(fā)展,以海量計(jì)算為基礎(chǔ)的機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘、數(shù)據(jù)建模等技術(shù)的表現(xiàn)也愈發(fā)優(yōu)異。NLP之所以能夠度過“寒冬”,再次發(fā)展,也是因?yàn)橛?jì)算機(jī)科學(xué)與統(tǒng)計(jì)科學(xué)的不斷結(jié)合,才讓人類甚至機(jī)器能夠不斷從大量數(shù)據(jù)中發(fā)現(xiàn)“特征”并加以學(xué)習(xí)。不過要實(shí)現(xiàn)對(duì)自然語言真正意義上的理解,僅僅從原始文本中進(jìn)行學(xué)習(xí)是不夠的,我們還需要新的方法和模型。
  目前存在的問題主要有兩個(gè)方面:一方面,迄今為止的語法都限于分析一個(gè)孤立的句子,上下文關(guān)系和談話環(huán)境對(duì)本句的約束和影響還缺乏系統(tǒng)的研究,因此分析歧義、詞語省略、代詞所指、同一句話在不同場合或由不同的人說出來所具有的不同含義等問題,尚無明確規(guī)律可循,需要加強(qiáng)語義學(xué)和語用學(xué)的研究才能逐步解決。另一方面,人理解一個(gè)句子不是單憑語法,還運(yùn)用了大量的有關(guān)知識(shí),包括生活知識(shí)和專門知識(shí),這些知識(shí)無法全部貯存在計(jì)算機(jī)里。因此一個(gè)書面理解系統(tǒng)只能建立在有限的詞匯、句型和特定的主題范圍內(nèi);計(jì)算機(jī)的貯存量和運(yùn)轉(zhuǎn)速度大大提高之后,才有可能適當(dāng)擴(kuò)大范圍。
  由于語言工程、認(rèn)知科學(xué)等主要局限于實(shí)驗(yàn)室,目前來看數(shù)據(jù)處理可能是NLP應(yīng)用場景最多的一個(gè)發(fā)展方向。實(shí)際上,自從進(jìn)入大數(shù)據(jù)時(shí)代,各大平臺(tái)就沒有停止過對(duì)用戶數(shù)據(jù)的深度挖掘。要想提取出有用的信息,僅提取關(guān)鍵詞、統(tǒng)計(jì)詞頻等是遠(yuǎn)遠(yuǎn)不夠的,必須對(duì)用戶數(shù)據(jù)(尤其是發(fā)言、評(píng)論等)進(jìn)行語義上的理解。另外,利用離線大數(shù)據(jù)統(tǒng)計(jì)分析的方法進(jìn)行NLP任務(wù)的研究是目前非常有潛力的一種研究范式,尤其是谷歌、推特、百度等大公司在這類應(yīng)用上的成功經(jīng)驗(yàn),引領(lǐng)了目前大數(shù)據(jù)研究的浪潮。
  NLP是為各類企業(yè)及開發(fā)者提供的用于文本分析及挖掘的核心工具,已經(jīng)廣泛應(yīng)用在電商、金融、物流、醫(yī)療、文化娛樂等行業(yè)客戶的多項(xiàng)業(yè)務(wù)中。它可幫助用戶搭建內(nèi)容搜索、內(nèi)容推薦、輿情識(shí)別及分析、文本結(jié)構(gòu)化、對(duì)話機(jī)器人等智能產(chǎn)品,也能夠通過合作,定制個(gè)性化的解決方案。由于理解自然語言,需要關(guān)于外在世界的廣泛知識(shí)以及運(yùn)用操作這些知識(shí)的能力,所以NLP也被視為解決強(qiáng)AI的核心問題之一,其未來一般也因此密切結(jié)合AI發(fā)展,尤其是設(shè)計(jì)一個(gè)模仿人腦的神經(jīng)網(wǎng)絡(luò)。
  訓(xùn)練NLP文本解析AI系統(tǒng)需要采集大量多源頭數(shù)據(jù)集,對(duì)科學(xué)家來說是一項(xiàng)持續(xù)的挑戰(zhàn):需要使用最新的深度學(xué)習(xí)模型,模仿人類大腦中神經(jīng)元的行為,在數(shù)百萬甚至數(shù)十億的注釋示例中進(jìn)行訓(xùn)練來持續(xù)改進(jìn)。當(dāng)下一種流行的NLP解決方案是預(yù)訓(xùn)練,它改進(jìn)了對(duì)未標(biāo)記文本進(jìn)行訓(xùn)練的通用語言模型,以執(zhí)行特定任務(wù);它的思想就是,該模型的參數(shù)不再是隨機(jī)初始化,而是先有一個(gè)任務(wù)進(jìn)行訓(xùn)練得到一套模型參數(shù),然后用這套參數(shù)對(duì)模型進(jìn)行初始化,再進(jìn)行訓(xùn)練,以獲得更好的預(yù)測性見解。
  目前我們已經(jīng)進(jìn)入了以互聯(lián)網(wǎng)為主要標(biāo)志的海量信息時(shí)代,這些信息大部分是以自然語言表示的。一方面,海量信息也為計(jì)算機(jī)學(xué)習(xí)人類語言提供了更多的“素材”;另一方面,這也為NLP提供了更加寬廣的應(yīng)用舞臺(tái)。例如,作為NLP的重要應(yīng)用,搜索引擎逐漸成為人們獲取信息的重要工具,出現(xiàn)了以谷歌、百度等為代表的搜索引擎巨頭;機(jī)器翻譯也從實(shí)驗(yàn)室走入尋常百姓家;基于自然語言處理的中文輸入法(如搜狗、微軟、谷歌等輸入法)成為計(jì)算機(jī)用戶的必備工具;帶有語音識(shí)別的計(jì)算機(jī)和手機(jī)也正大行其道,協(xié)助用戶更有效地生活、工作和學(xué)習(xí)。
  現(xiàn)在,NLP領(lǐng)域已經(jīng)有了大量的人工標(biāo)注知識(shí),而深度學(xué)習(xí)可以通過有監(jiān)督學(xué)習(xí)得到相關(guān)的語義知識(shí),這種知識(shí)和人類總結(jié)的知識(shí)應(yīng)該存在某種對(duì)應(yīng)關(guān)系,尤其是在一些淺層語義方面。因?yàn)槿斯?biāo)注,本質(zhì)上已經(jīng)給深度學(xué)習(xí)提供了學(xué)習(xí)的目標(biāo);只是深度學(xué)習(xí)可以不眠不休地學(xué)習(xí),這種逐步靠攏學(xué)習(xí)目標(biāo)的過程,可能遠(yuǎn)比人類總結(jié)過程來得更快更好。這一點(diǎn),從谷歌公司旗下DeepMind研究團(tuán)隊(duì)開發(fā)的圍棋軟件AlphaGo短時(shí)間內(nèi)連勝兩位人類圍棋高手的事實(shí),似乎能夠得到驗(yàn)證。
  深度學(xué)習(xí)在NLP中的應(yīng)用非常廣泛,可以說橫掃NLP的各個(gè)應(yīng)用,從底層的分詞、語言模型、句法分析、語音識(shí)別等到高層的語義理解、語用闡釋、對(duì)話管理、知識(shí)問答等方面都幾乎都有深度學(xué)習(xí)的模型,并且取得了不錯(cuò)的效果。有關(guān)研究已從傳統(tǒng)的機(jī)器學(xué)習(xí)算法轉(zhuǎn)變成更有表現(xiàn)力的深度學(xué)習(xí)模型,如卷積神經(jīng)網(wǎng)絡(luò)和回歸神經(jīng)網(wǎng)絡(luò)。不過,目前的深度學(xué)習(xí)技術(shù)還不具備理解和使用自然語言所必需的概念抽象和邏輯推理能力,還有待今后進(jìn)一步的研究。
  互聯(lián)網(wǎng)搜索引擎已經(jīng)有一段時(shí)間讓人們使用會(huì)話語言和術(shù)語來在線搜索事物。現(xiàn)在,谷歌公司的云端硬盤用戶已經(jīng)可以使用這一功能。用戶可以搜索存儲(chǔ)在谷歌云端硬盤中的文件和內(nèi)容,就像使用谷歌搜索提供的對(duì)云端硬盤內(nèi)置NLP的新支持一樣。該功能使用戶可以使用通常用詞組表達(dá)的查詢以及在實(shí)際對(duì)話中將要使用的查詢來更輕松地找到所需的內(nèi)容。谷歌公司在在線和移動(dòng)搜索、移動(dòng)應(yīng)用程序以及GoogleTranslate等服務(wù)中廣泛使用NLP;該公司在這一領(lǐng)域的研究是為提高機(jī)器閱讀和理解人類語言能力所做的更廣泛努力的一部分。隨著谷歌調(diào)整其算法,NLP應(yīng)該會(huì)隨著時(shí)間的推移變得更好。
  英國劍橋量子計(jì)算公司(CQC)最近宣布,他們利用自然語言的“固有量子”結(jié)構(gòu),開辟了一個(gè)全新的可能應(yīng)用領(lǐng)域。其通過將語法句子翻譯成量子線路,然后在量子計(jì)算機(jī)上實(shí)現(xiàn)生成的程序,并實(shí)際執(zhí)行問答。這是第一次在量子計(jì)算機(jī)上執(zhí)行NLP。通過使用CQC的一流的、平臺(tái)無關(guān)的可重定目標(biāo)編譯器t|ket??,這些程序在IBM量子計(jì)算機(jī)上成功執(zhí)行并得到結(jié)果,整個(gè)突破朝著實(shí)現(xiàn)“意義感知”和“語法知悉”的NLP方向邁出了有意義的一大步--這是計(jì)算機(jī)時(shí)代早期以來計(jì)算機(jī)科學(xué)家及計(jì)算語言學(xué)家追尋的夢想。
  美國哈佛大學(xué)醫(yī)學(xué)院的研究人員借助NLP技術(shù)日前開發(fā)出一種工具,可以評(píng)估新冠肺炎(COVID-19)患者的病例、社交媒體和健康衛(wèi)生數(shù)據(jù)。他們率先努力通過使用機(jī)器學(xué)習(xí)技術(shù)查看來自各種來源的數(shù)據(jù)和信息(包括患者記錄、社交媒體和公共衛(wèi)生數(shù)據(jù))來尋找新冠肺炎病毒的解決方案。借助NLP工具,他們還可以搜索有關(guān)新冠肺炎病毒的在線信息,并了解爆發(fā)的當(dāng)前位置。另外,研究人員還利用NLP技術(shù)對(duì)新冠肺炎、藥物和疫苗等密集展開研究,同時(shí)包括臨床診斷與治療以及流行病學(xué)研究等。
  中國阿里達(dá)摩院的NLP研究團(tuán)隊(duì)最近提出優(yōu)化模型Struct BERT,能讓機(jī)器更好地掌握人類語法,加深對(duì)自然語言的理解。使用該模型好比給機(jī)器內(nèi)置一個(gè)“語法識(shí)別器”,使機(jī)器在面對(duì)語序錯(cuò)亂或不符合語法習(xí)慣的詞句時(shí),仍能準(zhǔn)確理解并給出正確的表達(dá)和回應(yīng),大大提高機(jī)器對(duì)詞語、句子以及語言整體的理解力。這一技術(shù)已廣泛使用于阿里旗下阿里小蜜、螞蟻金服、優(yōu)酷等業(yè)務(wù)。阿里達(dá)摩院的語言模型和閱讀理解技術(shù)也被用于行業(yè)賦能,推進(jìn)AI技術(shù)在醫(yī)療、電力、金融等行業(yè)的落地。據(jù)悉,StructBERT模型日前被評(píng)為全球性能最強(qiáng)的NLP系統(tǒng)。
  根據(jù)市場分析機(jī)構(gòu)Mordor Intelligence的一份報(bào)告,2019年全球NLP市場價(jià)值為109億美元,預(yù)計(jì)到2025年將達(dá)到348億美元,復(fù)合年增長率為21.5%。該報(bào)告指出,在過去的幾年中,深度學(xué)習(xí)架構(gòu)和算法在市場格局中取得了令人矚目的進(jìn)步,而語音分析解決方案正在主導(dǎo)著這一市場,因?yàn)閭鹘y(tǒng)的基于文本的分析已不足以處理復(fù)雜的業(yè)務(wù)問題。
  總之,隨著互聯(lián)網(wǎng)的普及和海量信息的涌現(xiàn),作為AI領(lǐng)域的關(guān)鍵核心技術(shù),NLP正在人們的生活、工作、學(xué)習(xí)中扮演著越來越重要的角色,并將在科技進(jìn)步與社會(huì)發(fā)展的過程中發(fā)揮越來越重要的作用。
  文/林峰、李炎(作者單位分別為美國波士頓大學(xué)工學(xué)院、普渡大學(xué)科技學(xué)院)
 
【免責(zé)聲明】本文僅代表作者本人觀點(diǎn),與CTI論壇無關(guān)。CTI論壇對(duì)文中陳述、觀點(diǎn)判斷保持中立,不對(duì)所包含內(nèi)容的準(zhǔn)確性、可靠性或完整性提供任何明示或暗示的保證。請(qǐng)讀者僅作參考,并請(qǐng)自行承擔(dān)全部責(zé)任。

專題

CTI論壇會(huì)員企業(yè)