機器閱讀理解(Machine Reading Comprehension)是自然語言處理和人工智能領(lǐng)域的重要前沿課題,旨在讓機器閱讀并理解非結(jié)構(gòu)化的文本,可以準(zhǔn)確地回答和文本內(nèi)容相關(guān)的任何問題。
機器閱讀理解對于提升機器的智能水平、使機器具有持續(xù)知識獲取的能力、挖掘海量文本信息等具有重要價值,近年來受到學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注。
同時,機器閱讀理解也是自動問答系統(tǒng)的一個重要手段。相比基于結(jié)構(gòu)化知識源(比如數(shù)據(jù)庫、知識圖譜等)的自動問答,機器閱讀理解可以大大減少結(jié)構(gòu)化知識源的構(gòu)建成本、降低自動問答系統(tǒng)使用成本,有助于最大程度地釋放海量非結(jié)構(gòu)化文本蘊含的信息。
近期,思必馳知識服務(wù)團隊也在中文機器閱讀理解方向投入研究,并在多個中文機器閱讀理解公開評測中取得階段性進展:
1)在CMRC2018公開評測[1]中暫列第一,并在需要多線索聯(lián)合推理的挑戰(zhàn)集(Challengeset)上取得明顯性能提升;
2)在“千言數(shù)據(jù)集:閱讀理解”公開評測[2]的兩個子任務(wù)(DuReader_robust和DuReader_yesno)上均暫列第一。
針對中文機器閱讀理解的魯棒性和泛化性問題,思必馳知識服務(wù)團隊在以下幾個方面開展了技術(shù)研究:
1)中文預(yù)訓(xùn)練語言模型的預(yù)訓(xùn)練與微調(diào);
2)中文機器閱讀理解領(lǐng)域自適應(yīng)訓(xùn)練;
3)目標(biāo)應(yīng)用領(lǐng)域?qū)虻亩嚯A段模型微調(diào)等。
相關(guān)技術(shù)實現(xiàn)在上述公開評測中得到了應(yīng)用和驗證。
語言智能常被稱為人工智能皇冠上的一顆明珠。在未來,思必馳知識服務(wù)團隊將繼續(xù)深耕語言理解領(lǐng)域,打造輕量、便攜且精準(zhǔn)的機器閱讀理解系統(tǒng),推動機器閱讀理解在真實場景的落地和應(yīng)用。
參考文獻:
[1]CMRC2018公開評測,https://ymcui.github.io/cmrc2018/。
[2]千言數(shù)據(jù)集:閱讀理解公開評測,https://aistudio.baidu.com/aistudio/competition/detail/49.