999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

怎樣利用語言知識資源進行語義理解和常識推理

2019-01-22 08:33:44袁毓林盧達威
中文信息學(xué)報 2018年12期
關(guān)鍵詞:句法語義深度

袁毓林,盧達威

(1. 北京大學(xué) 中文系 中國語言學(xué)研究中心 計算語言學(xué)教育部重點實驗室,北京 100871;2. 中國人民大學(xué) 文學(xué)院,北京 100872)

1 人工智能呼喚語義理解和常識推理

我們從小到大一直生活在一個由常識(commonsense)構(gòu)筑的世界中: 腳下是大地、頭頂為青天,早晨日出東方、傍晚夕陽西下、夜空星辰閃耀,春來草樹斗芳菲、秋去葉落千山枯……。在日常生活中,我們習慣于在常識框架內(nèi)思考和談?wù)撌挛锏男螤?、材質(zhì)、構(gòu)成、功用、來源等。比如,我們認為水是一種無色、無味、透明的液體,可以用來喝和解渴,當然還可以用來降溫、滅火、灌溉、洗滌、游泳、漂浮船只等;貓是一種小型的、馴化的哺乳動物,身上有柔軟的皮毛,長著鋒利的爪子、尖尖的耳朵,拖著一條毛茸茸的長尾巴,會捉老鼠,被人當作寵物飼養(yǎng);鐵路是一種由鋼軌等材料鋪成的、在上面行駛火車的道路,可以用來運輸人員和物資等;詞語和句子是從人的口中發(fā)出的、有意義指稱的聲音,可以用來分類命名、描述事物、發(fā)表意見、人際交流等;政府是一種權(quán)力機構(gòu),用以推行法律、執(zhí)行管治、組織防御、控制暴力、保障人們權(quán)利、提供公共服務(wù)、滿足人民需求等。[1-2]

根據(jù)Daniel[3]的見解,人類長著一顆貪婪的大腦,具有一個明確的特性: 對事實永不滿足的追求。通過發(fā)現(xiàn)大自然的隱蔽規(guī)則,通過將兩種完全不同的思想根據(jù)它們潛在的、共同的信息結(jié)構(gòu)聯(lián)系起來,我們的大腦創(chuàng)造了一個廣闊的意義世界。這種不懈努力的結(jié)果之一就是: 當我們看到一張椅子時,看到的不只是椅子基本的外部特征。當然,我們會認出這是一張椅子,然后馬上會想到與這個物體相關(guān)的一系列意義: 椅子是有什么形狀,具有何種功用,跟其他家具的關(guān)系如何,放在哪幢大樓哪個房間內(nèi),等等。事實上,當我們觀看周圍世界時,無意識可能忙著處理一些基本的感覺特性,但是在意識的大本營內(nèi),每一項內(nèi)容都要經(jīng)過我們掌握的知識結(jié)構(gòu)的嚴密篩選。我們看到的任何物體,都會觸發(fā)理解的意識波,即該物體不同層次的意義[1]。

可見,常識和意義如影隨形般地跟我們?nèi)祟惿罴m纏在一起。如果人工智能要更好地服務(wù)于人類、更多地介入人類的日常生活,那么人工智能機器人就必須理解人類自然語言的意義、掌握常識并且據(jù)此進行推理。然而,不管是關(guān)于世界的常識還是關(guān)于事物的意義,它們都是十分模糊、難以定義的。于是,怎樣教人工智能機器人理解語義和掌握常識,就提到人工智能進一步發(fā)展的議事日程上來了。據(jù)《紐約時報》報道,微軟聯(lián)合創(chuàng)始人保羅·艾倫(Paul Allen)正在為他的非營利性計算機實驗室——艾倫人工智能研究所(AI2)投資1.25億美元,并計劃未來3年投資預(yù)算翻倍。這筆資金將用于現(xiàn)有項目,以及“亞歷山大項目”——一項聚焦于教授機器人“常識概念”的新計劃。艾倫在新聞發(fā)布會上指出: 在人工智能研究早期階段,人們對常識概念有很多關(guān)注,但是這項工作仍停滯不前。人工智能機器人仍缺少多數(shù)10歲兒童所具有的普通常識概念,我們希望啟動這項研究,并在該領(lǐng)域獲取重大突破。如果機器人非常先進,那么它們可以模擬人類完成任務(wù),例如,定位和識別物體、攀爬、出售房屋、提供災(zāi)難援助等。然而,即使是這些先進的機器人,現(xiàn)在也無法處理簡單的問題和指令,無法應(yīng)對一個不尋常的處境,無法使用“普通常識”去校正行為和反應(yīng)。AI2研究所執(zhí)行總裁奧倫·埃齊奧尼(Oren Etzioni)說: “目前沒有一個人工智能系統(tǒng)準確地回答一系列簡單問題。例如: 如果我將襪子放在抽屜里,明天它還會在那里嗎?或者: 你怎么知道一個奶瓶是否滿了?”他還強調(diào)稱,2016年當AlphaGo人工智能程序打敗世界排名第一的圍棋棋手時,AlphaGo卻并不知道圍棋是一種棋盤游戲[注]詳見http://tech.sina.com.cn/d/i/2018-03-13/doc-ifyscsmu9166662.shtml。。

聞到了備戰(zhàn)的氣息,加上自己的研究和從業(yè)經(jīng)驗,上海阡尋信息科技公司董事長白碩博士直言: 自然語言處理從淺層到深層面臨范式轉(zhuǎn)換,還處在對接情感計算與常識計算的戰(zhàn)略性要地的關(guān)鍵位置。誰能拔得頭籌,誰就能在當下的人工智能“軍備競賽”中處于有利地位。如果說自然語言處理是人工智能的王冠,那么語義表示和理解技術(shù)就是王冠上的明珠。目前人工智能領(lǐng)域的發(fā)展態(tài)勢,在語義這一塊已經(jīng)到了重兵集結(jié)的程度[4]。

顯然,大家已經(jīng)充分地認識到: 人工智能的下一步發(fā)展和實用化,必須突破語義理解和常識推理這一瓶頸。我們認為語義理解和常識推理研究的進展,依賴于全新的自然語言處理技術(shù)和理念。為了找到這種技術(shù)和理念,下面我們先梳理和探討一下既有的各種自然語言處理技術(shù),在此基礎(chǔ)上嘗試提出我們的技術(shù)路線和方法論觀念。

2 自然語言處理的兩種路線: 基于知識vs.基于統(tǒng)計

自然語言處理(natural language processing, NLP)的智能技術(shù)是當前人工智能熱潮的一個支脈,應(yīng)該放在當前整個人工智能技術(shù)路線和方法論取向的大背景上來看待和理解。

2.1 基于知識的方法

經(jīng)典的人工智能基本的技術(shù)路線是基于知識: 首先調(diào)查人類解決問題的途徑和技巧,然后嘗試用可執(zhí)行的方式對這些途徑和技巧進行編碼。由于人類理解和生成語言依賴詞匯、句法、語義等語言知識和相關(guān)的關(guān)于外部世界的百科知識,因而學(xué)者們就為計算機理解自然語言建造了各種知識庫: 比如,詞匯知識庫(如WordNet)、句法標注庫(如TreeBank)、語義關(guān)系知識庫與標注庫(如VerbNet, PropBank, FrameNet)、常識知識庫(如Cyc, ConceptNet, DBpedia: Wikipedia的數(shù)據(jù)庫化)、常識與詞匯結(jié)合的知識庫(如YAGO: WordNet和DBpedia的結(jié)合,IBM公司的Watson系統(tǒng)以此作為知識庫,參加知識競賽節(jié)目Jeopardy,戰(zhàn)勝了人類冠軍)、關(guān)于概念分類體系的本體知識庫(如SUMO: Suggested Upper Merged Ontology)、詞匯-常識-本體相結(jié)合的知識庫(如YAGO-SUMO),不一而足。

這種技術(shù)路線的困難是: 且不提人工構(gòu)造各種知識庫代價之昂貴,人們也不可能把各種相關(guān)知識都弄清楚,并且明確完整地表示出來和巧妙靈活地組織起來。雖然人類是用其全部的經(jīng)驗與知識來理解和生成語言的[5],但是我們無法把全部的世界知識編碼進入計算機;更何況常識往往還是模糊不清、難以定義的呢。因此,我們暫時還不能指望一個聊天機器人(chatbot)能夠在不針對特定問題提供預(yù)設(shè)腳本的情況下,回答這種問題: “為什么小雞仔不會下蛋?”

2.2 基于統(tǒng)計的方法

跟基于知識的方法相對的是基于統(tǒng)計的方法: 從大量數(shù)據(jù)中學(xué)習概率分布。在自然語言處理上,最常用的統(tǒng)計方法是建立各種“詞袋”(bag-of-words)模型: 把每一個文檔看作一個詞頻向量,把文本信息轉(zhuǎn)化為易于建模的數(shù)字信息。比如,通過統(tǒng)計文本中所用的不同感情色彩的詞語(褒義詞、貶義詞等)的數(shù)量,來判定用戶對產(chǎn)品的情感評價(sentiment)。再復(fù)雜一點,通過給每一個詞指派一個反映其在給定文檔中的出現(xiàn)次數(shù)的指數(shù)(index number),從而把一個給定文檔表示為一個向量(vector)。這樣,如果一種語言的詞匯規(guī)模是5萬個詞,那么表示文檔的矢量就有5萬個維度(dimensions);其中,許多維度的指數(shù)是0,因為相應(yīng)的詞沒有在這個給定文檔中出現(xiàn)。于是,可以利用一個詞在全部文檔中的稀疏性(sparsity)來為每一個詞設(shè)定權(quán)重。比如,信息檢索上常用的詞項頻率—逆文檔頻率(term frequency-inverse document frequency, TF-IDF)方法就是一種為每一個單詞分配權(quán)重的算法,該算法在分配權(quán)值時不僅考慮文檔中的詞頻,而且考慮了逆文檔頻率。用這種方法可以快速地計算出不同文檔的相似度。

稍微復(fù)雜一點的是潛在語義索引(latent semantic indexing, LSI)模型,它通過海量文本找出詞匯之間的關(guān)系: 當兩個詞或一組詞大量出現(xiàn)在同一個文檔中時,就認為這些詞是語義相關(guān)的。又如,潛在狄利克雷分布(latent dirichlet allocation, LDA)文檔主題生成模型。這是一種由詞、主題和文檔三層結(jié)構(gòu)組成的三層貝葉斯概率模型。其樸素的假設(shè)是: 一篇文章的每個詞都是以一定的概率選擇了某個主題,并從這個主題中以一定概率選擇某個詞語。據(jù)此,可以把每一個文檔表示為一些主題所構(gòu)成的一個概率分布,而每一個主題又可以表示為很多單詞所構(gòu)成的一個概率分布。它可以識別大規(guī)模文檔集或語料庫中潛藏的主題信息,從而發(fā)現(xiàn)特定文檔的文本內(nèi)容所屬的主題類型??梢?,“詞袋”方法不考慮詞與詞之間的順序等結(jié)構(gòu)信息,簡化了問題的復(fù)雜性;但是,“詞袋”方法卻不能發(fā)現(xiàn)“狗咬人”與“人咬狗”這兩個文本之間的意義差別。

跟基于統(tǒng)計的向量化方法不同的是詞嵌入(word embedding)方法。這種模型以向量形式給每一個詞指派一長串數(shù)字,從而把每一個詞表示為一個低維實數(shù)向量。通過詞向量的距離來計算不同的詞之間的語義距離。比如,“run”和“jog”的詞向量的距離比較接近,它們跟“Chicago” 的詞向量的距離比較遙遠。每一個詞的詞向量有相同的維度,通常是300維左右。為了學(xué)習詞向量,Skip-gram算法首先給每一個詞向量賦予一個隨機值,然后在所有的文檔中,不斷地循環(huán),推動詞-1和跟它分布(搭配環(huán)境)相近的詞-2在詞向量上接近,同時推動詞-1和跟它分布不同的其他詞在詞向量上相差較大。還可以用循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network, RNN)把句子編碼成向量,并且用另外的RNN來反向地把它解碼為不同的句子。這種串對串的編碼器-解碼器(encoder-decoder)模型,可以在雙語(源語言-目標語言)對齊語料庫上進行訓(xùn)練,從而形成基于神經(jīng)網(wǎng)絡(luò)的機器翻譯模型,就像谷歌翻譯(Google translate)那樣。這種基于多層次神經(jīng)網(wǎng)絡(luò)的研究路線,近年來被稱為深度學(xué)習(deep learning)。但是,人類語言可以對無限的概念組合進行編碼,形成無限多的話語。而雙語對齊語料庫之類的訓(xùn)練集總是有限的。更何況,人類的語言理解是植根于對外部世界的感覺和跟外部世界的互動行為的。比如,“雞仔”對于人來說,不僅意味著它是一種鳥類,有各種鳥類的行為;而且還意味著我們可以對它做的一切事情,還有它在我們的文化中所代表的一切東西[4,6]。顯然,這些屬于人類的常識范疇的知識,都是不容易通過訓(xùn)練來讓機器掌握的。

3 深度學(xué)習能否帶領(lǐng)自然語言處理突出重圍?

當前的人工智能研究和開發(fā),主要采用基于大數(shù)據(jù)的統(tǒng)計方法和基于多層神經(jīng)網(wǎng)絡(luò)的深度學(xué)習技術(shù),在語音識別和合成、機器翻譯、圖像(人臉)識別等領(lǐng)域取得了一定的成功,但是在抽象概念及其關(guān)系、語義理解和常識推理等內(nèi)容領(lǐng)域尚未取得太大成果。有人斷言深度學(xué)習方法對于概念、語義等內(nèi)容領(lǐng)域的處理難以有成就。甚至有人對人工智能目前的研究方向表示懷疑和否定。例如,1956年在著名的“達特茅斯會議”(Dartmouth Conference)上提出“人工智能”(artificial intelligence)概念的美國麻省理工學(xué)院教授馬文·明斯基(Marvin Minsky, 1927—2016)。他雖然一直認為人類的思維可以用機器模擬,并且有一句廣為流轉(zhuǎn)的話: “大腦無非就是肉做的機器而已”(the brain happens to be a meat machine)。但是,明斯基曾參加過智囊機構(gòu)TTI/Vanguard贊助的一些會議,TTI/Vanguard的主管史蒂文?徹麗(Steven Cherry)說:

他發(fā)現(xiàn)最近幾年的一些發(fā)展方向出現(xiàn)了偏差,谷歌和Facebook正在利用深度學(xué)習技術(shù)開發(fā)它們的龐大數(shù)據(jù)集。明斯基認為,這只是短期的成果,其代價是真正的機器智能問題得不到解決[7]。

就自然語言處理而言,情況也是這樣: 許多人暫時放棄基于規(guī)則和知識等可靠解決方案(solid solution),而是嘗試采用統(tǒng)計學(xué)習方法等討巧的快速解決方案(smart solution)。原因是目前的理論語言學(xué)研究還不能為自然語言處理等應(yīng)用語言學(xué)提供足夠的支撐。正如德國愛爾蘭根—紐倫堡大學(xué)的計算語言學(xué)教授羅蘭德·豪塞爾(Roland Hausser)所說的:

實用語言學(xué)的例子有語音識別、桌面出版、文字處理、機器翻譯、內(nèi)容提取、文本分類、互聯(lián)網(wǎng)查詢、自動輔導(dǎo)、對話系統(tǒng)和其他所有的自然語言的應(yīng)用。這些實際應(yīng)用催生了對實用語言學(xué)方法的巨大需求。

但是,現(xiàn)有的實用語言學(xué)方法還遠遠不能滿足用戶的需求和期待。到今天為止,最成功的實用語言學(xué)方法是基于統(tǒng)計學(xué)和元數(shù)據(jù)標注的方法。這些是快速解決的方法(smart solution),不需要自然語言交流過程的一般性理論支持,其目的是最大限度地挖掘每一次應(yīng)用或者每一類應(yīng)用的特殊性及其本質(zhì)上的局限性[8]。

粗略地瀏覽相關(guān)文獻和媒體報道,我們就可以看到這樣一幅糾結(jié)的學(xué)術(shù)畫面: 一方面,深度學(xué)習是驅(qū)動最新一波人工智能熱潮的關(guān)鍵技術(shù)。由于深度學(xué)習模型在圖像和語音任務(wù)中展現(xiàn)出的卓越性能,催生了大量實驗性、開發(fā)性的工作,人們希望將其應(yīng)用到許多其他的問題和工程產(chǎn)品當中。另一方面,人們發(fā)現(xiàn)雖然可以用深度網(wǎng)絡(luò)來解決一些問題,但這都是在過度的試錯和參數(shù)調(diào)整之后才實現(xiàn)的。更何況深度學(xué)習的理論基礎(chǔ)尚不清楚,還不能解釋深度網(wǎng)絡(luò)如何有用以及為什么有用。也就是說,深度學(xué)習無論是作為一門基礎(chǔ)科學(xué)還是作為一門工程學(xué)科,都不夠成熟。以至于紐約大學(xué)的心理學(xué)和神經(jīng)科學(xué)教授、幾何智能公司創(chuàng)始人Gary Marcus在arXiv上傳了一篇論文,列舉深度學(xué)習十大局限,說深度學(xué)習其實并沒有解決什么問題[9]。下面,我們挑跟自然語言處理有關(guān)的進行引述:

(1) 深度學(xué)習目前缺少通過明確的、言語定義學(xué)習抽象概念的機制,而且機器卻必須經(jīng)過成千上萬的訓(xùn)練才能發(fā)揮最好效果。

(2) 深度學(xué)習并沒有理解抽象的概念。DeepMind用深度強化學(xué)習玩“打磚塊”游戲,但系統(tǒng)并不知道什么是隧道、什么是墻,它所學(xué)會的,只是特定場景下的一個特定動作。深度學(xué)習目前沒有足夠的能力進行遷移。

(3) 深度學(xué)習還不能自然地處理層級結(jié)構(gòu)。當前大多數(shù)基于深度學(xué)習的語言模型,都將句子視為詞的序列。在遇到陌生的句子結(jié)構(gòu)時,循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)無法系統(tǒng)地展示句子的遞歸結(jié)構(gòu)。深度學(xué)習習得的特征之間的關(guān)聯(lián)是平面的,沒有層級關(guān)系。

(4) 深度學(xué)習目前還無法進行開放式推理。系統(tǒng)無法理解“John promised Mary to leave”和“John promised to leave Mary”之間的細微差別,機器也就無法推斷出誰要離開誰,或者接下來會發(fā)生什么。

(5) 深度學(xué)習還沒有很好地與先驗知識相結(jié)合,部分原因是深度學(xué)習系統(tǒng)中表示的知識主要涉及特征之間的(很大程度上是不透明的)相關(guān)性,而不是像量化的陳述那樣的抽象(例如, “每個人都有死亡的一天”)。深度學(xué)習適合的問題更多與分類有關(guān),而與常識推理相關(guān)的問題幾乎都超出了深度學(xué)習的解決范圍。

(6) 深度學(xué)習假設(shè)世界是大體穩(wěn)定的,但實際并非如此。深度學(xué)習在高度穩(wěn)定的世界中表現(xiàn)很好,例如“圍棋”這類有固定規(guī)則的棋盤游戲,但在政治和經(jīng)濟等不斷變化的系統(tǒng)中,深度學(xué)習的表現(xiàn)并不好。

Marcus的文章引發(fā)了不小的討論,著名機器學(xué)習專家、AAAI前主席Thomas Dietterich連發(fā)10條Twitter,一一駁斥Marcus列出的“十大罪狀”,并且對深度學(xué)習中的關(guān)鍵技術(shù)反向傳播(back propagation)和權(quán)重綁定(weight-tying)進行了拓展和延伸,從而強調(diào)了一種新的編程范式——可微分編程(differentiable programming)[10]。紐約大學(xué)終身教授、紐約大學(xué)數(shù)據(jù)科學(xué)中心的創(chuàng)始人、以及Facebook人工智能研究部門(FAIR)負責人Yann LeCun在Facebook個人主頁上寫了一篇短文,不僅支持可微分編程,還說: 好,深度學(xué)習作為一個流行詞,現(xiàn)在時效已過(Deep Learning has outlived its usefulness as a buzz-phrase.)。深度學(xué)習已死,可微分編程萬歲!(Deep Learning est mort. Vive Differentiable Programming!)[11]。沒錯,“可微分編程”不過是把現(xiàn)代這套深度學(xué)習技術(shù)重新?lián)Q了個叫法,這就跟“深度學(xué)習”是現(xiàn)代兩層以上的神經(jīng)網(wǎng)絡(luò)變體的新名字一樣。這位被人們稱為卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network, CNN)之父的法國科學(xué)家認識到: 人工智能發(fā)展的一大難題就是怎么樣才能讓機器掌握人類常識,這是讓機器和人類自然互動的關(guān)鍵。想要做到這一點,它需要擁有一個內(nèi)在模型,以具備預(yù)測的能力。LeCun用一個公式簡潔地概括了這種人工智能系統(tǒng): 預(yù)測+規(guī)劃=推理。而研究人員現(xiàn)在要做的,就是不需依賴人類訓(xùn)練,讓機器學(xué)會自己構(gòu)建這個內(nèi)在模型。關(guān)于機器視覺如何與常識相聯(lián)系,LeCun說,就連Facebook內(nèi)部也有很大分歧。“一些人認為可以與智能系統(tǒng)只進行語言交流,但是語言是一個相當?shù)蛶?low bandwidth)的渠道,信息密度很低。語言之所以能承載很多信息,是因為人們擁有大量的背景知識,也就是常識,來幫助他們理解這些信息。”LeCun解釋道??磥?,他暫時也拿自然語言理解沒轍。

總的來說,對于人工智能和自然語言處理來說,相關(guān)領(lǐng)域知識和語言知識的挖掘、整理和表示還是不可缺少的,完全繞開知識的統(tǒng)計方法和機器學(xué)習,都難以真正理解概念和語言。

4 語義資源幫助知識圖譜賦能AI理解和解釋

知識圖譜(knowledge graph)用可視化技術(shù)呈現(xiàn)知識,把以往各種線性的、離散的、非結(jié)構(gòu)化的知識,用圖(graph)這種數(shù)據(jù)結(jié)構(gòu)形式組織起來,從而描述關(guān)于世界萬物的實體(entities)、概念(concepts)、事件(events)及其之間的關(guān)系。知識圖譜實質(zhì)上是一種語義網(wǎng)絡(luò)(semantic network),其節(jié)點代表實體或概念,邊代表實體/概念之間的各種語義關(guān)系。它通過對海量數(shù)據(jù)中各種個體/概念及其盤根錯節(jié)的關(guān)系的梳理,使得原本模糊的信息世界(cybernetic world)、乃至現(xiàn)實世界(realistic world)變得更加脈絡(luò)清晰。這種數(shù)據(jù)的組織和呈現(xiàn)形式,可以為當前人工智能實現(xiàn)進一步的突破提供基礎(chǔ)。正如上文所引述的,當前這波人工智能熱潮得益于以深度學(xué)習為代表的大數(shù)據(jù)處理方法。但是,深度學(xué)習之機理的不透明性、不可解釋性已成為制約其發(fā)展的障礙。因此,“理解”與“解釋”是人工智能需要攻克的下一個挑戰(zhàn),而知識圖譜為“可解釋的AI”提供了全新的視角和機遇[12]。下面是兩個通過把語義知識加入知識圖譜,來為人工智能提供理解和解釋的構(gòu)想性案例。

清華大學(xué)李涓子教授在跟筆者進行學(xué)術(shù)交流時說: 開發(fā)知識圖譜,光是在連結(jié)兩個實體節(jié)點的邊上標定表示其關(guān)系的動詞是不夠的,最好還得有這兩個節(jié)點相對于動詞的語義角色。例如,對于“特朗普—辭退了—聯(lián)邦調(diào)查局局長科米”來說,如果能夠讓機器“懂得”或“知道”: “特朗普”是辭退行為的發(fā)出者,“科米”是辭退行為的受影響者,就比較理想。[注]在“語言資源構(gòu)建——理論、方法與應(yīng)用國際研討會”(2017年11月5日)上的個人交流,和同年11月27日雙方團隊在北京大學(xué)中文系就事件分析知識圖譜與語義角色關(guān)系的正式討論。問題是,能不能利用語言知識資源,來生成或給出這種語義角色?查詢了袁毓林教授主持研制的《北京大學(xué)現(xiàn)代漢語實詞句法語義功能信息詞典》(簡稱《實詞信息詞典》),我們發(fā)現(xiàn)這個語義知識資源基本上可以滿足這種需要。表1是“解雇”這個詞條的部分信息:

表 1 詞條“解雇”的句法語義功能信息

可見,機器系統(tǒng)通過調(diào)用上述詞典信息,如根據(jù)句法格式,可以分別把“特朗普”綁定到“施事A”、“科米”綁定到“受事P”這兩個語義角色上;從而推定“特朗普”是“停止雇用他人的人”,“科米”是“被施事[=特朗普]解雇的人”。更何況,這個詞典中除了進行多重釋義之外,還給出了“解雇”的同義詞(辭退、開除)和反義詞(聘請)。利用這些語義關(guān)系和句法格式(論元角色的配置方式),再查詢我們的另一個資源(《動詞蘊涵型式庫》)就可以進行語義(蘊涵)推理了。例如:

特朗普 解雇 科米

→特朗普 辭退/開除 科米

→特朗普 不再雇傭/聘請 科米

→特朗普 把 科米 解雇/辭退/開除了

→科米 被 特朗普 解雇/辭退/開除了

無獨有偶,白碩[4]指出: 的確,知識圖譜就是當代最通用的語義知識表示形式化框架。它的節(jié)點就是語義學(xué)里面說的 “符號根基”(symbol grounding),即語言符號與真實或想象空間中的對象的對接,在計算機中體現(xiàn)為語言符號與數(shù)字化對象的對接。它的邊則是語義學(xué)里面說的 “角色指派”(role assignment),在計算機中體現(xiàn)為每個數(shù)字化對象與其他數(shù)字化對象之間的語義關(guān)系標簽。節(jié)點和邊,這恰恰是知識圖譜所支持的要件。

但是,事情并沒有完結(jié)。語義結(jié)構(gòu)表示框架中現(xiàn)有的知識圖譜可以完美描述實體、關(guān)系、屬性(狀態(tài))及其值這三類要素。但是剩下的還有事件、時間、空間、因果條件、邏輯模態(tài)等,我們必須對現(xiàn)有的知識圖譜結(jié)構(gòu)進行改造,才能適應(yīng)這些語義要素的表示。

先看事件。事件可以改變關(guān)系和屬性。比如 “撤銷職務(wù)” 的事件真正的語義效果是改變相應(yīng)實體的 “職務(wù)” 屬性的取值,其他一切操作,如果不落到這上面,都是糊弄人。此外,一個事件可以觸發(fā)其他事件(例如 “國王去世” 觸發(fā) “王儲繼位”),一串事件可以是一個大事件的細粒度展開(比如“立案偵查”“調(diào)查取證”“拘捕” 可能是某個 “案件” 事件的細粒度展開)。這些具有動態(tài)特性的操作如何與靜態(tài)知識圖譜的結(jié)構(gòu)和工具融為一體,是一個非常有挑戰(zhàn)性的問題。我們注意到哈工大有關(guān) “事理圖譜” 的相關(guān)研究成果,但要成體系地解決事件的表示問題,目前成果還是很不夠的。

檢索《實詞信息詞典》,發(fā)現(xiàn)其中已經(jīng)配備了有關(guān)詞項的語義角色關(guān)系標簽,還有這些語義角色的常見的句法配置。表2~表5以“立——案件——調(diào)查——取證——拘捕”這幾個詞條為例進行說明。

表 2 詞條“立”的句法語義功能信息

續(xù)表

表 3 詞條“案件”的句法語義功能信息

表 4 詞條“調(diào)查”的句法語義功能信息

表 5 詞條“取證”的句法語義功能信息

表 6 詞條“拘捕”的句法語義功能信息

對此,白碩的回應(yīng)是: “仔細學(xué)習了一下你的詞條,的確很靠近我的想法了”。[注]2018年2月28日E-mail通信。

白碩[4]總結(jié)說: 自然語言的語義的確是一個博大精深的體系。知識圖譜為語義計算準備好了基本的框架,但要全面推進到實用,還要做許多基礎(chǔ)性的工作,包括資源建設(shè)和理論模型創(chuàng)新。我們期待在這一領(lǐng)域能有重量級的成果出現(xiàn),將語義表示和計算的工作推向深入。

我們希望語義資源建設(shè)能夠更好地為知識圖譜和語義計算服務(wù),并且在這個過程中逐步完善語義描述體系和詞典構(gòu)架。

5 語義資源幫助機器人回答常識性問題

袁毓林教授的《實詞信息詞典》主要描述名詞、

動詞和形容詞的語義角色及其句法配置,同時突出相關(guān)詞語所反映的常識概念和百科知識。特別是其中的《漢語名詞句法語義功能信息詞典暨檢索系統(tǒng)》(簡稱《名詞信息詞典》),借鑒生成詞庫論(generative lexicon theory)關(guān)于詞項的語義表達、特別是物性結(jié)構(gòu)的有關(guān)學(xué)說,從服務(wù)于中文信息處理這種應(yīng)用需求出發(fā),來設(shè)計漢語名詞的物性結(jié)構(gòu)的描述體系。通過“物性角色”來描述名詞所指的事物(簡稱“事物”)的語義結(jié)構(gòu)和相關(guān)的百科知識。調(diào)用這種語義資源,可以回答事物的有關(guān)常識性問題。比如,是什么(形式角色)、有哪些部件(構(gòu)成角色)、由什么材料做的(材料角色)、怎么形成的(施成角色)、有什么用途(功用角色),等等。這樣,本文第1節(jié)中“圍棋是什么?”,可以通過查詢名詞“圍棋”的形式角色來回答?!皣濉钡脑~條如表7所示。

表 7 詞條“圍棋”的句法語義功能信息

續(xù)表

更加重要的是,該語義資源還可以跟計算機視覺技術(shù)相結(jié)合,來幫助機器人基于詞典進行常識推理,并且回答常識性問題。比如,圖1所列任務(wù)原本是一個機器人智能推理的實驗[注]該任務(wù)和圖片選自文獻[13]。。每一組任務(wù)(縱列看)中,上圖是一些工具,下圖是要求完成的任務(wù)(鏟土);讓機器人判斷用什么工具來完成圖1中第三行(Task 2)的工具的柄上或工具邊緣淺黑色的部分是判斷機器人抓手的地方,圖1中第三行的工具邊緣上深黑色的且?guī)в型庵赶虻募^的部分是判斷土的位置)。任務(wù)1的上圖正常的鏟土工具(機器人選擇了鏟子和刷子作為鏟土的第一、第二選擇),任務(wù)2是拿走鏟子、刷子,僅提供其他家庭用品(機器人選了平底鍋和杯子來鏟土),任務(wù)3是一般的石器(機器人選了兩個不同形狀的石頭)。

圖1 機器人智能推理任務(wù)

我們設(shè)想,完成這個任務(wù),如果結(jié)合基于名詞的物性角色進行推理和驗證,那么效果也許更好。比如,先驗地設(shè)定諸如下面這一類啟發(fā)式規(guī)則(heuristic rules):

(1) 要了解事物是什么,就查相應(yīng)名詞的形式角色;

(2) 要了解事物有哪些部件,就查相應(yīng)名詞的構(gòu)成角色;

(3) 要了解事物是由什么材料做的,就查相應(yīng)名詞的材料角色;

(4) 要了解事物是怎么形成的, 就查相應(yīng)名詞

的施成角色;

(5) 要了解事物有什么用途,就查相應(yīng)名詞的功用角色。

表8是名詞“鏟子”的詞條。

表 8 詞條“鏟子”的句法語義功能信息

從“鏟子”的功用角色中,我們可以發(fā)現(xiàn)鏟子的用途之一是能夠鏟土。通過這種功用角色,能夠類推出其他家庭物品也作為替代品,從而完成鏟土的任務(wù)。

另外一個應(yīng)用場景也是基于計算機視覺的。現(xiàn)在,計算機讀圖2所示的這一個圖[注]圖片選自百度圖片“客廳”。。

圖2 場景識別任務(wù)“客廳”

機器能夠識別出里面的物品,但是它不知道這些物品背后的含義。而人是知道這些物品都是干什么的,所以就能判斷出這個圖的深層含義。比如,判斷出該圖是客廳、能夠會客,等等,或者還能推理出其他功用。因為人看一個物體,就能知道它的功用是什么、通常放在什么房間中。通過圖中“桌子、椅子、茶幾、電視”等物品跟各種房間的匹配,可以發(fā)現(xiàn),這個房間跟“客廳”最接近。表9是我們詞典中“客廳”這一詞條。

當然,上面這兩個任務(wù)似乎都比較大,需要結(jié)合計算機視覺、基于深度學(xué)習的分類,再加上基于詞典資源的常識推理等多方面的協(xié)同,才能高質(zhì)量地完成。

表 9 詞條“客廳”的句法語義功能信息

猜你喜歡
句法語義深度
句法與句意(外一篇)
中華詩詞(2021年3期)2021-12-31 08:07:22
述謂結(jié)構(gòu)與英語句法配置
深度理解一元一次方程
語言與語義
深度觀察
深度觀察
深度觀察
句法二題
中華詩詞(2018年3期)2018-08-01 06:40:40
詩詞聯(lián)句句法梳理
中華詩詞(2018年11期)2018-03-26 06:41:32
“上”與“下”語義的不對稱性及其認知闡釋
主站蜘蛛池模板: 国产免费网址| 国产一区二区三区精品久久呦| 亚洲综合国产一区二区三区| 国产亚洲精品资源在线26u| 欧美日韩高清在线| 久久91精品牛牛| 亚洲欧美日韩中文字幕在线一区| 国产浮力第一页永久地址| 女人18毛片久久| 国模在线视频一区二区三区| 亚洲欧美极品| 中文字幕在线看| 欧美成人第一页| 国产国语一级毛片| 91免费观看视频| 国产精品视频观看裸模| 国产丝袜啪啪| 992tv国产人成在线观看| 91精品国产91久无码网站| 91久久国产热精品免费| 免费A∨中文乱码专区| 99热这里只有免费国产精品| 亚洲,国产,日韩,综合一区| 青青草原国产免费av观看| 亚洲无码视频图片| 亚洲丝袜第一页| 国产无码在线调教| 四虎永久在线视频| 欧美成人影院亚洲综合图| 高清欧美性猛交XXXX黑人猛交| 亚洲日韩欧美在线观看| 在线永久免费观看的毛片| 精品一区二区三区波多野结衣 | 亚洲aaa视频| 永久免费无码成人网站| 69视频国产| 欧美亚洲国产视频| 国产在线精彩视频论坛| 久久精品国产精品国产一区| 四虎亚洲精品| 国产精品永久不卡免费视频 | 国产高清在线精品一区二区三区| 亚洲无码高清一区| 手机在线看片不卡中文字幕| 国产xx在线观看| 日韩在线观看网站| 再看日本中文字幕在线观看| 秋霞午夜国产精品成人片| 国产美女无遮挡免费视频网站| 精品无码一区二区三区在线视频| 久久中文字幕不卡一二区| 欧美激情第一欧美在线| 香蕉eeww99国产精选播放| 鲁鲁鲁爽爽爽在线视频观看| 国产乱肥老妇精品视频| 欧美日韩在线观看一区二区三区| 午夜限制老子影院888| AV不卡国产在线观看| 亚洲无码不卡网| 亚洲无限乱码| 九九精品在线观看| 人妻免费无码不卡视频| 久久久久久国产精品mv| 欧美激情首页| 亚洲一区二区三区麻豆| 农村乱人伦一区二区| 亚洲精品国产乱码不卡| 国产一级二级在线观看| 久久精品人人做人人爽97| 欧美精品在线看| 亚洲第一精品福利| 精品自窥自偷在线看| 亚洲综合精品香蕉久久网| 永久免费av网站可以直接看的| 一级毛片免费观看久| 日韩 欧美 小说 综合网 另类| 国产精品入口麻豆| 无码高潮喷水专区久久| 亚洲一区二区日韩欧美gif| 亚洲一级色| 一级成人欧美一区在线观看| 69免费在线视频|