999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

語言計算的重要國際前沿

2014-02-01 02:39:23孫茂松姬東鴻穗志方吾守爾斯拉木俞士汶李建民王厚峰吐爾根依布拉音劉知遠
中文信息學報 2014年1期
關鍵詞:語義文本語言

孫茂松,劉 挺,姬東鴻,穗志方,趙 軍,張 鈸,吾守爾·斯拉木,俞士汶,朱 軍,李建民,劉 洋,王厚峰,吐爾根·依布拉音,劉 群,劉知遠

(1. 清華大學 計算機系,北京 100084; 2. 哈爾濱工業(yè)大學 計算機學院,黑龍江 哈爾濱 150001;3. 武漢大學 計算機學院,湖北 武漢 430072; 4. 北京大學 信息學院,北京 100871;5. 中國科學院自動化研究所,北京 100190; 6. 新疆大學 信息學院,新疆 烏魯木齊 830046; 7. 中國科學院計算技術研究所,北京 100190)

1 引言

賦予機器以人類的語言能力,一直是科學家們的夢想,其研究幾乎與計算機的問世同步,幾個里程碑式的發(fā)展階段,體現(xiàn)了人類對語言計算本質的認識不斷深化的過程。1947年,美國著名科學家Weaver在給控制論之父Wiener的一封信中首次提到了利用計算機進行自然語言翻譯的可能性。1949年,他發(fā)表了《翻譯備忘錄》,正式提出機器翻譯的思想(同年他還與信息論之父Shannon合著出版了影響深遠的《通信的數(shù)學理論》)。受信息論的影響和鼓舞,這個階段的研究把句子看作是串行的字符流,把機器翻譯看作是一種機械地解讀密碼的過程,樂觀地認為借助計算機的能力,通過詞與詞的對應即可實現(xiàn)機器翻譯。由于忽視了語言的本質——具有結構性,這種嘗試當然碰得頭破血流。1966年,美國科學院語言自動處理咨詢委員會公布了耗時兩年調查完成的、語言信息處理史上著名的ALPAC報告《語言與機器》,指出機器翻譯研究遇到了機器難以逾越的“語義屏障”(Semantic Barrier),全面否定了機譯的可行性。

此后,學者們?nèi)找嬲J識到語言結構分析的重要性,沿著兩條主線進行了系統(tǒng)深入的探索。一條主線以句法為主,始自20世紀50年代中期貫穿至80年代末期,經(jīng)典工作包括現(xiàn)代語言學之父Chomsky的短語結構語法和轉換生成語法,以及一批著名學者對短語結構語法的擴展,例如,詞匯功能語法、中心語驅動短語結構語法、廣義短語結構語法、擴充轉移網(wǎng)絡等,引入了復雜特征和詞匯化信息(主要在句法層面,但也在模型中為語義留出了位置)。另一條主線以語義為主,主要集中在20世紀60年代末期至70年代中期,經(jīng)典工作包括著名語言學家Fillmore的格語法(后演變?yōu)榭蚣苷Z義學),著名數(shù)理邏輯學家Montague的蒙太古語法,著名計算機科學家Schank的概念依存理論,著名人工智能學家Simmons的語義網(wǎng)絡理論以及圖靈獎獲得者、人工智能之父Minsky的框架表示法等。這兩條主線上的研究工作在理論深刻程度上無與倫比,閃爍著人類智慧的熠熠光輝(一般被歸入理性主義的范疇),但也存在嚴重的不足。主要問題是,根據(jù)語言學家的思辨和語感人工編制句法規(guī)則集,難以保證對復雜語言現(xiàn)象的覆蓋能力;而由于受到語義資源、計算能力等各方面的限制,語義分析僅限于在受限領域研制一些“玩具”系統(tǒng),距離真實應用遙不可及。

有鑒于此,1990年在芬蘭赫爾辛基召開的第13屆國際計算語言學大會適時地提出了處理大規(guī)模真實文本的戰(zhàn)略任務,開啟了語言計算的一個新的歷史階段——基于大規(guī)模語料庫的統(tǒng)計自然語言處理(屬于經(jīng)驗主義范疇),并在語音識別、文字識別、機器翻譯、信息檢索等領域中取得了巨大進展,因此迅速壯大成為引領自然語言處理研究領域至今的主流方法。

耐人尋味的是,統(tǒng)計自然語言處理的基石是Hartley和Shannon的信息論以及建于其上的“語義無關”假設。信息論主要從統(tǒng)計的角度研究由串行字符流組成的消息的編碼與解碼問題,與語言具有豐富的結構(語義)這一根本性質并不契合,卻能夠取得如此驕人的成績,確乎有些令人驚訝。非常重要的因素是: 互聯(lián)網(wǎng)的蓬勃興起為這種模型的充分訓練提供了優(yōu)越的語料庫條件。現(xiàn)今的統(tǒng)計模型雖然能夠進行部分的語言結構分析,但它是在馬爾可夫化的假設之下,是對語言結構分析的一個簡化,所以只能部分緩解但不可能完全克服“語義屏障”問題。我們正處于下一輪螺旋式上升周期的開端: 帶統(tǒng)計的理性主義,或者具深度的經(jīng)驗主義,兩大方法范疇應殊途同歸,匯流合進。這個新的歷史進程在宏觀上至少呈現(xiàn)出以下三個重要態(tài)勢。

(1) 從句法分析深入到語義分析。英文語言分析從深度上已超越句法整體上推進到了語義層面,從廣度上則擴張到了互聯(lián)網(wǎng)規(guī)模。IBM的DeepQA在強大的硬件平臺和知識資源的支持下,融合了多種語言分析技術,包括淺層分析、命名實體識別及關聯(lián)、深層分析、語義角色標注、邏輯表達式演算甚至共指消解等。美國華盛頓大學Etzioni教授在美國國防部先進項目研究局(DARPA)支持下于2009年啟動的“Machine Reading(機器閱讀)”重大項目,試圖利用深度語言分析技術自動閱讀整個互聯(lián)網(wǎng)的文本,得到表示句子語義的邏輯表達式,從而構造互聯(lián)網(wǎng)規(guī)模的知識庫。

(2) 經(jīng)驗主義和理性主義的深度融合。語言計算往往是一個欠約束的不適定問題(Ill-posed Problem)[1],其求解迫切需要新的計算模型與理論。值得慶幸的是,近年來,機器學習理論取得了重大進展,為互聯(lián)網(wǎng)條件下的語言結構學習及分析打下了理論和方法上的堅實基礎。2011年圖靈獎獲得者Pearl教授的“基于圖結構的概率推理”正在對自然語言處理、語音處理方向產(chǎn)生重要影響;2011年Science上發(fā)表了題為“心智何來?統(tǒng)計、結構與抽象”的文章,闡發(fā)了更“類似人”的機器學習系統(tǒng)能在柔性結構表示的層級體系上進行概率推理,抽象知識可引導從稀疏數(shù)據(jù)中進行學習和推理等[2]。這啟示我們,基于統(tǒng)計的語言結構學習模型和主要以規(guī)則形式存在的語言知識的融合將是語言計算很有前途的解決方略。

(3) 互聯(lián)網(wǎng)海量弱標注數(shù)據(jù)的利用。互聯(lián)網(wǎng)上海量、繁雜又包含大量噪聲的數(shù)據(jù)給語言計算帶來了嚴重困難,但同時也為解決這些困難創(chuàng)造了新的可能性,為關鍵技術的突破帶來了契機。如互聯(lián)網(wǎng)上廣泛存在的弱標注數(shù)據(jù)資源(所謂弱標注是指觀測數(shù)據(jù)不能完全表示模型中隱含變量的取值,或標注數(shù)據(jù)帶有噪聲,或與直接任務間接相關的標注數(shù)據(jù)以及無標注數(shù)據(jù)等)為語言結構學習算法提供了豐富的語言資源,互聯(lián)網(wǎng)上信息的高度冗余性使準確抽取知識更加可行。

以下從語言計算基礎模型、語言分析、語言資源建設、相關關鍵技術(包括機器翻譯、文本內(nèi)容理解與問答)等方面,對國內(nèi)外重要動態(tài)進行評述。

2 語言計算的若干國際前沿: 問題與進展

2.1 語言計算基礎模型

不同于線性的信號序列,語言是一種具有復雜結構的對象,語言的自動分析與理解,需要借助于結構化學習的理論與方法。

從復雜數(shù)據(jù)中學習具有結構的統(tǒng)計模型是過去20年統(tǒng)計機器學習領域的核心問題之一。圖和一階謂詞邏輯是表示結構信息的兩個有效框架,代表性的工作分別是條件隨機場和馬爾可夫邏輯網(wǎng)絡。對于同一類模型,從參數(shù)學習的角度又可分為最大似然估計、最大間隔學習以及綜合兩者優(yōu)點的最大熵判別式學習等。

在給定充足的完全標注樣本的情況下,一般可以學到魯棒的模型對未知樣本進行結構預測。但是,在訓練樣本有限的情況下,學習具有復雜結構的統(tǒng)計模型是一個不適定的問題,即能夠充分描述給定數(shù)據(jù)樣本的模型可能有很多個(有可能是指數(shù)多個)。理論研究表明[2],為了學習一個穩(wěn)定的統(tǒng)計模型必須借助“額外的信息”或“額外約束”。這里的額外信息可以分為以下兩個方面: ①先驗假設或先驗知識。主觀地對可行的模型空間及其分布進行先驗假設或者盡量引入客觀的先驗知識(語言計算中如句法、語義、情境等知識)作為約束,代表性的工作包括基于稀疏正則化的概率圖模型學習[3]、具有樹狀結構的回歸分析[4]以及基于貝葉斯推理的拉普拉斯最大間隔馬爾可夫網(wǎng)絡[5]、后驗正則化方法[6]等; ②未標注數(shù)據(jù)。為了彌補完全標注數(shù)據(jù)不足的問題,針對具有結構的統(tǒng)計模型的半監(jiān)督以及無監(jiān)督學習方法得到了廣泛的研究,代表工作包括半監(jiān)督的最大間隔馬爾可夫網(wǎng)絡[7]、無監(jiān)督的馬爾可夫邏輯網(wǎng)絡[8]以及無監(jiān)督的語法學習[9]等。

面對越來越復雜的現(xiàn)實數(shù)據(jù),人們更希望發(fā)現(xiàn)其中隱含的深層結構,而不僅僅停留在表面的一兩層。深度學習(Deep Learning)致力于從數(shù)據(jù)中自動學習更一般的從底層特征到高層概念的多層抽象表示,逐漸成為近年來的研究熱點。2006年以后,以Hinton關于深層信念網(wǎng)絡DBN[10]的革命性工作為代表,出現(xiàn)了DBN、Autoencoder等學習深層結構的算法[10-12]。Hinton等人[13]在Science雜志上提出,可以利用多層受限波爾茲曼機RBM的Pretraining方法學習到很好的低維表示。

深度學習已經(jīng)在分類、回歸、維數(shù)約簡等學習問題中取得了成功,并被有效應用到圖像分析、語音識別和自然語言處理等眾多具體領域中。例如,在語音識別中,Seide等人[14]將深層神經(jīng)網(wǎng)絡DNN與傳統(tǒng)的HMM相結合,在大規(guī)模語料上的轉寫任務中錯誤率較現(xiàn)有方法下降了 30% 左右。又如,Collobert 等人提出了一個基于深度學習的自然語言處理框架[15],可以進行POS、Chunking、NER和SRL等多種自然語言處理典型任務。

互聯(lián)網(wǎng)環(huán)境給基于結構的統(tǒng)計學習既帶來了機遇也帶來了挑戰(zhàn)。如何有效利用弱標注資源,同時避免噪聲的負面影響是目前機器學習[16]及不同應用領域關注的熱點,這方面的研究剛剛起步。也有一些工作研究如何從極少數(shù)種子樣本(有標注的示例)進行迭代的、滾雪球似的增量學習,例如,用于自動抽取互聯(lián)網(wǎng)上實體關系的StatSnowball系統(tǒng)[17]和美國工程院院士、卡內(nèi)基梅隆大學Mitchell教授帶領的NELL(Never Ending Language Learning,“永不停止的語言學習”)項目。雖然上述工作已經(jīng)取得初步成功,如何自動或者半自動地從互聯(lián)網(wǎng)上獲取有用信息仍然是一個難題。

語義和內(nèi)容的結構屬于深層結構,語言計算的實質是深層結構的分析問題。由于自然語言的模糊性、歧義性和復雜性,人工編制規(guī)則的理性主義方法難以滿足互聯(lián)網(wǎng)環(huán)境下語言深層結構分析的需求。另一方面,由于深層結構包含密集的語義關聯(lián),在保證計算深度的條件下,還需要大量實例以保證統(tǒng)計模型的學習性能,傳統(tǒng)經(jīng)驗主義的統(tǒng)計模型遇到了深刻的困難。而深度學習可望把一個復雜任務的學習過程分解為多層抽象表示的非線性推導過程,從而保證統(tǒng)計上的可行性和計算上的可操作性。深度學習在圖像分析和語音識別等領域已經(jīng)顯示出卓爾不群的優(yōu)越性,在自然語言處理的若干具體任務中也取得了初步進展(雖然其成效并不很顯著)。我們認為,深度學習的理論與方法對構建語言計算的基礎模型具有重要的啟發(fā)性和參考價值。

2.2 語言分析

自然語言分析按處理對象由低向高分為: 詞匯分析、句子分析與篇章分析。其中,句子分析占據(jù)核心地位,一直以來都是自然語言處理研究的重點和難點。

句子級的語言分析主要包括句法分析和語義分析,句法分析目前相對成熟,按照所使用文法的不同主要分為短語結構文法和依存文法。由于依存結構相對于短語結構來說,具有形式簡潔、易于標注、便于應用、時間復雜度低等優(yōu)點,因此逐漸受到更多的重視。語義分析目前主要采用語義角色標注的形式,它標注句子中主要動詞的語義角色。CoNLL 2009年組織了一次7國語言句法分析和語義角色標注的聯(lián)合任務評測,句法分析采用依存文法,國內(nèi)外20多家單位參與了這次評測,最終的結果表明: 英文句法分析準確率最高93.5%,而中文只有83.3%;英文語義角色標注準確率最高86.2%,而中文為78.6%,中文句法分析和語義角色標注比英文低8%~10%。這些工作都需要建立在大規(guī)模的句法語義語料庫的基礎之上,而語料庫的建立需要大量的專家標注,因此一些利用弱標注知識的方法也紛紛涌現(xiàn)出來,例如,利用生文本對詞語進行聚類自動產(chǎn)生詞類標簽[18],使用雙語語料產(chǎn)生可信度較高的依存詞對結構[19],以及從海量網(wǎng)絡資源中挖掘對句法有幫助的知識[20]。

國際上對句子級深度語義分析研究的關注程度在逐年增加。主要的研究方法包括: 采用同步上下文無關語法將句子映射成邏輯表示式[21];組合范疇語法(CCG)和lambda邏輯演算相結合[22];采用依存組合語義樹(DCS)表示句子語義[23];基于無監(jiān)督的方法進行語義分析[24]。上述英語語義分析方法的共同特點是依賴于句法分析的結果。此外,值得注意的是,近年來國際上還進一步提出了Parsing the Web(“分析互聯(lián)網(wǎng)”)的理念和任務。

與詞語、句子等更小的語言單位相比,篇章能夠從宏觀上反映信息的整體結構和主題內(nèi)涵,對于內(nèi)容理解和語言交流具有更直接的作用。因此,在句子分析基礎上進一步研究篇章分析,是實現(xiàn)深度計算的必要途徑。

共指消解是篇章分析中傳統(tǒng)的研究方向,ACL、COLING、EMNLP、EACL、NAACL等重要的國際會議都召開過共指消解的專題會議,ComputationalLinguistics也出版了專輯,先后出現(xiàn)了MUC、ACE等與共指消解相關的國際評測。初期的共指消解研究以語言學方法為主,隨后引入機器學習方法,多采用二元分類模型。目前,共指消解逐漸向多資源、跨文檔、海量數(shù)據(jù)統(tǒng)計的方向發(fā)展,典型的工作如使用世界知識的共指消解方法[25]。

句間關系識別是篇章語義分析的重要組成部分,以美國國家科學基金會NSF資助的PDTB(Penn Discourse Tree Bank)項目為代表。該項目的目標是通過為句間關系建模來分析篇章結構、挖掘語義信息。早期的句間關系識別以關聯(lián)詞語為中心[26]。目前,越來越多的研究者提出不依賴關聯(lián)詞語的新方法[27],例如,核函數(shù)方法被用于引入結構化信息幫助識別句間關系,同時使用事件時序信息幫助句間關系識別。挖掘語義信息來幫助識別句間關系,并用它來支持其他任務[28],是該方向未來的發(fā)展趨勢。

2.3 語言資源建設

語言知識資源主要包括句法資源和語義資源。20世紀50年代以來,句法分析占據(jù)主流地位,相應的句法資源的發(fā)展與建設相對成熟,例如,在英文語言信息處理領域影響較大的美國賓夕法尼亞大學開發(fā)的英語句法樹庫Upenn Treebank,北京大學開發(fā)的現(xiàn)代漢語語法信息詞典和大規(guī)模詞性標注語料庫,基本滿足了淺層語言分析的需求。然而,對語言進行深層分析需要語義知識資源的支撐。近年來,許多語言學家、心理語言學家和計算語言學家從不同研究角度出發(fā),組織研制了眾多的語義知識庫。

認知層面的概念、框架、情境等語義信息,在語言層面主要通過詞匯、句子、語篇等語言單位來承載和實現(xiàn)。

在概念語義方面,以詞匯為單位組織語義信息的典型工作包括WordNet、VerbNet、HowNet、MindNet等。其中,WordNet從認知語言學的角度描述概念。描述信息包括同義詞集合(Synset)及其概念層級關系,是一種外延式的知識描述方式。HowNet描述的是概念及概念屬性之間的關系,是一種內(nèi)涵式的知識描述方式。VerbNet在對英語動詞進行分類的基礎上描述了動詞的論旨角色、角色的語義選擇限制以及簡單的事件框架信息。美國微軟公司開發(fā)的MindNet是利用句法分析器自動分析詞典釋義文本,通過自動構建的方式而建立。

在框架語義方面,近年來一個重要進展是從謂詞—論元(Predicate-Argument)關系入手把句法關系和語義角色描述聯(lián)系起來,形成句法語義鏈接知識庫。賓州大學在賓州樹庫基礎上,進一步發(fā)展了語義角色標注的命題庫(PropBank)[29]和NomBank[30],在句法關系鏈上添加相應的特定謂詞(包括名詞化謂詞)的論元結構。加州大學伯克利分校的FrameNet計劃[31]以Fillmore框架語義學理論為基礎,試圖用語義框架對語義(包括詞義、句義和情境義)進行系統(tǒng)的描述和解釋。

在情境語義方面,在詞義、句義描寫的基礎上,語義資源建設又向更高層次語義的描寫發(fā)展,出現(xiàn)了篇章級標注語料庫,包括RST-DT[33]、賓州語篇樹庫PDTB等。其中,RST-DT在系統(tǒng)功能理論框架下創(chuàng)建,在賓州語料的基礎上,描述了語篇單位之間的修辭結構關系。PDTB是目前規(guī)模最大的篇章級標注語料庫,其標注語料也來源于賓州樹庫,將語篇連接詞看作二元的語篇關系的謂詞,目標是標注語篇連接詞以及語篇連接詞所支配的論元。

在多類型、多層面語言資源共存的現(xiàn)狀下,多源異構語言知識資源的融合成為迫切需要解決的問題。OntoNotes[34]在句法結構上,實現(xiàn)了詞義知識、指代關系等語義知識的標注。但目前只是把現(xiàn)存的比較典型的語言資源簡單地連接在一起,包括: 詞匯、句法、篇章級語言資源,還沒有對語言知識實現(xiàn)真正的融合。

盡管上述語義資源在描述規(guī)模和深度上都達到了一定水平,但是對于面向互聯(lián)網(wǎng)深度計算的目標,仍存在問題和不足。

2.4 機器翻譯

得益于互聯(lián)網(wǎng)文本的持續(xù)快速增長,數(shù)據(jù)驅動的統(tǒng)計方法近年來逐漸成為機器翻譯領域的研究熱點,其發(fā)展趨勢可以歸納為以下兩個方面。

第一、語言層次持續(xù)加深。統(tǒng)計機器翻譯近20年的發(fā)展是一個沿著機器翻譯先驅Vauquois提出的著名的“機器翻譯金字塔”(Machine Translation Pyramid)從底層不斷向頂層攀爬的過程: 在保持從大規(guī)模真實文本中自動獲取翻譯知識的同時不斷加深語言分析的層次。早期的統(tǒng)計機器翻譯方法以詞作為翻譯的基本單元,屬于位于機器翻譯金字塔最底端的直接翻譯方法。本世紀初,基于短語的方法由于能夠有效地對局部的擇詞和調序進行建模,開始成為統(tǒng)計機器翻譯的主流,并在Language Weaver、Google、Microsoft、百度和有道等商用機器翻譯系統(tǒng)中得到廣泛使用。2005年后,基于句法的方法利用同步語法對語言的層次結構進行建模,實現(xiàn)了機器翻譯金字塔中句法層次的轉換。

盡管統(tǒng)計機器翻譯取得了長足的發(fā)展,但是目前仍未達到語義層次。保證源語言文本和目標語言文本的語義相同是機器翻譯的首要目標,只有實現(xiàn)了對語義的分析、轉換和生成的統(tǒng)計建模,并在大規(guī)模真實數(shù)據(jù)上自動獲取語義翻譯知識,統(tǒng)計機器翻譯才有可能逼近這一目標。雖然美國卡內(nèi)基梅隆大學、美國羅切斯特大學、新加坡信息通訊研究院和香港科技大學的一些學者嘗試將語義引入統(tǒng)計機器翻譯,但是所采用的語義角色標注和潛在語義分析層次較淺,無法真正利用深層次的語義知識來指導翻譯過程[35-37]。更重要的是,這些工作并未建立真正意義上的語義翻譯模型,只是對基于短語的系統(tǒng)的輸出結果做后處理,或者將語義信息作為基于句法的系統(tǒng)中的特征函數(shù)。

第二、語言種類不斷拓廣。統(tǒng)計機器翻譯的研究對象開始從英語、漢語和阿拉伯語等少數(shù)幾種資源豐富的語言向更多的資源匱乏的語言拓廣。2002年,美國國家標準技術研究院(NIST)開始組織一系列國際機器翻譯評測,對機器翻譯的發(fā)展起到了巨大的推動作用。出于政治因素的考慮,NIST評測將漢語—英語和阿拉伯語—英語設為固定評測任務,引導學術界將英語、漢語和阿拉伯語作為機器翻譯的主要研究對象。歐洲的EuroMatrix項目(2006~2009)和EuroMatrixPlus項目(2009~2012)更是試圖將統(tǒng)計機器翻譯技術擴展到歐洲所有的語言對(如捷克語、丹麥語、荷蘭語、芬蘭語等),形成一個巨大的歐洲語言機器翻譯矩陣。

2.5 文本內(nèi)容理解與問答

自動問答是自然語言處理、人工智能和信息檢索領域的熱點研究方向之一。它接受用戶用自然語言提出的問題,并返回該問題的答案。華盛頓大學Etzioni教授2011年在Nature上指出問答系統(tǒng)是互聯(lián)網(wǎng)搜索引擎發(fā)展的方向[39]。

問答系統(tǒng)的發(fā)展經(jīng)歷了幾個階段。20世紀60到80年代隨著人工智能技術的發(fā)展,基于知識推理的問答系統(tǒng)在有限領域獲得成功,例如,MIT開發(fā)的數(shù)學符號運算系統(tǒng)MACSYMA;20世紀90年代到本世紀初期,隨著大規(guī)模語料庫的建立和互聯(lián)網(wǎng)的發(fā)展,自然語言處理、信息檢索、信息抽取、人工智能、機器學習等多種技術相互融合,形成了一種新的問答技術—問答式檢索技術,并在TREC、TAC、CLEF等評測計劃的推動下得到迅速發(fā)展,例如,MIT開發(fā)的Start、Umass開發(fā)的QuASM以及Microsoft開發(fā)的Encarta等。但是,由于受限于自然語言處理和人工智能技術的水平,問答式檢索系統(tǒng)只能較好地回答一些相對簡單的事實性、列表性和定義性提問,離用戶更廣泛的真實信息需求存在巨大的差距,這極大地限制了自動問答系統(tǒng)的實用性。近年來,隨著多層次自然語言處理技術的不斷融入,問答系統(tǒng)向深層次發(fā)展。2008年微軟以1億美元收購了語義搜索引擎Powerset,其核心是基于自然語言處理技術的問答系統(tǒng)。2011年,IBM基于深層問答技術DeepQA “沃森”系統(tǒng)再一次在具有歷史意義的“人機大戰(zhàn)”中戰(zhàn)勝人類;之后,蘋果公司在Wolfram Alpha知識計算引擎之上推出了智能生活助手Siri系統(tǒng)。以上事件成為問答系統(tǒng)發(fā)展的重要里程碑。

實現(xiàn)網(wǎng)絡環(huán)境下的深度問答這一目標,需要文本內(nèi)容理解技術的支撐。文本內(nèi)容理解最理想的途徑是對文本中每個句子所包含的語義內(nèi)容自動地進行形式化描述(例如,表示為謂詞邏輯表達式),然后融合這些語義內(nèi)容并在大規(guī)模知識系統(tǒng)中進行推演得到新的知識或事實,從而實現(xiàn)對文本內(nèi)容全面、深入的理解。要達到這個“理想”境界,無疑極具難度,還有一段較為漫長的路要走。

為了降低文本內(nèi)容理解的難度,一個替代的方法是文本內(nèi)容抽取。文本內(nèi)容抽取的任務是: 從自然語言文本中抽取指定類型的實體、關系、事件等事實信息,并形成結構化數(shù)據(jù)輸出。從20世紀80年代開始,在MUC、ACE、TAC等評測會議的大力推動下,文本內(nèi)容抽取技術的研究得到蓬勃發(fā)展。但是,傳統(tǒng)內(nèi)容抽取評測任務是面向限定領域文本的、限定類別實體、關系和事件的抽取。近年來,為了適應互聯(lián)網(wǎng)實際應用的需求,人們開始以較大的熱情關注開放域內(nèi)容抽取技術[40],其特點在于: ①文本領域開放: 處理的文本是不限定領域的網(wǎng)絡文本;②內(nèi)容單元類型開放: 所抽取的內(nèi)容單元不限定類型,而是自動地從網(wǎng)絡中挖掘內(nèi)容單元的類型,例如,實體類型、事件類型和關系類型等。

目前,文本內(nèi)容抽取大多只能抽取文本中顯式表示的內(nèi)容,對于文本中隱含的內(nèi)容基本無能為力,學者們于是開始研究文本內(nèi)容推演問題。Schoenmackers在把文本內(nèi)容表示成一階謂詞邏輯的基礎上,利用自動習得的推理規(guī)則在已有知識庫上進行推演,得到新的事實以滿足用戶的知識需求。實驗顯示,受限于文本內(nèi)容抽取性能的影響,邏輯推理效果一般;同時由于推理規(guī)則學習方法的局限,當面對深層推理時性能尚不能滿足實際需求[41]。這方面的研究還比較初步。

文本內(nèi)容抽取和內(nèi)容推理技術日益受到工業(yè)界和學術界的高度關注。例如,Google自2010年收購了FreeBase后一直致力于構建相互關聯(lián)的實體及其屬性的規(guī)模巨大的“知識圖譜”。目前這個知識圖譜所包含的實體已數(shù)以億計。CMU在DARPA、NSF、Google、Yahoo!共同資助下正在開展的研究Read the Web(“閱讀互聯(lián)網(wǎng)”),致力于研發(fā)一個不停學習的計算機系統(tǒng)—NELL,不間斷地從互聯(lián)網(wǎng)上抽取和挖掘知識,以構建一個可以支持多種智能信息處理應用需求的海量規(guī)模網(wǎng)絡知識庫[42]。從2010年系統(tǒng)開始運行以來,NELL已經(jīng)收集了超過1 500萬候選事實,其中具有很高可信度的事實有將近90萬,關系和類別有810種。

互聯(lián)網(wǎng)環(huán)境的深度問答需要開放域文本內(nèi)容理解技術,分析文本所蘊含的實體、事件及其關聯(lián)演化關系等內(nèi)容信息。這涉及到開放域內(nèi)容抽取技術和內(nèi)容推演技術。開放域內(nèi)容抽取研究目前大多以實體為中心,停留在實體及其關系抽取的層面上,對事件抽取、事件關系抽取和事件關系推演方面的研究才剛剛起步。

3 結語

如上所述,近年來語言計算的國際前沿正經(jīng)歷著深刻的變化和拓展,各種重要動態(tài)如“山陰道上行,山川自相映發(fā),使人應接不暇”?!胺治龌ヂ?lián)網(wǎng)”、“閱讀互聯(lián)網(wǎng)”、“永不停止的語言學習”、“知識圖譜”,這些以前對自然語言處理而言難以想象的困難任務,目前都已經(jīng)駛入研究的軌道上了。在互聯(lián)網(wǎng)規(guī)模語言信息處理這個基本需求的“壓迫”之下,語言計算研究終于被徹底地“倒逼”出了“象牙塔”而置身于互聯(lián)網(wǎng)這個復雜巨系統(tǒng)中,帶著興奮,也無可避免地帶著幾分忐忑和迷惘。顯然,無論是挑戰(zhàn)還是機遇都是空前的,我們的學術研究能力和學術組織能力目前都很不適應,亟需鼎新求變。

《國家中長期科學和技術發(fā)展綱要》(2006~2020)中將以自然語言理解為基礎的“以人為中心”信息技術列為前沿技術。這是國家重大科技需求的體現(xiàn)。在中文信息處理領域,“分析中文互聯(lián)網(wǎng)”、“閱讀中文互聯(lián)網(wǎng)”、“永不停止的中文語言學習”、“中文知識圖譜”等與英文平行的大規(guī)模深入研究,幾乎都還沒有開展起來。中文的特點所導致的中文信息處理與生俱來的困難性,使得這些任務更加艱巨。但這種狀況也提示著我們,中文信息處理很可能正處于一個重大的創(chuàng)新窗口期。我們必須認清并瞄準國際重要前沿,迎難而上,攻堅克難,謀求中文信息處理研究產(chǎn)生實質性突破,進而占據(jù)中文信息處理技術的戰(zhàn)略制高點。

致謝

本研究受到教育部哲學社會科學研究重大課題攻關項目(10JZD0043)和國家自然科學基金項目(61170196)的支持。本文是以共同作者為主要成員的國家重點基礎研究發(fā)展計劃2013年度重要支持方向“互聯(lián)網(wǎng)環(huán)境中文信息處理與深度計算的基本理論與方法”申請團隊在項目申請時期集體思考、研討的結晶。

[1] 張鈸,自然語言處理的計算模型[J]. 中文信息學報,2007,21(3): 3-7.

[2] Tenenbaum J, Kemp C, Griffiths T, et al. How to Grow a Mind: Statistics, Structure, and Abstraction[J]. Science, 2011,(331): 1279-1285.

[3] Zhu J, Lao N, Xing E. Grafting-Light: Fast, Incremental Feature Selection and Structure Learning of Markov Networks[C]//Proceedings of SIGKDD International Conference on Knowledge Discovery and Data Mining, 2010.

[4] Kim S, Xing E. Tree-guided Group Lasso for Multi-task Regression with Structured Sparsity[C]//Proceedings of International Conference on Machine Learning (ICML), 2010.

[5] Zhu J, Xing E, Zhang B. Laplace Maximum Margin Markov Networks[C]//Proceedings of International Conference on Machine Learning (ICML):1256-1263, 2008.

[6] Ganchev K, Gra a J, Gillenwater J, et al. Posterior Regularization for Structured Latent Variable Models[J]. Journal of Machine Learning Research. 2010(11):2001-2049.

[7] Altun Y, Tsochantaridis I, Hofmann T. Hidden Markov Support Vector Machines[C]//Proceedings of International Conference on Machine Learning (ICML), 2003.

[8] Poon H, Domingos P. Unsupervised Ontology Induction from Text[C]//Proceedings of the Annual Meeting of the Association for Computational Linguistics (ACL), 2010.

[9] Cohen S, Smith N. Covariance in Unsupervised Learning of Probabilistic Grammars[J]. Journal of Machine Learning Research, 2010(11):3017-3051.

[10] Hinton G, Osindero S, Teh Y. A Fast Learning Algorithm for Deep Belief Nets[J]. Neural Computation, 2006(18): 1527-1554.

[11] Bengio Y, Lamblin P, Popovici D, et al. Greedy Layer-Wise Training of Deep Networks[C]//Proceedings of Advances in Neural Information Processing Systems 19 (NIPS 2006): 153-160, MIT Press, 2006.

[12] Ranzato M A, Poultney C, Chopra S, et al. Efficient Learning of Sparse Representations with an Energy-Based Model[C]//Proceedings of Advances in Neural Information Processing Systems (NIPS 2006), MIT Press, 2007.

[13] Hinton G E, Salakhutdinov R. Reducing the dimensionality of data with neural networks[J]. Science, 2006(313): 504-507.

[14] Seide F, Li G, Yu D. Conversational Speech Transcription Using Context-Dependent Deep Neural Networks[C]//Proceedings of the International Conference on Spoken Language Processing (INTERSPEECH), 2011:437-440.

[15] Collobert R, Weston J, Bottou L, et al. Natural Language Processing (Almost) from Scratch[J]. Journal of Machine Learning Research, 2011(12): 2493-2537.

[16] Raykar V C, Yu S, Zhao L H, et al. Learning from Crowds[J]. Journal of Machine Learning Research, 2010(4):1297-1322.

[17] Zhu J, Nie Z, Liu X, et al. StatSnowball: a Statistical Approach to Extracting Entity Relationships[C]//Proceedings of International Conference on World Wide Web (WWW), 2009: 101-110.

[18] Koo T, Carreras X, Collins M. Simple Semi-supervised Dependency Parsing[C]//Proceedings of the Annual Meeting of the Association for Computational Linguistics (ACL), Columbus, Ohio, June, 2008, 595-603.

[19] Chen W, Kazama J. Bitext Dependency Parsing with Bilingual Subtree Constraints[C]//Proceedings of the Annual Meeting of the Association for Computational Linguistics (ACL), Uppsala, Sweden, 2010, 21-29.

[20] Bansal M, Klein D. Web-Scale Features for Full-Scale Parsing[C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies (ACL), Portland, Oregon, USA, 2011, 693-702.

[21] Wong Y, Mooney R. Learning Synchronous Grammars for Semantic Parsing with Lambda Calculus[C]//Proceedings of the 45th Annual Meeting of the Association of Computational Linguistics (ACL), Prague, Czech Republic, 2007(6): 960-967.

[22] Kwiatkowski T, Zettlemoyer L S, Goldwater S, et al. Inducing Probabilistic CCG Grammars from Logical Form with Higher-Order Unification[C]//Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing, Cambridge, MA, October, 2010: 1223-1233.

[23] Liang P, Jordan M I, Klein D. Learning Dependency-Based Compositional Semantics[C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies (ACL-HLT), Portland, Oregon, USA, 2011, 590-599.

[24] Poon H, Domingos P. Unsupervised Semantic Parsing[C]//Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing (EMNLP), Singapore, 2009,8: 1-10.

[25] Rahman, V. Ng. Coreference Resolution with World Knowledge[C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics (ACL), Human Language Technologies,2011: 814-824.

[26] Lin Z, Kan M, Ng H T. Recognizing Implicit Discourse Relations in the Penn Discourse Treebank[C]//Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing (EMNLP), Singapore, 2009,8: 343-351.

[27] Wang W, Su J, Tan C. Kernel-based Discourse Relation Recognition with Temporal Ordering Information[C]//Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics (ACL), Uppsala, Sweden, 2010, 710-719.

[28] Lin Z, Kan M, Ng H T. Automatically Evaluating Text Coherence Using Discourse Relations[C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies (ACL), USA, 2011, 997-1006.

[29] Palmer M, Kingsbury P, Gildea D. The Proposition Bank: An Annotated Corpus of Semantic Roles. Computational Linguistics,2005, 31(1): 71-106.

[30] Meyers A. Annotation Guidelines for Nombank—Noun Argument Structure for Propbank. Technical report, New York University. 2007

[31] Baker F, Fillmore J, Lowe B. The Berkeley FrameNet Project[C]//Proceedings of the the Joint Conference of the International Committee on Computational Linguistics and the Association for Computational Linguistics (COLING-ACL). 1998.

[32] Xue N, Palmer M. Annotating Propositions in the Penn Chinese Treebank[C]//Proceedings of the 2nd SIGHAN Workshop on Chinese Language Processing, in conjunction with ACL’03. Sapporo, Japan, 2003.

[33] Mann C, Thompson A. Rhetorical Structure Theory: Towards a Functional Theory of Text Organization[J]. Text, 1998,8(3):243-281.

[34] Pradhan S, Xue N, OntoNotes: the 90% Solution[C]//Proceedings of the 11th Annual Conference of the North American Chapter of the Association for Computational Linguistics (NAACL). Tutorial, 2009.

[35] Wu D, Fung P. Semantic Roles for SMT: A Hybrid Two-Pass Model[C]//Proceedings of the 11th Annual Conference of the North American Chapter of the Association for Computational Linguistics (NAACL), 2009.

[36] Liu D, Gildea D. Semantic Role Features for Machine Translation[C]//Proceedings of the conference of the International Committee on Computational Linguistics (COLING), 2010.

[37] Gao Q, Vogel S. Corpus Expansion for Statistical Machine Translation with Semantic Role Label Substitution Rules[C]//Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics (ACL), 2011.

[38] Oflazer K. Statistical Machine Translation into a Morphological Complex Language[C]//Proceedings of the Conference on Intelligent Text Processing and Computational Linguistics (CICLing), 2008.

[39] Etzioni O. Search needs a shake-up[J]. Nature, 2011(476): 25-26.

[40] Etzioni O. Anthony Fader, Janara Christensen. Open Information Extraction: the Second Generation[C]//Proceedings of the International Joint Conference on Artificial Intelligence (IJCAI), 2011.

[41] Schoenmackers S. Inference over the Web[D], Ph.D thesis, Washington University. 2011.

[42] Carlson A, et al. Toward an Architecture for Never-Ending Language Learning[C]//Proceedings of the Twenty-Fourth AAAI Conference on Artificial Intelligence (AAAI), 2010: 1306-1313.

猜你喜歡
語義文本語言
語言是刀
文苑(2020年4期)2020-05-30 12:35:30
語言與語義
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
讓語言描寫搖曳多姿
累積動態(tài)分析下的同聲傳譯語言壓縮
“上”與“下”語義的不對稱性及其認知闡釋
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
我有我語言
認知范疇模糊與語義模糊
主站蜘蛛池模板: 午夜精品一区二区蜜桃| 国产成人无码Av在线播放无广告| 免费人欧美成又黄又爽的视频| 8090成人午夜精品| 久热中文字幕在线观看| 国产精品一老牛影视频| 在线日韩一区二区| 人妻精品全国免费视频| 欧美日韩另类国产| 亚洲色图欧美激情| 自拍欧美亚洲| 国产精品免费电影| 91口爆吞精国产对白第三集| 欧美三级视频在线播放| 欧美第九页| 欧洲高清无码在线| 四虎永久免费地址在线网站| 精品久久香蕉国产线看观看gif| 婷五月综合| 国产自无码视频在线观看| 国产午夜无码片在线观看网站| a毛片在线| 欧美精品影院| 日韩不卡免费视频| 国产国语一级毛片| 国产成人综合日韩精品无码不卡| 免费jjzz在在线播放国产| 国产69精品久久久久妇女| 色婷婷天天综合在线| 久久国产亚洲偷自| 久久国产精品电影| 亚洲人成亚洲精品| 亚洲大尺度在线| 99久久人妻精品免费二区| 国产又色又刺激高潮免费看 | 四虎永久免费地址| 国外欧美一区另类中文字幕| 91原创视频在线| 亚洲手机在线| 日韩免费毛片视频| 日韩精品一区二区三区swag| 亚洲三级片在线看| 老司机精品一区在线视频 | 国产精品久久自在自线观看| 亚洲乱码在线视频| 亚洲精品国产精品乱码不卞 | aaa国产一级毛片| 国产精品妖精视频| 日韩精品视频久久| 国产在线小视频| 97精品久久久大香线焦| 国产第八页| 日韩欧美色综合| 色综合天天综合中文网| 国产对白刺激真实精品91| 91蜜芽尤物福利在线观看| 成年午夜精品久久精品| 欧美 国产 人人视频| 国产福利免费视频| 国产激情第一页| 精品一区国产精品| 亚洲免费三区| 午夜精品区| 色婷婷啪啪| 五月婷婷综合色| 国产欧美日韩视频一区二区三区| 国产精品理论片| 成人国产免费| 国产精品尤物铁牛tv| 午夜无码一区二区三区| 伊人久综合| 国产成人调教在线视频| 狠狠亚洲婷婷综合色香| 亚洲精品视频免费| 97久久免费视频| 久操线在视频在线观看| 国产日韩欧美中文| 国产毛片高清一级国语| 97久久超碰极品视觉盛宴| 日韩在线1| 国产女人综合久久精品视| 一级一级一片免费|