999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

自然語言生成綜述

2006-12-31 00:00:00張建華陳家駿
計算機應用研究 2006年8期

(南京大學 計算機軟件新技術國家重點實驗室, 江蘇 南京 210093)

摘 要:自然語言生成是人工智能和計算語言學的分支,是生成可理解文本的計算機系統。從系統的健壯性、復用性和獨立性出發,詳細介紹了由內容規劃、微觀規劃和表層生成三個基本模塊構成的經典管道模型,并著重分析了內容確定、結構構造、優化聚合、選詞、提交生成表達式、內容實現、結構實現以及有關生成關鍵技術和系統建模等核心內容,最后提出了當前NLG的發展趨勢和研究熱點。

關鍵詞:自然語言生成; 內容規劃; 微觀規劃; 表層生成

中圖法分類號:TP391 文獻標識碼:A

文章編號:10013695(2006)08-0001-03

Summarization of Natural Language Generation

ZHANG Jianhua, CHEN Jiajun

(State Key Laboratory for Novel Software Technology, Nanjing University, Nanjing Jiangsu 210093, China)

Abstract:Natural Language Generation(NLG) is the subfield of artificial intelligence and computational linguistics that focuses on computer system that can produce understandable texts.In general terms, the classical model can be usefully decomposed into three component modules, as the document planner, the microplanner and the surface realiser, modularisation can make it easier to reuse and modify components. It also categorizes the processing performed by these modules in terms of content determination, document structuring, aggregation, lexicalization, referring expression generation, linguistics realization and structure realization, at last points out the new direction and hotspot.

Key words:NLG(Natural Language Generation); Document Planner; Microplanner; Surface Realize

自然語言生成是人工智能和計算語言學的分支,相應的語言生成系統是基于語言信息處理的計算機模型,其工作過程與自然語言分析相反,是從抽象的概念層次開始,通過選擇并執行一定的語義和語法規則來生成文本。通常開發運用NLG系統主要有兩個目的:①作為人們生活中的交際工具,這主要是從經濟角度考慮的,借助生成系統在生產速度、糾錯、多語言生成等方面的優勢,利用語言知識和領域知識來生成文本、分析報告、幫助消息等;②作為檢驗特定語言理論的一種技術手段,從這一角度來看,無論是在理論上還是在描述上,其工作過程都與研究自然語言本身有著緊密的聯系,涉及語言理論諸多方面的內容。自然語言生成作為理論語言學與計算語言學共同的研究課題,近年來國內NLG技術在內容規劃[1]、系統復用性[2]、人機接口[3]等方面發展尤為迅速,但在基本理論方面介紹較少,本文詳細介紹了自然語言生成系統的體系結構以及當前的發展現狀,旨在對語言生成研究有所幫助。Y′

1 NLG系統體系結構

由于經典管道模型具有較好的健壯性、復用性和獨立性,且具有廣泛的運用,下面以之來介紹NLG的體系結構。如圖1所示,模型包括內容規劃(也稱宏觀規劃)、句子規劃(也稱微觀規劃)和表層生成三個基本功能模塊,在生成過程上系統根據應用目標和用戶模式完成相應的語義表示、語法分析、話語結構實現來生成文本。多數NLG系統的體系結構隨具體應用而有所不同,對于輸出結果而言,多數NLG系統并不關心輸出數據的格式、顯示等細節問題,而僅僅是ASCII文本,對有特定數據格式和多語言要求的輸出而言,此部分工作將交由文檔表示系統(也稱后處理器)來完成。

1.1 內容規劃(Document Planner)

在NLG體系結構中,內容規劃器作為關鍵部件主要完成內容確定和結構構造兩項任務。顧名思義,內容確定主要解決生成文本表達什么內容的問題,它非常依賴于具體應用,需要大量領域知識的支持;結構構造完成對已確定內容的結構描述,即用一定的結構將所要表達的內容組織起來,更加符合閱讀和理解的習慣。從數據處理的流程來看,內容規劃器結構模型一般也有兩種設計方法[4]:①串行設計方法。內容確定組件首先標志確定的內容消息,然后結構構造器在此處理基礎上再構造結構樹。②并行設計方法,即同時對內容和結構進行規劃,兩者同步進行。串行設計方法以數據驅動為模型,內容確定和結構構造兩個組件分離,以保證修改數據時相互獨立;并行設計方法由于兩個組件同步進行,修改數據必然相互影響。

1.1.1 內容確定

(1)域建模和消息定義

從存在論的角度分析,內容規劃的關鍵是域建模,文本作為信息的載體,信息是實體屬性的說明及實體間相互關系的描述,故討論一個問題域要從域中實體的概念、類型、屬性和相互關系四個方面來進行分析和判。語言生成域建模主要包括兩項工作:①分析大量應用域的范文集,從中抽取實體集,構造文檔框架原型。文檔框架應覆蓋所需表達的全部內容,尤其是包括邊界及非正常實例。②規劃文檔框架的內容成分,即按固定成分、輸入成分和推導成分來確定內容。固定成分對應于多數應用都包含的固定內容;輸入成分來自于特定應用的實際輸入數據或知識庫的有關知識,與具體應用密切相關;推導成分對應于對輸入數據和歷史數據進行概括推理之后而得到的數據,為具體應用服務。

域建模和消息形式化表示的核心是它能表示語言。在實際應用中句子或子句表達的基本概念用消息表示,消息的邏輯形式定義有抽象語義結構、詞格框架表示、罐裝文本等多種方法[3],其相應的粒度取決于輸出文本中的類型變化,沒有必要要求所有消息粒度相同。通常,消息的形式定義主要從專家處或從成功案例中獲得,是“修改—請教—更正”的反復過程,包括以下五個步驟:

①選擇對應于目標文本的范文集。

②在對范文集進行分句的基礎上進行短語劃分,經整理后使短語對應于消息。

③對消息進行聚合。

④確定消息的邏輯形式。

⑤同專家進行交流,反復修改更正。

(2)內容確定規則和依賴因素

NLG系統的目的是使生成文本如出自專家之手,通過與專家一起對范文集進行分析、討論和校驗來形成規則,而后選擇一定的規則來確定需構造的內容。規則獲得過程描述如下:

①對范文進行分析,求出消息全集,并根據需求反復修訂消息定義。

②使消息關聯輸入數據,形成面向具體應用的消息集。通常消息關聯數據可采用直接選擇、概括和推理等方法,所獲信息分別對應于文檔內容的三種成分。

③文本按照要求可能有很多類型,且每個文本類型可能又使用多種消息。系統通過調用不同的規則來確定內容,以上確定內容的過程也是求得規則的過程,一旦規則得已確定,相應的內容也就確定了。

④同專家進行交流,擴大范文集,反復上述過程。

顯然,NLG內容確定依賴于交互目標、用戶模式、輸出約束以及知識庫,不同的需求、不同的用戶知識背景以及系統知識庫的完備與否等都將直接影響內容確定。

(3)內容規劃器的輸入/輸出

對NLG而言系統輸入也即內容規劃器的輸入,在多數應用系統中,系統輸入通常被抽象描述為四元組(k,c,u,d)。其中,k表示擁有領域知識的一個或多個數據庫和知識庫,為生成文本提供知識或數據支持;c表示交互目標,不同目標對應不同的內容和結構,系統能根據不同目標進行響應;u表示用戶模式,不同的用戶對生成文本有不同的要求,通過指定用戶類型、適應用戶變化,使生成文本更具個性化;d表示歷史描述,用于記錄用戶與系統交互的歷史信息。內容規劃的處理結果是規劃文本,描述文檔的基本內容和結構,其典型結構是一棵結構,相應樹的葉子節點對應于用消息表示的相應文檔的具體內容,內部子節點對應于文檔的結構,可直接映射到文檔的段落、章節等。

1.1.2 結構構造

文檔不是句子的隨機組合,只有經一定結構的表示才能方便用戶更好地閱讀和理解全文。對NLG而言,如果輸出語義由單句子表達(如記錄類型輸出),就不需要考慮比句子更復雜的結構。除此以外,如果要考慮多行文本的輸出就必須考慮文檔結構,具體地說,文本能被分析成樹型結構。結構構造的主要任務就是構造結構樹,用樹中葉子節點表達具體消息,內部節點描述四項內容,包括消息如何按照相應主題聚合、消息順序、消息組之間的關系、哪些消息對應于段落或章節。有時結構構造部件僅能指定以上部分信息,其余部分交給微觀規劃器處,具體構造方法隨不同生成技術而有所不同,通常包括自上而下和由下而上兩種構造方法。

1.1.3 內容規劃技術

在諸多實際應用中,盡管宏觀規劃、微觀規劃和最后文本實現有許多差別,但是通常使用技術是差不多的,開發人員可根據生成文本所要表達能力的強弱來選擇不同復雜程度的生成技術。當然,同一生成技術用于不同任務時,它使用的數據結構和實現方法也有所不同,有許多應用系統在不同的生成階段采用不同的生成技術,使采用的技術應盡可能符合實際需求。目前一般有四種文本自動生成技術,即模板生成技術、模式生成技術、短語/規劃擴展技術和屬性特征生成技術。下面主要介紹模式生成技術和短語/規劃擴展技術[5]。

(1)模式生成技術(又稱Schema技術)

Mckeown的Schema技術是基于語言學中的修辭謂詞(Predicate)來表達文本結構的一種方法,它采用Predicat來描述文本結構的規律,是文本的骨架表示,在該表示中也明確了話語中主題的表達順序。文本都是由命題組成的,命題是指一個句子或者一個從句,Predicate根據文本中的命題進行分類,每個命題都被歸納為特定的Predicate。對同類型文本而言存在著一些標準的Predicate組合模式來表示文本的結構,這種模式就稱為Schema。其相應結構樹中節點通常分為五種類型:Root, Schema, Predicate, Argument和Modifier。其中,Root是樹的根節點,表示一篇文章。每個Root下面有若干個Schema子節點,一個Schema表示一個段落或句群,Schema下面的子節點可以繼續是Schema,也可以是Predicate。一棵以Predicate為根的子樹表示一個句子,它是文章的基本單位,句子中每一個基本語義成分均是Predicate的一個子節點,用Argument表示。若Argument有修飾成分,則用子節點Modifier標志。Argument或Modifier是樹的葉子節點,樹中每個節點都含有若干個槽,用來標志各種信息以供生成使用。下面以一個詳細的例子來說明內容規劃的過程:如中央氣象臺發布1996年10月10日17點鐘上海市天氣預報[1]。我們為每個節點定義了六個槽,分別表示節點類型、具體數據、語義特征、語義角色、內部標志以及節點個數,如下所示:

{Schema,HeadIllustration,Paragraph,Empty,Empty}<1>,

//此段只有一句構成

({Predicate,發布,HeadIllustration(Main),ReportHead,Empty}<4>,

//此句共四個主要成分

{Argument,1996.10.10,Date, Tim, Empty}<0>),

({Argument,點鐘,Time, Tim, Empty}<1>,

({Modifier,17,Number, Num, Field}<0>,)),//表示修飾

({Argument,天氣預報,ReportType, Obj, Empty}<1>,

({Modifier,上海市, PlaceName, Mod, Field}<0>,)),

//表示修飾

({Argument,氣象臺,StationName, Age, Empty}<1>,

({Modifier,中央,Location, Mod, Field}<0>))//表示修飾

Predicate的最大特點就是表達簡潔,不受文本篇幅的限制,用Schema表示的文本結構具有層次,即Schema可以遞歸嵌套。

(2)短語/規劃擴展技術(又稱RST生成技術)

RST(Rhetorical Structure Theory)生成技術是基于Mann和Thompson 提出的關于描述文本結構的修辭結構理論,RST理論認為文章的各部分無論是子句還是更大的組成單位之間都是由一些為數不多、反復出現的關系按照一定的層次內聚在一起的。多數NLG生成系統包含一個修辭關系集,而與具體應用對應的關系集是其子集。RST關系有NucleusSatellite和 MultiNucleus 兩種模式。其中Nucleus Satellite模式包括核心部分(Nucleus)和附屬部分(Satellite),核心部分表達基本命題,附屬部分表達一個附屬命題,多用于描述目的、因果、轉折、背景等關系;MultiNucleus模式涉及一個或多個語段,它沒有附屬部分,多用于描述順序、并列等關系。下面的例子簡單地說明了修辭結構樹的節點結構:

(Node);

其中,節點間的修辭關系;代表父節點,代表子節點,均對應于句子或子句;是與中的直接父節點具有修辭關系的節點所起的修辭作用(Nucleus和Satellite)。

1.2 微觀規劃(Microplanner)

通常,內容規劃并沒有完全指定輸出文本的內容和結構,微觀規劃的任務就是進一步明確定義規劃文本的細節,具體包括選詞(Lexicalization)、優化聚合(Aggregation)、提交生成表達式(Referring Expression Generation)等工作。微觀規劃的輸出是文本描述(Text Specification),但其仍然不是最終輸出文本,仍有句法、詞法等特征需進一步處理。一般文本描述的層次結構仍然對應于邏輯結構,需經過文本表示系統實現邏輯結構向物理結構(段落章節)的映射,才能最終生成文本。圖2和圖3分別給出了微觀規劃的黑板模型和管道模型,其中管道模型運用較多,也易于實現。

1.2. 選詞(Lexicalization)

在應用中,特定信息必須根據上下文環境、交互目標和實際因素(如人的知識背景或作強調等特定處理)用詞或短語來表示。選擇特定的詞、語法結構以表示規劃文本的信息意味著對規劃文本進行消息映射,有時只有一種選詞方法用來表示信息或信息片段,在多數系統中允許有多種選詞方法。如Lexicalize(Spell)是遞歸過程,其中Spell是時間間隔參數,算法必須對Spell進行分析判斷,根據Spell間隔長度以確定調用不同的類(詞)描述Spell。

1.2.2 聚合(Aggregation)

為了能夠消除句子間的冗余信息,增加可讀性以及能從子句構造更復雜的句子,在微觀規劃中應用了聚合技術,通常按照粒度區分有句子、詞匯、語義、修辭和概念聚合等[6]。從語言角度來看,最好理解的聚合類型是句子聚合。目前,實現句子聚合有四種方法:①簡單連接。直接利用連接詞對多個句子(或子句)進行組合。連接詞的選擇將依賴于信息間的修辭關系,因簡單連接沒有改變內部成分的語法和詞匯內容,故其非常適用于離表層生成較近層次的運用。②經共享成分連接。如主語相同、賓語相同或行為相同,保留相同部分且僅出現一次,而將其他成分進行聚合。當然具有相同成分是否就可以合并呢?顯然聚合操作必須了解語義,僅僅是字面上相同是不夠的。③經共享結構連接。子句具有相同的結構,且僅個別成分不同,通過插入連接詞連接不相同成分來進行聚合。④句法修飾。這是最復雜的聚合形式,它主要是對語義進行概念上的有界合并和無界合并。聚合是非常有目的地縮短文本的機制,因此語義簡明和樸素易懂是選擇聚合機制的基本要求。在許多應用中聚合使句子語義更加復雜化,但實際上有時并不需要,所以聚合應具體針對系統目標,隨應用而定。

1.2.3 提交生成表達式

論域是實體的集合,而實體是具體或抽象的討論對象,用名詞短語表示。在實現選詞和聚合之后,對提交成表達式的工作來說,就是讓句子的表達更具語言色彩,對已經描述的對象進行指代以增加文本的可讀性。重復性稱謂實體具體就是利用代詞、固定名、完整或縮略名詞短語來指代實體。名詞短語通常包括確指名詞短語和非確指名詞短語,固定名詞和代詞都是確指句詞短語的子類。通常,非確指句詞短語用來描述首次提及的實體,而隨后實體的提及用確定性名字短語表示。在生成系統實現指代的處理中,一方面指代應注意避免歧義和指代不當,有時過度咬文嚼字往往不實用,也應盡量避免信息冗余。

1.3 表層生成(Surface Realize)

表層生成主要涉及結構實現和語言實現兩部分內容,具體地講就是將經微觀規劃后的文本描述映射至由文字、標點符號和結構注解信息組成的表層文本。生成算法首先按主謂賓的形式進行語法分析,并決定動詞的時態和形態,再完成遍歷輸出。其中,結構實現完成結構注解信息至文本實際段落、章節等結構的映射;語言實現完成將短語描述映射到實際表層的句子或句子片段。一般而言,NLG系統并不關心輸出數據的格式等細節,而直接由文檔處理系統將邏輯結構映射至表示設備。換句話說,我們能利用文檔處理系統如Word或其他網頁瀏覽器作為后處理器來生成物理文檔。

2 自然語言生成發展與現狀

自然語言生成迄今已走過了近四十年的歷程,在這段時間里,從事該領域研究的專家們不斷提出新的理論和方法,設計出新的生成模型,使語言生成的研究不斷取得新的進展。目前語言生成的研究側重于以下幾個方面:①在特定的語法理論框架內更加廣泛深入地處理語言現象,如Fawcett的GeneSys生成系統。②在同一語法環境下生成多語言,例如英國Stirling大學的Nigel多語種生成系統(包括英語、德語、日語、法語、荷蘭語、西班牙語),上海交通大學的多語言天氣預報發布系統。③面向實際應用的開發,如國內有北京交通大學和北京頤和園的導游系統、中國科技大學的機器人足球現場解說系統[7]以及人機接口[8]等;國外的有英國inburgh大學Michaelo’ Donnell所設計的在線文件剪接系統。④在生成過程中對所要表達的信息進行語義和句法方面的聚合亦是目前研究重點之一。當前語言生成的研究方向主要是在語言表示形式、信息內容規劃以及語言生成模型等[9]方面。自然語言生成的研究將繼續在諸多語言學科、計算機領域和其他學科的通力協作下獲得新的成果。

3結束語

本文對自然語言生成的體系結構進行了介紹,重點對內容規劃、微觀規劃和表層生成三個基本模塊的設計以及內部核心功能部件進行了詳細描述,受篇幅限制,不當之處請予以指正。

參考文獻:

[1]郭忠偉,徐延勇,周獻中.基于Schema和RST的自然語言生成混合規劃方法[J].計算機工程, 2003,29(6):113-115.

[2] 黃友能.可移植的自然語言生成系統中知識庫的設計[J].北京交通大學學報,2004,28(5):20-23.

[3] 許龍飛,楊曉昀,唐世渭.基于受限漢語的數據庫自然語言接口技術研究[J].軟件學報,2002,13(4):537.

[4] EhudReiter, Roberty Dale. Building Natural Language Generation Systems[M]. Cambridge University Press, 2000.

[5] Daniel Jurafsky, James H Martin. Speech and Language Processing[M]. Prentice Hall, 2005.

[6] 張冬茉,李錦乾,等.漢語自然語言生成的句子結構優化[J].計算機工程,1998,24(7):16.

[7] 許華東,劉貴金,陳小平,等.一個機器人足球現場解說系統[J].計算機工程, 2002,28(3):179-181.

[8] 沈軍,顧冠群. CIMS領域中面向問題的自然語言人機接口研究[J].微機發展,2002,12(6):43-47.

[9] 陳華,韓近強,鄧海清,等.面向特定領域人機對話模型研究與實現[J].計算機工程與應用,2004,40(26):82-85,100.

作者簡介:張建華(1973-),男,碩士研究生,主要研究方向為自然語言生成、自動文摘;陳家駿(1963-),男,教授,博導,研究方向為自然語言處理和軟件工程。

注:本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文。

主站蜘蛛池模板: 看你懂的巨臀中文字幕一区二区| 青青草原偷拍视频| 国产精品成人啪精品视频| 国产极品美女在线播放| 亚洲色图欧美在线| 日韩精品高清自在线| 久久综合久久鬼| 狠狠亚洲婷婷综合色香| 黄色片中文字幕| 国产精品三级专区| 在线观看免费黄色网址| 天天综合网色| 久热这里只有精品6| 97一区二区在线播放| 久操中文在线| 亚洲AⅤ波多系列中文字幕| 国产成人一区| 美女无遮挡免费网站| 日韩中文欧美| 精品国产乱码久久久久久一区二区| 国产微拍一区二区三区四区| 亚洲人成网址| 91久久性奴调教国产免费| 69综合网| 久久国产热| 日本国产精品一区久久久| 亚洲午夜国产精品无卡| 欧美亚洲欧美| 国产凹凸一区在线观看视频| 国模极品一区二区三区| 九九九九热精品视频| 国产精品七七在线播放| 中文字幕欧美日韩高清| 丝袜亚洲综合| 91精品福利自产拍在线观看| 国产精品55夜色66夜色| 怡春院欧美一区二区三区免费| 无码中字出轨中文人妻中文中| 久久天天躁狠狠躁夜夜2020一| 亚洲视屏在线观看| 国产欧美亚洲精品第3页在线| 91外围女在线观看| AV色爱天堂网| 国产精品三级专区| 97青青青国产在线播放| 视频在线观看一区二区| 东京热av无码电影一区二区| av大片在线无码免费| 亚洲 成人国产| 青青草原国产av福利网站| 狠狠躁天天躁夜夜躁婷婷| 欧洲av毛片| 九色综合视频网| 午夜不卡福利| 久久成人国产精品免费软件| 无码专区国产精品一区| 亚洲人网站| 欧美激情视频二区| 国产又黄又硬又粗| 国产99视频精品免费视频7| 亚洲最新网址| 五月天久久综合国产一区二区| 福利视频99| 成人国产精品一级毛片天堂 | 2019国产在线| 久爱午夜精品免费视频| 国产成人精品免费视频大全五级| 亚洲无码熟妇人妻AV在线| 国产国语一级毛片| 波多野结衣中文字幕一区| 亚洲成人在线免费观看| 国产精品视频系列专区| 无码中字出轨中文人妻中文中| 国产综合精品一区二区| 亚洲人成影视在线观看| 日日摸夜夜爽无码| 日日噜噜夜夜狠狠视频| 无码啪啪精品天堂浪潮av| 一级毛片免费的| 又粗又硬又大又爽免费视频播放| 日本高清在线看免费观看| 中日无码在线观看|