胡苑艷,陳莉萍
(1.西安外事學院 民辦教育研究所,西安 710077;2.南京師范大學 外國語學院,南京 210097;3.復旦大學 博士后流動站,上海 200083)
修辭結構理論與漢語篇章結構
胡苑艷1,陳莉萍2,3
(1.西安外事學院 民辦教育研究所,西安 710077;2.南京師范大學 外國語學院,南京 210097;3.復旦大學 博士后流動站,上海 200083)
國外一批計算語言學研究者為開發語篇結構自動生成系統,以修辭結構理論為支撐,對大量英語語篇進行標注后發現,語篇中的修辭關系應加以限制,語篇的抽象結構應為樹型圖式。這些國外研究成果帶動了漢語篇章結構研究的發展,漢語語篇也應由基本語篇單位構成,其抽象結構也應為樹型圖,但基本語篇單位的切分并不是以引導從句的連詞或短語為標記而是以逗號為切分點。在對語篇中的修辭關系進行分析時,可套用修辭結構理論的關系集。
修辭結構理論;基本語篇單位;修辭關系;漢語篇章結構
語言學與計算語言學領域的研究者早就意識到自然語篇不是小句或句子的簡單組合,語篇內含有復雜的篇章結構。研究者們紛紛從不同的角度對此進行過研究,有些研究著重于篇章中基本語篇單位,有些研究挖掘基本語篇單位之間的關系,還有一些研究試圖建立篇章總的結構圖。然而,所有這些研究都是零星的,集中于某一方面。最近,國外一批計算語言學研究者為了開發語篇結構自動生成系統,對自然語篇結構作了全面的研究。他們以Mann和Thompson的修辭結構理論為支撐,對大量的英語語篇進行標注,最后發現任何篇章都是由基本語篇單位組成,基本語篇單位不會相互重疊,而且有核心與輔助之分,各個層級的基本語篇單位之間都存在著修辭關系,這個關系最好以樹型圖顯示。這一研究成果為漢語篇章結構研究帶來很多啟發。
首先,國外的研究將促使我們對漢語篇章結構進行深入研究。漢語中對字、詞、句的研究遠遠多于對篇章的研究,到目前為止還沒有產生較為完善的漢語篇章結構理論。其次,國外的研究將使我們思考如下的問題:漢語語篇的抽象結構是什么?該抽象結構是否能用樹型圖表示?漢語篇章的基本語篇單位是什么?語篇單位之間存在什么關系?這些關系與具體的詞匯語法體現是否有相關性?本文將試圖回答這些問題。
國外研究者已經針對篇章的抽象結構作了大量研究,研究主要通過對篇章結構進行標注,并在標注基礎上進行相關的歸納和總結來完成。研究結果表明:篇章的抽象結構或為樹型或為曲線狀。Carlson等在對語篇結構進行標注時,以修辭結構理論為支撐,同時對語篇單位間的修辭關系加以種種限制,最后篇章的總結構圖呈樹型。Wolf和Gibson在對語篇結構進行標注時,沒有對語篇單位間的修辭關系加以限制,則最后篇章的總結構圖呈曲線狀。因此,Marcu認為兩者之間存在的主要差別在于對語篇單位間的修辭關系所加限制的強與弱[1]。
Marcu曾做以下試驗來比較兩者之間孰優孰劣。
以下是6個基本語篇單位:
(0)Farm prices in October edged up 0.7%from September,
(1)as raw milk prices continued to rise,
(2)the Agriculture Department said.
(3)Milk sold to the nation's dairy plants and dealers averaged$14.50 for each hundred pounds,
(4)up 50 percent from September and up$1.50 from October 1988,
(5)the department said.
堅持篇章結構為樹型的研究者認為,以上6個基本語篇單位可被分為兩個語段,(0)-(2)組成第一語段,(3)-(5)組成第二語段。第一個語段為核心語段,第二個語段作為輔助語段,用具體事實對第一個語段進行解釋闡述。另外,第一語段中的3個基本語篇單位可被分為兩個層次,(0)-(1)為第一層次,(2)為第二層次。第一層次為核心層,第二層次隸屬于第一層次,為輔助層。第二語段中的3個基本語篇單位同樣也可被分為兩個層次,(3)-(4)為第一層次,(5)為第二層次,隸屬于第一層次。在(0)-(1)中,(0)為核心語篇單位,(1)是(0)的原因,為輔助語篇單位,在(3)-(4)中,(3)為核心單位,(4)對(3)作進一步闡釋,為輔助單位。它們的總結構圖如圖1:

圖1 樹型結構圖
堅持篇章結構為曲線狀的研究者則認為,除了上述修辭關系外,(3)-(4)對(1)是一種闡釋,而(2)與(5)間具有相似性,因此總結構圖應如圖2:

圖2 曲線結構圖
以上兩幅圖代表了兩類對于篇章抽象結構的不同研究視角。圖1中的信息似乎不如圖2豐富,曾有研究者通過計算得出結論,認為圖1省略了約12%的信息。然而,Marcu認為這12%的信息是人們在正常閱讀過程中能夠推斷出的信息,無需明確標出。若語篇中的修辭關系被無限制地標出,則過于復雜的修辭關系將會使得篇章總體結構無法生成。
從國外關于篇章結構研究的總體趨勢上來看,研究者較傾向于限制語篇中基本語篇單位間的修辭關系,他們認為篇章的總結構圖應以樹型顯示。從計算語言學的角度來說,樹型結構圖更便于形式化。
漢語篇章結構的相關研究數量不多,目前也缺乏較完善的理論,但根據國外研究成果可以推斷出,漢語篇章結構與英語篇章結構并沒有質的區別。篇章結構是語篇中作者與讀者之間交際意圖的體現。雖然在具體的詞匯語法體現中,不同語言之間存在差別,但意圖間的修辭關系一致。因此,筆者認為漢語篇章結構的總體結構圖應為樹型。這也符合傳統漢語的研究結論,漢語復句的抽象形式就呈現的是有層次之分的樹型圖式。
堅持漢語篇章抽象結構為樹型圖就意味在對漢語語篇進行標注時,應當對語篇中的修辭關系加以限制。具體的限制方法可以采用由Marcu[2]提出的兩種限制模式:弱限制模式與強限制模式。弱限制模式是指,若語篇中的兩個語段間存在修辭關系,該關系可以用兩個語段所體現的語言關系或非語言關系加以解釋,其中語言關系指的是語段的語義體現,非語言關系指的是語段所體現的實體、作者和讀者的信念、態度和目標等。這一論點與Hovy[3],Moore和 Paris[4],Moore[5]的研究結果保持一致。
請看摘自湯正華的《機器人世界》中的一段話:
(0)目前,最大的機器人是美國制造的。(1)1974年曾用它來打撈一艘重4千噸的潛水艇,它的機器手可以把90米長的潛水艇從海底攔腰抱起。(2)最小的機器人用在日本精工手表裝配線上。(3)這種微型機器人,如同百貨商店玩具柜里最小的洋娃娃一般大。(4)它纖細的手臂和靈巧的小手指,十分精確地把一個個機芯裝在流水般送來的一只只小手表殼里。(5)我國也生產了機器人,在我國西南原子反應堆上,機器人用那靈活的手,在人們無法接近的核輻射環境中,不知疲倦地處理著核燃料和核廢物,工作得十分出色。[1]
這是一個摘自自然語篇的自然段落,由6個自然句組成。我們可以將這6個自然句分為3個語段,第一語段由(0)-(1)組成,第二語段由組成(2)-(4),(5)為第三語段。第一語段與第二語段間存在對比關系,將第一和第二語段結合起來看,它們與第三語段間同樣存在著對比關系。語段之間的修辭關系可用各語段所建立的抽象結構加以解釋,此為弱限制模式。舉個例子:第一與第二語段間存在對比關系,該對比關系能通過美國與日本兩個國家的概念對比來體現,也可以通過“潛水艇”與“洋娃娃”這兩個實體間的抽象概念對比來體現。除了抽象概念以外,語段中的語義關系也可以對語段間的關系加以解釋,例如第一語段中的“最大”與第二語段中的“最小”存在著明顯的對比關系。
若兩個語段中存在修辭關系,該關系可以用這兩個語段中至少兩個最重要的核心語篇結構之間的相似關系加以解釋,此為強限制模式。同樣以《機器人世界》為例。第一語段由(0)和(1)組成,前者為核心語篇單位,后者對前者進行例證,為輔助語篇單位。第二語段由(2)-(4)組成,(2)為核心語篇單位,(3)和(4)對(2)進行例證,為輔助語篇單位。第一語段與第二語段之間的對比關系完全可以由(0)和(2)這兩個核心語篇單位間的關系加以解釋說明。
強限制模式與弱限制模式的根本區別在于,強限制模式突顯了語言的構造。弱限制模式提出語言關系和非語言關系可以對語段間的修辭關系加以解釋,但迄今為止,尚未有任何研究成果指出如何才能準確無誤地從文本中解析出非語言關系[1]。
基本語篇單位是篇章結構中的核心要素,篇章結構抽象圖式或篇章總結構圖都是基本語篇單位之間關系的體現。基本語篇單位研究應包括確定基本語篇單位的界限、確立基本語篇單位的屬性、闡述基本語篇單位之間的關系。
在確定基本語篇單位時,不同的研究者往往運用不同的理論。Givon[6]認為從句應該成為語篇的基本單位;Sacks[7]認為談話的話輪應該成為語篇的基本單位;Polanyi[8]堅持語篇應該以自然句為切分單位;Grosz和Sindner[9]認為語篇的基本單位應該從語篇的上下文中獲取,它是由一定的符號所反映的信息載體,能反映事物的單個狀態或部分狀態;最有影響的修辭結構理論認為從句應該是語篇的基本單位,不管從句有沒有語法標記或詞匯標記。
然而,在具體標注時,Marcu[2]等研究者對基本語篇單位進行了新的規定:所有有詞匯或句法標記的起狀語作用的從句都屬于基本語篇單位,包括起狀語作用的非謂語動詞詞組;充當主語、賓語、補語的從句不屬于基本語篇單位;定語從句、后置的名詞修飾短語或將其他基本語篇單位割裂開的從句或非謂語動詞短語為內置語篇單位;除此而外,還有一定數量的有明顯語篇標記的短語作為基本語篇單位,如由in spite of(盡管),according to(根據)等引導的短語。
雖然Marcu的切分方法被許多計算語言學領域的研究者所采用,理論也相對全面,但因為他的理論產生并運用于英語語篇,而英語語篇與漢語語篇之間存在著一定差異,所以在研究和確定漢語基本語篇單位時不可以完全照搬他的理論。在英語語篇中從句或充當從句的短語十分明顯,但漢語語篇中從句往往是隱性的。例如:
海關和國稅部門的執法人員,一上班便會打開電腦,看電子監督系統是否提示自己有過錯;廣東省撤消了799支不合格執法隊伍,清退不合格人員1.1萬多人;公安部去年查閱各類執法卷宗23萬卷,整改1.3萬余個執法問題……去年7月,國務院辦公廳下發《關于推行行政執法責任制的若干意見》,正式在全國推行行政執法責任制。一年來,該制度成為約束行政執法者的“緊箍咒”,讓依法行政、科學行政落到實處,提高行政水平和效能。[10]
整個自然段包含三層含義:《意見》執行細節,《意見》下發,總結《意見》的效果。然而,段落中沒有明顯的連詞標記。相反,段落中的標點符號發揮著切分和連接語篇單位的作用。在“海關和國稅部門的執法人員……有過錯”中,第一個逗號將動作的執行者與具體動作以及對象隔開,凸顯動作執行者。第二個逗號將具體動作與動作的目的隔開,以凸顯目的。在“海關和國稅部門……整改1.3萬余個執法問題”三句話中,分號起著連接的作用,連接三個具體執行《意見》的細節。句號、問號、感嘆號往往作為句子的終結點表示句子意義的結束。
在現代漢語中,雖然各種標點符號都各有其責,但逗號具有特殊的用途。通常情況下,逗號是用來分隔語篇單位的,被逗號分開的語篇單位都含有語句要素,以及概念層次網絡理論中所指的核心語義塊,或是特征要素、作用者、對象和內容,或是手段、工具、途徑、比照、條件、原因、結果和目的,或是時間、空間等要素,要不被逗號隔開的就是這些語句要素的組合。例如在“一年來,該制度成為約束行政執法者的‘緊箍咒’,讓依法行政、科學行政落到實處,提高行政水平和效能”這句話中,第一個逗號將時間要素與核心語篇單位隔開,該核心語篇單位是語句要素的組合,第二個逗號將核心語篇單位與目的要素隔開,第三個逗號將兩個并行的目的隔開。
一般情況下,被逗號隔開的語篇單位都以單句或相當于單句的短語結構形式出現,因此,逗號本身就起著單句切分的作用。鑒于逗號在現代漢語語篇中的特殊功能,筆者堅持逗號作為最基本語篇單位的切分標記。
所謂語篇單位的屬性,就是指確定基本語篇單位之間的主輔關系。Mann和 Thompson[5]以詞匯和語法標記,特別是連接詞來確定基本語篇單位之間的主輔關系。例如,凡是有從屬連詞連接的狀語從句都為輔助語篇單位,沒有連詞連接但發揮狀語從句功能的非限定性動詞短語都為輔助語篇單位等。
漢語語篇中連接詞出現的概率相對較低,如果僅僅靠語法標記詞來確定主輔關系難度較大。事實上,可以從另一個角度來確定主輔關系。根據概念層次網絡理論,自然語言語義體現于三組概念,這三組概念分層次以網絡化的形式呈現,它們是基元概念語義網絡、基本概念語義網絡、邏輯概念語義網絡。基元概念語義網絡的一級節點分為兩大類,一類是主體基元概念,另一類是復合基元概念。主體基元概念有6個一級概念節點,分別是作用、過程、轉移、效應、關系和狀態,它們構成作用效應鏈。復合基元概念主要涉及人類活動,共設置了8個一級概念節點,根據人類活動的語境特征劃分為3個層次,即生理本能活動、一般理智活動和社會性活動。基本概念語義網絡共有9個一級概念節點:序及廣義空間,時間,空間,數,量與范圍,質與類,度,客觀的基本屬性,含主觀評價的基本屬性。邏輯概念語義網絡分為兩類:一類是語言邏輯概念,大體上相當于漢語的虛詞;另一類是基本邏輯概念,有兩個一級概念節點,即比較和基本判斷。
就基元概念語義網絡與基本概念語義網絡來講,前者為主后者為輔,因為人類活動及事物的發生和發展是自然界的主體,而時間、空間等是為主體服務的背景因素。在三大概念語義網絡中,邏輯概念語義網絡兼有主輔兩種特征。當邏輯概念相當于漢語中的虛詞時,含有該邏輯概念的語篇單位為輔助性的。當邏輯概念表現為比較或基本判斷時,體現該邏輯概念的語篇單位為主體性的,因為比較和判斷系人類思維活動。
就每一個概念語義網絡本身而言,所有一級節點概念為主體性的,而二級節點的概念為輔助性的,因為后者往往是對前者作進一步的補充說明。依此類推,就二級和三級節點的概念而言,前者為主體性的,而后者為輔助性的。處于同一層次的概念節點,一般情況下,它們是并列的,但主體基元概念是例外。
主體基元概念有6個一級概念節點共同構成作用效應鏈,但它們有主次之分。作用存在于一切事物的內部和相互之間,作用必然產生某種效應,在達到最終效應之前,必然伴隨著某種過程或轉移。如果把作用效應鏈比作為是一趟行程,那么作用是起點,效應是終點,中間伴有過程、轉移、關系和狀態。對于具體的行程,起點以及中間的諸因素都很重要,但達到目的地是最重要的。因此,在作用效應鏈中,作用永遠是輔助性的,而效果永遠是主體性的。在作用與過程等因素之間,作用是輔助性的,而過程等是主體性的。在過程等因素與效應之間,過程等因素為輔助性的,而效應為主體性的。在具體的過程、轉移、關系和狀態之間,可能沒有主次之分是并列的,也有可能是某一因素導致另一因素的產生,那么前者為輔助性的,而后者為主體性的。
比較與判斷也與作用效應鏈中的6個概念節點處于同一層次。一般情況下,當作用效應鏈中的某一概念節點與比較判斷共現時,含有比較判斷的語篇單位往往為主體性的。
決定語篇單位之間的主次地位是一項很復雜的任務,其中涉及到諸多的因素,但總的原則是:人類活動與事物的發生與發展為主,時間空間等因素為輔;結果為主,原因為輔;總述為主,細節為輔;實現的結果為主,實現的過程為輔。
修辭關系是指文本的作者在表達中組織思想觀點的模式,該關系也體現了語篇中概念連接的方式。對于語篇的修辭關系,特別是思想觀點的組織模式,國外研究者對英語語篇進行了大量的研究。他們認為語篇中修辭關系,是由語言本身的功能,即概念功能、人際功能、語篇功能決定的。相比較而言,漢語在這方面的研究還較缺乏。既然語言的三大功能在語種上沒有差異,因此,筆者認為在分析漢語語篇結構時可以采用Mann和Thompson提出的修辭關系。他們在研究中明確指出,修辭關系是一個開放性的關系集,所謂開放性的,就意味著讀者在給定話語的內部可以定義出其他的關系類型。Marcu[2]根據標注的語料庫總結出53種單層核心關系以及25種多層核心關系,該78種定義關系又被分為16個組別,每組具有的修辭功能均相同。我們可以以此類推,漢語語篇中的修辭關系也可以擴展。
基本語篇單位之間的修辭關系與語法詞匯實現之間存在一定的相關性。英語語篇中修辭關系通常借助于引導從句的連詞實現的,漢語也是借助于一定的語言形式,盡管并非全部是連詞或連詞性短語。例如,漢語語篇中的解證關系常用的詞語為:像、如、例如、比如(說)、舉例(說)、據說、這就是說、也就是說、換句話說、用通俗的話來說、那就是(說)、所謂、意思是(說),可以說、當然、總之、總而言之等等。即使以語意來接應的也會體現于一定的詞匯語法現象中,例如運用反復辭格或重復關鍵性詞語等。
綜上所述,漢語語篇與英語語篇一樣,是由基本語篇單位構成的,其抽象結構也是樹型圖,有所不同的是,基本語篇單位的切分不是以引導從句的連詞或短語為標記而是以自然句的逗號為切分標記。在闡述漢語語篇中基本語篇單位的屬性和修辭關系時,可以套用修辭結構理論的定義關系集,并根據漢語語篇的特點進行擴充和完善。
[1]陳莉萍.漢語語篇結構標注面臨的挑戰與對策[J].南通大學學報:社會科學版,2008(5):76-82.
[2]Marcu D.The Theory and Practice of Discourse Parsing and Summarization[M].Cambridge:MIT Press,2000.
[3]Eduard Hovy.Automated discourse generation using discourse structure relations[J].Artificial Intelligence,1993,63(1/2):341-386.
[4]Johanna Moore,Cecile Paris.Planning text for advisory dialogues:capturing intentional and rhetorical information[J].Computational Linguistics,1993,19(4):651 -694.
[5]Johanna Moore.Participating in Explanatory Dialogues:Interpreting and Responding to Questions in Context[M].Cambridge:MIT Press,1995.
[6]Talmy Givon.Topic continuity in discourse[C]∥Topic Continuity in Discourse:a Quantitative Cross-Language Study.Amsterdam:John Benjamins,1983:1 -41.
[7]Harvey Sacks,Emmanuel Schegloff,Gail Jefferson.A simple systematics for the organization of turntaking in conversation[J].Language,1974,50:696 -735.
[8]Livia Polanyi.A formal model of the structure of discourse[J].Journal of Pragmatics,1988,12:601 -638.
[9]Barbara Grosz,Candice Sidner.Attentions,intentions,and the structure of discourse[J].Computational Linguistics,1986,12(3):175-204.
[10]陳莉萍.關于英語語篇結構標注研究綜述[J].外語與外語教學,2007(7):9-10.
Rhetorical Structure Theory and Chinese text structures
HU Yuan-yan1,CHEN Li-ping2,3
(1.Research Institute of Private Higher Education,Xi'an International University,Xi'an 710077,China;2.School of Foreign Languages and Cultures,Nanjing Normal University,Nanjing 210097,China;3.Mobiles Station for Post-doctors,Fudan University,Shanghai 200083,China)
In order to develop automatic summarization systems,a group of computational linguists annotated a large number of English texts on the basis of Rhetorical Structure Theory,from which they inferred that rhetorical relations between elementary discourse units should be restricted and the abstract structures of texts should be tree-type graphs.This result has brought profound implications for the research on Chinese text structures.Based on the research done by foreigners,it can be concluded that Chinese texts consist of elementary discourse units and their abstract structures should be tree-type graphs.However,what is different is that elementary units in Chinese texts are signed by comma instead of subordinate clauses beginning with functional words or phrases.In the course of analysis of Chinese texts,Rhetorical Structure Theory can be referred to or even applied directly.
Rhetorical Structure Theory;elementary discourse unit;rhetorical relation;Chinese text structure
H315
A
1009-3907(2011)01-0039-05
2010-12-02
上海市哲學社會科學規劃課題研究基金項目(2006EYY002)
胡苑艷(1984-),女,江蘇南京人,研究員,助教,英國愛丁堡大學碩士研究生,主要從事語言學及應用語言學研究;陳莉萍(1966-),女,江蘇鹽城人,教授,博士研究生導師,博士后,主要從事語言學及應用語言學研究。
責任編輯:柳 克