999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

敘事性文學作品的情節自動分析方法

2020-07-20 07:18:32楊江劉嬌萍甘苗
語文學刊 2020年3期
關鍵詞:分析

○ 楊江 劉嬌萍 甘苗

(湖南科技大學 外國語學院,湖南 湘潭 411201)

一、引 言

敘事性作品是以記敘事件或講述故事為主要特征的一類文學作品,承擔著敘述故事情節、刻畫人物形象、解釋現實世界的基本功能[1]239,又分為虛構性和非虛構性敘事作品,主要包括小說、劇本、童話、寓言、神話、編年史、報告文學、日記等。情節是敘事性作品中表現人物之間相互關系的一系列事件的發展過程,一般包括開端、發展、高潮和結局四個部分。情節分析是理解和欣賞敘事性文學作品最重要的手段。

一直以來,對于敘事性文學作品的情節分析,人們采用的唯一方法是人工閱讀,即通過人對作品的閱讀活動來了解和掌握情節,從而或獲得對敘述內容的深入理解,以達成對文學的審美需求,或進一步總結和歸納情節的結構規律和演化模式,以實現對敘事本身進行研究的目的。無論是讀者還是研究者,人工閱讀的方法都能準確、深刻、相對全面地理解作品的情節,是理想、可行、最為人接受的方法。隨著數字人文(digital humanities)的興起和大數據時代的到來,學界和業界對敘事性作品中與情節相關的信息產生了新的需求,使得人工閱讀的方法逐漸顯露出一些力所不逮之處,這主要體現在四個方面:(1)工作所需涉及的資料和數據在數量上均大大超過了人工閱讀所能處理的范疇;(2)不能引入計算分析的方法,通過大量數據的匯集使研究結論“自動涌現”[2-3];(3)難以開展和實施更宏觀、長歷時的集群研究;(4)不易從海量作品中挖掘新的信息。因此,探索一種基于機器閱讀的新的情節分析方法,使其既能適應時代需要和滿足各種需求,又能彌補人工閱讀固有的局限性,是非常必要的。

文學研究中的敘事理論,尤其是經典敘事學中的結構主義敘事學,對敘事性作品的情節分析具有直接的指導作用。從普洛普歸納的民間故事中的7種人物角色和31種人物行為功能,到后來敘事學家建立的敘事結構和敘事語法[4-6],都為情節分析提供了理論上的支持。此后,萊恩在《可能的世界、人工智能與敘事理論》一書中借鑒人工智能的分析方法,描述了不同體裁的敘事作品的結構特征[7],又為敘事性作品的自動化分析方法的有效性提供了有力的證據。另一方面,結合自然語言處理技術和社會網絡分析理論進行文學作品人物關系分析的相關研究,為情節自動分析展示了方法上的可能性。其中,Still分析了莎士比亞戲劇中的人物關系,證明其具有同現實社會網絡相同的“小世界”屬性[8];Elson著重探討了從19世紀英國小說中自動抽取人物關系方法的有效性,并證實都市和鄉村兩種背景下的小說在社會網絡結構上不具有文學研究者通常所認為的顯著差異性。[9]可以說,前述三類研究為情節自動分析在理論、方法和可行性上做出了有益的探索,具有啟發和借鑒意義,是本文工作開展的基礎。但頗為遺憾的是,就情節自動分析而言,這些研究相對分散,未能默契、緊密地串接在一起,因而也不能形成一個相對統一的研究框架和路徑。從這個角度看,國內外學界至今未見有同類研究。

基于上述背景,本文提出一種基于人物關系演變的敘事性文學作品情節自動分析方法,該方法在較少人工干預的情況下,利用自然語言處理技術,基于敘事學、語言學、社會網絡分析理論,對敘事性文學作品的敘事過程進行探索性分析,以達到自動推理敘事過程的發展和演變的目的。需要特別指出的是,本文所指的“情節分析”,是針對敘事過程的開端、發展演變和結局所進行一種探索性分析,與傳統意義上的情節分析相比,在深度和廣度上有所局限,屬于淺層的情節“理解”。

本文的研究價值和意義在于:(1)研究方法具有創新性。文章運用計算語言學常用的自然語言處理技術,借鑒文學、語言學知識和理論以及社會科學的計量、統計、計算的研究方法,對小說情節進行自動分析。(2)研究內容較為深入,研究領域歸屬新興交叉學科。本文針對小說情節展開,是實質性的文學研究范疇;在研究方法上綜合運用自然語言處理技術、文學知識和理論、語言學知識和理論、社會網絡科學知識等,屬新興交叉學科。(3)本文有望建立一套研究文學作品的“外部”方法。(4)本文成果能有效促進文本分析、內容挖掘、自然語言處理等相關研究。

二、敘事性文學作品的情節結構

文學敘事(narration)用話語虛構社會生活事件的過程,敘事的構成一般通過敘述內容、敘述話語和敘述行為三個方面進行分析。其中,敘述內容即構成一段敘述話語主題的故事內容, 是被講述的故事, 包括事件、情節、人物、場景等[1]242。這些敘事要素之間的關系較為復雜,但如果將情節看作故事內容中的“動態”要素,是統領故事發展的上層單位,那么事件、人物和場景則是相對“靜態”的下位組成單位;而如果暫且舍棄故事內容中的其他要素不談,對故事的分析則可近似等同于對情節的分析,如圖1所示。這是本文的第一個假設。

圖1 敘事內容分析的層次結構

情節是按照因果邏輯組織起來的一系列事件[1]244,但事件不是孤立存在的。敘事作品中的事件,絕大多數具有社會性,其活動主體通常是人物,他們參與到事件當中,成為推動事件發展的行動要素。缺乏人物的事件則喪失了社會性,只能稱作自然現象。事件還包括人物的動作行為以及由此產生的結果。事件的發生要在一定的場所或環境下進行,由此形成一個個場景。可見,對事件的分析需要融合人物和場景,才能更加準確地把握情節。當然,倘若從人物的角度來看情節,道理也是相同的,即需要把事件和場景因素考慮進去。將事件做切分,可以得到情節的組成單位——情節單元(motif),它們敘事完整,是事件、人物和場景相互交錯的綜合體,是情節分析的最小單位,如圖2所示。這是本文的第二個假設。

圖2 情節的構成

情節按照事件敘述的順序在時間的線條上展開。情節單元在時序上的綿延,實現了敘事要素從靜態到動態的轉變;在特定時點或時段,情節單元占據著一定的空間,容納著事件、人物和場景以及它們內部和相互之間的關系。如果說情節是動畫電影,那么情節單元則是電影膠片,而時間的流動就如放映機,使情節單元展示出動態的效果。情節具有時空二維屬性,是本文的第三個假設,如圖3所示。

圖3 情節的時空結構

在上述假設的前提下,本文提出一種基于人物關系演變的敘事性文學作品情節自動分析方法。以下對該方法進行具體闡述。

三、基于人物關系的情節自動分析方法

本文采用的情節自動分析方法主要包含情節單元切片、人物關系抽取、情節信息抽取、情節單元歷時分析等步驟,自然語言處理技術貫穿各環節。工作流程如圖4所示。

圖4 基于人物關系的情節分析工作流程

(一)情節單元切片

情節單元切片涉及兩個主要問題:切片依據和切片數量。情節單元占據時間和空間,因而可以從時、空兩個角度進行劃分,從而得到情節單元切片。相對而言,根據空間的不同劃分情節單元,具有更廣的適用性,這一點可以從話劇尤其是舞臺劇場景變化的必要性和重要性中得到參照。切片的多少決定了分析的精細程度,切片越多,掌握的情節發展細節就越多,分析的復雜度也隨之相應地增加;切片越少,對情節運動過程的掌握就越少,遺漏的細節信息就越多。一般來說,敘事性作品的篇幅越長,包含的情節單元的數量也越多,為降低分析的復雜度,可以通過適當增大切片的厚度來減少情節單元的數量。對于長篇作品,也可以依據作品本身既有的章節劃分進行切片。

由于文本時間和故事時間可能不一致,在對情節進行切片后,需要依據故事時間重組情節單元切片,使可能存在的各種逆時序敘述(倒敘、插敘)還原成順時序結構。

(二)人物關系抽取

單個獨立的情節單元可以從多個角度著手分析,但最終都應歸納出事件、人物和場景三個要素,以構建動態的情節時空演變鏈。相對而言,從人物關系入手是一種更為適宜和妥當的視角。首先,敘事作品建構的情節通常被約束在一個虛擬化社會的范疇內,具有社會屬性,而社會學所關注的一個重要方面即是個體之間的關系,因而可以用社會分析方法來分析敘事作品的情節。其次,人具有社會性,虛擬社會亦是如此,社會性的本質是關系,因此,探討人物實質上就是探討人物關系。人物關系是一種社會網絡,可以采用社會網絡分析法考察。再次,事件是人物的活動,人物是事件的主體;場景是事件發生的場所和環境,也是人物活動的空間。所以,事件和場景可以統籌在人物之下,而且這些信息在有人物出現的上下文中總能獲得。最后,一般而言,不同的事件有不同的參與者,事件的發展變化導致人物關系的變化。因此,在某些情況下,可以將事件的進程簡化為人物關系的演變。

為避免混淆,以下給出人物關系的工作定義。

定義1:人物關系是敘事性文學作品中人物之間的社會關系。

根據我們對30余篇中外小說和童話作品的考察和統計發現,人物關系又可具體分為六種:(1)對話關系,即人物之間產生了對話;(2)動作關系,即人物之間存在的主動施為動作;(3)共現關系,即多個人物同時出現在某一時空內;(4)提及關系,即人物對話或心理活動中提及的不在現場的一方;(5)情感關系,即人物之間對非己方持有的情感;(6)其他關系,即不屬于上述五種關系中任何一種的其他關系。

定義2:人物關系表示成點和線的連接。

其中,點代表人物,線代表人物之間的某種關系。一個情節單元中的人物關系構成一個社會網絡。這里的“網絡”,是圖論中的概念。在圖論中,“圖”是一系列頂點和把各個頂點連接起來的連線組成的集合,“網絡”則是由一張圖和附加在圖的點線之上的信息兩部分構成的。本文中圖表示的是人物關系網絡的結構,附加信息指事件和場景。

(三)情節信息抽取

情節信息抽取完成從情節切片中得到場景和時間信息、從人物關系網絡中得到人物和事件信息的任務,并將其用模板結構表示,使信息組織結構化。事件的歸納推導是這個環節的關鍵任務,事件由多個動作組成,動作具體明確,而事件相對抽象,需要一定的歸納和推導。結構主義敘事學對童話故事中的事件進行過總結,其他類型的敘事文學則更多有賴于先驗知識庫。我們采取的策略是先枚舉后決策,依據主要人物的活動軌跡進行推理,難以決策的事件則留待歷時分析步驟解決,少數情況輔以人工干預。

(四)情節單元歷時分析

重組后的情節單元按照自然時間的秩序在時間和空間兩個維度上鋪開,從人物關系的演變入手,通過對單元之間組合發展的歷時性考察,可以推導出完整的情節表層結構。歷時性考察不僅指從敘事的開端到結尾的貫穿,也包含對情節單元的階段性分析;考察的對象可以是故事中的全體人物,在有的情況下,也可依據由其他技術手段或先驗知識獲得的中心人物及其關聯人物之間的社會關系作局部分析,以減少待分析的數據量,或得到更多的微觀信息。歷時分析完成后即生成情節梗概。

為實現上述分析方法,自然語言處理技術的調用必不可少,其中許多技術在此過程中起著關鍵性的作用,直接關系著分析結果的有效與否和好壞程度。命名實體抽取是對人名、地名、時間表達式等的識別和處理,與情節中的人物、場景、時間等對應,是本文中最重要的語言技術。事件抽取關系著情節中的事件要素,動作、對話抽取以及情感分析則決定著人物關系的分析。此外,一些基礎性的自然語言處理技術,比如詞法和句法分析,也影響著以其為前提的相關技術。

四、實驗結果及討論

我們設計了兩類實驗對基于人物關系演變的情節自動分析方法進行驗證。第一類實驗是對方法的驗證,目的是考察其可行性,同時為了排除現有語言技術水平的局限可能帶來的不利影響,所用數據是人工標注的語料;第二類實驗是對方法的應用,目的是考察其有效性。以下分別對實驗結果進行討論。

(一)情節自動分析方法的驗證

實驗數據為10篇來自《格林童話》和《安徒生童話》的故事,語料文本均為英譯本,收集自互聯網(網址:http://www.24en.com/novel/children/)。原始語料使用Stanford POS Tagger[10]進行詞語切分和詞性賦碼,輸出為xml格式的待標文本后,交由三名英語專業研究生標注。標注完成后再從結果文本中抽取出各類情節信息,生成對應的時間網絡(temporal network)數據,運用社會網絡分析(Social Network Analysis)軟件Pajek[11]進行分析。限于篇幅,以童話故事《灰姑娘》為例闡述實驗結果。

依據標注結果,《灰姑娘》中共有10個人物、10個場景。其中,主要人物Cinderella出現在除場景8以外的所有場景中,Prince出現在場景4至10中,Step-sisters出現在場景2至8和場景10中,Stepmother則出現在場景1至2和4至8中。圖5和圖6是按場景切分的情節單元的歷時變化圖。

圖5 《灰姑娘》情節單元歷時變化圖(上)

圖6 《灰姑娘》情節單元歷時變化圖(下)

我們將《灰姑娘》的故事按照事件、場景和人物在時空維度上排列鋪開,把具體的故事情節抽象成一幅幅靜態的圖像,稍微發揮想象,讓這些圖像依次“放映”,就不難獲得整個故事的情節:生母逝世→灰姑娘受到繼母和繼姐妹的不公對待→參加舞會前她被刁難→王子在舞會上對灰姑娘一見鐘情→王子三次尋找灰姑娘→假新娘兩次被發現→王子找到灰姑娘→繼姐妹婚禮上受到懲罰。在此基礎上,我們還可以為其添加更多的信息,這類細節信息越多,人們所理解的情節內容也就越豐富。例如,在上圖中,我們為主要人物增加了一些與其他人物的情感關系,附加在人物關系的連線上,從而得知了他們之間的“敵友”關系。通過類似方法的不斷累積,我們對情節內容的把握也就漸趨接近真實的情節了。

從上圖我們不難發現,人物關系的變動體現為關系網絡結構的差異,這或反映了事件的變化,或反映了場景的更迭。首先,人物的出現和退出表示了事件的異動。人物Mother僅出現在場景1中,表明該場景的事件是導致其退出故事的原因。其次,人物關系變動越劇烈,事件的相似度就越低,如場景1和2;人物關系變動越少,事件的相似度就越高,如場景6和7。再次,主要人物總是出現在更多的關系網絡中,如Cinderella和Prince,而次要人物則體現為較少的場景和關系數量,如Mother。因此,關系網絡結構的差異主要體現為不同次要人物與固定的主要人物之間的關系變化,如場景3和4。最后,多數情況下,不同的事件具有不同的場景,所以人物關系的變動還反映了場景的更迭,如場景9和10。

運用本文的分析方法獲知童話故事的情節,《灰姑娘》并非特例。同樣的方法對其他九篇童話故事的分析實驗,都得到了良好的結果,證明了基于人物關系演變的情節分析方法是可行的。但實驗結果也表明,篇幅較短的故事,如《萵苣姑娘》《女水妖》,分析的結果不如篇幅較長的;人物較少的故事,如《小紅帽》,分析的結果不如人物較多的;場景切分過細的標注文本,分析結果不如相對較粗的,如《魔鬼的三根金發》,標注者切分出了16個場景,多數場景中只有一兩對人物關系,少數場景中的人物關系卻很多,造成了信息分布的不均衡,對結果造成了較大影響,可見情節單元切分對情節分析方法的重要性。

使用童話故事作為實驗數據,一是考慮到人工標注的繁重工作量,二是因為童話故事情節結構的簡潔性。其他類別的敘事性文學作品的情節可以通過倒敘、插敘等方法的運用呈現出高度的復雜性,但仍然可以通過層次切分和敘事時間的調整進行組合拼接,因而其通常只對技術造成困難,并不妨礙方法的使用。

(二)情節自動方法的應用

本類實驗的對象是長篇小說《簡·愛》,文本來源于Project Gutenberg(網址:http://www.gutenberg.org/ebooks/1260)。我們使用Stanford CoreNLP[12]對原始文本進行詞性賦碼、命名實體識別和依存句法分析后,對部分命名實體的標注結果做了簡單的修正,使人名和地名保持一致,最后仍采用Pajek軟件分析數據。圖7是《簡·愛》的人物關系整體網。

圖7 《簡·愛》人物關系整體網

《簡·愛》以第一人稱視角敘述故事,共分38章,按文本既有的章節劃分,我們得到38個“場景”。由于這種情況下的“場景”是通常理解的多個場景的復合體,可稱其為“復合場景”。圖8和圖9是第1和38章復合場景的人物關系圖。

圖8 《簡·愛》復合場景1的人物關系圖

圖9 《簡·愛》復合場景38的人物關系圖

通過考察人物關系整體網和各個復合場景網絡中頂點的度與點度中心性,可以大致探求出《簡·愛》的主要人物,如簡·愛、羅切斯特、貝茜、里德太太、李維斯等,其中,中心人物是女主人公簡·愛。以簡·愛為中心頂點(圖中標簽為“I”的頂點)輻射出來的連線,其數量多少表示某一復合場景內部情節的復雜度,其大小體現人物間互動的強度,其長短在本文中可以理解為人物間的親疏程度。這些數據為人物關系分析提供了基礎信息。

復合場景中由于人物關系的復雜性,對主要場景和重要事件的識別和歸并造成了困難。我們對問題進行了簡化,通過僅分析與中心人物存在連線的辦法來確定主要場景,通過歸并僅與中心人物存在連線的人物之間發生的頻次較高的事件的辦法來確定重要事件,每個環節都輔以少量的人工查驗和修正。將所有復合場景按形如圖10的樣式進行整合,再配上場景名稱和主要事件,小說的情節脈絡便不難掌握。

圖10 《簡·愛》復合場景5的人物關系圖

實驗過程中也發現了一些問題。我們結合圖8、9、10作簡要說明。

第一,同前所述,人物關系的變化意味著場景或事件的更迭,在《簡·愛》中,相同的場景下人物關系網絡也發生了變化,但事件卻不盡相同。如第1至4章的主要場景都是蓋茨海德莊園,但在此發生的多個事件推動了情節的發展。第二,Stanford CoreNLP對人名共指消解的處理仍不能令人滿意。如圖8中的Georgiana Reed、圖10中的Maria Temple以及圖9中的Jane都未能歸并為一個頂點。第三,復合場景中對主要場景和重要事件的識別和歸并是情節自動分析的一個難點。我們的簡單處理方法導致將復合場景1的主要場景名稱分析為“客廳”,回查文本后發現如果不結合全文幾乎無法將其正確歸納為蓋茨海德莊園。第四,按文本自然章節進行情節單元切片的做法非常粗糙,使得重要場景的變更無法被識別,會導致嚴重的分析錯誤。圖10中實際包含了從蓋茨海德莊園到孤兒院兩個場景的轉換,但當主要場景被分析為孤兒院后,會錯誤地得出貝茜跟隨簡·愛一同來到孤兒院。對上述問題的改善是我們下一步研究的重點。

五、結 語

數字人文的興起和大數據時代的到來對文學內容的理解提出了新的需求。為使機器閱讀小說成為可能,本文對敘事性文學作品的情節結構進行分析后認為:(1)對故事的分析近似等同于對情節的分析,其中情節分析包含對事件、人物和場景的分析;(2)情節單元在時間的線條上展開,占據一定的空間,容納事件、人物和場景,是組成情節的最小單位;(3)一般而言,人物關系的演變或體現了事件的發展,或反映了場景的變更。在此基礎上,本文探討了基于人物關系演變的敘事性文學作品的情節自動分析方法,通過場景和事件對情節單元進行切片,繼而運用自然語言處理和社會網絡分析技術,在歷時的層面上推理敘事過程的開端、發展演變和結局。本文最后設計了兩類實驗對上述方法進行驗證,結果表明,基于人物關系演變的敘事性文學作品的情節自動分析方法具有較高的可行性和一定程度的有效性。

本文提出的方法以自然語言處理技術為基礎,但囿于該領域當前技術水平的局限,在某些環節上仍需輔以人工干預,部分結果尚不能令人滿意。此外,該方法在細節問題的處理上仍存在一些不足,有些問題如事件抽取、歸并和重要度計算等限于時間精力未能涉及,因而需要在分析的廣度和深度上進一步加強探索,這些都為未來的工作指明了方向。

猜你喜歡
分析
禽大腸桿菌病的分析、診斷和防治
隱蔽失效適航要求符合性驗證分析
電力系統不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
電力系統及其自動化發展趨勢分析
經濟危機下的均衡與非均衡分析
對計劃生育必要性以及其貫徹實施的分析
現代農業(2016年5期)2016-02-28 18:42:46
GB/T 7714-2015 與GB/T 7714-2005對比分析
出版與印刷(2016年3期)2016-02-02 01:20:11
中西醫結合治療抑郁癥100例分析
偽造有價證券罪立法比較分析
在線教育與MOOC的比較分析
主站蜘蛛池模板: 中文无码精品A∨在线观看不卡 | 久久久久九九精品影院 | 色哟哟国产精品| 青青青草国产| 最新国产成人剧情在线播放| 亚洲AV电影不卡在线观看| 亚洲AⅤ永久无码精品毛片| 国产成人超碰无码| 日韩A∨精品日韩精品无码| 国产chinese男男gay视频网| 中文字幕第4页| 97se综合| 欧美日韩精品在线播放| 在线观看热码亚洲av每日更新| 国产99久久亚洲综合精品西瓜tv| 五月六月伊人狠狠丁香网| 国产乱人免费视频| 色婷婷在线播放| 91在线播放免费不卡无毒| 国产亚洲男人的天堂在线观看| 国产成人精品2021欧美日韩| 伊人无码视屏| 91九色视频网| 亚洲精品福利视频| 日本不卡在线| 激情综合婷婷丁香五月尤物| 91网红精品在线观看| 久久婷婷五月综合色一区二区| 夜夜拍夜夜爽| 亚洲女同一区二区| www.91在线播放| 麻豆国产精品视频| 为你提供最新久久精品久久综合| 国产九九精品视频| 欧美日韩高清| 中国丰满人妻无码束缚啪啪| 熟女成人国产精品视频| 色香蕉网站| 欧美性色综合网| 91久久国产综合精品| 四虎影视国产精品| 亚洲无线国产观看| 东京热一区二区三区无码视频| 色哟哟国产精品| 久久久久无码国产精品不卡| 日韩毛片免费观看| 国产一级裸网站| 亚洲精品在线观看91| 国产无码性爱一区二区三区| 亚洲中文字幕久久无码精品A| 久热中文字幕在线观看| 亚洲av无码成人专区| 日本www在线视频| 亚洲日韩Av中文字幕无码| 国产成人亚洲毛片| 第一页亚洲| 亚洲精品天堂自在久久77| 久久黄色免费电影| 亚洲综合香蕉| 成人小视频网| 精品国产自在在线在线观看| 不卡视频国产| 日韩国产高清无码| 91在线视频福利| 亚洲欧美日韩天堂| 天天视频在线91频| 美女一区二区在线观看| 毛片免费观看视频| 亚洲无卡视频| 丰满的少妇人妻无码区| 狠狠色噜噜狠狠狠狠色综合久 | 亚洲人成网站18禁动漫无码| 不卡的在线视频免费观看| 国产微拍一区| 熟妇无码人妻| 国内精品久久人妻无码大片高| 日韩最新中文字幕| 伊人激情综合| 国模沟沟一区二区三区| 国产精品偷伦在线观看| 欧美成人免费午夜全| 婷婷五月在线视频|