時季
摘 要: 本文從畢飛宇和蘇童兩人的作品中分別選取了四本影響力比較大的小說組建成語料庫來作為本次實驗的語料來源,選取出50多個可量化統計且具有穩定性的語言特征,進行聚類分析,發現,若以語氣詞(啊、嗎、呀等)、標點符號(逗號、句號、分號、問號、感嘆號等)和實詞詞類(名詞、動詞、形容詞、副詞等)這些語言特征為基礎的話得到的結果比較好,說明這些語言特征在區別畢飛宇和蘇童的小說時具有區別性作用。
關鍵詞: 計算風格學 文本風格 聚類分析 SPSS
1.引言
計算風格學是使用統計、計算的方法來對特定文學作品風格進行精密的比較研究是一門學科,是一門交叉型學科,是數理語言學的一個分支,涉及到語言學、計算機、數理學等多個學科。其理論基礎為認為文本的語言特征表現了作者個人在寫作活動中的言語特征,是作者個人風格不自覺的深刻反映[1],并且這些特征又可以在一定程度上通過數量特征來進行刻畫,關于這一點,有學者進行了實驗驗證[2]。因此,相較于傳統的內省式的研究文學作品風格的方法,計算風格學的方法具有獨特的優勢,比如對已得出的定性結論的正確性進行驗證,為已有的定性結論提供數據支撐,這樣,不僅能夠彌補傳統的文學作品風格研究方法客觀性不足的問題,而且能夠使研究結論從模糊的定性判斷走向了準確的數量展示,增加研究結論的科學性。因此,目前國內外已經有很多學者開始使用這樣新的研究方法對文學作品的風格進行研究。
因為計算風格學的方法是通過量化文本中的語言結構單位來刻畫、研究語體、作品或作家的風格,所以,最重要的地方在于提取出能代表或區分不同風格的語言特征,并且這些特征一定是可被量化統計且能夠穩定出現的。目前,已經提出、證實能夠代表作家作品風格的、能夠穩定出現的可量化統計語言特征主要是從詞匯、句子、段落、語法、語義等五個方面來進行提取的,其中從詞匯和句子兩個層面來提取語言特征的情況最多,這主要是因為現在中文自動分詞、詞性標注、命名實體標注等技術相對來說比較成熟。同時,受限于現在語義標注技術的不成熟,計算風格分析中關于語義方面的語言特征的選取、分析目前還很少,同樣的,在篇章層面進行計算風格分析的情況也很少。
關于計算風格學的研究方法,經歷了從簡單地統計某些特定語言結構單位的出現頻率,到引入t檢驗、卡方檢驗等假設檢驗統計量,再到使用典型相關分析、主成分分析、因子分析等多元統計方法的發展歷程,目前最前沿的研究方法是利用機器學習領域中的文本聚類和文本分類模型來實現計算機基于作品風格的自動文本區分[3]。因此,聚類分析是目前文本風格研究中一種比較新穎、重要的研究方法。聚類分析是一種無監督的機器學習方法,所謂無監督的機器學習方法即無需預先對文本進行人工標注,也不需要訓練過程,而是將文本之間的距離作為衡量之間相似度的標準,最終將文本集合分組成多個類或簇,使得同一個類中的文本具有較高的相似度,而不同類之間的文本內容差異較大。而本文將采用聚類的方法對畢飛宇和蘇童兩位作家小說的語言風格進行比較研究。
從畢飛宇和蘇童方面來看,這兩位作家都是國內當代有分量的江蘇籍男性作家,且兩人年齡相近,在創作主題方面都比較關注女性的命運。在他們的作品中,既有先鋒文學的創作,又有新寫實的描摹,既有對歷史的思考,又有對當下生活的關注。但是,目前對畢飛宇、蘇童小說的風格研究大多屬于“文藝風格學”,關注點主要放在作品思想情感、意象、藝術性等方面。本文將使用聚類分析的方法來對兩位作家的語言風格進行比較研究。
2.實驗
2.1語料選擇
本文選取畢飛宇與蘇童各自最具有代表性的四部小說建立語料庫,分別為畢飛宇的《玉米》、《推拿》、《青衣》、《平原》,共約53萬字和蘇童的《妻妾成群》、《米》、《黃雀記》、《河岸》,共約58萬字。然后,對畢飛宇和蘇童各自的語料進行自動分析、詞性標注處理和人工校對。因為語料庫的質量直接關系到最后實驗結果的準確性,因此該部分任務很重要。
表1 畢飛宇、蘇童所選文本字數統計
2.2語言特征的選擇
在前面引言中提到過,在使用計算風格學的方法對文學作品的風格進行比較分析時,無論采用何種具體的實驗方法,都需要先進行語言特征的提取。語言特征的提取是真個實驗最基礎也是最重要的部分。在提取語言特征時,詞匯層面包括詞長分布、詞長變化程度、詞類的使用情況(實詞、虛詞)、高頻詞的使用、詞語使用上的差異、詞頻統計、詞性標記、詞的位置、詞序、單現詞、N元屬性等,句子層面的語言特征包括句子的平均長度、標點符號比、句類分布、句式分布和句型分布等。本文主要是從字符、詞匯、句子等方面進行了語言特征的提取、統計,最后共提取到50多個語言特征,涵蓋實詞詞類、虛詞、高頻詞、句長等多個方面。但是,并不是所有的語言特征都具有區別性作用,因此,在進行聚類分析時,經過多次的實驗,最終發現語氣詞、標點符號和實詞詞類這三個語言特征在區分畢飛宇和蘇童兩人小說的風格特征時具有區別性作用。
2.3聚類分析
聚類分析能夠基于數據自身的信息來對數據進行分類,在計算風格學的研究中經常使用,能夠表現不同的作品之間的相似性的大小從而可以對不同風格的作品之間的差異進行比較分析。通過文本聚類,可以清楚地反映出不同類的文本在所選特征項上的總體差異。本文使用的統計分析軟件SPSS(20.0版)中的聚類分析功能來對畢飛宇、蘇童兩位作家的作品的風格差異進行分析。在SPSS中,聚類分析主要包括層次聚類法,非層次聚類法和兩步聚類法,其中非層次聚類主要是k-means聚類,在本次實驗中使用的是層次聚類法。
層次聚類的方法首先要確定距離的基本定義和距離計算方式,相關的計算方式在SPSS中有多達30余種,其中比較常用的有歐式距離、歐式平方距離、Pearson相關性等,本文中使用的是Pearson相關性。根據運算的方向,層次聚類法可以被分為合并法和分解法兩大類,這兩類方法的運算原理相同,只是方向相反而已,在SPSS中提供的是合并法,其具體過程為首先,將各聚類單位各自作為一類(n類),按照定義的距離計算方式計算各數據點之間的距離,形成一個距離陣。其次,將距離最近的兩個單位并為一個類別,形成n-1個類別,再計算新產生的類別和其他各類別之間的距離或者相似度,形成新的距離陣。如果類別個數大于1,則繼續重復這一步驟,直到所有的數據都被合并為一個類別為止[4]。
2.3.1分析時具體過程
首先是數據錄入,將之前統計得到的語言特征分別錄入進SPSS中,為后續的分析做準備。數據錄入之后,如果數據取值存在較大差異,那么需要對數據進行標準化處理,其中k-means聚類需要事先手工進行數據的標準化處理,而層次聚類法則不需要,建立好的數據如圖1、圖2所示。然后,根據SPSS中各種聚類方法的操作步驟對選取的語言特征進行聚類分析。
在這個例子中選取的是語氣相關語言特征的使用頻次,因此選擇的有兩位作家作品中的能表示語氣的標點符號和語氣詞,但是由于在進行聚類分析的時候不能出現字符串,所以文本名稱和語言特征都用數字進行了代替。1-4分別是畢飛宇的《玉米》、《推拿》、《青衣》、《平原》,5-8分別是蘇童的《妻妾成群》、《米》、《黃雀記》、《河岸》。每列所表示的含義在變量視圖中的標簽列可得到清楚的展現。因為本文中選用的是層次聚類的方法,所以只在數據錄入后沒有進行標準化處理。
其次,根據SPSS中層次聚類方法的步驟方法進行操作,得出聚類分析的結果。并選擇樹狀圖來進行結果呈現,這是因為樹狀圖的可讀性最強,通過它,可以直觀地考察整個聚類過程和結果。在進行操作時,距離的計算方式為Pearson相關性而不是歐氏距離或平方歐氏距離,這主要是因為就本次實驗而言,較于歐氏距離或平方歐氏距離,使用Pearson相關性得出的結果更合理,效果更好,即Pearson相關性更好用。這可能是因為聚類分析本質上是一種統計描述方法,沒有過多的統計理論的支持,也沒有統計檢驗對聚類結果的正確性“負責”,僅僅是按照所定義的距離將數據進行歸類而已。因此,從應用的角度講,針對某個特定問題很難得出一個完全確定,并且也能夠得到理論完全支持的結論,更多的時候,我們是在根據聚類結果在問題中的“有用性”來判斷模型效果的好壞。
層次聚類分析的步驟為“分析”——“分類”——“系統聚類”,然后,將要分析的變量選入“變量”列表框,將“聚類”選項組切換為“變量”單選按鈕。注意距離的計算方式選為“Pearson相關性”,結果的展示方式選為“樹狀圖”。
2.3.2結果及分析
①基于語氣相關語言特征的層次聚類
語氣是在進行文本風格分析時經常會考慮到的一個方面,不同作家在其作品中會體現出各自獨特的語氣特點,有的作家語氣平緩,有的作家語氣強烈,這些語氣都會在文本中得到展現。而在計算風格學中,我們可以通過一系列不同的語言特征對作品中體現出來的作家的語氣特點進行量化的統計展示,例如在本次實驗中使用的語言特征為句號、感嘆號、問號和一些感嘆詞,“嗎”“啊”“呀”等。對語氣相關語言特征的層次聚類的結果如圖3所示。
圖3的縱坐標為兩位作家的八篇代表作品,其中畢飛宇的是前四部,蘇童的是后四部,橫坐標是不同類之間的距離,例如1和3(即《玉米》和《青衣》)之間的距離為0-5之間,1,3,2,4這一類和5,6,7,8這一類之間的距離為25。通過這個樹狀圖可以很清楚的看到就語氣相關語言特征來看,畢飛宇和蘇童的作品文本風格差異很大,很明顯,畢飛宇的作品與蘇童的作品各成一類,據此,可進行兩人作品的文本風格方面的分類。而這,也與已有的關于蘇童和畢飛宇的研究結論相符。在以往的研究中一般認為蘇童作品語氣比較強烈,抒情性表述較多,而畢飛宇的作品在敘事時語氣比較平穩,語氣表達不如蘇童強烈。此外,在這個樹狀圖上,也可以看出來聚類的過程。除了圖3的樹狀圖之外,在SPSS中,也會自動輸出一個顯示聚類過程的圖表,如圖4所示,在這個圖表中可以看出來這次聚類一個進行了7次,每次的結果是怎樣的。
②基于標點符號語言特征的層次聚類
標點符號是句子組織結構的一個重要表現,同時標點符號的停頓含義使得它成為構成文本節奏的重要因素,因此,標點符號成研究文本風格時的一個重要的特征。在國內的文本風格研究中,也經常使用標點符號來分析作者的風格。在本實驗中,針對畢飛宇和蘇童的作品選取了11種標點符號,分別是頓號、分號、句號、問號、感嘆號、雙引號、單引號、破折號、省略號和冒號,將這11種標點符號在兩個作家的文本中出現的頻次錄入SPSS中進行層次聚類,聚類結果如圖5所示。
圖5是使用層次聚類法得到的聚類結果的樹狀圖,與圖3一樣,縱軸仍然表示的是八部小說,橫軸表示的是不同類之間的距離。從圖5可以看出來畢飛宇和蘇童的作品在標點符號這個語言特征上具有很大的區別性,也就是說畢、蘇二人在標點符號的使用習慣上差別很大,這兩類之間的距離達到最高值,25,而二人各自的小說是聚為一類的,相似性很大。將這一結論對應到二人的作品當中,我們發現蘇童在作品中會經常省略雙引號,其中省略雙引號又集中在直接引語方面。蘇童被稱為是“先鋒派作家”,在先鋒派作家中,在直接引用時省略雙引號的并非蘇童一人。這種省略了引號的直接話語句在西方被稱為“自由直接引語”,它是敘述干預最輕、敘述距離最近的一種形式,能使讀者直接接觸到人物的“原話”,因此“自由直接引語”常常與意識流、內心獨白聯系到一起,所以讀完蘇童的小說,可以直接感受到人物的性格。在畢飛宇的作品中,在直接引用時省略雙引號的數量則大大減少。此外,基于標點符號的層次聚類和基于語氣相關語言特征的層次聚類的聚類順序不同。
③基于實詞詞類的層次聚類
在一個語料庫內,每類實詞出現的頻次也是在進行文本風格研究時經常使用的一個語言特征,在本次實驗中,主要選擇了畢飛宇和蘇童作品中的名詞、動詞、形容詞、數詞、量詞、代詞、副詞、介詞、助詞、連詞、方位詞等11類詞進行統計,統計他們各自出現的頻率,然后進行層次聚類,其結果如圖6所示:
根據圖6可以看出在實詞使用這個方面,畢飛宇和蘇童均自成一類,內部具有很高的相似性,但兩者之間的差距很大,相似性低。根據之前詞類頻次的統計結果可以看出來蘇童的作品使用實詞的頻次要高于畢飛宇,實詞是用來表達意義的,具有很強的傳遞信息的能力[5],因此,我們可以說,蘇童的小說以意義表達為主,信息性強。
3.小結
本文借助統計分析軟件SPSS對畢飛宇和蘇童的小說文本風格比較進行了聚類分析,結果顯著,即聚類分析能夠清楚的顯示在某一語言特征上幾部作品之間是否有差異,差異有多大。在本文的實驗中,是以畢飛宇和蘇童兩位作家的部分作品為語料資源,通過對這些語料資源的簡單的統計分析,提取出可用的語言特征,再進行下一步的文本聚類。文中展示了語氣相關的語言特征、標點符號以及實詞詞類等語言特征的層次聚類分析,使用SPSS中的樹狀圖輸出結果,清楚的顯示了在這三個語言特征上,畢飛宇和蘇童的作品之間的差異很大(距離大,相似性低),兩位作家的作品內部各自聚合,聚為一類,說明就這三個語言特征而言,兩位作家的內部相似性較大,即都很穩定,變化不大。但是,這并不代表作家不同,其作品就一定不能聚為一類,一定是同一作家的作品聚為一類。
不足之處:在本文中使用的均為層次聚類法,不涉及非層次聚類法中的k-means聚類,且在文中并為解釋為什么選擇這三個特征而不是其他的語言特征來進行聚類,這是因為使用k-means聚類或其他的語言特征,聚類結果不理想,效果不好,例如在使用k-means聚類進行實驗時出現了一個作家的作品沒有聚在一起而是和另外一個作家的作品聚為一類,即畢飛宇的第一部、第三部作品與蘇童的第一、二部作品聚為一類,剩下的聚為一類。原因可能是多方面的,一是可能因為畢飛宇和蘇童兩人的確擁有很多相同之處,二是可能因為聚類分析自身的缺陷,即只能根據聚類結果在問題中的“有用性”來判斷模型效果的好壞。這就暴露了在風格分析中使用聚類分析的一個不足,即需要不斷嘗試才能知道到底哪個特征使用哪種聚類方法能夠獲得更好的效果。
參考文獻:
[1]劉穎,肖天久.金庸與古龍小說計量風格學研究[J].清華大學學報(哲學社會科學版),2014,5(29).
[2]Harald Baayen,Hans van Halteren,Anneke Neijt,Fiona Tweedie. An experiment in authorship attribution[J].Journees internationales dAnalyse statistique des Donnees Textuelles,2002,6es.
[3]賀湘情,劉穎,基于文本聚類的語言韻律和節奏風格特征挖掘[J].中文信息學報,2014,11(6).
[4]張文彤,董偉.SPSS統計分析高級教程(第二版)[M].北京:高等教育出版社,20113.
[5]劉穎,肖天久.《紅樓夢》計量風格學研究[J].紅樓夢學刊,2014.