邢翠鵑
(南京師范大學 文學院,江蘇 南京 210097)
基于向量空間模型的文本風格相似度分析
——以女性文學為例
邢翠鵑
(南京師范大學 文學院,江蘇 南京 210097)
本文主要用向量空間模型(Vector Space Model,VSM)來分析女性文學代表作家的作品,通過TF-IDF計算文本特征項的權重,最后根據計算結果來分析這些女性文學作家作品的文本風格相似度。并以此證明同時代不同作家或不同時代同類作家(女性文學作家)的文本是同中有異,異中有同,此外還分析了部分特征詞的分布情況。
向量空間模型 TF-IDF 文本相似度 女性文學
文本中的相似度計算是自然語言處理領域中的關鍵問題之一,在信息檢索、信息抽取、專利分析等領域都有著重要的應用價值。面對現代網絡信息時代的海量信息,我們可以通過文本相似度算法來為信息分類,以提高信息檢索的效率。早在20世紀30年代,西方文體學界即開始引入定量分析,尤其是統計學的方法[1],而將計算方法應用于漢語語言風格學研究最早始于20世紀70、80年代,人們用詞頻統計等方法來考證《紅樓夢》的作者歸屬問題。這種方法也得到了我國語言風格學界一些學者的肯定,如黎運漢先生就專文論述了語言風格研究中常用的三種方法:分析綜合法、比較法和統計法。他指出,“統計法適用于各種語言風格的研究”,因為“風格特點的質必然反映在語言因素的量上”,“風格學應用它提供的數據,從質和量的統一上研究風格現象,進而認識風格的本質”[2]。
向量空間模型是一種用來表示文檔的方法,它的思想是將文檔分解為由詞條特征構成的向量。具體做法是將文檔進行分詞,然后計算文檔中每個詞條的權重,權重計算可以利用TF-IDF算法,由計算得到的權重構成一個矢量空間,即形成這個文檔的向量空間。這里,文檔(Document)用D來表示,如此這樣,文檔Dj就可以表示成如下的向量空間:

其中,m表示文檔D中分詞的特征詞條數;Wij為詞條ti在文檔Dj中的權重。
向量空間模型假定某個文本di由一個特征向量(t1,t2,…,tn)表示,ti是出現在文本di中的特征項,n表文本di中各種不同特征項。特征項ti對應有一個特征權重wi=TF(wi,di)*IDF(wi),TF(wi,di)正比例于某個特征項在文本di中出現的頻率,IDF(wi)反比例于某個特征項在文本集合中出現的頻率。di對應于一個n維的向量Di=(w1,w2,…,wn),顯然,特征權重度量了相應特征項的統計重要性。
TF-IDF是一種經典的基于統計分析的特征項權重計算方法。最早由G.salton在1973年提出①。TF(term frequency)是指關鍵詞詞頻,即一篇文章中關鍵詞出現的頻率;IDF(inverse document frequency)是指逆向文本頻率,即關鍵詞在不同文檔中的分布情況。它的基本思路是:一個詞在一個文本中出現的頻率越高,說明它區分該文本的能力越強(TF);一個詞在不同文本中出現的范圍越廣,說明它區分文本的能力越低(IDF)。經過Salton的多次論證,信息檢索領域廣泛地使用TF-IDF算法計算權重,其經典計算公式為:

根據以上分析,容易獲得兩個直觀結果:a)某個特征項在文本中出現的頻率越高,則這個特征項對這個文本越具有標志能力,賦予這個特征項的特征權重應該越大;b)某個特征項在文本集合中各個文本內出現的頻率越高,那么用這個特征項對文本集合中的文本進行分類的區分能力越弱。例如在英文文本中,“the”出現的頻率很高,但是這個單詞對各文本的區分能力卻很差。
女性文學是誕生于一定的社會歷史條件下,以五四新文化運動為開端,具有現代人文精神內涵,以女性為經驗主體、思維主體、審美主體和言說主體的文學。在這一界說之下,女性文學的視野是開放的、發展的系統,而不是封閉靜止的,應該是女作家基于性別主體意識、生別視角表現的關注女性命運、女性情感、女性生命的文學,或者是基于超性別意識(隱含性別主體意識)、超性別視角(隱含性別視角)表現的包括女性生存在內的、具有人類普遍意義的文本。女性文學仍是一個有待探索和完善的命題。
中國的女性文學從五四時期到二十世紀九十年代共有三次高潮,每次高潮都有自己不同的主題和不同的具有代表性的作家作品,本文就選取了不同時期的十位作家——丁玲、蕭紅、張愛玲,楊絳,張潔,王安憶,鐵凝,林白,陳染,魏微——的總計六十五部作品作為研究的對象。
3.1 選取文本
首先根據研究需要,選取有代表性的女性文學作家十位及其代表作品總計六十五部,文本規模2247419詞次。具體分布情況如下:

表1:語料分布情況表
3.2 文本預處理
選定語料后,對這些文本進行整理,主要是去掉一些無關的字符,例如:有關文檔來源的電子鏈接等。
3.3 文本分詞及詞性標注
文本分詞是文本分類的基礎。簡單地說,就是用分詞算法把文本切分成字、詞和短語。目前常用的自動分詞方法有:
A.最大匹配法(Maximum Matching Word Segmentation)
正向最大匹配(MM):假如分詞依據的詞典中最長詞條為n個字符,對待分詞文本自左向右取n個字符,與詞典進行匹配,若詞典中存在該詞條,則將該詞條切分出去,繼續取n個字符進行匹配,直到文本處理完畢;若詞典中不存在該詞條,則減去該詞條最后一個字符,繼續與詞典進行匹配,重復該過程。還有逆向最大匹配法,過程與正向最大匹配法一樣,不過方向是自右向左。最大匹配法分詞方法的優點有:速度快、直觀;與詞表規模幾乎無關;現代漢語語料(含一定未登錄詞)的分詞精度在85%左右;其缺點有:幾乎無法解決未登錄詞問題(只能猜對未登錄的單字)、過于依賴詞表,跨領域性較差、分詞精度有待提高 (交集型歧義只能猜對一半;組合型歧義,只合不分)。其他的特點有切分一致度高。
B.最大概率法分詞[7](Maximum Probability Word Segmentation)
又稱為基于統計的分詞方法。從形式上看,詞是穩定的字的組合。相鄰的字同現的次數越多,就越有可能構成一個詞,因此字與字相鄰共現的概率能夠較好地反映成詞的可信度。這種分詞方法的基本思想是:一個待切分的漢字字符串可能包含多種分詞結果,將其中概率最大的那個詐為該字串的分詞結果。主要的語言統計模型和決策算法有:互信息、N元文法模型、最大熵模型等。其特點有:若每個詞語的概率相等,則退化為最大匹配法、分詞精度一般在90%左右、沒有利用上下文信息,對交集型歧義字串采取千篇一律的切分方式、對于組合型歧義的消解基本無效、對于交集型歧義(偽歧義消解效果好、真歧義消解效果差[8]),對此可嘗試利用詞的轉移概率(二元模型)。
詞性標注(Part of Speech Tagging,POS)就是對文本中每一個詞賦予相應的詞性標記,包括對標點符號的標記。它代表了一個詞的語法特征,也稱語法標記、詞語附碼[17]。具體過程是從待分析詞串中取一個Span:對詞串中的每個詞,查詞庫,(1)若查到,將該詞所有詞性標記取出,登記在數組Tags[i][j]中,i代表詞的序號,j代表詞性標記序號,將該詞該標記的出現次數登記在Freqs[i][j]數組中;(2)若未查到,將開放類詞性標記賦給該詞,登記在Tags[i][j]中,將Freqs[i][j]的值置為1。對Span中的每個詞的每個可能的詞性標記;(3)計算該標記的累計費用;(4)記錄該標記的最佳前驅標記當Span中最后一個詞的詞性標記確定下來后,順次取出各詞的最佳前驅標記,即得到詞性標注結果。將Span類數據重新初始化,準備下一個Span的標注。例如:實現/v祖國/n的/u完全/a統一/vn,/w是/v海內外/s全體/n中國/ns人/n的/u共同/b心愿/n。/w(采用北京大學的詞類標記集)
本文的語料是用最大概率法分詞,用ICTCLS軟件進行詞性標注。之后又對其結果進行人工校對,修改了部分標注。接下來形成詞頻表。
3.4 去停用詞
去停用詞就是按照停用詞表中的詞語將語料中對文本內容識別意義不大但出現頻率很高的詞、符號、標點及亂碼等去掉。一個句子,可能由名詞、動詞、形容詞、副詞、語氣詞等組成,而只有名詞和動詞能很好地標記文本,像有些副詞如“非常”等和一些虛詞“的、并且”等在文本中的出現頻率很高,但是幾乎不能標記文本,這類詞就要用停用詞表來去掉。
3.5 計算
首先利用公式算出每個文本的權值,再對其進行降序排列,從高到低依次選擇權值比較大的2050個詞語作為文本的特征項。由于特征項代表了一部作品中最重要的信息,因此文本的相似度就可以由特征項向量間的相似度來描述。
用VSM表示D1和D2兩個文本向量:
D1=D1(w11,w12,…w1n)
D2=D2(w21,w22,…w2n)
如果使用N維空間中兩個向量直接的距離來表示文本間的相似程度,設Sim(D1,D2)表示這種相似程度。一般使用向量間的內積,或兩向量夾角的余弦值來表示相似系數Sim(D1,D2)。
(1)向量間的內積公式:

(2)向量夾角的余弦公式:

4.1 通過公式(3)計算得出中國女性文學不同時期六位代表作家作品之間的相似度如下:

表2:中國女性文學不同時期六位代表作家作品間的文本相似度
觀察表1我們可以看到:女性文學的三個不同時期中,1)每個時期的兩個代表作家之間的文本相似度都比較大,例如:張愛玲和蕭紅都是五四時期到五六十年代的女性文學作家,其文本相似度就是0.68,張潔和楊絳都是七八十年代我國女性文學的代表作家,其文本相似度就是0.52,陳染和楊絳都是九十年代我國女性文學的代表作家,其文本相似度就是0.84,其原因就是處于同一個社會環境中的作家文本風格會有一定程度的類似;2)不同時期的時期作家作品之間的文本相似度與前者相比就低一些,例如,張愛玲與不同時代作家作品之間文本相似度是0.07、0.55、0.13、0.09就明顯比其與同時代的女性文學作家蕭紅的文本相似度0.68低一些,其他作家也都是類似情況,這正是由不同時代的不同社會環境以及作家自身的不同經歷所造成的;3)總體來說,無論哪個時代女性文學作家之間的文本相似度還算比較穩定,因此這些作家都被定義為女性為學作家,其作品也就是女性文學作品,這是由于此類作家群 (包括歷時的和共時的)基本都堅持女性主義思想,有鮮明的女性主義立場。
4.2 通過公式(1)計算得出一些有代表性的特征詞的不同分布情況如下

圖1:特征詞權重分布圖
在句子中,名詞和動詞是最具有標志性的詞語,本文選出了四個名詞(“現實、動物、友人、磚窯”)和四個動詞(“預感、留心、吃醋、躲避”)分別分析(結果如表3):1)首先,每個詞在不同的作家作品里都有不同的權重,例如動詞“留心”在作家丁玲的作品中權重就明顯高于其他作家的作品,而名詞“友人”在作家陳染的作品中權重就明顯高于其他作家作品;2)如果看同一個作家,有的作家相對偏向于使用某一些詞語而不是另一些詞語,而另外的作家則偏向于使用另外一些詞語,例如作家丁玲,就多使用動詞“留心”和“預感”,這首先是跟作家本人的敏感性格有關,另外也與作家本身身為女性的感性和細心以及其所處的社會環境有關。
本文的實驗證明,在比較大的文本語料中,使用基于TF-IDF加權的向量空間模型算法來計算文本相似度是比較可靠的,也就是說,我們可以把此方法推廣到信息檢索、專利分析等領域中。只是在不同的領域中應該加入其它的改進的加權算法,以進一步提高信息分類與識別的準確率。
注釋:
①Salton G,Clement T Y.On the Construction of Effective Vocabularies for Information Retrieval[C]//Proc.of 1973 Meeting on Programming Languages and Information Retrieval.New York,USA:ACM Press,1973.
[1]曾毅平,朱曉文.計算方法在漢語風格學研究中的應用[J].福建師范大學學報(哲學社會科學版),2006(1): 14-17.
[2]黎運漢.漢語風格探索[M].北京:商務印書館,1990.
[3]陶惠,張妍,郝光權.基于向量空間的文檔聚類算法分析[J].電腦知識與技術,2011(7):4780.
[4]Zhongguo Li,Maosong Sun.Punctuation as Implicit Annotations for Chinese Word Segmentation[J].Computational Linguistics,2009(4):505-512.
[5]Shivakumar N,Garcia-Molina H.Building a scalable and accurate copy detection mechanism [C].Edward A.Fox,P Gary Marchionin.i International Conference on Digital Libraries,Maryland,United States:1996,160-168.