李嬌 曹暉 李倩

摘 要:共現分析就是利用共同出現的關鍵詞來反映兩者之間的親疏程度。文章研究的是按段分詞來提取關鍵詞的詞頻。兩個關鍵詞在同一段中出現的次數越多,它們之間的聯系越密切,與反映的主題內容越密切。通過給出的關鍵詞挖掘出頻繁項集,然后發現它們之間存在的關聯規則。
關鍵詞:共現分析;詞頻;頻繁項集;關聯規則
1 研究現狀
1.1 國外研究現狀
共現分析在國外已經相當成熟了,最初是由法國文獻計量學家提出來的[1],發展至今差不多有50年了。起初主要應用于文獻計量、圖書情報學等領域,隨著共現分析的發展成熟,20世紀90年代,共現分析應用的范圍越來越細化,參與的學科越來越多,成果也越來越突出[1]。
1.2 國內研究現狀
相較于外國,國內起步比較晚,共現分析發展的分界點在2007年,在此之前共詞的文獻量較少,2007年之后得到了蓬勃發展[1],尤其是在情報學領域,如《情報雜志》《情報科學》和《圖書情報工作》這些期刊。
2 研究對象、目的和意義
2.1 研究對象
本文選取的研究對象可以是任意一本小說,從網絡上下載電子版,將文本中所有的人名摘取下來,做成自定義詞典,以備后來分詞時使用。選取的小說人物越多越好,因為人物眾多,關系錯綜復雜,對于喜歡的讀者來說,通讀全文耗時較長,所以用計算機的方式分析全文,找到人物間的關聯。通過共現分析研究文章中人物與人物之間的聯系,進一步地挖掘出不同人物的社交圈。
2.2 研究目的和意義
使用共現的方法得出的人物關系圖可以幫助讀者理清著作中的復雜人物關聯,更好地閱讀和理解作品;用共現分析方法研究人物關系,由可視化軟件呈現出的人物關系圖更加直觀,它拋開人們的主觀判斷,以數據的大小為分析依據來說明人物之間的親密程度。
3 使用的工具和方法及構建過程
3.1 使用的工具和方法
在這里,筆者選用的編程語言是python語言,python語言簡單,可移植性強,沒有框架。使用的中文分詞工具是jieba分詞,jieba的分詞功能強大而且好用。用到的方法有共詞分析、聚類分析和關聯規則。在進行聚類分析時可以使用SPSS繪制圖譜,在最后圖形可視化用到了可視化軟件Gephi。
3.2 人物關系圖的構建過程
對于共現分析的分析流程,這些步驟并非固定的,可根據研究對象和目標有選擇地省略或重復[2]。基于共現人物關系圖譜流程如圖1所示。
如果有兩個關鍵詞出現在整個文本的某一段落中,說明這兩個關鍵詞之間有聯系,可能關系比較密切,也可能關系較其他關鍵詞疏遠一點,所以,可以按照圖1的流程最終繪制出人物關系圖,最后,對數據的分析結果進行合理的可視化表達。
3.2.1 確定高頻詞
將小說中所有人物放在文本文檔中保存,從這些關鍵詞中確定高頻詞,主要是根據自己的經驗進行選取,具有一定的主觀性[3]。
3.2.2 設計共詞矩陣
對關鍵詞的共詞頻率進行統計,設計共詞矩陣。對于所有的關鍵詞進行兩兩組合并排序,最后所有的數據合并到一起,并去掉單個數據。在設計共詞矩陣的時候,可以選擇使用Excel構建共詞矩陣。Excel作為統計學軟件,具有這個功能。將上一步得到的高頻詞對復制到Excel中,使用Excel中的數據透視表功能即可獲得共詞矩陣。Excel表有個優點,就是可以手動添加,使得出的數據更精確[4]。
3.2.3 共詞聚類分析法
對共詞矩陣進行處理,揭示共詞信息。聚類分析分為Q型觀測值聚類和R型變量聚類。R型變量聚類主要是對相關系數進行的聚類。聚類分析時可以選擇統計學軟件SPSS,將Excel中得到的共詞矩陣導入SPSS中。對變量進行標準化以求得相似程度,利用Ochiai系數將共詞矩陣轉化為相關矩陣,利用Ochiai系數求出該矩陣的相關系數,相關系數越大的變量相似性越高。根據置信度c將相關關鍵詞歸為一類。c的值越大,相關關鍵詞越多。R型聚類按層進行聚類,將相關關鍵詞進行聚類,最后再把整個分類繪制成一張關系圖,用關系圖把所有的關鍵詞間的親疏關系表示出來[5]。
3.2.4 關鍵詞間的距離計算
另一種方法根據距離求得變量間的相似性,關鍵詞間的距離越小越具有相似性。在計算name1與name2之間的詞距的時候,可以選用歐氏距離計算公式,二維空間的計算公式如下:,|X|=。其中,ρ為點(x2,y2)與點(x1,y1)之間的歐氏距離;|X|為點(x2,y2)到原點的歐氏距離。即對人物關系圖中的節點中心度的研究,從人物關系圖中研究單個節點在人物圖中的位置,找到節點中心度,研究他們的共現強度以及跟整個文本的密切度。
4 圖譜繪制
使用可視化軟件Gephi繪制人物關系圖譜。將統計出來的關鍵詞詞頻導入可視化軟件Gephi中,進行可視化繪圖,圖可以放大或者縮小。假設我們想要了解這部作品中圖的節點特征向量中心度,找到這部作品中最關鍵的話題人物,圍繞著誰展開的故事情節。其次,可以將圖中節點以節點大小來排序,以分清全體人物的主次,與主題內容聯系的親疏遠近程度。再者,對圖進行歸類分割,用過濾工具將值相同的節點或者邊用不同的顏色標出來,為了分辨出同樣詞頻的關鍵詞哪個是哪個,不致混淆。改變斥力強度來改變邊的長短,選中顯示標簽即可。最后預覽,將圖進行美化和修改,再將圖可視化的結果輸出[6]。
5 關聯分析法
關聯規則即關鍵詞A的出現對于關鍵詞B的出現的影響,從而發現兩者之間有趣的關系。支持度和置信度是評價關聯規則的標準[7]。
對于關聯規則挖掘使用的方法如圖2所示。
以一個包含A與B兩個關鍵詞的二項集為例,可以通過公式求得包含{A,B}項目組的支持度,若支持度大于等于所設定的最小支持度門檻值時,則{A,B}稱為高頻項目組。最小支持度是自己給定的。本論文研究計算頻繁3項集(name1,name2,name3)的支持度,以此來找到大于等于最小支持度的高頻項目組。
置信度的公式求解,以頻繁二項集{A,B}為例,置信度confidence(A=>B)=p(B|A)。通過這個公式計算頻繁項集的置信度。本論文通過計算頻繁3項集的支持度和置信度,是否滿足最小支持度和最小置信度,來判定它們之間是否具有關聯規則[8]。
將所有的關鍵詞放入數據庫中,使用先驗算法第一次掃描數據,產生候選項集,每個關鍵詞都是候選項集,對每個出現的關鍵詞進行計數。設定最小支持度閾值,確定頻繁一項集,假設頻繁1項集的集合為C1。再次掃描數據庫,為了挖掘出頻繁2項集,將頻繁1項集的集合C1進行連接,得到頻繁2項集的集合C2,計算頻繁2項集的支持度,并與最小支持度比較,將沒有候選的關鍵詞從集合C2中刪除,剩下的都是符合的。同樣的,第3次掃描數據庫,將頻繁2項集的集合進行連接,然后剪枝,得到頻繁3項集。
得到的頻繁3項集可以產生很多關聯規則,但只有滿足最小置信度閾值的才是強關聯規則,由它們直接產生強關聯規則[9]。
6 結語
共現分析在中國起步較晚,應用于文學作品構建人物關系圖更是晚很多年。本論文研究的構建小說或者劇本的人物關系圖,將共現與數據挖掘中的關聯規則相結合,不僅構建人物關系圖,也通過數據挖掘中的關聯規則挖掘出了頻繁項集是否滿足關聯規則[10]。
共現分析在各個領域已經有了很好的發展,希望自己能從這個領域中收獲一些知識,也希望自己在學的時候能夠發現一些別人還沒發現的東西,為學術界作一些貢獻。
將關聯規則應用于劇本人物中是一個不錯的主意,發現人物間的頻繁項集,找到一些有趣的關聯規則。
[參考文獻]
[1]李穎,賈二鵬,馬力.國內外共詞分析研究綜述[J].新世紀圖書館,2012(1):23-27.
[2]王紅.國內外共詞分析法的研究現狀[J].農業圖書情報學刊,2015(1):51-54.
[3]傅柱,王曰芬.共詞分析中術語收集階段的若干問題研究[J].情報學報,2016(7):704-713.
[4]CHOI J,YI S,LEE K C.Analysis of keyword networks in MIS researchand implications for predicting knowledge evolution[J].Information & Management,2011(8):371-381.
[5]葉鷹,張力,趙星,等.用共關鍵詞網絡揭示領域知識結構的實驗研究[J].情報學報,2012(12):1245-1251.
[6]肖偉,魏慶琦.學術論文共詞分析系統的設計與實現[J].情報理論與實踐,2009(3):102-105.
[7]魏瑞斌.國內知識圖譜研究的可視化分析[J].圖書情報工作,2011(8):126-130.
[8]ZHU W, GUAN J.A bibliometric study of service innovation research: based on complex network analysis[M].Springer-Verlag New York,2013.
[9]BHATTACHARYA S,KRETSCHMER H,MEYER M.Characterizing intellectualspaces between science and technology[J].Scientometrics,2003(2):369-390.
[10]馬費成,望俊成,陳金霞,等.我國數字信息資源研究的熱點領域:共詞分析透視[J].情報理論與實踐,2007(4):438-443.