馬宏煒,陸 蓓,諶志群,黃孝喜,王榮波
MA Hongwei,LU Bei,CHEN Zhiqun,HUANG Xiaoxi,WANG Rongbo
杭州電子科技大學 計算機學院 認知與智能計算研究所,杭州310018
Institute of Cognitive and Intelligent Computing,Hangzhou Dianzi University,Hangzhou 310018,China
2006 年誕生的微博,相比于傳統媒體雖然還是一種新鮮事物,但由于其獨樹一幟的簡短性(每條微博不超過140 字)和普及性(人人都可發微博),近幾年得到了很大的發展。微博的出現極大地促進了信息的傳播和共享,并日益顯現出其巨大商業價值。
早期的微博文本相關研究工作主要集中在語言表面特征分析上。Java 等[1]對微博的概念和作用進行了總結,分析了微博及時、快速傳播的特點,統計了微博使用增長情況,并根據用戶之間的關系,發現了分享相同微博信息的用戶之間的共同點。Kwak 等[2]討論了微博的出現對世界的影響,并全面統計分析了Twitter出現三年來相關的數據,包括日發布數、總發布數、總使用人數等。鄒艷菁[3]通過使用較大規模的新浪微博語料庫分析了微博的話語特征,以定量分析的形式指出了微博語言在話語表達傾向上的一些特點。鄔智慧[4]同樣通過分析新浪微博語料,統計分析了微博中的字、詞、句的使用情況,并將微博語言與手機短信語言、博客語言做了對比,總結出中文微博具有開放性、精煉性、隨意性、獨特性等特征。
在研究微博文本語言特征的同時,研究者們開始嘗試對微博文本進行處理。對微博文本的傳統處理主要包括文本分類和聚類、信息抽取、話題檢測和情感分析等,主要采用特征提取、分類及聚類算法等文本挖掘方法。這些方法大部分是基于向量空間模型的,其不足之處在于采用傳統文本處理方法處理微博文本的時候,忽視了微博的獨特特征。由于一條微博的文本限定在140個字以內,很多微博文本只是一個句子甚至一個短語,這給傳統的文本數據挖掘帶來嚴重的數據稀疏問題。本文嘗試使用復雜網絡的方法來分析微博文本。
自然界中存在的大量復雜系統都可以用網絡來描述,其中具有自組織、自相似、小世界、無標度等特性的網絡稱為復雜網絡。復雜網絡的小世界(small world)現象和無標度(scare free)特性是20 世紀末的兩個重大發現,奠定了復雜網絡的理論基礎。1998 年Watts 和Strogatz[5]將小世界模型引入到了復雜網絡的研究當中,建立了WS 小世界模型。1999 年Barabási 和Albert[6]揭示了復雜網絡中的無標度性質,并建立了相應的模型闡述了這些特性的產生機理。這兩篇文章的出現,標志著網絡科學的興起。
語言系統是一種復雜的網絡結構體,其在詞語、語法、語義各個層面上都顯示出極其復雜的網絡結構。復雜網絡理論的興起,提供了新的視角來研究人類語言的本質。通過用計算復雜網絡參數的方法來分析語言網絡的特性,可以研究其整體特征,發現人類語言與認知之間的關系。語言網絡的研究課題涉及到了復雜系統、語言學、自然語言處理、統計學等多個學科,具有重要的科學意義。
本文基于微博語料庫,構建對應的語言網絡,并采用復雜網絡分析方法對該語言網絡進行分析,得到其整體特性,并且運用可視化分析方法,對其特征進行研究。
各國學者已在語言復雜網絡研究方面做了很多的研究。這些研究涉及到了多種人類語言,其構造原則也多種多樣,包括字同現、詞同現、句法依存關系、語義關系等。英語語言網絡的研究已經取得了很多成果。Cancho 和Solé[7]在1 000 萬個詞的英語國家語料庫基礎上建立了詞同現網絡和句法網絡。Motter 和Moura 等[8]基于3 000 多個英語單詞之間的概念相似性構建了英語的 概 念 網;Sigman 等[9]基 于Wordnet 上66 025 個 名 詞 之間的語義關系構建了英語的語義網。研究表明這些網絡都表現出復雜網絡的基本特征:小世界特性和無標度特性。
漢語語言網絡的研究也已經取得了一些成果。韋落霞等[10]根據一個基本詞集構建了漢語詞網絡及詞組網絡;劉知遠等[11]在《人民日報》1 300 萬字的人工分詞語料庫和國語委5 000 萬字人工分詞語料庫基礎上構建了漢語詞同現網絡;劉海濤[12]基于“實話實說”和“新聞聯播”構建了詞共現和句法依存網絡。對不同語體的字、詞同現網絡的研究表明,這些網絡同樣都具有復雜網絡的小世界和無標度特性。
語言網絡只是研究語言的手段,并不是研究的目的。除了用復雜網絡的理論模型來分析語言網絡的各項參數之外,更重要的是挖掘其在語言研究中的應用。微博作為語言載體之一,可以通過對微博文本構建語言網絡,來對其復雜網路參數進行分析。復雜網絡分析技術可以在大規模真實語料的基礎上,通過實證方法來研究微博語言網絡的特征,加深對微博這種新興語言形式的了解。復雜網絡方法有益于對以下問題的了解:微博語言網絡的特征;不同文體網絡結構的特征;復雜網絡作為語言研究手段的可能性;語言網絡作為微博信息挖掘手段的可行性。
基于復雜網絡的微博語言特征研究主要分為以下幾個步驟:微博數據獲取和預處理;詞同現網絡構建;復雜網絡整體參數分析;結果可視化等。下面對各個步驟進行說明:
(1)微博數據獲取和預處理。根據任務需求,獲取相應的微博數據,并對數據進行預處理,去掉其中的冗余數據和結構,得到結構相對簡單的文本待進一步利用。主要任務:①去掉其中的用戶名、@用戶名、轉發關系和網絡鏈接地址,提取出需要的微博內容部分;②剔除處理后長度過短的文本。
(2)詞同現語言網絡的構建。所謂詞同現,是指在一個句子中間隔距離小于某個n值的兩個詞語,在該距離內的詞可以稱為共詞關系。
(3)語言網絡復雜網絡參數定量分析。將構建出的詞同現網絡導入到復雜網絡分析軟件中計算得到復雜網絡參數。
(4)結果可視化。將詞同現網絡的復雜網絡分析結果以可視化的形式直觀地展示出來。
(5)最后,利用網絡分析的結果和其他語體的類似網絡進行對比,得出微博文本網絡的特性。
對于語言網絡的構建,首先要解決的問題是網絡中的節點和邊代表什么。對詞法網絡來說,語料庫中的每個詞,對應著同現網絡中的一個節點。如果在一個句子中,兩個詞之間在小于n的鄰間距離條件下存在同現關系,則認為網絡中相應節點之間存在一個鏈接。依次對語料庫中的所有句子進行上述處理,便構建出詞同現網絡。劉知遠等構建的詞同現網絡表明,鄰間距離的n取2 比較合適,一方面可以真實反映上下文之間的約束關系,另一方面可有效降低網絡的復雜程度[11]。
對于微博作為語料庫的詞同現網絡的構建,首先要解決的就是每條微博內容的分詞問題。微博文本中充斥著語言的不規則使用現象,并且有大量的新詞出現。在選擇分詞工具的時候考慮到要有新詞發現的能力,并且支持自定義詞庫,對于少數不能通過分詞工具得到的詞語,可以將其添加到自定義詞庫中,通過人工干預得到準確度相對高的分詞結果。實驗中采用了Python 作為文本處理工具,對微博語料庫進行預處理和清理工作,為了便于處理,分詞工具選擇了Python 中的中文分詞組件結巴分詞。該分詞組件采用基于圖的動態規劃查找最大概率算法,從所有可能成詞情況所構成的有向無環圖中找出基于詞頻的最大切分組合。對于未登錄詞,采用了HMM 模型和Viterbi 算法。實驗結果表明,該分詞組件對微博的分詞基本可以滿足需求。
一個詞同現網絡可以抽象成為一個無向圖G,頂點V代表詞集,邊E代表兩個詞之間的同現關系。當構建出網絡G(V,E)之后,可以對該網絡進行分析。在語言網絡中,網絡的平均最短路徑代表網絡中任意兩個詞之間有聯系的最短距離,聚類系數代表與該詞有聯系的詞之間的聚集傾向,度分布代表該詞與其他詞的結合能力。
下面給出由一條真實微博文本生成漢語詞同現網絡的簡單示例。
這條微博的原始內容為:“我好象不太喜歡聽上海話…我喜歡聽粵語”。先將微博中的內容根據標點符號分句,得到“我好像不太喜歡聽上海話”和“我喜歡聽粵語”兩個句子。然后分別對這兩個句子分詞得到的詞同現網絡如圖1 所示。

圖1 由一條微博生成的詞同現網絡
在復雜網絡上,通??梢酝ㄟ^以下幾個參數來分析其網絡的復雜性。
(1)小世界特性:平均最短路徑長度和聚類系數
網絡中兩個節點i和j之間的最短路徑是dij指鏈接這兩個節點的邊數最少的路徑。無向網絡的平均最短路徑長度L是任意兩個節點之間距離的平均值,見公式(1):

其中N是網絡中的節點數。設網絡節點的平均度為<k>,對“小世界網絡”,則有:

聚類系數是用來衡量網絡聚類傾向的指標,反映了其相鄰節點構成集合的聚集程度。設網絡節點i有k個節點與它相連,Ei是其k個鄰接點之間實際存在的邊數,那么Ei與這k個節點之間最多可有的邊數k(k-1)之比就成為該節點i的聚類系數C:

整個網絡的聚類系數C為所有節點聚類系數Ci的平均值:

其中N為網絡的節點數。
利用網絡的平均最短路徑長度和聚類系數,可以來衡量網絡是否具有小世界特性。小世界指的是這樣一種網絡:雖然網絡很龐大,但網絡中任意兩個節點間都存在一條較短的路徑相互連接,聚類系數要比隨機網絡大的多,即L≈Lr,C?Cr。Lr和Cr代表用同樣邊數和節點數構建的隨機復雜網絡的平均最短路徑和聚類系數。
(2)無標度特性:度分布
度數即網絡中某個節點i擁有相鄰節點的數目,對于有向圖來說,度數又分為入度與出度。網絡中度為k的節點所占的比列稱為度分布,用度分布函數P(k)來描述。P(k)的期望<k>稱為網絡的平均度分布。度分布服從冪律分布的網絡叫作無標度網絡。
實驗利用了從爬盟中國上下載的2012 年5 月25 日起一周內加V 用戶發表的4 萬條微博作為實驗語料。應用本文提到的理論和方法,考查微博詞同現網絡的復雜網絡性質。每條微博包括消息原始ID、微博內容、轉發數和評論數、用戶名稱、發布時間等字段。
為了考察不同網絡規模下微博文本的網絡特性,設計了3 組實驗,分別構建3 個不同規模的詞同現網絡。第一個網絡簡稱為CW1,是從5 萬條微博中隨機選取了2 000 條構建的網絡;第二個網絡簡稱為CW2,是從5 萬條中隨機選取了6 300 條構建的網絡;第三個網絡簡稱為CW3,是從5 萬條微博中隨機選取20 000 條來構建網絡。構建出詞同現網絡之后,再分別對網絡進行復雜網絡參數分析,計算其復雜網絡參數。
3 個不同規模微博網絡的節點度分布情況見表1,表1 顯示了網絡中節點度分布的統計值。四分之一分位數、中位數、四分之三分位數指的是節點的度由小到大排列后第25%、50%、75%的數字;平均數指的是所有節點的平均度。通過表1 可以發現:CW1、CW2 和CW3的度分布最小值、四分之一分位數、中位數都相同。不同之處在于度分布的平均值、四分之三分位數和最大值。CW1 度分布最大值為3 479,平均值為4.912,四分之三分位數為3。CW2 度分布的最大值為8 901,平均值為6.621,四分之三分位數為4。CW3 度分布的最大值為17 575,平均值為9.128,四分之三分位數為5。由此可見,微博中只出現過一次或兩次的詞匯占到了一半。這與微博的語體特征是符合的,一方面詞語使用不規范的現象在微博中普遍存在,會出現大量的新詞。另一方面微博內容覆蓋面廣,內容多來源于微博用戶的日常生活。所以一段時間內的微博可能涉及到生活中的各個方面,其詞匯的重復率相比小說、新聞稿等規范文本要低的多。不僅如此,通過比較這3 個規模由小到大的網絡的度分布情況可以發現,隨著網絡規模的增大,新加入的節點會與已經存在的節點相連接,這就會導致度分布最大值增大,度分布平均值增大。這與實際生活中詞語的使用情況是相符的,不斷會產生詞語的新用法,出現新的詞語搭配使用情況。
表2 給出的是3 個網絡中度數排名前10 的詞語。觀察表2 發現,雖然3 個網絡的規模不同,但網絡度數前10 的節點基本是一致的。不同之處在于CW1 節點度數前10 的詞其度數并不像CW2 和CW3 一樣是嚴格遞減分布的。可以認為這是由于CW1 的規模小,低于能正常反應詞語使用情況的閾值,因為部分常用詞語還未得到充分使用。在語言網絡中,節點的度是由詞節點本身所具有的配價能力決定的[13]。通過分析發現,這10 個詞主要是虛詞和指示代詞,前者有著重要的粘著成句作用,而后者具有指示作用。陳芯瑩等[14]通過用“實話實說”和“新聞聯播”兩種不同語體的語料庫構建的依存句法網絡研究了詞頻最高的虛詞“的”、“了”和“在”這3 個節點的網絡特性,得出虛詞是網絡中的中心節點的結論。一旦去除這些詞,會影響網絡整體結構。同樣在微博文本構建的詞同現網絡中,這3 個虛詞也是網絡的中心節點。不僅如此,經過對比,可以發現“是”這個詞在微博中詞頻排名要比“實話實說”和“新聞聯播”要高的多,其度數比“在”這個字要高。“是”在句子中主要起肯定和聯系的作用,并可以表示多種關系。由此可以推斷微博和“實話實說”與“新聞聯播”這兩種語體相比,微博的內容更多的跟發布者自身相關,多用來表達自己的認知,更加愿意分享自身的活動。這與發布微博的目的也是相符的??梢哉J為,“是”是對語體敏感的詞語。
表3 中E代表復雜網絡的邊數,在構建網絡過程中,將多重邊合成為一條邊,多重邊的數量作為邊的屬性存儲;N代表復雜網絡的節點數,<k>代表平均度分布,C代表聚類系數,L代表平均最短路徑長度,Lrandom代表相同邊數和節點數的隨機網絡的平均最短路徑,Crandom代表相同邊數和節點數的隨機網絡的聚類系數;T(s)代表計算這些參數所需時間,單位為s(計算環境為Intel雙核E4600,2 GB 內存)。通過觀察發現,平均最短路徑CW1 為3.78,CW2 為3.54,CW3 為3.34,聚類系數CW1 為9.79×10-3,CW2 為9.6×10-3,CW3 為1.195×10-2。雖然得到的網絡很龐大,但其平均最短路徑都很小,并且滿足L≈Lrandom和C?Crandom,由此可以得出結論:這3 個詞同現網絡符合復雜網絡的小世界特性。
接下來計算網絡節點累積度分布,以度為x軸,累積度分布為y軸,得到其累積度分布曲線見圖2。累積度分布是度不少于k的節點的分布概率:

可以看到3 組實驗結果都服從冪律分布,顯示了其無標度特性。

表1 節點的度分布情況

表2 CW1、CW2 和CW3 度數前10 的詞語

表3 其他復雜網絡參數

圖2 累積度分布
在計算CW1、CW2 和CW3 的小世界和無標度特性參數的基礎上,還計算了CW3 全部兩萬條微博構成的詞同現網絡中每個節點的介數betweennes、緊密度closeness、聚類系數clustering coefficient和PageRank值,并且分別以節點的度為x軸,這4 個參數為y軸作圖。得到4 副圖,可以直觀看到這4 個參數與度之間的相關性關系。分布圖見圖3。簡單來講,一個節點的介數等于網絡中的所有節點對之間經過該節點的最短路徑條數。

節點緊密度等于該節點到所有其余節點最短路徑長度之和的倒數。

節點的PageRank值是Google PageRank 算法在語言網絡中的應用,Mihalcea 和Tarau 提出了TextRank 算法,首次將PageRank 算法應用到了自然語言處理當中,并且驗證了在關鍵字抽取和句子摘要中的有效性[15]。

節點的度數反映的是網絡中有多少節點與該節點相連,節點的介數和PageRank值都可以作為節點在網絡中重要性的測量標準,節點的緊密度反映的是節點在網絡中的中心性,節點的聚類系數反映其相鄰節點的連接情況。通過分析圖3 可以得到,節點的介數、PageRank值和其度之間有著明顯的正相關關系,也就是說在該網絡中度大的節點,其介數和PageRank值也大,節點聚類系數和其度之間基本是負相關關系,對于度大的節點,其聚類系數小。緊密度和節點的度之間不存在明顯的正相關關系。

圖3 CW3 的介數、緊密度、PageRank、聚類系數相關性分布

表4 驗證網絡CW4 參數

表5 詞同現網絡的基本數據
由上面的分析可知微博詞同現網絡符合復雜網絡的小世界和無標度特性,那么在更大規模的微博語料的基礎上構建的詞同現網絡是否還符合這些特性。為了驗證本文的結論,使用全部的5 萬條微博語料構建了一個更大的詞同現網絡CW4,并且對其參數進行了計算,結果見表4。
由表4可知,詞同現網絡CW4仍然滿足L≈Lrandom和C?Crandom,這說明其仍滿足復雜網絡的小世界特性。累計度分布見圖4,其結果服從冪律分布,滿足復雜網絡的無標度特性。

圖4 驗證網絡CW4 累積度分布
劉知遠等[11]基于不同規模和類型的語料庫,建立了詞同現網絡,其語料來源是北京大學《人民日報(1998年上半年)》1 300 萬字左右的人工分詞語料庫和國家語委5 000 萬字左右的人工分詞語料庫。前者是新聞語料,后者則包含了各種題材的文本。其生成詞同現網絡的語料和本文采用的微博文本不同,更加規范并且經過人工分詞。對微博詞同現網絡和這類規范文本詞同現網絡的參數做對比,見表5。
表中CPD12 是《人民日報(1988 年上半年)》第1~2月份詞語料庫的詞同現網絡數據,引自文獻[11]。比較表4 中CW1、CW2 和CW3 的參數可以發現,隨著網絡規模的上升,網絡的平均度<k>和聚類系數C會隨著增大,新的詞會被加入到原有的語言當中,原來很少使用的詞越來越被人們熟知并使用。相反地,發現網絡的平均最短路徑L隨著網絡的增大有減小的趨勢,這說明網絡中詞與詞之間的跳轉更加的容易了,越來越多的詞被人們拿來一起使用。把本文構建的微博詞同現網絡CW3 和《人民日報》規范文本且經過人工分詞處理的語料庫構建的詞同現網絡CPD12 對比,可以發現網絡的平均度<k>和聚類系數C要小得多,這也是符合預期的,在微博語言網絡的度分布情況就可以看出,一半以上的節點的度都是1 或者2,在微博中有更多的新詞或者語言的不規范使用情況。不僅如此,CW3 的平均最短路徑L也比CPD12 的要大,這說明微博中任意兩個詞之間有聯系的距離要比規范文本要遠,這與微博語言使用的不規范也是有關的。
基于新浪微博的大規模語料庫,構建了3 個不同規模的詞同現網絡,并通過實驗揭示了微博詞同現網絡上的小世界效應和無標度特性。不僅如此,還通過構建更大規模的詞同現網絡驗證了結論。雖然微博文本存在著開放性和隨意性的特征,但在詞同現網絡上表現出了類似的復雜網絡特性。然后對其復雜網絡參數做了相關性分析,驗證了節點的度是決定詞網絡參數的主要因素。最后與由規范文本構建的詞同現網絡做了對比,發現其復雜網絡參數跟其詞匯的使用情況是相關的。本文從定量分析的角度驗證了微博的語體特點,驗證了復雜網絡作為語言研究的手段在微博這一新興語言載體形式上是有效的。但是,作為一種新的微博研究方法,本文也存在不足之處:一方面是語料來源問題,本文構建的微博語言網絡,其語料來自爬蟲抓取的一段時間內的微博,在內容方面涉及到的范圍太廣,進一步工作可以嘗試抓取某一話題的相關微博或是某條熱門微博的評論等;另一方面考慮到微博依存句法分析的難度,本文構建的是詞同現網絡,難免忽視了語言本身的詞語之間的依賴關系,微博依存句法網絡的構建與分析是今后研究的重要課題。
[1] Java A,Song X,Finin T,et al.Why we twitter:Understanding microblogging usage and communities[C]//Proceedings of the Joint 9th WebKDD and 1st SNA-KDD Workshop,2007:56-65.
[2] Kwak H,Lee C,Park H,et al.What is Twitter,a social network or a news media[C]//Proceedings of the 19th International Conference on World Wide Web,2010:591-600.
[3] 鄒艷菁.基于語料庫的中文微博話語特征研究初探[J].中國報業,2012,18:101-103.
[4] 鄔智慧.中文微博的語體特征研究[D].武漢:華中師范大學,2012.
[5] Watts Duncan J,Strogatz Steven H.Collective dynamics of“small-world”networks[J].Nature,1998,393(6684):440-442.
[6] László B A,Réka A.Emergence of scaling in random networks[J].Science,1999,286(5439):509-512.
[7] Cancho R F,Solé R V.The small world of human language[J].Proceedings of the Royal Society of London:Series B Biological Sciences,2001,268:2261-2265.
[8] Motter A E,de Moura A P S,Lai Y C,et al.Topology of the conceptual network of language[J].Physical Review E,2002,65(6):065102.
[9] Sigman M,Cecchi G A.Global organization of the Wordnet lexicon[C]//Proc of the National Academy of Sciences,2002,99(3):1742-1747.
[10] 韋洛霞,李勇,康世勇,等.漢語詞組網的組織結構與無標度特性[J].科學通報,2005,50(15):1575-1579.
[11] 劉知遠,孫茂松.漢語詞同現網絡的小世界效應和無標度特性[J].中文信息學報,2007,21(6):52-58.
[12] Haitao Liu.The complexity of Chinese syntactic dependency networks[J].Physica A:Statistical Mechanics and its Applications,2008,387(12):3048-3058.
[13] 劉海濤,馮志偉.自然語言處理的概率配價模式理論[J].語言科學,2007,6(3):32-41.
[14] 陳芯瑩,劉海濤.漢語句法網絡的中心節點研究[J].科學通報,2011,56(10):735-740.
[15] Mihalcea R,Tarau P.TextRank:Bringing order into texts[C]//Proceedings of EMNLP 2004,2004:404-411.