基于全切分獲取網絡流行語方法研究

2009-01-01 00:00:00吳保珍何婷婷李立張勇陳龍

計算機應用研究 2009年4期

（華中師范大學 a.計算機科學系; b.國家語言資源監測與研究中心網絡媒體分中心，武漢 430079）

摘要：

利用統計和規則相結合的算法從互聯網的動態信息流中提取網絡流行語。在利用全切分算法獲取候選詞集的基礎上，依次對候選詞集進行三次過濾：首先基于向量空間模型的權重過濾，運用語言模型進行過濾；然后利用垃圾串過濾規則獲取網絡流行詞語候選詞集；最后利用提出的流行詞語評分模型進行篩選得到網絡流行詞語。實驗表明，在不影響流行詞語準確率的前提下，利用該方法自動獲取網絡流行詞語的速度明顯提高。

關鍵詞：網絡流行詞語; 中文信息處理; 全切分

中圖分類號：TP391文獻標志碼：A

文章編號：1001-3695(2009)04-1260-03

Study on popular words and phrases extraction of networkbased on omni-segmentation

WU Bao-zhena，b， HE Ting-tinga，b， LI Lia，b， ZHANG Yonga，b， CHEN Longa，b

（ a.Dept. of Computer Science， b.Monitor Research Center for National Language Resource Network Multimedia Sub-branch Center， Huazhong Normal University， Wuhan 430079， China）

Abstract:

This paper aimed to extract popular words and phrases of network by specific algorithm. It filtrated the candidate words set three times based on the algorithm of omni-segmentation. The first was the weight filtration based on the vector space model ，then used the model of language regulation ，and the last through the filtration of rubbish cluster. Finally， it mined the popular words and phrases from the candidate set by the popular words determinant formula. The experimentation indicates that without reducing the correct rate of catchwords， the speed of extacting， the popular words and phrases of network impoves distinctly.

Key words：popular words and phrases of network; Chinese information processing; omni-segmentation

作為網絡語言的一部分，網絡流行語言目前正逐漸走向非網絡載體并且日益向約定俗成的自然語言滲透。流行語[1]具有普遍意義的概念，從語言學角度來看，它指的是在某一時期、某一范圍迅速盛行并廣為傳播的語言。其中，“詞語”是流行語[2]的類別屬性，它應該是一種語言符號，或者是一個已有的詞，或者是一個新詞，或者是由若干詞組成的短語。迅速盛行、廣為傳播是流行語與其他詞語屬性的區別，它的特點是從新出現或較少使用到廣泛使用經歷的時間短，因此會給人異峰突起的感覺。某一時期、某一范圍則為不同類別的流行語提供了時空觀點。

1 研究現狀

流行詞語作為對語言的一種評價，反映出社會的發展與進步。國內外許多研究者在流行語類型分析方面已經做了大量的工作，而且大多數都是基于統計學的方法，或基于語言學的方法。張普[2]在基于DCC動態流通語料庫研究中給流行語提供了一個比較科學的界定，并為機器自動提取流行語提供參考。謝學敏等人[3]提出在大規模動態流通語料庫中提取流行語的方法及流行語自動分類、資源庫開發研究和流行語的定義提取等相關研究。何婷婷等人[1]提出在術語提取的基礎之上基于詞語屬性通過量化設置評分機制和淘汰機制，得到候選流行詞語，驗證了流行詞語判定屬性規范的合理性，為機器輔助判定詞語特性提供了參考數據。

相比之下，如何利用計算機自動、準確、快速地獲取網絡流行詞語，特別是在減少預處理和人工干預方面，國內外很少研究。在本項目組以前所做的流行詞發現[1，2]和熱點事件發現研究[4，5]中，研究人員基于詞語屬性提取出名詞來分析歷年流行詞的走勢曲線圖，歸納出流行詞的特征，并對這些特征進行量化，得到度量流行詞的公式，結合活動曲線和公式對候選的流行詞語排序，并最終得到流行詞語。上述研究方法都能夠很好地幫助本文在基于全切分利用流行詞語模型算法快速獲取網絡流行詞語。

2 基于全切分獲取流行語方法

文獻[2]指出流行詞語主要有名詞、動詞及其他詞性。其中名詞包括專有名詞和普通名詞，專有名詞又包括人名、地名和機構團體名。如表1所示，詞語總量比例依次為75%、21.7%、3.3%。可見流行詞語主要集中在名詞上。而在名詞中，專有名詞占全部名詞的28.9%，接近1/3。其中流行詞語分雙音節、三音節、四音節和四音節以上，其統計比例分別為雙音節占33.3%，三音節占19.2%，四音節占42.1%，四音節以上占5.3%，如表2所示。可見流行詞語總的趨勢是向多音節化發展。其中四音節以及四音節以上的流行詞語占大多數，超過四個音節的流行詞語除了一些比較專有名詞之外，很多情況是經過歸納概括之后的語言，實際上其核心還是四音節以內的詞語。因此獲取網絡流行詞語，必須把所有形式切分出來。



網絡流行詞語的形式多而且雜，如何才能夠獲取這些形式呢？本文提出了全切分的方法。全切分的分詞法[6]能夠把所有的切分形式列出，以備后續語義分析得出正確的切分形式。由于全切分要求根據詞典獲得輸入漢字序列的所有可接受的切分形式，從根本上避免了可能切分形式的遺漏，是確保基于機械切分的分詞方法獲得正確分詞結果的前提之一。但全切分是一個隨輸入長度增加而復雜性呈指數性增長的問題，切分結果呈現幾何增長，句子越長，結果越多，分詞系統效率急劇下降。如何在確保獲得全部切分形式的同時保證高的切分效率就成為關鍵。

2.1 全切分

定義1 全切分。設C=C1C2…Cn（Ci∈漢字集，1 ≤i≤n）為待切分的漢字串， W=H1H2…Hn(Hj∈基于詞典的漢詞集， 1 ≤j ≤m ，1 ≤m ≤n) 為C的一種切分形式， K為所有可能的切分形式的數，W(C)={Wi|1≤i≤K|}為C的所有可能的切分形式集合。則W(C)是對C的全切分集合，對C的全切分就是求解W(C) 的過程。

定義2 字符串集合的串接運算。設字符串集合A、B，則AB={a-b|a∈A，b∈B} 。

例如：{乒乓}{ 球，球拍}={乒乓—球，乒乓—球拍}。

定義3 串首詞集合FW（C）。設漢字C=C1C2…Cn（Ci∈漢字集，1 ≤i≤n），則C的串首詞集合定義為

FW(C)={FWj|FWj=C1C2…Ci，C1C2…Ci∈漢字集，

1≤i≤n，1≤j≤n}(1)

設W(C) 是關于字符串C 的全切分集合，那么關于輸入字符串C 的全切分集合的求解公式如下:

W(C)=∪kj=1({FWj}W(substr(C，strlen(FWj)+1)))(2)

其中:FWj∈FW(C)； k 為FW(C)的元素個數；substr() 是取子串函數； strlen () 是串長度函數。可以證明，對輸入漢字串C按照以上全切分集合的求解公式計算，得到的是基于詞庫的關于C的全切分集合。

從全切分的求解公式可看出，對一個漢字串的全切分過程就是首先求得串首詞，再對剩余的子串遞歸全切分的過程。

例如:設 C=“幼兒園地節目”為待切分的漢字串，設幼兒、幼兒園、園、地、園地、節目為詞典約束下的合法詞，則對C 的全切分集合 W(C)= {“幼兒—園—地—節目”，“幼兒—園地—節目”，“幼兒園—地—節目”} 。

全切分可以用如圖1 所示的一棵切分樹表示。其中，切分樹的節點表示切分的狀態，每個節點對應輸入串一個切分位置。根節點表示切分的起始狀態，它的切分位置在輸入串的串首。葉節點標志切分的終止狀態，它的切分位置在輸入串的串尾。邊表示從一個節點到另一個節點的切分關系，每條邊上標有數據，即切分出的漢詞。在一個非終止切分狀態A(非葉節點) 下進行切分，將得到一個漢詞W ，并到達另一個切分狀態B (另一個節點)，從而建立了一條從A 到B 的一條有向邊，該邊上標有切分出的漢詞W 。

對任何待切分漢字串 C進行全切分就得到了它的切分樹T。全切分的過程就是切分樹分支不斷擴展的過程。切分樹中每條從根到某個葉節點的分支路徑對應 C的一種切分形式，所有這些路徑的集合就是該漢字串的全切分集合。由圖1得，“幼兒園地節目”的全切分集合為 W(C) = {“幼兒—園—地—節目”，“幼兒—園地—節目”，“幼兒園—地—節目”}。

2.2 詞語過濾處理

2.2.1 基于向量空間模型詞條權重過濾

通過全切分獲取候選詞集，按年度統計出詞串出現的頻次以及出現該詞串的文檔數。由于流行詞語的特性[7]為迅速盛行、廣為傳播，它出現的時間段快，出現的范圍相對廣，流行詞語在語料庫中的出現頻率也相對較高。因此，視語料庫規模的情況，要對候選詞集進行基于向量空間模型詞條權重過濾[6，8]，語料規模越大，過濾的閾值就越大。

計算詞條權重公式如下：

weight(i，j)=tfi，j×log(n/dfi)/∑cfik=1(tfi，j×log(n/dfi))2(3)

其中：有tfi，j為詞條頻度（term frequency），指單詞i在文檔j中出現的次數；dfi為文檔頻度 (document frequency)，是出現單詞i的文檔數。可以基于這樣的事實:詞i在文檔中出現的頻率越大，它成為流行詞的可能性就越大，通過預先設定的權重λ如果得到的weight值大于預先設定的權重閾值，則說明該詞可能為流行詞語。

2.2.2 語言模型過濾規則

語言模型過濾規則是指根據語言學知識的規則文法，對候選詞集中不符合目標詞集的詞語進行過濾。該過濾方法中用到的詞表是對史曉東分詞軟件詞典進行了部分修改，主要是對其中的名詞部分替換成全切分獲得的字表中的頻次大于200的名詞，即常用名詞，并增加了地名后綴字表和地名噪聲字表。

候選詞串集中存在一些特殊結構的詞串，收集這些特殊構詞的類型可以發現，它們的構詞類型有“abb”“aabb”“a-a”“aab”“abac”五種， “a”“b”和“c”分別指代不同的字符。例如:“黃澄澄”“蹦蹦跳跳”“問一問”“裝裝樣”“跳來跳去”等。判斷串符合上述類型的，則將該串過濾掉。

通過分析流行詞語的構詞特征，人工獲取以下過濾規則：

規則1 若N 元組含有停用詞，則將該字串去除。

規則2 若N元組末尾為詞表中的形容詞，則將該字串去除。

規則3 若N元組中包含數詞后面緊跟量詞的情況，則將該字串去除。

規則4 若N元組中包含稱謂或機構名，則將該字串去除。

規則5 若N元組中包含地名或串尾為地名后綴表中的字且串尾前為地名噪聲詞，則將該字串去除。

規則6 若N元組中字串符合特殊構詞類型中的“abb”“aabb”“a-a”“aab”“abac”類型，則將該字串去除。

2.2.3 垃圾串過濾

考慮到候選詞集中可能會出現這樣的垃圾串，特別是在由全切分方法得到的候選詞集中。例如，串“易市場進行監”，上下文為“對證券交易市場進行監督”，其中“交易”和“監督”均為常用詞，則該串為垃圾串，要被過濾掉。該條規則為：通過查找串上下文，判斷該串的前后字符是否與上下文結合緊密，如果結合緊密則將該串過濾掉。

通過以上過濾，候選詞集中的串已經基本符合了流行詞語的詞形要求，但是難免還存在一些形似的垃圾串，因此還需要考慮該串是否具有新意義。鑒于語料都是來自網絡這一特點，可以利用搜索引擎來過濾掉沒有意義的串。如果該串具有意義的話，那么就可以在搜索引擎上搜索到相關的網頁內容。如果搜索不到，則認為該串為垃圾串。該條規則是：獲得候選詞集中的每個串在Internet上的出現次數，過濾掉出現0次的串。

2.3 流行語評分模型

在本文中，用頻次、頻率、使用率三個量來描述流行語的特征[8，9]，可以歸納為：a）出現時起點比較低（甚至頻次為0），迅速增長，在實驗期間可以達到或接近最大值。b）最大值達到一定的閾值，該閾值表明詞語被廣泛使用。在圖中表現為波峰[10]。c）最大值與起始值之間的差值比較大。

2.3.1 流行詞語的特征量化

cf (comman frequency)，表示詞語在一個時間單元內出現的頻次。

cf=w1×f1+w2×f2（4）

其中:w1 為標題區域的權重;w2為主體區域的權重;f1 為詞語在標題區域出現的次數;f2 為詞語出現在主體區域的次數。

 ct (continue time)，表示詞語在一個時間單元內連續出現的天數，一般設單位時間為一周。對應一周的常用度cf是每天詞語常用度的累加。

vd (variance degree)，表示詞語在單位時間內的變遷程度。vd1 為詞語常用度的最大值與最小值之差；vd2 為平穩階段中詞語常用度的最大值和最小值之差。

2.3.2 流行詞語的評分公式

∑ni=1[(cfi/Di+cti/T+∫vd1vd2vdi)×cfmax/cfw](5)

其中:n是半年內的時間單元個數;cfi是該詞語在時間單元i中出現的文檔頻率；Di是在時間單元i中文檔的總數；cti是該詞語在時間單元i中持續的天數；T是一個時間單元的天數；vdi為詞語在時間單元內的變遷程度[11]；cfmax是詞語常用度的最大值；cfw是常用度最大值的閾值，cfw=500。

獲取網絡流行詞語的系統流程如圖2所示。



3 實驗及結果分析

3.1 實驗數據和分析

本實驗采用從五大門戶網站（搜狐、網易、新浪、騰訊、Tom）下載的2007年1月1日~6月30日的網頁內容，共有約132 922篇。文本根據主題存放，共有六組，即國內、國際、體育、科技、財經和娛樂，每組作為一個語料庫。該實驗得到詞語約為11.5萬個，正確的詞語個數為98 164，總體的準確率為84.80%，在垃圾串過濾規則過濾得到60 927個候選詞語，通過算法篩選得到有效的流行詞語個數為45 695，準確率為74.58%。具體的實驗數據如表3所示。

表3 網絡流行語提取的實驗數據

階段過程詞語數量階段過程詞語數量

全切分736 526 658垃圾串過濾60 927

權重過濾115 750流行語模型篩選45 695

語言模型過濾98 164人工挑選269

3.2 實驗結果及分析

經過流行詞語判定公式得到的4萬多個候選詞語，人工篩選就只剩余269個網絡流行詞語。表4給出了由本文實驗得到的2007年上半年排名前20位的網絡流行詞語。

表4 排名前20的流行語



序號流行語序號流行語

1人民幣升值11香港回歸十周年

2奧運精神12提高存款準備金率

3豬肉漲價13和諧社會

4黑磚窯14牛市

5開放式基金15燃油稅

6住房公積金16曬工資

7網絡暴民17二手房

8國際油價18炒權證

9房地產走勢19外資銀行

10政府信息公開20溫室氣體排放

關于用計算機自動獲取并處理得到網絡流行詞語的評價是比較困難的，缺乏客觀的標準。本文通過實驗結果和其他權威媒體發布的十大流行語，對本文的方法進行討論分析。

在國家語言資源監測與研究中心、北京語言大學等四家單位聯合發布“2007年春夏季中國主流報紙十大流行語”中的110個流行詞語[7]，本實驗的結果有90%都在分布的110個詞語中，證明該實驗的有效性和準確性。

結果表明，本文提出的快速獲取網絡流行詞語的方法是可行的，而且該方法能較好地得到一年中各個領域的流行詞語；同時還能夠從流行詞語的歷史走勢曲線圖清晰得到該流行詞語的流行時間和突起時刻。

4 結束語

本文提出了一種基于全切分獲取網絡流行詞語的方法，利用五大官方網站下載的網頁內容為研究資源，基于全切分進行切分得到所有詞串，經過權重過濾、語言模型過濾規則篩選候選詞表，再利用搜索引擎，獲得每個串在Internet上的出現次數（帶引號搜索），過濾掉出現0次的串，然后通過流行詞語判定公式提取出流行詞語，取得了理想的結果。該方法運用計算機處理的公正性，在判斷某一個詞語是否為流行詞語時最大限度地減少了人工的干預。

從實驗結果來看，其中存在一些不足的地方。例如，預處理部分的處理結果直接影響了最后的結果；在對候選詞集過濾的時候，過濾率高雖然能給后續處理帶來

很大方便，但是同時也擔心過濾掉了新詞語，而且閾值的設置一直是個很大的難題，一般都是在統計多次實驗對比的基礎上選擇一個更合適的值；本文的基于向量空間模型的權重過濾和流行詞語判定公式過濾中，選擇的閾值都是偏向于高門檻的方式，有可能過濾掉成為流行詞語的新詞。所以在這些方面還需要更多的實驗來解決。筆者將在接下來的工作中，實驗其他算法，尋求更適合量化流行詞語的公式，找到更好描述流行詞語的方法，并且減小閾值對實驗結果的影響。

參考文獻：

[1]何婷婷，朱薏，張勇，等.基于詞語屬性的計算機輔助獲取流行詞語研究[J].中文信息學報， 2006，6(6): 38-45.

[2]張普.基于DCC的流行語動態跟蹤與輔助發現研究[M]//孫茂松，陳群秀.語言計算與基于內容的文本處理.北京:清華大學出版社，2003:47-53.

[3]謝學敏，吳志山，史艷嵐. 流行語動態跟蹤研究綜述[C]//第二屆全國學生計算語言學研討會論文集. 2004.

[4]李保利，俞士汶.話題識別與跟蹤研究[J].計算機工程與應用，2003，39(17):6-10.

[5]HE Ting-ting， QU Guo-zhong， TU Xin-hui， et al. Semi-automatic hot event detection[C]//Proc of ADMA. 2006: 1008-1016.

[6]楊文峰，李星.基于PAT TREE 統計語言模型與關鍵字自動提取[J].計算機工程與應用，2001，37(15):17-19.

[7]國家語言資源監測與研究中心.中國語言生活狀況報告(2006)下篇[R]. 北京：商務印書館，2006: 166-170.

[8]張普.關于語感與流通度的思考[J].語言教學與研究，1999(2):83-96.

[9]孫承杰，關毅.基于統計的網頁正文信息抽取方法的研究[J].中文信息學報，2004，18(5):17-22.

[10]史中琦，張普.基于DCC動態流通語料庫的流行語類型分析[C]//第三屆全國語言文字應用學術研討會論文集. 香港:科技聯合出版社，2004.

[11]隋巖，張普.基于“動態流通語料庫”的“有效字符串”提取研究[J].語言文字應用，2005，5(2)：143.

[12]CHIEN L F. PAT-tree-based keyword extraction for Chinese informationretrieval[C]//Proc of ACMSIGIR97. Philadelphia:[s.n.]，1997:50-58.

[13]HU Wen-min， HE Ting-ting， ZHANG Yong. Extraction of Chinese term based on chi-square test[J]. Journal of Computer Applications， 2007(12):3019-3020.

計算機應用研究2009年4期

計算機應用研究的其它文章: 基于色彩分量相關性的彩色圖像可擦除水印算法; 基于灰色關聯分析的圖像置亂程度評價方法; 基于形態學開閉運算和梯度優化的分水嶺算法的目標檢測方法; 基于分枝類型和空間點的三維樹木建模方法; 一種新的基于ＲＳ理論的壓縮域鏡頭分割算法; 基于改進正則算子的氣動模糊圖像復原研究