


摘 要:從命名實體類流行語描述性釋義的語言學特征分析入手,制定其特有的語言規則匹配模板,從海量信息中,自動識別出符合條件的候選項,再通過構建語言模型,設定包含時間詞的句子權重,來體現命名實體類流行語的時效性,從候選項中識別出命名實體類流行語的描述性釋義,該識別研究可為流行語詞典的編纂與動態更新提供一定的參考。
關鍵字:命名實體類流行語 "描述性釋義 "詞義演變 "詞典編纂
一、命名實體類流行語描述性釋義識別的必要性
流行語是在某一時期,某一地域或某一人群中迅速傳播、盛行的詞匯。命名實體指文本中具有特定意義的實體,包括人名、地名、機構名、專有名詞等。上述兩個方向的已有大量研究成果,而命名實體類流行語的研究還是一項空白。謝學敏(2005)將流行語分為有標記的流行語釋義與不帶標記的流行語釋義兩類,不帶標記類又分為事件類、人物簡歷類釋義兩個分類分別加以處理,計算復雜度相對較高。術語定義提取方面的工作一直受到學界關注。張艷(2003)利用句法分析工具分析短語成分,根據句型結構,并建立數據和概念描述,給出術語發現算法,最終識別出術語定義。荀恩東(2004)采用術語定義的語言學模式,多線程高效下載網頁,經后續處理返回給用戶術語定義。荀恩東后續又通過考察術語定義構成的語言學模式、定義中詞匯和術語周邊的統計特征,并根據新術語出現的上下文統計特征,用SVM分類器進行術語定義的識別。詞義演變的研究多數從語言學本體或者加入社會學的因素進行考察[6],或就某一個詞語的語義演變進行考察。
詞義演變是詞匯發展的一個基本特征,相關的研究多半從語言學本體的角度探討詞義的擴大、縮小、轉移。詞義演變考察對象通常不包含命名實體。實際上,很多命名實體的在使用者的心理詞匯庫中的詞義呈現出明顯的詞義演變趨勢。本文闡述了該類詞匯的詞義歷時變化,在此基礎上進行描述性釋義的識別。該識別研究對于流行語詞典與流行語數據庫的建立與動態更新都具有現實的參考價值。
由于命名實體類流行語不同于術語,我們將識別對象定義為“描述性釋義”。
二、命名實體的語言學特征
(一)流行語的構詞成分
本文考察了從2003年至2012年十年間由國家語言資源監測與研究中心、北京語言大學等單位聯合發布的各年度中國媒體十大流行語,構建了一個流行語信息庫。這些流行語包括綜合類、經濟類、文化類、科技類等,共1060條(包括重復出現的流行語如“劉翔”,但這些流行語在不同年度入選的原因不同,作為命名實體類流行語的描述性釋義是不同的,故本文作為不同詞條處理。)。通過對該信息庫的考察,我們發現流行語的構詞形式于普通詞匯相比,具有明顯的不確定性與多樣性。
1.包含大量縮略語和字母詞(或字母詞與數字的組合)
例如:“高鐵”“駐京辦”“T3航站樓”“CMMB”“CPI回落”
2.包含大量命名實體(人名、地名、機構名)或包含命名實體的組合詞
例如:“郭明義”“釣魚島”“高盛”“北川中學”“珠海航展”。
從流行語信息庫中,檢索到命名實體184項,占所有流行語總量的17.36%。其中人名124項、地名29項、機構名31項。各項在命名實體中所占比重如下表:
(二)命名實體類流行語的描述性釋義
命名實體詞義的演變與近現率是緊密相關的。近現率是反映流行語流行程度的一項重要指標。詞匯的近現率是動態變化的,在一個時間段里近現率高且使用廣泛便構成了流行語。從心理語言學的角度考察,一個詞,在使用者心理詞匯庫中被激活的概率與被激活的速度與近現率成正比關系。從歷時角度考察,在受試者心理詞匯庫中,被測試詞匯每個時間節點上的詞義都會被激活,構成一個詞義組合,如何從這些這些詞義組合中篩選出近現率高的詞匯釋義是我們的研究主題。
通過對人工識別出的命名實體類流行語的描述性釋義的考察,我們發現流行語的描述性釋義,與普通詞匯的義項以及術語的定義不同。由于流行語是動態更新的,具有時效性、流通性、新聞性,這些屬性是其他類別的詞匯所不具備的。我們以2006年入選文化類流行語“孔子”為例,在搜索引擎中輸入該詞,檢索到的“孔氏,名丘,字仲尼”之類信息無法反映出“孔子”入選流行語的緣由。這些釋義與詞匯近現率是脫節的。換言之,我們無法從該描述性釋義中找出其作為當年流行語的任何理據。最終通過手工檢索到的描述性釋義為:
2006年1月,中國孔子基金會發起制訂孔子標準像,6月向全球發布孔子標準像初稿,此舉引起了不少爭議。
該描述性釋義解釋了緣何“孔子”入選該年文化類十大流行語。
上述流行語的描述性釋義與普通詞語義項或術語定義存在明顯的差別,義項與定義通常不包含時間詞,或類似“以來”“此舉”“爭議”這樣的詞語;而命名實體類流行語的描述性釋義包含的詞類與詞例數更為廣泛。
(三)命名實體類流行語的描述性釋義識別的必要性
顯然傳統意義的辭典無法檢索到流行語的詞條釋義。網絡搜索引擎,雖方便快捷,但從海量信息出定位最佳的釋義,效率與準確率都不盡如人意。目前網絡搜索引擎的功能已經非常強大,指定功能性的搜索服務也很完善,例如“百度百科”“智庫百科”“互動百科”,這些查詢服務一般可以直接定位所查詢項的術語定義、詞語定義、定義性描述。即便如此,很多流行語、新詞語,仍不能從網絡上找到現成的描述性釋義。人工從網絡海量信息中檢索到這些詞語的解釋費時費力,且一些人為因素也影響到識別的準確率。
以2008年流行語“北川中學”為例,用戶在百度搜索引擎可查找到的內容分兩類。返回的前100個網頁中一類是將“北川中學”作為一個普通的機構名來處理,介紹該中學從建校起的歷史沿革。第二類是包含有關“北川中學”以及“北川中學”的學生各個不同方面的新聞事件?!氨贝ㄖ袑W”入選2008年媒體流行語,是與汶川地震這一背景事件密不可分的,與它作為一個普通的機構名并無關聯。兩者所要表達的語義內涵是截然不同的。在汶川地震之前的“北川中學”與地震之后的“北川中學”語義層面上有很大差異。
同樣,命名實體“劉翔”多次入選近年的流行語,但每年入選的原因是不同的,表達的詞義內涵顯然是不同的。將一個命名實體作為一個固定不變的詞匯統一處理顯然是不科學的。
搜索引擎只能提供給我們一個不具備時間區分度的詞語解釋,而這顯然不符合流行語的時效性特征,也無法體現語義演變與近現率的特征。
考察中,本文發現大量使用度頗高的流行語,通過搜索引擎查詢,也缺少現成可獲取的較為規范的描述性解釋。如何準確地識別這些命名實體類流行語的釋義,是一個需要語言學界關注的課題?;诖耍疚氖褂靡环N規則加統計的方法進行命名實體類流行語描述性解釋的識別。通過構建了命名實體類流行語的描述性釋義的匹配規則進行初次過濾,在規則匹配的基礎上,再通過建模統計計算方法進行最終識別。
三、命名實體類流行語描述性釋義的規則匹配
(一)文本預處理
提交給百度搜索引擎一項流行語查詢,返回一系列的包含查詢項的相關文檔。首先對返回文檔進行預處理,將預處理文本轉化為純文本,濾掉垃圾信息,再將文本進行分詞和詞性標注。本文使用中科院計算所漢語詞法分析系統ICTCLAS進行分詞和詞性標注。
(二)命名實體類流行語描述性釋義的匹配模板
本文通過對命名實體類流行語描述性釋義的詞語構成分析,構建了如下的匹配模板,兩個句子結束符之間的字符串,或段首與句子結束符之間的字符串,若有一個子串同以下某個模板匹配,則整個字符串便是抽取的候選描述性釋義。
模板使用正則表達式表示,其中圓括號中用豎杠分開的是可選項,圓括號表示可選項中必須出現一項。星號表示任意字符串。漢字和其他符號是應匹配的字符。PopNE表示命名實體類流行語,其他英文字符串是模板名稱。
1.PopNE(是|即)
2.PopNE (包括|包含)
上述兩條匹配規則主要針對普通流行語。
3.PopNE (位于|坐落于|地處)
該匹配規則可以檢索出流行語包含大量的機構名和地名。
4.*Time*
該匹配規則檢索出所有與被查詢命名實體類流行語在同一文本中出現的包含時間詞的句子。流行語是某個特定時期使用度高的詞語,所以我們將時間范圍定義在2003年到2012年,本文的研究對象也主要針對這十年間出現的命名實體流行語。
(三)命名實體類流行語描述性釋義匹配模板的特點
為確保描述性釋義的召回率,本文將匹配模板適當放寬。該步驟中,由于語言現象的多樣性和不可預測性,一些檢索到的句子在語言形式上不符合匹配規則而被濾掉,這也是匹配模板自身難以克服的缺陷,不過本文的描述性釋義識別是基于網絡海量、動態更新的信息源,所以該類句子在數量上微乎其微,規則基本能涵蓋所有命名實體類流行語的描述性釋義。
四、基于統計方法的命名實體流行語描述性釋義識別方法
經過模板匹配過濾,檢索出的符合匹配模板的一些候選項,準確度達不到實際的查詢需求,在此基礎上進入下一步統計方法的計算,以提高最終識別的準確度。本文采用向量空間模型(VSM)進行最終句子的識別[8]。
給定流行語描述性釋義候選句子S1、S2、S3…… Sn,將它們視為n個單個短文本:Doc1、Doc2、Doc3 ...Docn。
采用向量空間模型時,通常會構建停用詞表,將區別性低,意義貢獻小的詞語濾掉;但本文針對命名實體類流行語的處理具有其特殊規律。首先描述性釋義不同與嚴格意義的術語或詞語定義。從詞性類別角度考察,形容詞、副詞、數詞、量詞、感嘆詞在描述性釋義中出現頻率都很高,所以我們構建的停用詞表詞條數目相對通用停用詞表小很多。
將候選釋義視為一個集合,在這個集合中進行高頻詞抽取,抽取出來的前15位高頻詞組成一個高頻詞向量HiFre_word。
該向量等同于信息檢索中的查詢向量,每個候選句子視為一個小文本,等同于一個文本向量,
通過構造上述向量空間模型來計算HiFre_word向量與doc向量之間的距離,由距離遠近來定義相似度大小。
(一)特征項權重的選擇
詞頻是最常用的特征項的權重指標。本文以候選句子中的詞頻作為構造文本向量的權重。
(二)VSM計算
給定一個文檔,把視為一個維的坐標系,為相應的坐標值,即權重,則可以視為是維空間中的一個向量。Q為高頻詞向量HF_word。兩個向量之間的距離計算公式:
根據公式,識別出與HF_word最相似的文本向量,作為釋義的最優選擇。
(三)包含時間詞的候選句子的權重設定
流行語與普通詞語最顯著的差別是時效性,因此在釋義提取時加入內容的時效性會顯著提高流行語釋義識別的準確率。通過考察發現,包含命名實體釋義的句子與包含時間內容的句子連接越緊密,該釋義的準確率越高,兩者之間的間隔距離與兩者之間的語義相關度成正比。我們加權計算方法,對VSM計算出來的相似度進行最終修正:
其中n為釋義句子與包含時間詞的句子之間的距離,如果兩個句子連在一起,n取值為1;如果兩個句子中間有一個其他句子間隔,n取值為2;其余依次類推。實驗發現,當兩個句子的距離超過5以后,權重之間差別不大,這也符合距離主題句超過一定距離后語義相關度之間沒有太大差別這一規律。
(四)流程圖
流程說明:
1.將命名實體類流行語提交搜索引擎;
2.搜索引擎返回相關搜索結果文檔;
3.搜索結果文檔集合,通過預定義的語言模板進行過濾;
4.將過濾后的集合經過時間模板過濾;
5.構建VSM,計算各個定義與高頻詞之間的相似度并進行排序;
6.抽取相似度最高的n個定義作為最終結果,n可自定義。
(五)實驗結果評價
本文基于網絡信息源進行識別,故實驗結果評價無須考慮召回率,只需用準確率表示。
“P”表示識別出的正確的流行語描述性釋義在所有識別出的句子中的比例,計算公式如下:
其中識別出的正確的流行語描述性釋義是指最終結果中排名前三的句子中有正確的釋義。我們選取從2003年至2012年184個命名實體類流行語作為實驗對象。實驗對象包括“時政類、經濟類、科技類、教育類、文娛類”等各領域的命名實體類流行語。識別出正確的描述性釋義為161條,準確率為87.5%
五、結語
傳統語言學的角度,從詞義層面上考察,人名、地名、機構名這些看似靜態的詞匯不存在詞義演變的條件與可能。然而,命名實體類流行語描述性釋義的識別,使得我們有可能從歷時發展的角度去研究命名實體的詞義演變,該研究對于流行語辭典編纂、流行語數據庫的建立,都提供了一定的支持。對語言學研究、社會學研究、自然語言處理研究來說都是一項有意義的工作。
參考文獻:
[1]張普.基于DCC的流行語動態跟蹤與輔助發現研究[A].第三屆全國語言文字應用學術研討會論文集[C].2004.
[2]謝學敏.基于動態流通語料庫(DCC)的流行語釋義信息自動提取研究[A].中國人工智能學會第11界全國學術年會論文集[C].北京:北
京郵電大學出版社,2005.
[3]張艷,宗成慶,徐波.漢語術語定義的結構分析和提取[J].中文信息學報,2003,(6).
[4]荀恩東,賈愛平,宋柔.基于互聯網的術語定義獲取系統[J].中文信息學報,2004,(4).
[5]荀恩東,李晟.采用術語定義模式和多特征的新術語及定義識別方法[J].計算機研究與發展。2009,(1).
[6]石靜.詞義發展演變的系統性研究[D].濟南:山東大學碩士學位論文,2007.
[7]玄玥.“見”不是虛化結果補語——談詞義演變與與語法化的區別[J].世界漢語教學,2010,(1).
[8]張華平,李恒訓,劉治華.信息檢索:算法與啟發式方法(第2版)[M].北京:人民郵電出版社.
(張榕 "北京語言大學漢語速成學院 "100083)