荀恩東,饒高琦,2,謝佳莉,3,黃志娥,4
(1. 北京語言大學 大數據與教育技術研究所,北京 100083;2. 北京語言大學 語言科學院,北京 100083;3. 廈門國家會計學院,福建 廈門 361005;4. 福州應用技術大學 人文學院,福建 福州 350118)
?
現代漢語詞匯歷時檢索系統的建設與應用
荀恩東1,饒高琦1,2,謝佳莉1,3,黃志娥1,4
(1. 北京語言大學 大數據與教育技術研究所,北京 100083;2. 北京語言大學 語言科學院,北京 100083;3. 廈門國家會計學院,福建 廈門 361005;4. 福州應用技術大學 人文學院,福建 福州 350118)
詞匯是語言系統中最具活力的子系統。在語言演化的過程中,詞匯的歷時變化是語言學、歷史學、社會學等多學科所關注的信息。我們收集了時間跨度約為60年的同質新聞語料?;谧匀徽Z言處理技術我們開發了現代漢語詞匯歷時檢索系統?;谠撈脚_可以利用頻率、累積和與累積頻率等方法從微觀和宏觀的角度上對詞匯的語義、語用等方面進行研究。
歷時信息;詞匯演化;歷時計算;語料庫
詞是語言中有意義,能獨立運用的最小單位,也是最能夠體現語言生活變遷的語言單位。每一個詞都有在其所屬語言社團中獨特的發展過程。從微觀上說,一個詞語包括其使用情況的歷時信息,可以反映特定時間乃至特定領域在不同時期所受到關注的情況。從宏觀上講,整個詞匯的豐富程度是語言生活情況的重要體現,從一個側面反映了社會變遷和人民生活的變化。每個時間斷面上的詞匯都帶有以往的語言歷史,是共時和歷時的混合產物[1]。
計量語言學關注今天的詞匯始于哪個歷史時期,還關注現在詞匯的使用狀況是如何形成的。語言的歷時信息同樣為計量史學所關注。而利用計量史學方法進行的觀念史研究,則更注重特定詞語的歷時使用變化。金觀濤、劉清風[2]使用晚清至民國有影響力的報刊雜志一億兩千萬字作為數據源,通過表達同樣觀念的不同詞在不同時期使用頻率和上下文特征的研究,觀察并分析了100個中國現代政治術語的形成和發展,在史學界引起很大反響,但是其史料庫規模和選材偏執也引起了爭議[3]。劉長征運用1981~2009年共29年的《深圳特區報》進行了新詞語監測和詞語生命力的研究[4]。涵蓋面更廣的語料庫如LIVAC則收集泛華語地區的新聞語料四億字,在共時性和歷時性上都有突出貢獻[5]。在囊括兩岸三地新聞語料的基礎上,持續更新,在此基礎上發布港臺京滬雙周、全年名人榜,熱詞榜等信息,并對兩岸三地的詞匯使用異同做出了定量的分析。LIVAC新聞語料庫建設始于1995年,歷時僅17年。對于語言現象的變遷,這樣的跨度還略顯不足。谷歌公司2010年上線的服務Google Books N-gram Viewer,利用其數字化的520萬冊圖書制作了可實現五元文法的詞匯歷時查詢[6]。覆蓋了1800~2000年間兩個世紀的語料。但其漢語圖書量較少,未對語料進一步分類,且有效的查詢跨度少于200年。此外,圖書對于現實語言現象的變遷存在一定的滯后。
可見,進行語言歷時信息研究,尤其是詞語歷時信息的研究,需要大規模、長時間跨度的語料。我們收集了時間跨度57年的某省日報語料,為漢語詞匯的歷時信息提供了良好的基礎。在第二節中,我們將介紹歷時新聞語料的構成。對于特定詞語的微觀研究,頻次、頻率和頻序是計算語言學中的使用的經典表征形式。在對宏觀語言現象的歷時研究中,采用前N%頻率累積和(TNFA)與總詞表前N%累積頻率歷時分布(TNFD)兩種可計算指標對詞匯使用豐富程度和高頻詞匯來源的歷時分布進行表征。這些可計算特征將在第三節中進行討論。基于這幾項表征,搭建了現代漢語詞匯歷時檢索系統(Diachro-nic Retrieval for Modern Chinese Word)。在線上開放數據為廣大研究者所用。第四節將介紹該系統的設計和原理。最后一部分簡要列舉了幾項基于該系統的應用,并展望了未來的研究方向。
我們收集了自1949年11月創刊至2007年間的某省日報,全部語料7億字。該語料時間跨度大,覆蓋了共和國自成立以來的絕大部分歷史,記錄了期間的語言生活與社會生活的巨大變遷,對于各個學科的追蹤研究具有格外高的研究價值。以年為單位,對語料進行整理。經過分詞并去除標點符號、拉丁字母與低頻命名實體等,共有328 000個詞形。各時間段語料規模如表1和圖1所示??梢?, 隨著時間的推移,語料規模逐漸擴大,在1996年前后達到最高峰,接近1970年最低點的兩倍。這是報刊信息量加大,社會傳媒發展的結果。

表1 各時間段語料規模統計表

圖1 各年份語料規模(字數)
基于詞語歷時信息的研究,可以分為微觀的對特定詞語歷史信息的分析、跟蹤和宏觀的對整個語言基于詞語信息的歷時研究。對于前者,頻次、頻率和頻序是較為經典的表征方式。后者又分為基于詞的歷時語言豐富程度的度量與高頻詞歷時分布的研究?;谠~的歷時語言豐富程度的度量,我們借用類似香農熵的思想,使用前N%頻率累積和(TNFA)。高頻詞歷時分布則用總詞表前N%累積頻率歷時分布來加以描述。
3.1 微觀詞語歷時信息的表征形式
詞語出現的頻次是語料中最能直接表征其使用情況的特征。由于不同時間段的語料規模不一,使用詞語出現的頻率作為衡量該詞使用情況的標準顯然更為科學。頻率的定義如式(1)所示。
(1)
其中q(word)為詞語word的頻率,freq(word)是它在當年語料中出現的頻次,Count為整個語料的全部詞次數。
另一種表征詞語使用狀況的方式是特定詞語在當年詞表中的排名,如果該詞表是按照頻率降序排列的話,這種排名被稱作頻序[8]。相對于頻率,這項指標更能反映出一個特定詞語在當年相對于其他詞語的使用情況,顯示出其在整個語言生活中所占的地位。
3.2 基于詞語信息的宏觀語言現象表征
3.2.1 基于詞語信息的歷時語言豐富程度度量
詞形數的增減從一個方面反映了語言生活的豐富程度。而更具有說明力的指標是香農熵。香農熵的公式如式(2)所示[9]。
(2)
其中W為語料中的全體詞匯,設共n個詞,wi為第i個詞。p(wi)為第i個詞在語料庫中出現的概率。熵值的增高表明所有詞間使用頻率的差異較小,系統趨于平均和混亂。熵值的降低則表明詞語使用的頻率并不那么平均。圖2為各年詞的熵值變化。與圖1類似,在1970年前后落到谷底,而隨著改革開放的開始而逐漸回升。香農熵的計算中帶有詞語使用的概率信息,較詞形數變化,可以更全面地反應語言生活的豐富度。

圖2 各年語料的詞熵變化
香農熵的計算是基于當年全部詞匯進行。我們提出一種更加直觀而靈活表現語言豐富程度的方式——年內前N%累積和。其定義如下: 每年詞表中的詞目,按頻率降序排列,累積頻率(也被稱作覆蓋率)達到N% 時的詞數Y。
(3)
式(3)中Y代表年內topN累積和,即達到累積頻率時詞的個數;q(w)為詞表中詞w的頻率,詞表按頻率大小從大到小排練;N為待選定的累積頻率。
顯然,當達到指定累積頻率所需的詞越多(即頻率累積的越慢),表明詞匯使用的越分散,豐富程度越高。反之亦然。圖3為1950~2007年的年內前30%累積和。與圖2類似, 只是更為明顯。詞匯使

圖3 年內前30%累計和
用的豐富程度改革開放前總體低于改革開放后,文革十年是一個明顯低谷。這符合我們的生活直覺與傳統語言學對語言發展的認識[10]。
3.2.2 基于詞語分布的高頻詞歷時分布描述
我們使用總詞表前N%累積頻率的歷時分布來描述高頻詞的來源,定義如下: 使用全部語料形成的總詞表,按照頻率降序排列,當累積頻率達到N%時,該范圍內的詞語[式(4)~(5)]在各年中出現頻率之和[式(6)]。以前50%為例,總詞表中按頻率降序,當頻率累積到達50%時,共有t個詞。這t個詞在1959年中,出現頻率之和,即為1959年對總詞匯的貢獻情況。這一指標表征了高頻詞的歷時性分布與構成。
(6)
前N累積和中公式(4):N為待選定的累積頻率;q(wi)為全部語料形成的總詞表中詞wi的頻率,詞表按頻率降序排列;公式(5): S是從總詞表中按照頻率從大到小取詞,其累積頻率達到N時所取出詞組成的集合。公式(6):p(wi)為wi在某一年(橫坐標所指示的年份)中出現的頻率,將公式(5)上所取出的集合S里所有的詞累加得到的頻率和即為當年語言對總高頻詞匯的貢獻和Y。
圖4是總詞表前50%累積頻率的歷時分布直方圖。從變化幅度上可以看出該項指標對詞匯歷時分布的敏感性。同時,也可以看出改革開放后的詞語使用對總詞匯中使累積頻率達50%的詞匯有更重要的貢獻,即改革開放后的詞語使用對今天的影響更大。

圖4 總詞表前50%累計頻率歷時分布
基于上一部分所討論的幾種表征詞語歷時使用狀況的要素,我們設計了現代漢語歷時檢索系統,提供在線詞語查詢和語言豐富度計算。我們將所收集語料,按照來源時間,以年為單位分割。使用北京語言大學研發的GPWS(通用自動分詞系統)對其進行分詞和命名實體識別[11]。經過此步驟后即可抽取出各年的詞表與總詞表。通過全文檢索系統對全部語料建立了倒排索引,并在索引中加入時間標記?;诖?,計算所有詞在各年和全部時間段的頻次、頻率、頻序與累積頻率(覆蓋率),形成支撐服務的后臺數據。系統設計流程圖如圖5所示。
在用戶界面圖6中,用戶在下拉框選擇歷年或全時高頻詞的覆蓋率(如前20%,前30%等等),可通過高頻詞歷時分布統計從宏觀上觀察語言使用狀況。在檢索框中輸入待查詢詞語,檢索詞語歷時信息(歷年頻次、頻率、頻序)以直方圖和折線圖的形式可視化顯示。在直方圖或折線圖上點擊某特定年份,便可獲得當年待查詢詞的使用實例。以查詢詞為中心,上下文窗口為20個字,顯示檢索結果實例,方便研究者在統計數據之外能更詳實直觀的了解特定時間點上的語言現象。
現代漢語歷時檢索系統自2012年5月初上線以來,展現出了較高的實用性與可用性。期間進行了一次語料擴充(延伸為1951~2012年)和兩次用戶界面改版。用戶的高頻查詢主要是新詞和公共領域相關概念兩方面。由于報刊新 聞語料的特點, 本系統主要功能體現是后者。對于新詞,如“宅女”、“忽悠”等隨著經濟文化事業產生的詞, 不如網絡語料反應快,但可以通過實時的新語料抓取來得到部分滿足。公共領域相關概念有環保、減肥、聽證會等。單個詞語使用的變化,從一個側面揭示了一類社會問題、社會現象發生發展以及受關注的過程。而這類詞總數的增多和使用頻率的增加,表明了公共空間作為社會發展標志,從無到有、從小到大的過程,是符合生活直覺和社會發展規律的[12]。

圖5 系統設計流程圖

圖6 用戶界面
2002年,教育部發布了《第一批異形詞整理表》[13],對338個異形詞對進行了整理和規范。異形詞的整理工作需要照顧到語言事實并充分考慮文化傳承,在大時間跨度上的統計分析是十分重要的。以“身份-身分”為例?!吧矸荨睘橥扑]詞形。從圖7中可以看出,兩者長期穩定共存(兩者都一直使用,無間斷),但是“身份”在1961年及其后均占據了絕對優勢。該異形詞對的選擇都得到了“大數據實證”上的支持。對于未涵蓋的詞對,以“交待-交代”為例,從圖8中可以看出在70年代以后兩者頻率降低并逐漸趨同。

圖7 身份-身分頻率變化圖

圖8 交待-交代頻率變化圖
就同一字/詞而言,其使用和語義在漫長的時間流轉中也會發生巨大的變化。以“炒”為例,1950年檢出的45次使用中,全部為“把食物放在鍋里加熱并隨時翻動使熟”,然而在1996年檢出的245次中僅有101次為此義,其余為表示“頻繁買賣”,或者是南方方言中表示解雇的“炒魷魚”,以及表示“擴大影響”。一個有趣的現象是南方方言中表示解雇的“炒魷魚”。在1980年代初進入新聞出版語言的時候共檢出兩次,均是在雙引號中引用;在1993年17次檢出中有11次在雙引號中;而到了2004、2005年各有一次檢出,均不在雙引號中。期間所伴隨的事件便是1999年開始修訂的《現代漢語詞典》最終收錄了“炒魷魚”。
詞語的歷時信息體現了詞語在語言社團中的使用,對語言社團中重大事件的發生有著很好的表現作用。詞語取代現象還可以微觀的體現出語言生活的許多變遷。以南朝鮮-韓國兩詞的頻率查詢為例。如圖9所示, 南朝鮮在1960年前后出現使用高峰,恰好對應了冷戰進入高潮,武裝對峙白熱化。韓國和南朝鮮的使用頻率在1992年出現交叉。1992年之前,幾乎不使用韓國這一稱謂,之后則迅速停用了南朝鮮這一稱謂。這一節點所標示的歷史事件即中韓于1992年建立外交關系。圖10為科學技術-科技的頻率圖,直觀地顯示出了“科技”取代“科學技術”的過程。

圖9 南朝鮮-韓國頻率圖

圖10 科學技術-科技頻率圖
縮略語隨著原短語使用的增長,自身使用也增長,基于人類交際的最省力原則,最終取代本詞?;谏缃痪W絡、微博和Twitter的公共事件預測研究方興未艾[14-16],與本系統探測事件發生和語言趨勢的原理本質上類似,都是利用了群體智慧。歷時的語料數據,尤其是詞信息數據在何等程度上有助于語言使用情況的預測,乃至熱點的追蹤和挖掘,將是十分值得深入研究的問題。
許多詞在不同時代有迥異的語義,其使用情況亦大為不同。我們通過歷時語言實例的查詢能夠對其進行一定區分。在詞語的研究方面上,現在的詞語歷時檢索系統是面向詞語使用情況的歷時變化,等于說是基于一元語法(Unigram)的統計研究,怎樣合理地注入更多上下文信息,利用報紙語料中版面、板塊這一天然分類信息,提供分領域的查詢和對比,提供更可靠的自動化分析也是未來的研究方向。
此外,基于統計的自動分詞技術并不考慮語言的歷時特性。前文示例中詞語淺層特征在不同時間段上有著明顯的差異,這是否可以對統計自動分詞提供一定反饋?從資源建設上來講,單一媒體作為語料來源,必然有其偏執,如何平衡的融合其他不同時間跨度上的語料;如何基于語料特點,尋找具有應用價值的衡量指標,這些都是在這套系統的研發過程中產生的新的學術問題,并期待系統的使用者和開發者共同進行更深入的研究與探索。
[1] 葛本儀. 詞匯的動態研究與詞匯規范[A]. 載《詞匯學理論與應用》蘇新春,蘇寶榮主編. 北京: 商務印書館. 2004.
[2] 金觀濤,劉慶峰. 觀念史研究[M]. 北京: 法律出版社.2009.
[3] 張仲民. “局部真實”的觀念史研究.《東方早報》2010年5月23日B05版.
[4] 劉長征. 基于動態流通語料庫的新詞語監測研究[M]. 北京: 世界圖書出版社.2011.
[5] 鄒嘉彥,鄺藹兒,陸斌,蔡永富. 漢語共時語料庫與追蹤語料庫[J]. 中文信息學報,2011,25(6):38-45.
[6] Jean-Baptiste Michel, Yuan Kui Shen,Aviva Presser Aiden etl. Quantitative Analysis of Culture Using Millions of Digitized Books. Science 331, 176(2011); DOI: 10.1126/science.1199644.
[7] 李宇明. 權威方言在漢語規范中的地位[J]. 清華大學學報, 2004,5:24-29.
[8] 教育部語言文字信息管理司. 中國語言生活狀況報告[M]. 北京: 商務印書館,2009:525-534.
[9] 克勞德·艾爾伍德·香農. 《通信的數學理論》 (A mathematical theory of communication) 貝爾系統技術,1948,1:379-423.
[10] 葉蜚聲,徐通鏘. 語言學剛要(修訂版)[M]. 北京: 北京大學出版社.2010.
[11] 宋柔,羅智勇.現代漢語通用分詞系統(GPWS v3.5)http://democlip.blcu.edu.cn:8081/gpws/
[12] 尤爾根-哈貝馬斯. 公共領域的結構轉型[M]. 上海: 學林出版社.1999.
[13] 《第一批異形詞整理表》,中華人民共和國教育部. 2002
[14] Shen Yu,Subhash Kak. A Survey of Prediction Using Social Media[C]. ArXive-prints. March, 2012.
[15] 路榮,張旸,楊青. 社交網絡中新聞趨勢的預測分析[J]. 中文信息學報. 2012,26(5):85-90.
[16] 洪宇,張宇,劉挺,李生. 話題檢測與跟蹤的評測及研究綜述[J]. 中文信息學報. 2007,21(6):71-87.
Diachronic Retrieval for Modern Chinese Word: System Construction and Its Application
XUN Endong1, RAO Gaoqi1,2, XIE Jiali1,3, HUANG Zhi’e1,4
(1. Institute of Big Data and Educational Technology, Beijing Language and Culture University, Beijing 100083, China; 2. Faculty of Linguistic Sciences, Beijing Language and Culture University, Beijing 100083, China; 3. Xiamen National Accounting Institute, Xiamen, Fujian 361005, China; 4. School of Humanities, Fujian Universitity of Technology, Fuzhou, Fujian 350118, China)
Lexicon is the most active and time sensitive sub system of a language. During the evolution of a language, diachronic changes in vocabulary are focused by linguist, historian and sociologist etc. We collected large scale of corpora with a large time span, and developed the system of Diachronic Retrieval for Modern Chinese Word with natural language processing technology. It provides search indexes on frequency, cumulative sum, cumulative frequency etc., for possible studies on the semantics pragmatics and other aspects of the word.
diachronic information; lexicon evolution; diachronic computing; corpus

荀恩東(1967—),通訊作者,教授,主要研究領域為語言信息處理、語言教育技術。E?mail:xunendong@blcu.edu.cn饒高琦(1987—),博士研究生,主要研究領域為計算語言學、語言規劃。E?mail:raogaoqi@blcu.edu.cn謝佳莉(1988—),主要研究領域為語言信息處理、教育技術。
1003-0077(2015)03-0169-08
2013-04-08 定稿日期: 2013-07-9
國家自然科學基金(61300081,61170162);國家語委項目(YB125-42);國家高技術研究(863)發展計劃(2015AA015409)。
TP391
A