王秋萍沈陽師范大學,遼寧沈陽110034
?
面向語言監測的字母詞自動獲取研究
王秋萍
沈陽師范大學,遼寧沈陽110034
摘要
近年來,字母詞在漢語中使用廣泛,對字母詞使用情況的調查、對策分析及規范探討的研究越來越多。因此,字母詞的自動獲取和數據統計作為一項相關前期工作,也受到重視。力求在分析字母詞構成及形式特征的基礎上,提供一種字母詞自動獲取方法,在字母詞使用情況的調查實踐中,證明該方法有效。
關鍵詞
字母詞;自動獲取;方法
近年來,字母詞在漢語中使用廣泛。為了摸清字母詞在漢語中的使用實態,基于大規模真實文本的字母詞使用情況的調查、對策分析及規范探討的研究越來越多。因此,字母詞的自動獲取和數據統計作為一項相關前期工作,也受到重視。下文將在分析字母詞構成及形式特征的基礎上,提供一種字母詞自動獲取方法,在字母詞使用情況的調查實踐中,證明該方法有效。
字母詞是由字母單獨構成,或由字母與符號、數字、漢字組合構成的詞語。字母詞在漢語詞匯系統中,是一個形式上具有特殊性的詞集,具體表現在,字母詞一定含有字母,“字母詞”也因而得名。
從字母詞的構成元素看,字母詞一定含有字母,可以含有數字、符號和漢字。
(一)字母
字母指“拼音文字或注音符號的最小書寫單位。”①這里,漢語字母詞中的字母主要由拼音文字的最小書寫單位構成,包括拉丁字母、希臘字母、西里爾字母、平假名和片假名等。
(二)數字
數字指10個阿拉伯數字和22個羅馬數字。包括:0到9的半角、全角形式和“ⅠⅡⅢⅣⅤⅥⅦⅧⅨⅩⅪⅫⅰⅱⅲⅳⅴⅵⅶⅷⅸⅹ”。
(三)符號
符號指廣義標點符號、數學運算符號、計量單位符號、數字序號、貨幣符號和其他標記符號的半角、全角形式。
(四)漢字
漢字指“記錄漢語的書寫符號系統。”②這里將文本中字符統一為Unicode字符集,指字符編碼在0x4e00到0x9fa5范圍內的字符。
(一)字母詞自動獲取總體流程
字母詞一定含有字母串,可以含有數字串、符號串和漢字串。因此,可以將字母串作為特征詞串,對字母詞進行自動獲取,總體流程見圖1。
陜西省西安市雁塔區高新科技路進行全面改善與施工,全長為21.3km,此路段為雙向四車道,這一市政工程開展施工以后會對道路與橋梁、給排水與電力、綠化等都造成影響,需要不斷對相關市政管線加以完善,確保環境不受到污染,還要重新改造綠化隔離帶。為了避免環境受到污染,陜西省西安市雁塔區高新科技路市政工程采用綠色施工技術,避免對居民生活造成影響,為市政工程提供更優質的施工環境,提高施工質量。

圖1 字母詞自動獲取總體流程圖
(二)獲取含有字母字符串模塊
字母詞屬于詞匯研究的范疇。考慮到字母詞在語料中散在分布的特點,為了提高完善現有字母詞表工作的效率,首先獲取含有字母的字符串作為完善詞表過程的待處理語料。這里,“含有字母的字符串”定義為以字母串為中心,左右各保留10個雙字節字符,不足10個字符以空格填充,獨占一個文本行。這樣,批處理的文本規模會大大地減少,提高提取效率。
(三)字母詞預篩選模塊
提取含有字母字符串模塊希望可以取得提取字母詞的粗語料,并盡可能去掉一些可能含有相同字母詞的語料片段。但是,字母詞是一個從形式上定義的詞匯形式,這里還將引入一些規則,將符合構成形式標準,但不符合字母詞定義或者字母詞典型性弱的字母串文本行去掉,例如:網址、郵箱、外文語碼混用,小于詞的單位等。這個模塊的篩選選項可以根據字母詞監測任務的實際需要而有選擇地使用。
(四)完善現有詞表模塊
這里介紹的字母詞提取算法是一種基于字母詞底表的獲取方法。現有字母詞詞表Letter-words. txt由兩個詞表組成:CUCBst分詞標注系統中的字母詞詞典,記作Letter-words1.txt,和中國傳媒大學國家語言資源監測與研究中心有聲媒體語言分中心共同搜集編寫的字母詞詞典中的詞條,記作Let?ter-words2.txt。Letter-words.txt在進行字母詞使用監測研究時,還可能存在不完備的情況。因此,研究中又試圖利用自動比對和人工甄別、添加相結合的方法,發現調查語料中存在但現有詞表尚未收錄的字母詞,并循環完善現有的字母詞詞表,以使得監測語料中字母詞的提取更加完全。完善詞表的過程分為兩個步驟:
字母詞的自動獲取采取將“含有漢字字母詞”和“不含有漢字字母詞”分開處理的策略。在對劉涌泉《漢語字母詞詞典》(2009年版)統計發現,含有漢字字母詞和不含有漢字字母詞近乎各占一半。統計結果見表1。

表1 劉涌泉《漢語字母詞詞典》各類字母詞所占比例
由此可見,含有漢字字母詞不僅在字母詞中占有一席之地,而且在字母詞成員中占近一半的數量。但是,含有漢字字母詞的邊界問題是字母詞自動獲取的一個難點,單獨采取有針對性的提取策略十分必要。
獲取含有漢字的字母詞模塊的目的是找到含有漢字的字母詞的候選文本行,以供后期人工干預查找和添加含有漢字的字母詞,補充到詞表Letterwords.txt中。
例如:要把“B族維生素”一詞添加到詞表中。待處理語料的形式如圖2。

圖2 待處理語料的文本行示例
第一,查找到每一個文本行中的字母串,并取其左右的各5個字符,形成10種形式。例如:對于第一個文本行,10種形式示例如圖3。相當于將待處理語料中的每一個文本行都抽取出10個形式,所有被抽取出來的形式形成一個候選串表。

圖3 圖2中待處理語料第一個文本行10種統計形式示例
第二,對候選串表中的每一個形式在語料中統計頻次,如果頻次大于經驗閾值,將候選串表里每組字母串形式中,頻次最高,長度最長的那個字符串所在的文本行,寫入“帶漢字字母詞候選.txt”文件中。
(六)獲取不含有漢字的字母詞
獲取不含有漢字的字母詞模塊的目的是查找待處理語料中的每一個文本行(經過去掉重復處理),不能和字母詞表中任何詞條相匹配的,將這樣的文本行,寫入一個文件。
第一,將字母詞表中詞條按照詞的長短排序,詞長長的在前,目的是先匹配較長詞長的詞條。
第二,將待處理語料中每一個文本行,依次與字母詞表進行比對,如果匹配上字母詞表中的詞條,這個文本行暫不處理;如果沒有匹配到任何詞條,將這個文本行寫入“不帶漢字字母詞候選.txt”文件中。
將“含有漢字的字母詞”和“不含有漢字的字母詞”分開處理的目的是:如果直接查字母詞表,會出現兩個問題。第一,現有詞表可能不夠完善,其中純字母的字母詞占大多數,這樣,當語料是“QQ號碼”時,詞表中恰好有QQ這個詞條,匹配上“QQ”后,“QQ號碼”這樣一類帶有漢字的字母詞,將不能被發現和補充到詞表中。因此,有必要對帶有漢字的字母詞預先處理一下。第二,原來的詞表沒有進行詞長排序,這樣當語料中的詞是“NBA”,詞表中先出現“N”,實際并沒有“NBA”這個詞條時,程序卻認為匹配成功,而使像“NBA”這樣的詞條不能被發現并補充到詞表中。所以,采用以上兩個步驟完成。
利用經過反復完善的字母詞表文件Letterwords.txt,對經過全角轉換處理的文件夾下所有文件進行匹配查找,將經過詞長降序排列的詞表文件中的詞條逐一與語料比對,將語料中查找到的字母詞寫入一個文本文件,并相應統計出每個字母詞出現的頻次和文本數。
“工欲善其事,必先利其器”。字母詞的自動獲取和數據統計作為字母詞使用情況監測的一項前期基礎性工作,可以為監測數據的大規模、高效、準確獲取和統計提供保證。
注釋:
①GB/T12200.1-90《漢語信息處理詞匯01部分:基本術語》
②GB/T12200.2-94《漢語信息處理詞匯02部分:漢語和漢字》
[參考文獻]
[1]侯敏.實用字母詞詞典[M].北京:商務印書館,2014.
[2]胡鳳國.字母詞的全/半角形式對中文分詞的影響及對策初探[J].中國科技術語,2010(4).
[3]劉涌泉.關于漢語字母詞的問題[J].語言文字應用,2002(1).
[4]劉涌泉.漢語字母詞詞典[M].北京:外語教學與研究出版社,2009.
[5]王秋萍.近二十年來漢語書面語中字母詞使用狀況調查[D].北京:中國傳媒大學,2011.
[6]王秋萍.屬性、隸屬度與字母詞典型性[J].吉林師范大學學報(人文社會科學版),2010(6).
[7]王秋萍.字母詞使用和詞形整理中的一詞多形問題[J].渤海大學學報(哲學社會科學版),2015 (6).
[8]鄭澤芝,張普,楊建國.基于語料庫的字母詞語自動提取研究[J].中文信息學報,2005(2).
[9]鄭澤芝.基于動態流通語料庫(DCC)的漢語字母詞語識別及考察研究[D].北京:北京語言大學,2005.
[10]鄭澤芝.一種字母詞語自動標注算法[J].廈門大學學報(哲學社會科學版),2007(5).
(責任編輯:武亮)
文獻標識碼A
中圖分類號H0
收稿日期2015-12-02
基金項目:本文系遼寧省社會科學規劃基金項目“報紙、廣播和電視媒體中字母詞使用調查”(項目編號L11DYY051);遼寧省教育廳科學研究一般項目”漢語字母詞語使用穩態與動態跟蹤研究“(項目編號:W2013148);沈陽師范大學博士、引進人才科研項目啟動基金“報紙、廣播和電視媒體中字母詞使用調查”的研究成果。
作者簡介:王秋萍(1982-),女,遼寧沈陽人,沈陽師范大學國際教育學院講師,博士。研究方向為:語料庫語言學及語言監測。