張新陽 李輝



摘要:專業小型語料庫具有目標明確、語料收集針對性強、語料可更新、標注靈活等特點,在各個專業領域的應用日益增多。為了滿足電力行業單位在辦公、管理、決策等文本處理過程中的需求,建設一個電力語料庫,提供各種語料檢索及應用具有現實意義。給出了基于Web采集技術的語料收集、語料處理和語料代表性度量、語料增量更新及子語料庫抽取并離線應用的設計實現過程。利用云南電網的文本語料進行試驗,采用三種方法對語料的代表性進行度量,利用距詞頻中心的距離指標對度量結果進行評價,使用詞語覆蓋度、加權詞語覆蓋度、詞語重現度等度量方式來表達通過抽取語料形成的子語料庫與原始語料庫的差異。試驗表明,電力專業語料庫具有特征較為集中的長尾特征,即80%的語料特征可由20%的語料表達,使用按需求抽取子語料庫離線應用具有很好的實際效果。
關鍵詞:電力語料庫;距離指標度量;詞頻統計;離線應用
1 ?引言
利用計算機來搜集、整理和加工語料并形成語料庫是研究語言文字的常用方法[1]。目前,國內外研究團隊構建了大量通用語料庫,如Brown、Semcor、LOB、ICE等英文語料庫以及國家語委現代漢語語料庫、北大語料庫、臺北“中研院”語料庫等中文語料庫[2]。另有領域專用語料庫如學習者、FAO農業英語語料庫、中介話語語料庫、學術語篇語料庫、法律語料庫[3]等應用于特定行業。語料庫的建設大多采用基于通用詞典標注的方式進行,分為語料收集和預處理、標注規范的制定、質量監控等過程[4]。收集的語料大多來源于組織發布的文獻或Web文本,其中來源于文獻的語料較為正式但信息錄入需耗費大量人力,來源于網絡的語料采集成本低,目前被廣泛使用[5-7],但語料的代表性和準確性與網站質量有較大關系。
語料庫處理與應用的核心問題是從大量的語料中取得文本特征并表示及應用。若將語料視為文本特征空間的樣本,則語料庫是一個樣本集,其在特征空間的分布狀態即為語料庫的重要特征。目前文本分類的研究目的即是希望通過建立單層或多層次的分類來表達文本集合的分布特征[8-15]。語料庫的分析、度量、約簡等操作均與文本分類及文特征提取與表達有重要聯系。
行業語料庫通常只針對一個專業領域。主要應用于行業知識庫建設、問答系統開發及機器學習系統訓練等。目前,行業語料庫建設與應用的難點問題包括語料庫規模的確定,語料庫的更新及其復制應用。語料庫規模過大會降低其應用的效率,同時耗費處理、存儲、網絡等資源,而規模過小,則無法有效地表達行業文本的主要特性。語料庫的離線應用,即通過子集化操作取出語料庫中的一部分內容進行使用,如何提取復制的這部分內容能夠最大可能地代表完整語料庫的特征也是應用的難點問題。本文面向電力行業,圍繞電力用戶應用需求,利用Web進行語料收集,采用基于詞典的方式對預處理后的生語料進行標注,利用相似度計算模型對語料代表性進行排序,通過增量方式對電力語料庫進行更新,從而建立電力行業專用語料庫,貼合專業領域用戶在辦公、管理、監督、協調、決策等工作過程中對于文本搜索、文本處理等任務的需要,為專業用戶進行文本分析、處理等任務開展奠定基礎。
2基于Web的電力專業語料庫增量構建方法
2.1基于Web采集的語料獲取及預處理
基于Web的語料采集是通過網絡獲取、分析、提取Web網頁內容,并進行處理以形成特定形式的文本語料既而建立語料庫的過程。Web語料采集過程通常以事先指定的種子URL列表開始。當采集工具訪問這些網址時,它會識別網頁中的所有超鏈接,并將其添加到要訪問的網址列表中,稱為抓取邊界。根據一組策略來遞歸地訪問邊界URL。如果采集程序獲取到頁面,它會復制并保存信息。頁面內容通常被格式識別、編碼轉換并統一進行保存。
2.2 語料庫的構建與應用
語料庫的構建包括以下步驟:語料庫的設計、語料的輸入與存儲、語料庫的索引與處理、語料庫的應用接口。其中語料庫的設計包括確定語料庫的規模、文本采樣的方案、文本分類/分層取樣的方法確定等。語料的輸入與存儲是把語料輸入文本庫的步驟,其間的主要工作包括通常包括格式識別、編碼轉換、基礎結構的分割等等;語料的存儲則是由用戶選定特定的形式來存儲管理已收集的語料,通常采用文件或者數據庫的方法,其中采用文件的方法進行管理具有結構簡單、易于實現、資源要求低等特點,而數據庫管理方法則具有管理嚴密、查詢與操作功能豐富、數據安全等特點。語料索引與處理包括詞語自動切分和詞性自動標注、未登錄詞的自動識別,有效地識別并處理各種數字串、中西人名、中西地名、機構名、后綴短語等,并為它們建立索引,以便于對語料庫的進一步應用操作。語料庫的應用包括自動語音識別、語言知識庫建立、信息抽取、信息檢索、文本分類和過濾、機器翻譯等方面,不同的應用往往依賴于語料庫建立時所包括的語料附屬信息。
2.3 語料代表性度量與特征表達
語料在整個文本特征空間的分布通常是不均勻的,換言之,給定一個密度度量,語料的分布是稀疏的。這種不均勻性與稀疏性是語料庫的約簡與特征選擇的前提,即可以通過提取一部分語料構成子語料庫來盡可能保持原有語料庫的特征。這一抽取過程是語料庫離線應用的首要操作步驟。
為了確定子集化語料庫時對于語料的選擇順序,需要事先建立起針對語料的度量方法。本文通過度量單條語料與整個語料集相似性程度來判斷用該條語料表達語料集的強度,即代表性度量。采用代表性度量值對語料進行排序。首先,對分詞后的語料庫進行詞頻統計,獲取語料庫的整體信息;其次,分別對每篇文本內容進行詞頻統計,獲取單篇文本內容的整體信息,均按照“詞——詞數”的方式進行整理,如表1、表2所示。
2.4 語料庫增量更新
語料庫內容并非一成不變,當有新的文本內容添加至語料庫時,需對語料庫進行增量更新。語料庫增量更新亦采取代表性度量的方式進行。首先對新增語料采取分詞、詞性標注和去停用詞等過程,獲得新增的熟語料。然后對熟語料進行詞頻統計,對語料庫重新進行詞頻統計。最后根據公式(1)或(2)或(3)對語料重要性進行打分并對語料進行重新排序,獲得增量更新后的語料序列。方法1、2、3的計算效果在試驗部分論證。當語料庫的更新速度很快,每次都重新進行詞頻統計和所有語料庫代表性度量計算較影響更新效率時,可以采取惰性更新的策略,即設定一個閾值,當更新數量少于此閾值時,只將新語料進行必要的處理以入庫,并不進行語料庫中已有語料代表性度量的更新計算。當更新數據積累到一定程度時,可以進行一次集中的更新操作,以重新計算各語料的代表性度量取值。惰性更新可以有效地攤平單次更新的資源耗費,提高更新性能。
3??方法流程
3.1方法描述
1、數據采集。本文數據來源于互聯網,利用爬蟲工具進行數據采集過程,獲取云南電網官方網站新聞語料1000篇。
2、數據清洗、數據轉換。直接爬取的數據存在冗余數據和編碼錯誤等問題,需先進行數據清洗和數據轉換操作。
3、語料分詞和詞性標注。由于本文構建的語料庫為電力行業專業語料庫,本文在基礎詞表的基礎上添加由電力常用詞匯、電工電氣、變壓器、電力設備企業名錄組成的專業詞表,對經過清洗、轉換后的生語料進行分詞和詞性標注操作,獲得電力行業專業語料庫。
4、詞頻統計。對電力行業專業語料庫進行詞頻統計。對單篇文本語料進行詞頻統計,得到每篇語料的詞頻統計結果。
5、語料代表性度量。基于電力行業專業語料庫和單篇文本語料詞頻統計結果按照公式(1)、(2)、(3)進行語料代表性度量值的計算。
6、語料代表性排序。將語料按代表性打分進行排序。
從圖中可以看出盡管按三種方法計算的度量值分布曲線并不重合,但這三種度量值的分布情況較為相似,即度量值較高的語料占比不大,占語料庫多數比例的語料代表性度量值差異較小。這一特征暗示較少的部分語料即可以有效代表原始語料庫的詞語特性,而大多數語料代表原始語料庫的程度并不高。從上述圖中可以看出,三種方法分值曲線都是在開始位置下降最快,從第200篇語料減慢。方法1與方法3語料分值下降較快,然后減慢。上圖表明三種方法均可以用于語料庫截取,構建小型有代表性的語料庫。
對三種方法得到的排名前100的語料進行重復性檢驗,方法1與方法2排名前100的語料相同個數為81。方法2與方法3排名前100的語料相同個數為82,三種方法總體上有較好的一致性。
基于前述三種方法所計算出的語料排序,分別構造出規模遞增的子語料庫系列,對此子語料庫系列計算出詞語覆蓋度、詞語重現度、加權詞語覆蓋度的實驗圖表如下所示:
圖5顯示了當按照一個特定的語料排列的順序來選擇語料生成子語料庫以利于離線應用時,該子語料庫的詞語覆蓋度WCR與加權詞語覆蓋度WWCR的變化情況,其中四種排序方法所導致的WCR與WWCR遞增曲線的形狀差別并不明顯,特別是WWCR曲線幾乎重合。同時相比于WCR曲線,WWCR曲線的上升速度更快。這一圖形很直觀地表明只需要大約10%的語料,子語料庫即能包括原始語料庫中90%以上的權重詞;即使不考慮權重,只用原始語料庫30%規模的子語料庫也能覆蓋80%的詞語,這一數據充分表明,使用子語料庫進行離線應用可以很好地代表原始語料庫的相關特征。
圖6顯示了WRR曲線與WCR曲線,其中WRR曲線的上升速度低于WCR與WWCR曲線,進一步說明少量的詞語即可代表整體的原始語料庫的很多特征。圖6中WRR與WCR曲線之間的距離代表著語料應用的邊際效用增加值,當兩者距離最大時,表明增加單位語料所增加的應用效果最多。
上述實驗數據分析表明,從語料庫中選取10%的文本語料,即選擇100篇文檔,即可實現覆蓋全部語料庫中大約80%的詞語,這一特征表明抽取少量詞語來形成一個子語料庫,即可實現在某些基本度量上,子語料庫與原始語料庫的應用效果差異不大。這一特點為語料庫的抽取及其離線應用提供了數據支撐。
5 結束語
本文聚焦于通過Web訪問作為語料采集的輸入方法,以文本數據庫的形式來管理語料庫,對語料進行清洗、轉換、分詞等過程,形成電力行業專用語料,并實現語料的增量更新。采用三種語料截取方法將語料庫子集化,選取最能代表語料庫整體的前Top k個關鍵語料。利用WCR、WWCR、WRR指標對三種方法試驗結果進行評價,結果表明上述方法均有較好的性能與適用性。
參考文獻
[1]李培峰,朱巧明,錢培德. 基于Web的大規模語料庫構建方法[J]. 計算機工程,2008,34(7):41-43.
[2]金澎,吳云芳,俞士汶. 詞義標注語料庫建設綜述[J]. 中文信息學報,2008,22(3):16-23.
[3]鄭婧婧. 蔬菜種植信息語料庫構建方法的分析與設計[D]. 河北科技師范學院,2017.
[4]徐琳宏,林鴻飛,趙晶. 情感語料庫的構建和分析[J]. 中文信息學報,2008,22(1):116-122.
[5]和鳳珍,石宜金.基于Web的漢日雙語平行語料庫系統的構建[J].牡丹江師范學院學報(自然科學版),2018(01):25-27.
[6]季鐸,劉皓.基于WEB的警務多語言語料庫的構建[J].中國刑警學院學報,2017(05):118-120.
[7]韓雪華,王卷樂,卜坤,王玉潔.基于Web文本的災害事件信息獲取進展[J].地球信息科學學報,2018,20(08):1037-1046.
[8]黃棟,徐博,許侃,林鴻飛,楊志豪.基于詞向量和EMD距離的短文本聚類[J].山東大學學報(理學版),2017,52(07):66-72.
[9]嚴杰. 基于詞向量的文本距離計算及應用研究[D].華中師范大學,2017.
[10]李正宇. 一種基于統計流形學習的文本分類算法[D].中國科學技術大學,2017.
[11]基于Hadoop云計算平臺的文本聚類并行化研究[D].沈陽工業大學,2018.
[12]文本分類及其相關技術研究[D].復旦大學,2005.
[13]聚類分析中的相似性度量及其應用研究[D].北京交通大學,2012.
[14]文本聚類分析效果評價及文本表示研究[D].中國科學院研究生院(計算技術研究所),2005
[15]王彬宇,劉文芬,胡學先,魏江宏.基于余弦距離選取初始簇中心的文本聚類研究[J].計算機工程與應用,2018,54(10):11-18
作者簡介:張新陽(1988-),男,碩士,工程師,長期從事電力信息化項目的規劃與研究,研究領域包括大型信息化項目管理、數據可視化與輔助決策、數據分析與挖掘。
李輝(1991-),男,碩士,工程師。
(作者單位:云南電網有限責任公司信息中心)