劉匯丹,諾明花,馬龍龍,吳 健,賀也平
(1. 中國科學院 軟件研究所,北京 100190;2. 中國科學院大學,北京 100049)
?
Web藏文文本資源挖掘與利用研究
劉匯丹1,2,諾明花1,2,馬龍龍1,吳 健1,賀也平1
(1. 中國科學院 軟件研究所,北京 100190;2. 中國科學院大學,北京 100049)
該文結合鏈接分析技術和藏文編碼識別技術,使用網絡爬蟲實現對互聯網上藏文文本資源的挖掘,分析了Web藏文文本資源的分布情況。統計數據顯示,國內藏文網站50%以上在青海省;約87%的藏文網頁集中分布在31個大型網站中;人們正在逐步棄用舊有藏文編碼,使用Unicode編碼來制作網頁。利用HTML標記、欄目歸屬、標點符號等自然標注信息對這些文本進行抽取,可以構建篇章語料和文本分類語料,可以抽取互聯網藏文詞庫,進行詞頻統計和訓練藏文語言模型,結合雙語詞典和搜索引擎技術抽取雙語平行語料。這些語料可用于藏文分詞、命名實體識別、信息檢索、統計機器翻譯等研究領域。
Web; 語料;文本挖掘;信息抽取;藏文信息處理;中文信息處理
互聯網海量的網頁為藏文語料庫建設提供了大量文本資源,為了對從互聯網提取藏文語料提供依據,本文考察互聯網上Web藏文文本資源的分布情況,并分析其潛在的利用價值。
本文接下來的部分首先介紹相關領域研究現狀,其次介紹結合鏈接分析技術和藏文編碼識別技術、使用網絡爬蟲實現對互聯網上Web文本資源的挖掘的方法,然后介紹我們對現有Web藏文文本資源的分布情況的考察分析結果,之后對現有Web藏文文本在藏文自然語言處理研究中的潛在利用價值進行分析,最后對全文進行總結。
由于諸多客觀因素的制約,導致了藏文語料庫匱乏的現狀,僅有的語料資源規模也很小,國內曾報道的藏文分詞語料庫大多只有千余句[1-4],最多的也只有萬余句[5-6]。
目前藏文語料的來源主要是政府文件、電子版書籍、報刊和部分源于互聯網上的文本,而在語料庫的建設和處理上大多依賴于人工方式[7-9]。這種原始語料庫的獲取方式大大限制了藏文語料庫尤其是漢藏雙語語料庫的建設效率,不但制約了語料庫的規模,更難以達到時效性的要求。中國科學院軟件研究所從2009年7月份開始從相關單位搜集整理漢藏雙語對照文本,歷時近3年,獲得的漢藏雙語對齊語料卻僅有約36萬句對,與期望值相去甚遠,由此,藏文語料庫建設的難度和成本可見一斑。
與此同時,相關人員開始將目光轉向互聯網,研究從藏文網頁獲取文本資源的方法[10-13]。然而,這些研究局限于對一定范圍內的藏文網頁信息獲取。目前,互聯網網上有哪些藏文文本資源,它們存在的形式和分布狀況是怎樣的,可以用在藏文信息處理研究的哪些方面,等等,還未見有相關的報道。本文將通過對互聯網藏文文本資源的考察,回答這些問題。
在我們的研究工作中,我們首先開發了一套“互聯網藏文文本資源挖掘系統”,采用鏈接分析的方法,利用網絡爬蟲根據預先指定的種子URL集合從互聯網上采集網頁,對網頁進行編碼檢測,根據檢測結果判斷頁面內是否包含藏文文本,將包含藏文文本的網頁統一存放,并按照預先設定的方式組織管理。然后,由人工對采集到的藏文網頁進行統一分析,考察其分布情況。我們的“互聯網藏文文本資源挖掘系統”的前端界面如圖1所示。

圖1 互聯網藏文文本資源挖掘系統前端界面
系統中主要用到了鏈接分析和藏文編碼檢測技術,下面針對這兩方面的技術闡述我們的方法。
3.1 基于鏈接分析的藏文網頁抓取
首先,我們定義如下符號:
?L(p): 頁面p中的所有超級鏈接指向的頁面集合;
?L(p,n): 與頁面p有n重鏈接關系的頁面集合,其中L(p, 0)= {p},L(p, 1)=L(p)。根據定義有:L(p,n)=L(L(p,n-1));
?L(S): 集合S中的所有頁面p中的所有超級鏈接指向的頁面集合。根據定義有:L(S)=∪L(p),其中p∈S;
?L(S,n): 與集合S中任意頁面p有N重鏈接關系的頁面集合,其中L(S, 0)=S,L(S, 1)=L(S)。根據定義有:L(S,n)=L(L(S,n-1)),同時L(S,n)= ∪L(p,n);
?HasTibetan(p): 頁面p中包含藏文文本;
?Host(p): 頁面p所在網站域名;
我們選取部分眾所周知的藏文網站URL作為種子集合,通過鏈接分析技術,抓取從種子URL網頁經過不大于N重鏈接關系可以到達的網頁,將其中的藏文網頁保存,并添加到藏文網頁集合P,然后將這些網頁所在網站的主機域名URL添加到種子集合中,如此循環。算法如下:
算法1: 藏文網頁抓取算法 輸入: 迭代次數T,鏈接深度N輸出: 藏文網頁集合P算法描述:P←S0;fort=0toT
forn=1toN
if(n==1)
forpsinSt
L(St,1) ←∪L(ps)
endfor
else
L(St,n) ←L(L(St,n-1) )
endif
forpinL(St,n)
ifHasTibetan(p)
St+1←St+Host(p);
P←P+p;
endif
endfor
endforendforreturnP;
在于第t次迭代中,對于種子集合St中的每個頁面ps,抓取頁面并分析頁面獲得其中所有超級鏈接指向的頁面即L(ps),對所有的L(ps)求并集,得到L(St,1),對于L(St,1)中的每個頁面,判斷其是否藏文,若是則將其添加到藏文網頁集合P中,并將其對應的網站URL添加到種子站點;然后分析L(St,1)中的每個頁面,獲取其中所有超級鏈接指向的頁面即L(St,2)=L(L(St,1)),對L(p,2)中的每個頁面做同樣處理,直至達到鏈接深度N,并處理完L(p,N)中的所有頁面。因處理過程中改變了種子集合,所以需要進行下一次迭代處理。理論上講,如果鏈接深度N足夠大,該算法能夠抓取互聯網上所有的藏文網頁,迭代處理過程將在種子集合包含所有藏文網站之后停止。而實際上,隨著時間的變化,已處理過的藏文網站也會被更新,作為一個完善的持續服務的系統(例如,搜索引擎),應該將迭代一直進行下去。
3.2 基于編碼識別的藏文網頁判斷
在我們的研究中,采用藏文編碼識別的方法判斷一個網頁是否包含藏文文本。由于基于ISO 10646(等同Unicode)國際標準實現藏文支持需要實現藏文字符的垂直動態組合,導致不少藏文軟件采用預組合的方式自定義一套藏文編碼字符集,而各個軟件之間又互不兼容,導致了藏文編碼“萬馬奔騰”的局面。文獻[14]中按編碼所屬體系介紹了26種藏文編碼,提出了一種綜合使用藏文的音節點間距規律為特征、以藏文高頻音節為特征進行藏文編碼識別的方法。事實上,由于各種藏文軟件在具體應用領域的差異,并不是所有的編碼都被用于制作藏文網站(網頁),例如,方正編碼和華光編碼主要用于出版印刷行業,而Tibetan Machine編碼對應有用于Web的Tibetan Machine Web編碼。綜合各方面因素,我們判斷,可能用于網頁的藏文編碼主要包括: Unicode編碼(UTF-8或UTF-16)、同元編碼、班智達編碼、TCRC編碼、Tibetan Machine Web編碼、LTibetan編碼,除此之外,藏文拉丁轉寫方案也可以視為一種藏文編碼。
對于待識別編碼的網頁文本,進行編碼識別的順序依次為: 班智達編碼、同元編碼、Unicode編碼UTF-8、Unicode編碼UTF-16、TCRC、Tibetan Machine Web、LTibetan、拉丁轉寫。其中,對同元編碼和Unicode編碼的識別以音節點間距規律為特征,對其它編碼的識別以高頻音節的出現次數為特征。在判斷為不是某種編碼時,進行后續編碼的識別。具體的方法與文獻[13]本質上相同,不再贅述。
經過對編碼識別結果的統計,在已抓取的13萬網頁中,編碼識別正確率為99.93%。同時,編碼識別方法能夠將只包含極短藏文文本的網頁召回,例如,http://zw.qh.gov.cn/zwqhgov/index.html 和http://www.tibetebook.com/help/HimalayaKeymap.htm兩個頁面中的中分別只包含不超過30個藏文音節,說明編碼識別的召回率是可以接受的。
3.3 人工分析
由于編碼識別不能保證完全正確,如果非藏文網站URL進入到種子集合中,將會影響系統的效率。對所有新發現的藏文網站,在進行人工確認以后,我們的系統才將其加入到種子集合。其他的分析工作主要包含對采集到的藏文文本資源考察以及對其分布情況的統計分析。
我們的系統從2011年1月12日開始運行,中間經過若干次的系統改進和完善,至2012年4月13日止,收錄藏文網站URL共計165個。我們采用如下的規則作認同處理。

表1 包含1000以上網頁的藏文網站信息表
? 同一域名的不同表達形式要認同,例如,http://gesar8.com 與http://www.gesar8.com 被認為是同一個網站;
? 不同子域名不認同,例如,http://blog.amdotibet.cn 與http://t.amdotibet.cn被認為是兩個網站。
? 不同的域名不認同,例如,http://ti.gzznews.com 和http://www.kbcmw.com都是"康巴傳媒網"的域名,但認為是兩個網站。
認同之后,獲得網站共計150個。表1中列出了采集網頁數量在1 000以上的藏文網站的信息。
4.1 藏文網站地域分布情況
我們主要根據網站的主辦單位、頁面底部的電話區號、ICP備案地、域名及IP地址歸屬地來判斷各個網站所屬的區域,結果如圖2和圖3所示。個別網站因暫時不能訪問,而已采集到的數據太少而不能判斷,歸屬于“未知”類別。從表2中可以看出,國內網站共110個,占73.33%,國外網站共35個,占23.33%,另有5個網站未能確認。國內網站主要集中在北京、青海、西藏、四川、甘肅等地,其中青海省內的藏文網站的數量遠遠大于其他各地,占國內藏文網站的53.64%(圖4),占本系統收錄所有藏文網站的39.33%(表2)。國外藏文網站主要集中在美國和不丹。

圖2 國內藏文網站地域分布圖

圖3 國外藏文網站地域分布圖

圖4 國內藏文網站地域分布比例圖

表2 藏文網站地域分布情況
4.2 藏文網站頁面數量分布情況

圖5 頁面數量圖

圖6 頁面數量分布圖

圖7 頁面數量累加比例圖
如圖5所示,藏文網站的網頁數量呈典型的長尾分布,按頁面數量降序排列之后,按指數數列設定閾值進行統計,達到閾值的網站數量與包含的網頁數量呈對數線性分布(圖6),頁面數量在1 000以上的藏文網站共有31個,這些網站的網頁數量占到了采集到的網頁總數的86.68%(圖7)。其中頁面數量在 10 000 以上的藏文網站共有3個,各自包含的網頁數量都在總數的9%以上,3個網站的累計比例達到32.21%。前7個網站中的頁面數量接近網頁總數的一半,達到49.98%。其中中國西藏新聞網有 18 000 多藏文網頁,占比13.79%,而人民網藏文版和中國共產黨新聞網藏文版都是由人民網主辦,如果視為同一網站,則其網頁占比達到14.11%,與中國西藏新聞網相當。而中國西藏網藏文版的舊版新版多種編碼及多個域名(表1中未全部列出)合并計算,則其占比也達到10.16%。以上數據表明,藏文網絡文本資源的分布非常集中。
4.3 Web藏文文本編碼使用情況
如表3所示,目前Web頁面中仍在使用的藏文編碼有Unicode編碼(含國家標準擴充集編碼)、同元編碼、班智達編碼和藏文的拉丁轉寫,暫時未發現其它編碼。其中Unicode編碼的藏文網站和網頁分別占比93.33%和82.48%,后者比例比前者低,是因為最近幾年新出現的藏文網站都使用Unicode編碼,但使用其它編碼的網頁達到了一定的規模,新的網站在短時間內難以超越;其次是同元編碼,占6.00%和16.78%,后者比前者高,說明同元編碼曾經被大量使用,網頁數量積累到了一定規模,但新的網站更傾向于用Unicode編碼。頁面數量在 1 000 以上的31個藏文網站中(表1),3個是同元編碼,其余28個都是Unicode編碼。

表3 藏文網站和網頁使用藏文編碼情況
*部分網站同時使用兩種編碼,計算網站總數時只算一個
需要注意的是,部分網站存在同時使用兩種編碼的情況。其中,http://zw.tibet.cn和http://ti.tibet.cn 大部分使用同元編碼,但其中有少量網頁使用了Unicode編碼,他們都是“中國西藏網”的域名,但新版的網站(http://tb.tibet.cn)已經改用Unicode編碼。西藏農牧經濟信息網舊版使用同元編碼,新版使用Unicode編碼。而使用藏文拉丁轉寫的網站中一般也包含Unicode編碼的藏文文本。
以上這些數據和事實表明,人們正在逐步地棄用以前自定義的藏文編碼,轉而使用Unicode編碼。
4.4 Web藏文文本內容分布情況
我們的系統中采集到的藏文網站,從組織形式來看,既有普通網頁,也有blog和wiki,甚至還出現了當前最流行的微博;從內容形式上來看,既有文字,又有圖片、音樂和視頻;從主辦方來看,既有新聞媒體和政府機構,也有寺院和企事業單位,甚至還出現了個人主辦網站的情況。下面根據網站主要功能分類作簡單介紹。
新聞綜合類網站一般包括與藏區有關的各方面的信息,包括新聞、政治、社會經濟、語言文化、科技教育、宗教、文化藝術、旅游、環境、藏醫藏藥等。主要有: 中國西藏新聞網、人民網藏文版、中國藏族網通藏文版、中國西藏網、新華網西藏頻道、青海湖網、康巴傳媒網等。
政府機關類網站以宣傳各類政策法規、介紹轄區政治經濟等方面情況為主要內容。主要有: 果洛藏族自治州人民政府網藏文版、西藏農牧經濟信息網藏文版、海西州人民政府政務網藏文版、青海天俊法院網等。
教育類網站以提供教育教學相關信息為主要內容,主要有: 中國藏族教育網、中國藏族中學網、青海尖扎民族教育網,以及西藏藏醫學院、年保玉則小學、西海民族寄校、多杰旦民族職業技術學校等網站。
語言文化宗教類網站以提供藏族傳統文化、宗教、藏醫學相關信息為主要內容,主要有: 中國藏學網藏文版、西藏文化網藏文版、年保玉則文化中心、宗喀巴文化藝術研究網、中國格薩爾研究網、藏族民俗網、藏語言文字網、藏密文化網、喜馬拉雅苯教網、雍仲苯教網、醫學藏文網等。
藏文信息技術和軟件類網站以提供藏文軟件下載、介紹軟件使用方法、藏文信息技術推廣為主要內容,包括: 藏文軟件園、藏文字體軟件音樂圖書中心、Dzongkha Linux、Tibetan and Himalayan Library等。部分網站提供在線電子詞典查詢服務,例如,http://www.tsikzoe.net、http://dictionary.thlib.org。這些網站為藏文信息技術的推廣應用做出了貢獻,也在一定程度上反映了藏文信息技術發展的現狀。
從自然語言處理的角度來看,Web是藏文語料的一個重要來源,既可作為單語語料使用,配合使用相關軟件工具,也可以從Web上提取雙語的藏文語料。
Web藏文文本可以作為藏文單語語料的來源。雖然同漢語和英語相比,藏文的Web文本資源要少的多,但是作為一般的藏文自然語言處理的研究,現有的Web文本已經具有一定的規模,能夠滿足作為基礎語料資源的需求。這些Web頁面中,絕大部分頁面都包含文章標題和內容,可以作為基本的篇章語料使用;藏文網頁所屬的欄目可以作為文本分類的天然標記使用,構建分類文本語料;部分網頁還提供作者、發布時間、稿件來源等信息,可以作為藏文命名實體識別的語料;根據網頁中的自然標注信息如HTML標記和標點符號等[15],配合統計方法,可以從篇章語料中抽取互聯網藏文詞庫,可以用于詞頻統計和訓練藏文語言模型,這些作為基礎數據可以用于開發以詞語(短語)為單位支持連續輸入的藏文輸入法。這些基礎數據還可以用于藏文分詞、藏文信息檢索等研究任務。
Web藏文文本可以作為藏文雙語語料的來源。藏文圣經網提供的PDF格式文件中包含了段落對齊的漢藏雙語基督教《圣經》文本。利用HTML的超級鏈接標記“”中的TITLE等屬性可以從部分藏文網站(例如,http://nbyzsc.nbyzwhzx.com)提取漢藏對照詞語(短語);部分網頁提供了雙語對照文本,如網站http://www.tibetebook.com的一個頁面提供了588條漢藏對照的各類商店超市的名稱,可以用作命名實體識別的語料,也可以用作雙語平行語料。國內新聞綜合類藏文網站大多有對應的漢文版甚至多語種版本,也可以作為雙語語料的來源。
從上文的統計數據來看,Web藏文文本主要集中在部分大型網站,即使只提取20個網站的文本,也可獲得10萬網頁的藏文語料,其分布的集中性為藏文文本的采集提供了方便。
語料是統計自然語言處理中必不可少的基礎素材,但是當前藏文信息處理中存在嚴重的語料匱乏問題,本文結合鏈接分析技術和藏文編碼識別技術,使用網絡爬蟲實現對互聯網上Web文本資源的挖掘,并配合人工方式,相對全面地考察分析了Web藏文文本資源的分布情況。根據我們的分析,首先,國內藏文網站主要集中在我國北京、青海、西藏、四川、甘肅等省(市、區),其中50%以上在青海省。其次,現有藏文網站組織和內容形式比較豐富,既有普通網頁,也有blog和wiki,還出現了微博;從內容形式上來看,既有文字,又有圖片、音樂和視頻;所提供的信息涉及新聞、政治、社會經濟、語言文化、科技教育、宗教、文化藝術、旅游、環境、藏醫藏藥等各方面的內容。再次,舊有的藏文編碼正在被逐步地棄用,人們轉而使用國際標準的Unicode編碼來制作Web頁面。最后、Web藏文文本資源分布比較集中,約87%的藏文網頁集中分布在31個大型網站中。
我們同時研究了這些網絡文本資源對于藏文自然語言處理研究的潛在利用價值。Web藏文文本資源分布的集中性為文本采集加工提供了一定的方便。利用HTML標記和標點符號等自然標注信息對這些文本進行抽取,可以構建篇章語料、文本分類語料。配合統計方法,可以從篇章語料中抽取互聯網藏文詞庫,可以用于詞頻統計和訓練藏文語言模型,這些基礎數據還可以用于藏文分詞、命名實體識別、信息檢索等研究方向。同時還可以結合雙語詞典和搜索引擎技術抽取雙語平行語料,用于統計機器翻譯。
在后續的研究中,我們將進行有針對性的Web藏文文本資源采集和加工處理,為藏文自然語言處理的研究提供基礎的數據資源。
[1] 陳玉忠,李保利,等. 基于格助詞和接續特征的藏文自動分詞方案[J].語言文字應用,2003,(2): 75-82.
[2] 孫媛,羅桑強巴,楊銳,等. 藏語自動分詞方案的設計[C]//第十二屆中國少數民族語言文字信息處理學術研討會論文集,2009.
[3] Huidan Liu, Minghua Nuo, Longlong Ma, et al. Tibetan Word Segmentation as Syllable Tagging Using Conditional Random Fields[C]//Proceedings of the 25th Pacific Asia Conference on Language, Information and Computation.2011:168-177.
[4] 劉匯丹,諾明花,趙維納,等. SegT: 一個實用的藏文分詞系統[J]. 中文信息學報, 2012, 26(1):97-103.
[5] 才智杰. 班智達藏文自動分詞系統的設計與實現[J]. 青海師范大學民族師范學報,2010,(2):75-77.
[6] 孫萌,才智杰,姜文斌,等. 基于判別式分類和重排序技術的藏文分詞[C]//第十三屆中國少數民族語言文字信息處理學術研討會論文集,2011.
[7] 才讓加. 面向自然語言處理的大規模漢藏(藏漢)雙語語料庫構建技術研究[J].中文信息學報,2011,25(6):157-161.
[8] 才讓加. 藏語語料庫詞類描述方法研究[J].計算機工程與應用,2011,47(4):146-148.
[9] 才讓加. 藏語語料庫加工方法研究[J].計算機工程與應用. 2011,47(6):142-143,150.
[10] 陳琪,李永宏,于洪志,等. 藏文網頁抓取及編碼統一轉換的系統研究[J].西北民族大學學報(自然科學版),2009,30(2):22-26.
[11] 戴玉剛. 藏文網頁采集技術研究[C]//第十一屆全國民族語言文字信息學術研討會論文集.2007:527-535.
[12] 珠杰,歐珠,格桑多吉等.基于DOM修剪的藏文Web信息提取[J].計算機工程,2008,34(24):58-60.
[13] 李文博. 基于XML的藏文網頁的信息抽取與轉存技術研究[D].西北民族大學碩士學位論文,2006.
[14] 劉匯丹,芮建武,吳健,等.藏文網頁的編碼識別與轉換[C]//中文信息處理前沿進展——中國中文信息學會二十五周年學術會議,2006:573-580.
[15] 孫茂松.基于互聯網自然標注資源的自然語言處理[J]. 中文信息學報,2011,25(6):26-32.
[16] 黃昌寧,李涓子.語料庫語言學[M]. 北京:商務印書館.2002.
Mining Tibetan Web Text Resources and Its Application
1,2, MA Longlong1, WU Jian1, HE Yeping1
(1. Institute of Software, Chinese Academy of Sciences, Beijing 100190, China;2. Graduate University of the Chinese Academy of Sciences, Beijing 100049, China)
Based on link analysis and Tibetan encoding detection, this paper focuses on mining the Tibetan text resources over the internet with a crawler, and analyzes the distribution of Tibetan text. Statistical data shows that, more than 50% inland Tibetan web sites are hold by organizations in Qinghai province, and about 87% web pages belong to 31 large web sites. People prefer to use Unicode as the encoding of their new web pages rather than legacy encodings. It is practical to to extract Tibetan text from the pages with the natural tag information, such as HTML elements, column information and punctuations. The text can be used to build raw corpus, text classification corpus, and internet word/phrase corpus and so on. Word frequency statistics and language model can also be derived. In addition, some bilingual corpus can also be extracted.
Web; corpus; text mining; information extraction; Tibetan information processing; Chinese information processing

劉匯丹(1982—),博士,工程師,主要研究領域為操作系統中文信息處理、多語言信息處理。E?mail:huidan@iscas.ac.cn洪錦玲(1981—),碩士,工程師,主要研究領域為多語言信息處理。E?mail:jinling@iscas.ac.cn諾明花(1981—),博士,助理研究員,主要研究領域為多語言信息處理。E?mail:minghua@iscas.ac.cn
1003-0077(2015)01-0170-08
2012-04-16 定稿日期: 2012-06-26
國家自然科學基金(61202219,61202220,61303165);中國科學院信息化專項經費資助(XXH12504-1-10)
TP391
A