基于國內(nèi)現(xiàn)存文本語料庫規(guī)范化的現(xiàn)狀研究及改進

2016-11-11 02:57:12孫溫穩(wěn)

河南科技 2016年11期

關(guān)鍵詞：規(guī)范化可視化文本

孫溫穩(wěn)

（鄭州師范學(xué)院信息科學(xué)與技術(shù)學(xué)院，河南　鄭州　450044）

基于國內(nèi)現(xiàn)存文本語料庫規(guī)范化的現(xiàn)狀研究及改進

孫溫穩(wěn)

（鄭州師范學(xué)院信息科學(xué)與技術(shù)學(xué)院，河南鄭州450044）

當(dāng)前國內(nèi)對于文本可視化的研究還停留在初級階段，存在著許多方法處理文本語料庫。隨著科學(xué)技術(shù)的不斷發(fā)展，網(wǎng)絡(luò)變得越來越普及，人們可以從網(wǎng)絡(luò)上獲得大量的文本資料信息，本文主要針對如何獲取序列化、規(guī)范化的漢語的語料庫提出了一種新的框架。

語料庫；工具包；文本規(guī)范化

1　文本可視化概述

目前國內(nèi)對于文本可視化的研究還處在初級階段，主要停留在新技術(shù)的發(fā)展和新系統(tǒng)開發(fā)等方面。對于文本集合可視化系統(tǒng)，先通過文本采集模塊、中文分詞模塊、特征詞權(quán)重計算模塊和XML文件組織模塊構(gòu)成本地數(shù)據(jù)庫，然后通過可視化圖形界面模塊與本地數(shù)據(jù)庫的接口交互，對用戶的檢索關(guān)鍵詞圖形化地顯示結(jié)果。其中，文本采集模塊在互聯(lián)網(wǎng)上搜集網(wǎng)頁文本，將采集到的文本作為原始數(shù)據(jù)源傳入中文分詞模塊；中文分詞模塊，對文本采集模塊中得到的文本內(nèi)容進行分詞處理，獲得以詞為單位的語料，并統(tǒng)計詞頻，保存在本地文本，供后續(xù)的詞語權(quán)重計算模塊讀取詞頻信息計算權(quán)重；詞語權(quán)重計算模塊，用于對分詞后的結(jié)果進行特征抽取即特征詞權(quán)重的計算，將計算結(jié)果連同對應(yīng)的特征詞，以及所在文本的標題交給XML文件組織模塊；可視化圖形界面模塊以上述XML文件組織模塊保留在本地的結(jié)果數(shù)據(jù)為基本語料庫，通過與用戶的交互取得用戶命令，并顯示出結(jié)果。

2　文本語料庫規(guī)范化概述

文本可視化涉及到信息采集，隨著科學(xué)技術(shù)的逐步發(fā)展，網(wǎng)絡(luò)也變得越來越普及。而絕大部分信息就分布在遍及世界各地大大小小的網(wǎng)站上，所以如何從互聯(lián)網(wǎng)上獲取信息并進行規(guī)范化就變得迫在眉睫。本文著重講述提出一個新的框架用來處理和規(guī)范多語種文本語料庫，為了擴大語料庫的來源，可以直接創(chuàng)建互聯(lián)網(wǎng)的接口，將網(wǎng)頁作為語料庫的直接來源［1］。

文本語料庫收集需要一個加工步驟才能構(gòu)成所需要的序列，這種序列可用于語音的識別和對話，比如在感知空間用多種方式交互的語音處理等。XML被構(gòu)想成為一門獨立的語言，其可提供一種可能性在同一個文件中能存儲多種語音。對一種已知的語言，且對于相同的一個語句，可以一樣地保存多種語言層次的分析。比如一篇文獻的整體包括作者、標題、日期、正文等，正文部分可被劃分成為一些段落和一些語句。我們可保存這些原始的語句，然后將這些語句進一步劃分詞、音節(jié)、短語；將文本信息格式化成XML的形式，其將為我們提供一種適用于文本文件的模本化、序列化的形式，這種形式將帶來一系列的好處，快速、便利地開發(fā)和使用。比如，當(dāng)需要增加、修改、提取一些新的模本時，將會變得非常容易。而且這些模本將會使從一種語言變成另一種語言變得非常容易。文本信息以標準化、模塊化的形式存在，一方面能繼承一些工具集中處理、加工的特性，另一方面將能夠快速、特定地適用于其他工具的處理。當(dāng)一種語言翻譯成另一種語言時，可以繼承兩種語言一些共有的部分，而且使得每種語言固有的模塊進行匹配［2］。

本文提出了一種通用XML格式的文本語料庫和介紹了一些工具轉(zhuǎn)換，規(guī)范多語種文本語料庫。更具體地說，在工作中，一個基于XML的文本語料庫是一套文件，包括描述（作者、標題、等）和文字內(nèi)容。文件的內(nèi)容將分解成段落和句子。在句子層面把原來的句子（因為這是寫在源文件）進一步分解成為短語、詞、語素、音節(jié)等，當(dāng)然也涉及一些額外的信息，如引理、詞性或類。

3　語言GAWK編寫程序的應(yīng)用

將原始的中文網(wǎng)頁轉(zhuǎn)化成為一個可行的電子語料庫，這需要編寫許多應(yīng)用程序來實現(xiàn)。所有程序都是使用語言GAWK編寫程序來實現(xiàn)的，包括文件的過濾、處理、加工、轉(zhuǎn)化成XML形式等。同樣的一件工作，以gawk程式來寫會比用其他程式語言來寫短很多。下面介紹所需要做的一些工作。

3.1將原始的文本信息轉(zhuǎn)換成為結(jié)構(gòu)化的文件

中文網(wǎng)頁的編碼一般使用GB2312，而我們的工作環(huán)境是LINUX，它不能處理使用編碼GB2312的文件，所以進行編碼的轉(zhuǎn)換，由GB2312轉(zhuǎn)換為UTF-8。可使用iconv命令將一種編碼形式轉(zhuǎn)換成另一種形式。具體的工作中可以創(chuàng)建一個工具箱，在工具箱內(nèi)創(chuàng)建許多文件，這些文件分別實現(xiàn)不同的功能最終可以將原始的語料庫逐步規(guī)范成所需要的序列化的語料庫。下面分別介紹這些文件的功能，其中HtmltoText.awk將輸入的文件utf-8編碼格式的HTML文件轉(zhuǎn)換成為一個特定的格式化的XML文件，在XML文件中可以建立許多標簽分別用來存放網(wǎng)頁上不同類別的信息。比如，中文網(wǎng)頁上導(dǎo)航欄上的信息可以放在XML文件中的標簽中，再者“<>< >‘表示網(wǎng)頁上一個新的段落開始，’<>”表示網(wǎng)頁上一個新的句子開始。具體目標文件內(nèi)容格式如下所示（以網(wǎng)頁作為原始的HTML文件）。

3.2將結(jié)構(gòu)化的文件進一步進行其他形式的轉(zhuǎn)換

Text2XML.awk將上一步生成的XML文件（exple.1）進一步規(guī)范化。在上一個步驟中將網(wǎng)頁上的內(nèi)容分成了許多段落，在這個階段中將每一個段落分離成為多個句子。可在XML文件中繼續(xù)添加一些標簽，如標簽中放置被分離的句子。SplitOrig2Wd.awk可將上一步分離出的句子再進一步分割成每一個中國字符，為了實現(xiàn)這個功能可向這一階段生成的目標文件中增添一系列的標簽如，將每個字加入到這些標簽中。如、等。Stick.awk根據(jù)已創(chuàng)建Lexique-cn.vocab中文詞典文件（這本詞典主要包括2個字的詞匯象中國、美國、經(jīng)濟等之類常用詞匯）將已經(jīng)分割成的中文字符（也就是每一個字）粘貼成詞匯。這一步在執(zhí)行過程中，有一個重要的規(guī)則需要用到，粘貼成一個詞的順序是以每一個字出現(xiàn)在原始句子中的先后順序為前提的。要粘貼成2個字的詞匯，如果一個句子中包含“ABC”，而字典中既有“AB”這個詞，也有“BC”這個詞匯，那么在粘貼成詞匯時，選擇的是前者即“AB”，而不是后者即“BC”。Num2Letter.awk要將上一步所產(chǎn)生的目標文件當(dāng)中的阿拉伯?dāng)?shù)字轉(zhuǎn)換成為中文形式，比如50轉(zhuǎn)換成為伍拾等。Remove.awk鑒于詞匯，一些文字中的標點符號，可以從文檔中移除。

上面所建立的工具包主要應(yīng)用于對中文文本語料庫的規(guī)范化，也可以對工具包進行擴展用于加入其他一些功能或者是對其他的一些語言進行規(guī)范化。可針對其他語言與漢語的不同之處，對程序進行相應(yīng)的修改，很容易就能獲取一個新的模塊用以處理其他語言。目前存在著許多方法處理文本語料庫，但是本文描述的該工具包可獲得一個完整、清潔和統(tǒng)一版本不同語言的文本語料庫。

［1］Brigitte Bigi，Viet-Bac Le.Normalisation et alignement de corpus fran?ais etvietnamiens：Format et Logiciels［J］.JADT，2008（9）：199-207.

［2］Habert B，F(xiàn)abre C，Issac F.De l'écrit au numérique：constituer，normaliser，exploiter lescorpus électroniques［J］.Paris：InterEditions-Masson，1998.

Research and Improvement on the Current Situation of the Standardization of the Existing Text Corpus in China

Sun Wenwen
（Information Science&Technology College，Zhengzhou Normal University，Zhengzhou Henan 450044）

The current domestic for text visualization research still stays in the primary stage，there are many ways to deal with text corpus.With the continuous development of science and technology，network has become more and more popular.We can get a lot of text information from the Internet，this paper focusedon how to obtain the serialization and standardization of the corpus of Chinese to propose a new framework.

corpus；toolkit；text normalization

TP311

1003-5168（2016）06-0019-02

2016-05-21

孫溫穩(wěn)（1974-），女，碩士，助理經(jīng)濟師，研究方向：人工智能。

基于國內(nèi)現(xiàn)存文本語料庫規(guī)范化的現(xiàn)狀研究及改進

1 文本可視化概述

2 文本語料庫規(guī)范化概述

3 語言GAWK編寫程序的應(yīng)用

1　文本可視化概述

2　文本語料庫規(guī)范化概述

3　語言GAWK編寫程序的應(yīng)用