摘要:論文描述了可比語料庫的基本構建方法,包括使用已有語料庫、網絡資源和復合方法的三種類型。隨后對單語種可比語料和多語種可比語料的可比度計算問題進行了闡釋和分析。結果認為,可比語料庫的構建需要根據具體的應用場景和需求進行設計實施,根據不同應用場景可比語料的可比度需作具體描述和相應規定,并設定合理的度量指標。
關鍵詞:可比語料庫;可比度
中圖分類號:G434? ? ? ? 文獻標識碼:A
文章編號:1009-3044(2019)23-0224-04
開放科學(資源服務)標識碼(OSID):
1 引言
隨著可比語料庫研究和應用的不斷深入,構建大規模可比語料庫逐漸成為學科發展和語言信息處理的主要趨勢和迫切需要,很多學者都嘗試從不同的角度、采用不同的方法構建可比語料庫。就當前的研究現狀來看,構建可比較語料庫的核心問題是如何獲取可比語料,如何建立語料間的映射關系以及如何衡量語料間的可比度。下面根據當前可比語料庫構建研究的相關成果,可比語料庫的構建方法可以分為三類,即使用已有語料庫、網絡資源和混合數據的三種類型,下面依次就這些方法作研究討論。
2 使用已有語料庫的構建方法
現有語料庫是可比語料的重要來源,基于現存語料庫的構建方法主要是按照一定的比例、人工或手工抽取現存語料庫中的數據后組合匹配,在這方面諸多學者都做了有益的嘗試。Ismail等(2009)將歐洲平行語料庫中的英文—西班牙文互譯語料按時間劃分成兩部分,分別取不同時間段、非互譯的西班牙文和英文文本搭建可比較語料庫;Garera等(2009)也利用歐洲平行語料庫構建英文—西班牙文可比語料庫,包括西班牙語語料庫部分包含10萬條句子,共計213萬詞次,英語部分同樣為10萬條句子,207萬詞次;Haghighi等(2008)利用新華社新聞平行語料庫構建可比語料庫,具體來說選擇該平行語料庫中的前5萬句英文和后5萬句中文搭建可比語料庫;Rapp(1999)利用法蘭克福匯報中的德語新聞和衛報中的英語新聞構造德英可比較語料庫,德語語料來源于1993年至1996年法蘭克福匯報(Frankfurter Allgemeine Zeitung)的德語新聞語料庫,共計1.35億詞次,英語語料來源于1993年至1996年英國衛報(the Guardian)的英語新聞語料庫,共計1.63 億詞次;徐華(2012)把對外廣播信息服務語料庫中英文語料分別分成前后兩部分,使用不同部分的中文語料和英文語料的構成可比語料庫。
利用現存語料庫構建可比語料庫的方法特點是首先是語料來源統一,語料類型一致,語料可比的依據也相對明確;其次,語料來源一般選擇現存的平行語料庫,采用數據順序的調整與調換手段,將語料的平行關系轉換成可比關系。
3 基于網絡的構建方法
基于網絡自動采集構建可比語料庫是當前領域發展的主要趨勢,語料數據的一般來源于搜索引擎、維基百科、新聞網站、特定領域網站等。根據語料來源的不同,采集手段和方法都會不同。
3.1基于新聞網站的可比語料庫構建
新聞文本作為可比語料具有天然的優勢,主要原因是:首先,新聞報道以發布時間為準,方便以時間為依據收集語料;其次,同一事件在不同新聞媒體網站產出的報道不同,且數量可觀;最后,同一事件雖然在不同媒體報道的方式不同,但內容具有相似性,十分契合可比語料的要求。Gigaword可比語料庫(美國賓夕法尼亞大學語言數據聯盟)包括中文、英文、阿拉伯文等語言,其數據來源主要是相關新聞媒體的報道。早期新聞可比語料庫構建的主要思路是直接選取不同新聞組織發布的新聞報道作為候選語料,構建過程中可以限定新聞報道的數據特征(如時間)和描述內容(如標題),以保證在候選語料加工形成可比語料階段語料噪音在可控范圍,利用特征匹配和過濾技術生成對齊文檔,構建可比語料庫,Sheridan、Brasehler等(1996;1998)均采用了上述做法;Talvensaari等(2007)利用跨語言信息檢索技術進行新聞可比語料構建,源語言文檔和目標語言文檔分別為瑞典新聞文檔和洛杉磯時報新聞文檔;Gupta(2008)使用互聯網爬蟲工具收集開放網絡上的新聞報道,并以此為基礎構建了可比語料庫;Vu等(2009)提出了一種基于特征的新聞可比語料庫構建方法,具體來說是將源語言與目標語言語料通過時間、標題—內容的兩次篩選后候選文檔對,提取文本標題-內容特征、語言無關特征和單語術語特征,融合計算文檔相似度,從而基于相似度建立可比語料對關系;于海濤(2009)從新聞網站獲取中英文語料,隨后使用跨語言信息檢索技術進行雙語相似度計算并建立可比語料對齊;黃德根、李麗雙等(Huang DG,2010)使用基于最大墑模型的多詞短語抽取和基于多項特征過濾的技術進行漢英新聞可比語料構建;房璐(2011)將新華網、人民網等新聞網站作為種子地址,利用網絡爬蟲收集英漢文本,之后利用跨語言信息檢索技術實現文本之間的對齊;原偉等(2019)以語料來源相同、發布時間相近、主題內容相似為依據自建小型俄漢新聞網絡評論可比語料庫用情感傾向性判定和表達手段對比。
3.2基于維基百科的可比語料庫構建
維基百科是一個由志愿者編撰的免費網絡百科全書,不僅包括傳統百科條目,還包括地名、年鑒、時事等詞條,并且以多語種的形式展現。維基百科作為可比語料來源具有諸多優勢,比如語料主題性強、規模大、格式規范、擴充速度快、信息結構完整、定期備份、免費公開、下載便捷等等。尤其是維基百科提供的多語言鏈接,使得獲取的多語言文本天然上就是對齊的,為抽取多語言可比語料提供了極大的便利。其相關研究有:Yu等(2009)采集了維基百科中相應語言的全部資源,通過多語種鏈接對齊后搭建可比語料庫;Otero等人(2010)面向考古領域利用了維基百科中的類別信息,使用多語言鏈接建立了可比語料庫;Ion等人(2010)利用WordNet中的命名實體下載相應的英文維基百科頁面,在通過多語言鏈接獲取德語、羅馬尼亞文語料構建了可比語料庫;劉颯(2012)利用維基百科網址列表下載網頁并利用跨語言鏈接進行文檔對齊,構建基于維基百科的領域可比語料庫;胡弘思(2013)獲取了維基百科的中文及英文的數據庫備份,進行了處理后,建立了本地維基語料數據庫,隨后統計了詞匯數據、構建了命名實體詞典,通過維基百科本身的網頁對應關系獲得了中英可比語料文本。
從上面的研究可以看出,基于維基百科的可比語料庫構建,現存兩種挖掘可比語料的方法:第一種,首先構建對象領域的詞表,隨后依據詞表維基百科中的單一語種頁面,最后多語言鏈接采集其他語種的頁面;第二種,首先從維基百科中下載不同語種的所有語料數據,再使用相似度計算等技術實現語言間的可比語料對齊。
3.3基于領域網站的專業可比語料庫構建
對于專業領域的可比語料庫構建,當前一般采取網絡獲取語料的方式,而高質量的領域詞表是獲取專業領域可比語料的關鍵,具體來說,構建過程主要分為兩個階段的任務。第一個階段是單語語料采集,即使用領域關鍵詞在專業網站或者搜索引擎中檢索結果,搜索結果下載保存后獲取單語言的文本集合。第二階段,通過跨語言詞表的對應關系,實現文檔的映射對齊,通過相似度計算排序后生成可比語料。
Talvensaari等(2008)通過Google搜索引擎獲取多個語言的領域詞表,再使用網絡爬蟲技術采集可比語料建立語料庫;Leturia等(2009)采用了兩種關鍵詞抽取和查詢途徑收集領域可比語料;Fiser等(2011)在研究醫學領域可比語料庫構建的過程中,采用了一種新的方法,即從醫療衛生雜志中采集英語和斯洛文尼亞語文本作為原始語料,隨后利用網絡爬蟲采集大規模語料對原始語料動態擴充。為了保證從網絡獲取的語料與原始語料有較高契合度,通過計算初始文本與網絡文本的相似度來設置閾值,將相似度高的語料作為初始語料,在保證語料質量的基礎上實現了語料有效擴充。
4 復合式構建方法
除了基于已有語料庫和互聯網的構建方法之外,近年來出現融合式的可比語料構建方法。例如,Li等(2011)將語料庫構建分解成了兩個階段——原始語料準備和語料擴展,主要原因是原始語料的規模和質量存在限制,可以使用外部語料數據補充原始語料,通過語料相似度計算對后加入,對質量能夠有效控制。該方法的優勢在于可以在擴展語料規模的同時確保可比語料的質量;不足是需要準備高質量的原始語料資源。劉颯(2012)分別基于搜索引擎、維基百科和領域數據庫中的可比語料構建語料庫,對三種方法進行比較分析,在語料可比度度量方面,以詞為單元,通過基于統計序列相似度、基于詞頻序列相似度、基于術語序列相似度三種方法在平行語料、可比語料、非可比語料等進行實驗。
基于假設“可比文本中對應的互譯詞語的出現頻度是相關的”,Tao等(2005)設計了一種不依靠任何語言資源(如雙語詞典、句對等)來獲取雙語可比語料的方法。具體來說,計算文本中每個詞的詞頻分布情況,如果源語言詞與目標語言詞的頻度分布越相似,兩篇語料描述同一內容的概率越大。這種方法適用于多語種可比語料庫的構建,原因是該方法是與具體語言無關,可避免語言數據不同引起的局限,如雙語句對、詞典質量及覆蓋率等。弱點在于構建過程中計算量巨大,對大規模語料庫的構建效率較低,而且由于完全依賴詞頻統計,難以確保語料的可比對齊質量。
Oard等(1998)基于跨語言檢索的方法處理可比語料,核心思想是使用跨語言信息檢索技術檢索與某種語言文檔內容相似的另一種語言文檔,雙語文檔的匹配方法為:非翻譯同源匹配(依據不同語言詞語書寫形式或語音相似性來判斷語料匹配)、提問式翻譯(依據源語言提出的問題自動翻譯成目標語言查詢詞進行單語檢索)、文獻翻譯(用目標語言描述的文獻全部自動翻譯成用源語言描述后進行檢索)和中間語言翻譯四種方式(把源語言與目標語言都自動翻譯成中間語言進行匹配)。趙蓮(2010)對上述方法進行了改進,在具體操作中先抽取源語言文檔中的關鍵詞并成目標語言,利用翻譯后的查詢語句在目標語言文檔集合中進行查找,形成源語言一目標語言文檔對,經過濾后添加到可比較語料庫中。
5 語料的可比度及其計算
雖然當前學界對可比語料的可比度沒有明確統一的定義,但是不可否認的是可比度是可比語料質量和應用場景評估的重要指標,通常語料可比度同相似度是息息相關的。如果一定要給一個界定,我們認為語料的可比度可以理解成為對應語料之間在文檔類型、形態特征、主題內容等方面的相似程度。從這個角度來說,在多數情況下,語料的“可比”程度就是它們的“相似”程度(原偉易綿竹,2017)。
5.1單語種語料的可比度計算
早期的單語種語料相似度研究多從語料統計指標入手,其核心是計算文本相似度,方法不盡相同。例如,Kilgarriff等(1998)選取能夠代表語料特點的詞語作為特征詞,基于特征詞頻率分布、特征詞語料之間的排序分布等對語料進行相似度計算; Saralegi等(2008)采用領域特征、報道類型、文檔主題、發表日期等多維特征,估計新聞語料的總體可比度;Leturia 等(2009)統計分析領域語料中關鍵詞來評價語料的可比度;Li 等(2010)基于語料中詞匯翻譯的期望值來計算可比度,并通過實驗證實了有效性。TTC項目研究從兩個維度衡量可比語料可比度,首先是高質量互譯文本對特征詞的頻率分布相似度,其次衡量不同語種文本集中錨點相似或相異程度。
5.2 多語種語料的可比度計算
針對雙語或多語種的可比語料,可比度計算問題就直接涉及了跨語言文本的相似度計算問題。當前,該領域研究是學科研究的熱點方向。Potthast等(2011)在研究中將跨語言相似度計算的方法分為四類:基于N元語法的方法、基于詞典的方法、基于可比語料的方法和基于平行語料的方法。基于N元語法的方法首先對多語言文檔進行預處理,提取其特征,使用N元語法作為特征詞對文檔進行標引,隨后N元語法特征進行翻譯(機器翻譯或同源匹配技術、平行語料或雙語詞典等),借此將多語言文檔映射到某一語言空間,以便使得多語言文檔使用一種語言的向量空間體現,這樣跨語言的文檔相似度計算即轉化為一種語言向量空間中不同向量夾角的計算;基于詞典的方法借助雙語詞典源語言文本逐次翻譯轉化為目標語言文本或反方向進行,從而將多語言文本在同一種語言的向量空間中進行表示并進行向量夾角計算,得出跨語言文本相似度;基于可比語料的方法利用語義分析標引多語言文檔,并利用可比語料中文檔之間的相似或對齊關系向統一語義空間的映射轉換,借此跨語言文檔相似度計算;基于平行語料的方法利用平行語料中句子或短語對齊關系,通過潛在語義分析、比較分析、典型相關分析等技術構建多語言語義空間,使得跨語言文檔相似度計算在同一個語義空間中實現。
[12] Li B., Gaussier E., Aizawa A. Clustering Comparable Extraction [A].In Proceedings of the Computational Linguistics[C]. Portland: 49th Annual Corpora for Bilingual Lexicon Meeting of the Association for Oregon. 2011.
[13] Oard D.W., Diekema A.R. Cross-Language Information Retrieval[J]. Annual Review of Information Science and Technology, 1998(33).
[14] Otero P.G., L‘opez I.G.. Wikipedia as Multilingual Source of Comparable Corpora[A]. In Proceedings of the 3rd Workshop on Building and Using Comparable Corpora, LREC2010[C]. Malta, 2010.
[15] Potthast M, Barrón-Cede?o A, Stein B, et al. Cross-language plagiarism detection[J]. Language Resources and Evaluation, 2011, 45(1): 45-62.
[16] Rapp R. Automatic identification of word translations from unrelated English and German corpora [A]. In Proceedings of ACL 1999[C], 1999.
[17] Saralegi X, San Vicente I, Gurrutxaga A. Automatic extraction of bilingual terms from comparable corpora in a popular science domain[C]//Proceedings of Building and using Comparable Corpora workshop. 2008: 27-32.
[18] Sheridan P., Ballerini JP. Experiments in multilingual information retrieval using the SPIDER system[A]. In: Proceedings of the 19th annual international ACM SIGIR conference on Research and development in information retrieval[C]. Zurich, Switzerland. 1996:58-65.
[19] Talvensaari T., Pirkola A., Jarvelin K., et al. Focused web crawling in the acquisition comparable corpora[J]. Information Retrieval. 2008 (5).
[20] Tao T., Zhai C.X. Mining Comparable Bilingual Text Corpora for Cross一Language Information Integration[A]. In Proeeedings of the 11th ACM SIGKDD international conference on Knowledge diseovery in data mining[C]. Chieago, USA, 2005.
[21] Vu V., Aw A.A., Zhang M.. Feature—based Method for Document Aligment in Comparable News Corpora [A]. Proeeedings of the 12th Conference of the European Chapter of the ACL[C]. Athens, Greece, 2009.
[22] Yu K., Tsujii J. Bilingual dictionary extraction from Wikipedia [A].In: Proceeding of MT Summit XII[C]. Ottawa, Canada, 2009.
[23] 房璐,葛運東,洪宇,等. 可比較語料庫構建及在跨語言信息檢索中的應用[J]. 廣西師范大學學報(自然科學版),2010(3).
[24] 胡弘思. 基于維基百科的雙語可比語料的句子對齊[D]. 上海交通大學,2013.
[25] 劉颯. 專業領域可比語料的構建與評價研究[D]. 南京理工大學,2012.
[26] 徐華. 基于可比較語料庫的中英文詞表構建研究[D]. 蘇州大學,2012.
[27] 于海濤. 可比較語料庫的研究與構建[D]. 大連理工大學,2009.
[28] 原偉,易綿竹.基于維基百科的俄漢可比語料庫構建及可比度計算[J].山東大學學報(理學版),2017,52(09):1-6.
[29] 原偉,代勛勛,徐琳宏.基于俄漢新聞網評可比語料庫的情感分析研究[J].解放軍外國語學院學報,2019,42(02):99-106+160.
[30] 趙蓮. 大規模中英可比較語料庫構建[D]. 大連理工大學,2010.
【通聯編輯:王力】