李珊珊 ,蔣盛益 ,符斯慧
(1.廣東外語外貿大學 廣州市非通用語種智能處理重點實驗室,廣東 廣州 510006;2.廣東外語外貿大學 信息科學與技術學院,廣東 廣州 510006)
作為菲律賓官方語言的菲律賓語,又稱他加祿語,屬于南島語系的馬來-波利尼西亞語族,主要被使用于菲律賓,也廣泛運用于馬來西亞沙巴州、印度尼西亞北部地區和新加坡。在菲律賓人口中,超過2 000萬人以菲律賓語作為母語。菲律賓語采用的書寫系統為拉丁字母。在菲律賓語的發展過程中,因受殖民統治和外來文化的影響,其從西班牙語、福建閩南話、英語、馬來語、阿拉伯語等語言中吸收了不少詞匯。菲律賓語屬于黏著語(agglutinative language),但是也呈現出一些屈折語的特征,如動詞的形態受焦點、體及語態的影響,代詞的形態受數的影響等。菲律賓語的詞匯形態變化復雜,句法結構復雜,且單詞順序較為自由。
菲律賓是東南亞的一個發展中國家,也是“一帶一路”沿線的重要國家之一。1975年中菲建交以來,兩國關系總體上發展順利,各領域的合作不斷被拓展。隨著“一帶一路”倡議提出之后,中菲兩國在政治、經濟貿易、文化等領域的合作有了進一步的發展,致力于共同深化和平與發展的戰略性合作關系。中菲兩國在文化交流與合作更加密切的同時,語言互通的需求也日漸強烈。在當今互聯網快速發展的時代,如何利用信息技術,構建“語言互通”的橋梁,進一步深化我國與菲律賓國家的文化與信息交流,促進區域合作,實現共同發展,顯得十分必要。為此,有不少學術研究團隊以菲律賓語為對象進行學術研究,主要的研究團隊包括菲律賓德拉薩大學語言技術中心(De La Salle University,Center for Language Technologies)、菲律賓理工大學計算機與信息科學 學 院(Polytechnic University of the Philippines,College of Computer and Information Sciences)、廣州市非通用語種智能處理重點實驗室(Guangzhou Key Laboratory of Multilingual Intelligent Processing)等。由此可見,對菲律賓語自然語言處理方面展開研究具有重要的現實意義。因此,本文擬對菲律賓語的詞法分析、句法分析、語義分析等基礎研究和機器翻譯、拼寫檢查、情感分析等應用技術的研究現狀進行歸納與分析,并且梳理已有資源建設的研究成果,剖析其面臨的主要問題,在此基礎上展望其未來的研究方向。
詞法分析研究主要包括詞干提取、形態分析(如詞形還原等)、詞性標注等基礎研究,以及命名實體識別等應用技術。本小節介紹的內容僅涉及菲律賓語自然語言處理領域的底層技術,如詞干提取、形態分析、詞性標注等,而其他應用技術研究內容將在后續章節中展示。
2.1.1 形態分析
菲律賓語的詞綴系統非常復雜,包含前綴、中綴、環綴、后綴、重復及以上多種詞綴的疊加。菲律賓語中的重復可以是單詞部分重復或者全部重復。多種詞綴疊加是菲律賓語動詞中常見的語言現象。例如單詞pinanglilibang-libang,它通過詞干libang 附加前綴pang,而前綴pang 又疊加中綴in 組成pinang,并且部分重復li 及全部重復libang 來構成。由于菲律賓語的復雜性,對其進行形態分析成為菲律賓語自然語言處理領域的基礎任務,可為信息檢索、機器翻譯等研究提供支持。
F.Fortes[1]提出一個用于提取級聯(concatenative,指包含前綴、后綴、環綴的情況)和非級聯(non- concatenative,指包含中綴、重復的情況)形式的詞干動詞詞法分析器——TagMA。TagMA 通過語素、CV(C,consonants表輔音;V,vowels表元音)以及音節來表示輸入的動詞,再將輸入表示饋入生成器以得到候選集合。雖然TagMA的分析準確率達96%,但是利用該方法分析輸入動詞的過程耗時較長,且只輸出動詞的詞干、詞綴和時態,而不包括動詞的不定形式。
在此基礎上,F.C.Fortes-Galvan等[2]將最優化理論(optimality theory)應用于詞法分析中,提出了一個基于約束的動詞詞法分析器,以同時處理級聯和非級聯的形態學現象。并且課題組利用該分析器對含有50個詞根的1 600個動詞進行了測試,所得結果表明,分析器所輸出的動詞基本形式的準確率達96%。
R.Roxas等[3]也設計了一個動詞詞法分析器。與F.C.Fortes-Galvan等提出的分析器不同的是,R.Roxas設計的分析器輸出的結果中包含動詞的時態、不定式形式以及詞綴。對于一個給定的動詞,該詞法分析器能給出該動詞的基本形式、所含詞綴以及對應的時態(過去時、現在時及將來時)。利用該分析器對1 050個動詞(包含規則動詞及不規則動詞)進行測試,所得測試結果表明,其對于3種輸出結果的準確率均達95%以上。
以上兩項研究只是對動詞進行了分析和還原,而D.E.Bonus[4]提出了一個不限于動詞的基于詞典的詞根還原算法TagSA(https://github.com/laronandrew11/ stemmer),該算法中考慮了詞綴、重復以及復合等情況。并在6 000 多個詞語上進行了測試,且取得了不錯的效果。
P.Baumann等[5]研究了如何利用語言資源豐富的英語來輔助對于資源缺乏的菲律賓語及祖魯語的形態進行分析。他們考慮到這兩種語言的形態變化較為豐富,并且由于受到外來文化的影響,有不少借詞現象,因此,可以根據借詞的形態變化來獲取常用的詞綴。以獲取菲律賓語單詞的詞綴為例,他們先從網上獲取兩種語言的文本,并且分別從中提取出對應的詞匯列表;再通過判斷某個英語單詞是否為一個菲律賓語單詞的子串,以獲得潛在的詞綴。最后,根據潛在的詞綴在語料中的分布,確定最終的詞綴。他們利用該方法成功提取出28個常用的菲律賓語詞綴以及66個常用的祖魯語詞綴。
通過以上的研究分析可以看出,由于菲律賓語的動詞形態變化較其他詞類的更為豐富,其形態分析研究主要針對動詞,較少有研究針對所有詞類。幾乎所有的研究是利用菲律賓語動詞的形態學變化規律提出基于規則的形態分析方法,算法的準確率也較高。本課題組認為,雖然菲律賓語動詞的形態變化復雜,但是均有規律可循,可以通過構建大規模(詞干、派生詞)序列對語料庫,將形態分析任務轉化為序列學習任務,通過深度學習方法,如LSTM(long shortterm memory)、seq2seq等,可自動學習菲律賓語動詞的形態學規則,從而實現詞干的提取。
2.1.2 詞性標注
詞性(part-of-speech,POS)是詞匯最基本的語法屬性,使用詞性標注便于判定每個詞的語法范疇。詞性標注是自然語言處理中一項非常重要的基礎性工作,其為句法分析、命名實體識別、機器翻譯等任務打下基礎。與英語相比,菲律賓語同樣具有后綴、大寫字母等可用于確定POS的語言特征。除此以外,菲律賓語的詞性標注離不開前綴、中綴、環綴、重復等有用的語言信息。
Cheng C.K.等[6]提出了一個基于模板的n元語法詞性標注器,其核心為幾類詞特征,即常用的225個用于構建句子的詞語、詞綴、字母大寫以及連字符。他們所用的訓練和測試語料源于菲律賓語版圣經(共141句),用到的詞類標簽有59個,測試結果的準確率為92%以上。
M.Erlyn等[7]探討了影響菲律賓語詞性標注效果的因素,考慮以菲律賓語單詞的形態結構、形態信息(如詞綴)作為訓練POS模型的輸入。實驗中使用了菲律賓德拉薩大學(De La Salle University,DLSU)的人工標注數據,涵蓋小說、報紙文章、短片故事和圣經章節,包括114 096個詞條,POS 標注集包括9個粗粒度標簽、60個特定標簽、5個標點符號標簽以及其他符號的標簽,所得測試結果表明,POS模型標注的準確率高達93%以上。
C.D.E.Reyes等[8]利用支持向量機和bigram 開發了一個菲律賓語詞性標注器SVPOST,并對其有效性進行了實驗驗證。其實驗數據中包含122 318個已標注單詞和64個詞性標簽。實驗結果表明,該標注器的準確率可達81%。
N.Nocon等[9]將統計機器翻譯的方法應用于菲律賓語的詞性標注中。他們將序列標注問題轉換為編碼-解碼問題,并以給定的句子(源語言)作為輸入,句子中的詞語對應的詞性標記(目標語言)為模型的輸出。實驗中使用的詞類標記集為MGNN 標記集(包含230個詞類標記,http://goo.gl/dY0qFe),所用的訓練和測試語料取自維基百科(共2 668句),得到的最高準確率為84.75%。
M.P.Go等[10]構建了基于Stanford 詞性標注器的菲律賓語詞性標注(https://github.com/matthewgo/ FilipinoStanfordPOSTagger)。他們用到的核心算法為最大熵循環依賴網絡,在設計特征時考慮了詞匯的形態及句子內部的語碼轉換信息,使用的詞類標記集也是MGNN 標記集,所用的訓練和測試語料來源于英文維基百科隨機抽取的15 166個句子,經由相關語言學家翻譯為菲律賓語句子后再進行人工詞性標注,最終得到的標記準確率為96%。
J.F.T.Olivo等[11]嘗試了基于條件隨機場的方法,使用的詞類標記集仍為MGNN 標記集,所用訓練和測試語料與M.P.Go等[10]所用的語料一致,得到的標記準確率在90%以上。
菲律賓語句子中單詞順序自由,導致菲律賓語不可以通過分析目標詞前后詞匯的分布概率來預測目標詞的POS 標簽,將POS 標注視為序列學習任務則無法很好地學到菲律賓語語法結構模式,從而導致實驗效果不好;而標注語料的缺乏也限制了詞性標注工作的開展。
句法分析的主要任務是為了確定句子中各組成成分之間的關系,也就是確定其句法結構。菲律賓語的句子中,各組成成分的順序較為自由,不具有主謂一致的語法特點,并且句子的焦點成為主題而不是主語。這些語言特征成為菲律賓語句法分析中的一大障礙,導致適用于菲律賓語句法分析的算法相對較少,其研究成果也很少。
A.Clark[12]嘗試了利用詞匯功能語法(lexical functional grammar,LFG)作為計算模型來捕獲菲律賓語的信息,實現了一個用于菲律賓語書面句子語法分析并輸出句子功能結構的系統——FiSSAn。雖然FiSSAn 目前只能用于處理陳述句,但是可以通過總結更廣泛的語法規則集以捕獲更多類型的菲律賓語句子結構,如祈使句和疑問句等。
D.L.Alcantara等[13]使用無監督的統計方法,對菲律賓語句子進行了構成成分(constituent)的劃分。他們在對句子進行詞形還原和詞性標注后,統計分析所有出現的詞性標注序列,以生成劃分構成成分的規則,由此得到的規則庫即可以用于劃分后續句子的構成成分,此方法的F值在69%以上。
E.Manguilimotan等[14]首先進行了針對菲律賓語依存句法分析的研究。他們采用基于圖的最大生成樹算法,探索了粗細粒度的詞性、詞根和形態等特征對句法分析模型性能的影響。并且在2 741個句子上進行了訓練和測試,結果表明,對于無標簽的依存關系(unlabeled attachment scores,UAS),句法分析模型的平均準確率為78%;而對于整個句子,句法分析模型的平均準確率僅為24%。這一實驗結果表明,當詞性信息不夠準確時,加入形態信息有利于提高句法分析器的性能。
對于不同的語言單位,語義分析有著不同的意義。在詞匯的層面上,語義分析指詞義消歧;在句子的層面上,語義分析指語義角色標注;在篇章的層面上,語義分析指共指消解。語義分析是目前NLP(natural language processing)研究的一個重要方向。部分學者對于菲律賓語語義分析進行了初步的探討和研究,這些研究主要集中在語義知識庫的構建、詞義消歧等方面。
E.Domingo等[15]研究了將句法關系信息融合到機器翻譯系統中,以進行目標語言的詞義消歧。他們一方面利用雙語詞典和WordNet 進行源語言的詞義消歧,另一方面從目標語言詞典和語料中統計抽取出句法的關系信息,兩者結合以在生成目標語言時選擇出最合適的詞語。
M.Mistica等[16]初步實現了基于條件隨機場(conditional random field,CRF)的語義分析器,以識別菲律賓語中的謂詞-論元結構。他們構建了一個小規模的謂詞-論元菲律賓語語料庫,并且在實驗過程中對比了詞性、詞語形態及字母n-gram等特征對分析器性能的影響。實驗結果表明,對于謂詞的識別,F值最高為44.2%,而對于論元的識別和依附,F值最高為47.7%。
S.Bergsma等[17]針對附加前綴的動詞,提出如果前綴動詞可以被分解為包含其詞干的語義等效表達,則可認為該詞是組成動詞。他們還開發了一個分類器,以通過一系列詞匯和其分布特征來預測詞匯的組成。實驗結果表明,該分類器可以較為準確地預測附加前綴的動詞的詞干。
A.L.Andrei[18]試圖構建了一個小規模的面向Twitter的菲律賓語情感詞典LIWC(linguistic inquiry and word count)。首先,他在菲律賓國內的博客、新聞網站及Twitter 上獲取菲律賓語文本,并且通過文本預處理得到了18 254個詞,其中包含英語、菲律賓語、宿霧語、印尼語和西班牙語等語言的單詞。然后,其利用谷歌翻譯,將所有詞翻譯為菲律賓語詞,經過人工校對過濾后,得到了1 510個菲律賓語詞;再仿照構建英語LIWC的步驟,讓3 位標注員對所有詞進行正負向情感標注,最終獲得273個正向情感詞及344個負向情感詞。另外,人工標注篩選了大量針對某個話題的推文,最終獲得575篇帶有情感標記(正向、負向及中性)的推文,基于這些推文測試了情感詞典的效果,在正向文本上的平均F值為33%,在負向文本上的平均F值為52%,而在中性文本上的平均F值為12.5%,說明仍有較大的提升空間。
綜上所述,相比詞法分析及句法分析等方面的研究,菲律賓語語義分析的研究成果較少,而且其語義知識庫構建仍處于初級階段。
菲律賓的機器翻譯始于20世紀90年代后期,涉及菲律賓國家的兩種官方語言:菲律賓語和英語。截至目前,菲律賓語的機器翻譯研究取得了較大進展,其研究方法涵蓋基于轉換、基于語料庫、基于統計和基于深度學習的方法。
最早被用于菲律賓語機器翻譯研究的方法是轉換法,該方法主要是通過對源語言進行分析,得到其結構,再將分析的結構轉換成目標語言的結構,而后根據目標語言結構生成目標語言,從而實現翻譯。例如R.Roxas等[19]利用增強過濾網絡和少于10 000 詞條的字典構建了英菲翻譯工具,但該工具僅是針對陳述句和祈使句的翻譯。隨后,A.Borra[20]探討了將詞匯功能語法作為文法形式的翻譯系統,發現功能結構(f-structure,f結構)和組分結構(c-structure,c結構)有助于識別翻譯錯誤。在此基礎上,A.Borra等[21]也提出了一個基于詞匯功能語法的英菲機器翻譯系統。整個系統包括對源語言f結構的分析、源語言的f結構到目標語言的f結構的轉換,以及由目標語言的f結構生成目標語言幾個步驟。在系統開發過程中,用到了兩種語言的語法規則、單語詞典、轉換詞典(包含2 000個平行詞對)及轉換規則等語言資源。實驗結果表明,輸入和輸出的句子符合既定的語法規則、其單詞存在于詞典中且轉換規則必須存在相應的f結構才可以成功翻譯。T.Allman等[22]開發了一個稱為Linguist’s Assistant的自然語言生成器,可被用于翻譯宗教文本。其雖然需要復雜的短語結構規則才能正確地對目標語言的成分進行排序,但是短語生成規則明顯簡化了目標語言的語法規則。以上基于轉換的方法中,翻譯的效果受限于語料規模及轉換規則,無法翻譯詞典外的詞匯(out of vocabulary,OOV)。
鑒于基于轉換方法的人工構造規則的局限性,基于語料庫的機器翻譯方法應運而生。該方法和傳統的基于規則的方法相比有很大的不同,基于語料庫的方法并不對目標語言進行深入復雜的語法分析,也不通過規則轉換,而使用源語言和目標語言相對照的雙語或多語語料庫直接或間接地進行翻譯。例如R.E.O.Roxas等[23-24]提出了基于轉換規則和基于語料庫混合的方法。其中,利用LFG 實現基于轉換的方法,而基于語料庫的方法嘗試從大量英菲平行句對(包含207 000 菲律賓語詞匯)中抽取翻譯模式,并且存為模板,以實現翻譯。E.Ong等[25]提出一種基于模板的機器翻譯系統,該系統從給定的雙語語料庫中提取模板,并以常見的詞匯過濾及組塊對齊算法來提高提取模板的質量。
基于統計的機器翻譯方法是一種間接地使用語料庫的機器翻譯方法,它是通過雙語句對的對齊,分析詞匯共現的可能性來計算源語言的某一個詞映射到目標語言的一個或多個(或零個)詞的概率。例如J.Ang等[26]構建了一個基于Moses(http://www.statmt.org/moses/)菲英統計翻譯系統——FEBSMT,所用的實驗數據來源于22 031句旅游領域的英菲平行句對。該系統可以接受用戶反饋,并且周期性地匯總反饋數據,以對系統做增量式訓練,提升系統性能。
由于自動構建平行語料庫方法的可用性,基于深度學習的菲律賓語機器翻譯研究取得了一定的進展。A.J.Tacorda等[27]利用100 000個英菲平行句對訓練RNN模型,并集成字節對編碼(byte pair encoding,BPE)以減少OOV 翻譯錯誤。BPE 將一個詞條分解成可識別的字符序列。因此,如果已經通過BPE 識別出訓練數據的詞干和詞綴,則可以識別訓練數據中不存在的詞條。但是BPE 無法處理誤將詞干的字符序列識別為詞綴的情況。而針對OOV 翻譯的問題,A.N.Lazaro等[28]提出通過利用領域適應技術預處理訓練數據,從而減少OOV的概率。
菲律賓語除了具有句子結構成分順序自由的特點外,其動詞擁有時態和焦點的特點及詞綴包含前綴、中綴、后綴、環綴及重復等復雜的形態變化特點,這些都給菲律賓語機器翻譯帶來一定的挑戰。由于菲律賓語目前還沒有成熟可用的語言工具,如詞干提取、詞性標注等工具,故菲律賓語機器翻譯仍有很大的探索和研究空間。
隨著互聯網技術的普及,越來越多的用戶在互聯網(如Twitter、Facebook等)上發表對于諸如人物、事件、產品等有價值的評論信息。為了理解和分析可能包含用戶情感、觀點和信念的大量數據,情感分析工作顯得至關重要。
R.V.J.Regalado等[29]研究了菲律賓語文本的主觀性分類。他們以TF-IDF為主要特征,分別對文檔和句子用C4.5、樸素貝葉斯、KNN(k-nearest neighbor)和SVM(support vector machine)等 算法進行了主觀性分類。對于文檔級別,給出算法中SVM 算法取得了最高的準確率,為95.06%;而對于句子級別,樸素貝葉斯算法取得了最高的準確率,為58.75%。M.Pippin等[30]嘗試對菲律賓人發的推文進行了情感分類。他們的情感分類體系中包含7個類別:開心、傷心、憤怒、驚恐、驚奇、厭惡及中性。他們用樸素貝葉斯算法在300 000篇推文(其中“中性”占最大比例,為79%;“開心”第二,占18%)上進行測試,分類準確率約為70%。
F.Patacsil等[31]獲取了菲律賓國內一些熱門博客的評論,以研究菲律賓國民對國內3 家主要因特網服務提供商(intenment server provider,ISP)的看法。他們以n-gram模型作為主要特征,輔以一些規則,對比了樸素貝葉斯和SVM的性能。實驗結果表明,使用二元模型的SVM 獲得的情感分析效果較好。
F.R.Lapitan等[32]利用眾包的方式構建了一個小規模但是高質量的Twitter 情感語料庫。他們的情感分類體系中包含9個類別:憤怒、期待、愉快、傷心、信任、驚奇、厭惡、恐懼及其它。在隨機選取了778篇菲律賓語推文和570篇英語推文后,依托CrowdFlower 平臺對這些推文按照指定規范進行了人工標注,經過過濾后,獲得1 146篇帶情感標簽的菲律賓語和英語推文。另外,他們的相關實驗結果表明,現有的語言資源和工具還不足以對推文進行準確的情感分類。
通過以上分析可以看出,菲律賓語情感分析主要是有監督的、依賴人工標注的情感分類。而情感分類體系因不同學者而異,并且實驗數據大多數是基于自己構建的小規模數據,因此無法客觀地比較各種方法的效果。
命名實體(name entity recognition,NER)是識別文本中具有特定意義的詞語,如人名、地名等,并為其添加標注,它是自然語言處理的一個重要工具,對網絡信息抽取、跨語言情感分析、機器翻譯等上層應用起著非常重要的作用,對于語言研究工作也具有重要的支撐作用。但現有菲律賓語命名實體識別方面的研究成果還較少。
K.M.L.Ebo?a等[33]利用最大熵法來實現菲律賓語小說摘錄的命名實體識別。他們將命名實體分為人名、地名、機構名、日期、時間5。其實驗結果表明,基于F度量值,NERF-CRF(named entity recognizer Filipino text using conditional random field)的識別準確率達到80.53%,其中在日期類別上的識別錯誤率為0%,較差的是對地名和機構名的識別,錯誤率分別為28.41%和13.10%。
與K.M.L.Ebo?a等[33]的研究成果相似,A.P.T.Alfonso等[34]也提出了利用條件隨機場實現菲律賓語文本命名實體識別系統NERF-CRF。NERF-CRF 將命名實體分為人名、地名、日期、機構名4。其實驗結果表明,基于F度量值,NERF-CRF的準確率達83%,其中在日期類別上的識別錯誤率為0%,較差的實體類別是地名和機構名,錯誤率分別為42%和33%。
拼寫檢查旨在檢索文本輸入中因人為拼寫錯誤導致的文本錯誤。現有拼寫檢查工具主要有Microsoft Word和Google Docs,它們可以自動進行英語語法和拼寫檢查,并且提供修改建議,為語言學習者提供了極大的便利。諸如句法分析、樹庫、詞性標注等工具,對于提高拼寫檢查效果有很大幫助[35]。因此,菲律賓語拼寫檢查研究除了基于規則的方法外,有不少研究者開始考慮綜合其他自然語言處理工具來提高糾錯準確率。
E.D.Dimalen等[36]實現了一個基于規則的菲律賓語拼寫檢查器,已經被作為插件整合在OpenOffice中,可用于檢查拼寫錯誤和語法錯誤。
N.Oco等[37]利用Language Tool,設計了一個基于詞典及規則的拼寫檢查器,主要用于檢查詞語拼寫錯誤、語法錯誤、漏詞等情況。在272個帶有錯誤的句子上進行測試,得知其準確率為83%。
M.P.Go等[38]也設計并實現了一個菲律賓語拼寫檢查器Gramatika。他們先從高質量文本中獲取n元模型、詞性及詞干信息,再利用這些信息學習出混合n元模型,最后通過學習出的模型和預定義的規則偵測文本中的拼寫和語法錯誤,并給出修改建議。實驗結果表明,該系統在錯誤表達上給出修改建議的準確率為64%(248個帶有錯誤的句子),有15%的句子被判斷為有錯誤(1 284個沒有錯誤的句子)。
由于菲律賓語語言資源及高效準確可用的語言分析工具的缺乏,與英語相比,菲律賓語的拼寫檢查研究較為滯后。N.L.Tsao等[39]及Huang C.C.等[40]通過實驗表明,POS的引入使得拼寫檢查性能顯著性提升。考慮到菲律賓語形態變化豐富,因此本課題組更加認為提高菲律賓語拼寫檢查效果,高質量的POS模型必不可少。
在人工構建菲律賓語語言資源(例如詞典、形態信息、語法規則庫和語料庫等)方面的研究已經取得了很大進展。除此以外,由于人工構建語料庫的內在困難,不少學者開始研究自動抽取高質量語言資源的技術。
E.P.Tiu等[41]提出了一種從可比語料中自動提取雙語詞典的方法,其中英語為源語言,菲律賓語為目標語言。他們結合上下文抽取、聚類技術,并使用詞性標簽來定義單詞的不同含義。實驗結果表明,較前人研究的成果,他們獲得的整體F值從7.32%提高到了10.65%。
S.Dita等[42]初步通過人工構建菲律賓國家語言的在線語料庫,包括菲律賓語、宿霧語、伊洛卡諾語、希利蓋農語和菲律賓手語。前4種語言包含250 000個單詞的文本,而菲律賓手語包含7 000個視頻。該在線語料庫還提供了用于語言分析的自動化工具,例如字數統計。該項目后續考慮了自動獲取文本、語音、視頻等多模態語料資源。
文獻[42]的工作是為德拉薩大學語言技術中心研發英菲機器翻譯系統服務[43]。除此以外,面對有限的菲律賓語語言資源,基于菲律賓語語言委員會提供的詞典,他們還構建了一個英菲詞典,包含詞條的形態學信息如詞性標簽等,具體如表1所示。

表1 英菲詞典-DLSUTable1 English-Filipino dictionary (DLSU)
A.Borra等[44]討論了菲律賓語Word Net的構建,探討了菲律賓語的形態用于構建分析器和生成器,以支持Word Net中的詞干以及詞綴序列對的收集。J.P.Ilao等[45]針對搜索引擎如雅虎等,提出基于查詢的方法來自動收集諸如新聞、博客評論等相關文本(包含單語文本和雙語文本),并構建了語料庫Web Miner 系統。Web Miner 系統共收集了14 600個英菲平行句對,包含約582 000個菲律賓語單詞。由于該系統不僅爬取新聞報道,還收集社交平臺的評論等資源,因此獲取的單語菲律賓語料庫并不是完全正確的,包含拼寫錯誤、語法錯誤、句子成分替換等問題。
A.El-Kishky等[46]應用URL(Uniform Resource Location)匹配規則,從commoncrawl 語料庫(http://commoncrawl.org/)中爬取高質量的跨語言文檔數據集,包含92種不同語言(含菲律賓語、印地語、德語等)與英語對齊的文檔對。他們首先使用人工注釋來直接評估該數據集的質量,而后通過評估下游任務,即利用該對齊語料訓練的機器翻譯模型質量,進一步評估該數據集的質量。
R.A.Sagum等[47]提出了基于決策樹和n-gram模型的半監督方法來構建菲律賓語的語義知識庫FilWordNet。并將模型在500篇文檔(包含25 618個單詞,其中含15 377個菲律賓語單語單詞)上測試,正確提取詞干且進行POS的準確率高達86.29%。
總體來說,在菲律賓語自然語言處理領域,語言資源不足,與英語、漢語等語種的自然語言處理研究相比,還存在較大差距。現有研究比較寬泛但不深入,在詞法分析、句法分析、語義分析等底層技術及機器翻譯、情感分析、拼寫檢查等應用技術中都有一些成果。其中,機器翻譯的研究取得了較快的進展,拼寫檢查次之,而在句法分析、語義分析、命名實體識別等方面的研究成果相對較少。菲律賓語的機器翻譯幾乎都是涉及英語-菲律賓語的翻譯,沒有涵蓋其他語言。這與菲律賓國家的語言政策有關,菲律賓國家的第二官方語言是英語,菲律賓政府和學術研究機構在英語和菲律賓語的語料構建及英菲機器翻譯上投入了較多的人力和物力。而菲律賓語與其他語言對照的平行語料缺乏,研究投入不足。
雖然菲律賓語在自動構建語料庫方面的研究取得了一定的進展,但是相較于英語、漢語等通用語種,菲律賓語仍然屬于語言資源較為缺乏的低資源語言。大部分語料庫構建研究旨在收集英菲平行句對或詞對,主要服務于機器翻譯;而關于自然語言處理其他領域的語料資源構建研究非常少。由于深度學習算法高度依賴于高質量、大規模的標注語料,導致無法有效運用深度學習方法于詞法分析、句法分析、命名實體識別等方面。
在信息大爆炸時代,信息的精煉和提取成為一個重要的研究課題,而文本自動摘要是解決信息爆炸問題的關鍵技術之一,跨語言自動摘要技術可以讓人們快速地了解不同國家和地區的信息。然而,根據已有文獻調查發現,目前菲律賓語文本自動摘要方面的研究幾乎為空白。
綜合以上對菲律賓語自然語言處理現狀分析可以得知,英語-菲律賓語平行語料較為豐富,有力地推動了機器翻譯的研究進展。面對豐富的英語-菲律賓語平行語料,如何通過跨語言處理技術,構建漢語-菲律賓語平行語料庫,成為我國研究漢語-菲律賓語機器翻譯、跨語言自動摘要等任務的首要解決問題。
針對菲律賓語的其他自然語言處理領域語料匱乏的問題,同時在詞法分析、句法分析、語義分析等任務上無法使用海量無標注語料進行深度學習等,十分必要構建相關領域較大規模、開放的標注數據庫。面對資源缺乏的基礎問題,盡管菲律賓語形態變化豐富,但只要總結足夠多的形態規則就可以構建形態學信息語料庫;而正確的形態學信息可為詞性標注和句法分析等提供重要的語言特征,有利于提高其他自然語言處理任務的性能,從而利用半監督的資源構建技術促進其他領域語言資源的構建。
在大規模、高質量、開放的語言資源構建的前提下,深度學習應用于菲律賓語自然語言處理的方法研究成為可能。在基本理論和模型創新的基礎上,鑒于菲律賓語的句子語法結構較為靈活,并結合基于規則、基于統計和深度學習的方法,可在一定程度上解決由菲律賓語復雜的語言特征造成的諸如詞義多樣、句法結構歧義等問題,從而推動命名實體識別、句法分析、語法糾錯、知識圖譜構建以及語義分析等方面的研究。
最后,考慮到信息爆炸時代下文本自動摘要技術的重要性,可借鑒其他語言的文本自動摘要研究技術,探討基于規則、基于圖模型、基于結構等方法對菲律賓語文本自動摘要的適用性,以填補菲律賓語自動文摘研究的空缺,這也是未來研究的重要方向。