(福州大學 福建 福州 350000)
在“一帶一路”倡議以及全球化的深入發展的背景中,國家與國家之間的交流也更加頻繁與深入,中國與西班牙語國家雙邊貿易額度總體呈快速增長態勢,表明中國已是絕大部分西班牙語國家的主要貿易伙伴之一,雙方有著廣闊的合作前景[1]。因此,對來自西班牙語國家的海量數據進行高效挖掘成為支持我國相關組織進行管理決策的重要信息管理技術。
從數據挖掘的角度上來看,文本挖掘指的是將數據挖掘技術應用在文本集合上,以發現其中隱含的知識。文本分析是文本挖掘的一個關鍵過程,是從文本數據中獲得具有較高質量的文本特征的方法和過程。
在廣泛查閱與西班牙文文本分析相關的國內外研究成果的基礎上,本文介紹了文本分析的相關概念,羅列了幾種能用于西班牙文分詞工具,并且簡要概述了目前國內外文本分析的研究成果。
(一)相關概念
文本分析作為文本挖掘的一個部分,涉及到使用自然語言處理、信息檢索和機器學習等技術將非結構化的文本數據在語法上解析成更具結構化的數據形式,即是將文本數據轉換為可以體現出文本特征的詞向量。
在語言學上,詞是可獨立使用的最小語言單位,通常由詞組成短語,短語組成從句,從句組成句子。西班牙文以詞為書寫單位,有空格作為分界符加以區分。簡單的切分是不足的,必須引入詞干提取、詞形還原等文本分析技術對文本數據進行更精確的切分。
詞干提取和詞形還原是詞語規范化處理的兩種相似技術。詞干提取主要用于信息檢索領域,而詞形還原更多用于處理單詞準確率要求較高的文本分類、情感分析等領域[2]。
(二)西班牙文文本分析工具
詞干提取和詞形還原的方法均較為成熟,主要可以分為基于規則的方法、基于詞典的方法、基于統計的方法以及混合的方法。下文將列出目前較為成熟的3個包含詞干提取、詞性還原的功能且可用于西班牙文文本分析的工具。
1.Stanford core NLP
Stanford core NLP[3]提供了對西班牙語的分詞、詞性標注、命名實體識別等功能。
2.NLTK
NLTK[4]支持包括西班牙語在內的分詞、詞干提取、詞性標注、詞形還原等功能。
3.Pattern.es
Pattern[5]中的pattern.es包含了專用于西班牙語文本分析的詞性標注器以及詞干提取、詞性還原工具。
研究跨語言文本分析要解決的問題是:由于語言習慣以及語法上的差異,適用于某一特定語言的分析方法未必適合另一語言。目前,在跨語言的文本研究上常用的研究方法有三種:基于機器翻譯的方法、基于統計和詞典的方法和基于平行語料和深度學習的方法。
(一)國內研究及應用
我國在文本分析上的研究主要集中于算法的改進或是創新,主要研究領域有文本分類[6]、情感分析[7]等,對專用于文本分析的工具的研發成果較少。
國內學者在跨語言文本的處理上以英語文本為主,增加了如法語、日語等語;一部分學者選擇了我國的少數民族語言;還有一部分學者選擇了泰國語等周邊國家的語言。
國內學者使用西班牙語進行的文本分析相關研究還不是很多,我國學者改進或創新的算法用于西班牙語的文本分析研究也尚未見較多相關的實驗結果。文獻[8]提出了綜合集成計算模型和深度多任務學習模型的方法用于英語-西班牙語文本相似度評估。文獻[9]使用西班牙酒店的網頁文本自建了一個小型語料庫,并進行相關的分析工作。文獻[10]建立2016年《國務院政府工作報告》中英西三語平行語料庫,分析了句法特征和詞匯特征。
綜上所述,我國學者對于西班牙語文本分析的研究還遠不如對英語文本的研究深入,因此,對于西班牙語文本分析的研究前景較為廣闊,或許可以成為未來的研究方向。
(二)國外研究及應用
盡管我國在跨語言的文本分析研究中對西班牙語的研究和討論較少,但西班牙語的文本分析在西班牙語系國家以及英語系國家的研究中仍然占有一席之地。國外學者的研究在較早的時候大多集中于算法或模型的提出與改進,而后則慢慢轉向具體應用領域的研究。
1.西班牙語國家的研究及應用
近幾年,西班牙語系學者在西班牙語的文本分析的研究上十分重視情感分析的研究,除此之外,對于文本簡化[11]、機器翻譯[12]、問答系統[13]等方面的研究也十分活躍。
在情感分析方面,西班牙自然語言處理協會(SEPLN)[14]組織了SEPLN(TASS)語義分析研討會積極推動相關研究的進程。文獻[15]提出了基于二進制最大熵的情緒分析策略,可區分六種情緒類別。文獻[16]致力于根據西班牙語語言特性建立一個新的西班牙語的情感詞典。
此外,西班牙語系學者關于文本分析的研究還涉及了財務以及西班牙語學習等相關方面,如文獻[17]利用自然語言處理、本體學習、意見挖掘等方面的技術,實現財務分析相關流程自動化;文獻[18]提出了針對西班牙語學習中語法搭配錯誤的自動分類方法,給學習者提供語法學習的輔助工具。
在跨語言的文本分析研究方面,西班牙語系學者與中國學者相似,大多都首選了英語文本作為實驗數據,還有一部分學者使用了與西班牙語相似的的語言,如荷蘭語[19]、以及葡萄牙語等。
2.非西班牙語國家的研究及應用
在非西班牙語系國家關于西班牙語文本分析的研究中,大多數可得文獻以英文為主,這類研究學者對西班牙語文本分析的研究也屬于跨語言的文本分析研究,近幾年語料庫的建設及基于其的分析研究逐漸涌現,此外,文本簡化及注釋[20]方面的研究也都有所突破。
在語料庫的建設及分析方面,文獻[21]介紹了在MULTINOT項目中的英語-西班牙語平行語料庫的建設工作。文獻[22]建設了一個標注否定情緒的西班牙語語料庫。
綜上所述,從文獻內容來看,無論是西班牙語系的學者,還是非西班牙語系的學者,比較傾向于跨領域應用方面的研究。
文本分析作為文本挖掘的一個重要步驟,其對海量信息進行高效的管理、挖掘和運用的意義和價值逐漸受到關注并獲得一定的研究進展。總結國內外關于西班牙語文本分析的研究現狀,可見其在西語系國家受到較高的重視,同時在國際上西班牙語文本分析也占有一席之地,但我國在西班牙語文本分析上的研究仍有待加深,未來的研究方向在于:
(1)將已有成果向西班牙語文本分析拓展。后續研究可將現有的研究成果應用于西班牙語語料,對比各類已有算法在西班牙語上的文本分析效果。
(2)將現有研究成果向其他領域的應用發展。后續研究可將現有的成果應用到其他領域,或使用某一領域的專業文本進行實驗檢查分析效果。
(3)對現有算法進行改進。盡管現有算法或相關的工具在西班牙語文本分析的研究方面已經能夠達到較為準確的程度,但是學海無涯,這一研究仍然有繼續提升的空間。