(福州大學(xué) 福建 福州 350000)
隨著互聯(lián)網(wǎng)和全球信息化的發(fā)展,互聯(lián)網(wǎng)上的信息資源類型和數(shù)量日益豐富,中法兩國之間得的信息共享也日益增多。來自學(xué)術(shù)領(lǐng)域、商業(yè)領(lǐng)域或是政治領(lǐng)域的國際交流也逐漸頻繁,語言的障礙加之文本信息量巨大局限了人們對關(guān)鍵信息的有效獲取,同時影響了跨語言信息價值的充分發(fā)揮。跨語言信息的有效文本主題發(fā)現(xiàn)己成為一種迫切的需求,中法跨語言文本挖掘成為研究熱潮。
(一)國外研究及應(yīng)用
國內(nèi)外對跨語言文本主題分析研究較少,主要集中于信息檢索、情感分析領(lǐng)域、單一語言主題分析和文本分類領(lǐng)域,而對跨語言文本研究的主要處理方法是將跨語言文本進(jìn)行轉(zhuǎn)換,使用標(biāo)準(zhǔn)單語種方法進(jìn)行文本研究,轉(zhuǎn)換主要通過領(lǐng)域適應(yīng)將不同語言分為源領(lǐng)域和目標(biāo)域建立模型。目前在跨語言的文本研究上常用的研究方法主要有三種:基于機(jī)器翻譯的方法、基于統(tǒng)計和詞典的方法以及基于平行語料和深度學(xué)習(xí)的方法。
我國在文本挖掘上的研究主要集中于算法的改進(jìn)、創(chuàng)新,研究領(lǐng)域集中于信息檢索、情感分析、文本分類和主題分析,對文本挖掘工具的研發(fā)成果較少。張琪玉[1]提出了情報檢索語言的效率衡量指標(biāo),為其他學(xué)者對檢索系統(tǒng)的文本檢索提供了啟示。寇鈞鋒[2]對自然語言和受控語言的互補(bǔ)可行性進(jìn)行了分析,并對自然語言進(jìn)行適當(dāng)控制方法提出了探索。李思[3]等針對于傳統(tǒng)單一粒度上情感分析方法準(zhǔn)確率不足的缺點(diǎn),通過結(jié)合詞語級和句子級的篇章情感分析,提出了一種基于不同粒度的中文文本情感分析算法提高了情感分析準(zhǔn)確率。施寒瀟[4]等基于半監(jiān)督學(xué)習(xí)的屬性分類,提出了細(xì)粒度情感分析方法解決了傳統(tǒng)情感分析不夠細(xì)化的不足。我國學(xué)者對文本分類研究集中于文本分類算法質(zhì)量,杜圣東等[5]針對支持向量機(jī)對文本分類準(zhǔn)確度不夠的問題,提出了基于二叉樹基礎(chǔ)的多類SVM改進(jìn)算法,并將通過大量文本分類實踐驗證了其準(zhǔn)確性。張志飛[6]等采用K近鄰方法對自動抓取的網(wǎng)頁面標(biāo)題數(shù)據(jù)進(jìn)行分類,針對短文本的特征稀疏性和上下文依賴性兩個問題,提出一種基于隱含狄列克雷分配模型的短文本分類方法,提高了文本分類的相似度。劉嬌[7]借助利用融合自聯(lián)想記憶的卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)到任意語種語義的高層特征致密組合,輸出分類預(yù)測,提高了分類的精確度,同時降低了對平行語料庫的依賴程度。
綜上所述,我國學(xué)者對于法語文本挖掘的研究較少,在跨語言文本選擇方面集中于中文英語雙語互譯算法研究方面,而缺少對中法跨語言文本挖掘研究。
(二)國外研究及應(yīng)用
盡管我國在跨語言的文本挖掘研究中對法語的研究和討論較少,但法語作為作為國際通用語言之一,在世界文化中仍占據(jù)一席之地。對法語的文本挖掘仍然是重中之重。與國內(nèi)對法語的文本挖掘研究不同,法語系學(xué)者的研究在較早的時候大多集中于算法或模型的提出與改進(jìn),而后則慢慢轉(zhuǎn)向具體應(yīng)用領(lǐng)域的研究。法語系學(xué)者對法語的文本挖掘主要集中于信息檢索、情感分析、機(jī)器翻譯和自然語言處理等具體領(lǐng)域。
法國學(xué)者對信息檢索的研究集中于方法創(chuàng)新以及工具研發(fā)。在方法創(chuàng)新方面,Hatem Haddadi[8]提出了基于短語而非基于單詞的文本挖掘方法,通過分析短語間的關(guān)聯(lián)關(guān)系構(gòu)建了法語信息檢索系統(tǒng),通過對法語國家語料庫進(jìn)行測試表明在低召回率的情況下,將名詞短語索引與關(guān)聯(lián)關(guān)系相結(jié)合可以提高信息檢索系統(tǒng)的性能。Alberto等[9]基于Lexicon-Grammar理論分析框架,結(jié)合壓縮術(shù)語電子詞典,建立了法語解析規(guī)則的變體句法和統(tǒng)計集,提高了對大型文本語料庫的檢索效率,同時也對基于跨語言的可移植性和web平臺的跨語言構(gòu)建支持可行性做出了初步探索。Abdaoui等[10]在簡化了英語NRC情感詞典的基礎(chǔ)上,對法語詞匯進(jìn)行了詳細(xì)的情感系數(shù)分配,擴(kuò)展了法語情感詞典,豐富了法語情感層次。Erik Boiy等[11]主要研究網(wǎng)絡(luò)文本情感分析,通過收集法語博客內(nèi)容并進(jìn)行句子級情感注釋結(jié)合機(jī)器情感訓(xùn)練,對博客主的產(chǎn)品消費(fèi)興趣進(jìn)行了分析,與基于unigram的分類算法相比提高了情感分類的準(zhǔn)確度,并為跨語言模型的可移植性提供了理論基礎(chǔ)。Mathieu等[12]基于雙語詞典進(jìn)行文本聚類,實驗以無人監(jiān)督的方式從多語言文檔集合中提取主題相關(guān)的多語言文檔集群,通過相關(guān)函數(shù)識別文檔并用最近鄰聚類算法進(jìn)行聚類。Kazuaki[13]針對跨語言信息檢索中基于字典查詢翻譯通常會產(chǎn)生具有不同含義的候選問題,提出了基于目標(biāo)文檔集合來解決翻譯歧義的方法,通過在集合中使用術(shù)語共現(xiàn)統(tǒng)計及偽相關(guān)反饋技術(shù),測試了法語的信息檢索,研究表明Dice系數(shù)略微優(yōu)于余弦系數(shù)。Hanneman等[14]基于卡內(nèi)基梅隆大學(xué)MT系統(tǒng)中法英轉(zhuǎn)換系統(tǒng)的原理,提出了基于語法的改進(jìn)策略,該方法包含了對句法的分析以及非對稱句子結(jié)構(gòu)的轉(zhuǎn)換,提高了MT系統(tǒng)法英文本可讀性。Cheng等[15]針對智能翻譯中單向翻譯可能過度捕捉已設(shè)定的規(guī)則問題,提出了基于協(xié)議的雙向互通理論,通過對單詞對齊矩陣的調(diào)節(jié)用于提高雙向互通的端到端神經(jīng)機(jī)器翻譯準(zhǔn)確度,最后用于漢英和英法的翻譯測試中得出了顯著的翻譯效果。
由此可見,法語學(xué)者對文本挖掘有較為深入的研究,且就研究領(lǐng)域來看傾向于信息檢索與情感分析,且更多研究于算法開發(fā),對跨語言文本聚類領(lǐng)域的研究較少。
本文梳理了已有的中法跨語言文本挖掘方法,可以方便人們高效的管理和檢索跨語言文檔,把握信息潮流。此外本文還可以與問答系統(tǒng)、網(wǎng)絡(luò)信息安全、情報獲取等多個領(lǐng)域的技術(shù)相結(jié)合,為人工智能應(yīng)答、海量文本情報獲取提供更加快捷的方法。在將來所需要做的工作就是:如何將現(xiàn)存的數(shù)據(jù)挖掘技術(shù)應(yīng)用與文本挖掘領(lǐng)域很好地融合,那樣中法跨語言本文挖掘就能夠更有效地進(jìn)行。