








摘" 要:旨在構建專有日文政治隱喻語料庫,解決目前針對日文政治語篇,成規模、高質量的政治隱喻語料資源匱
乏、識別方式單一的問題。使用日本國會演說作為原始語料,制定一套完整的標注體系,并進一步對語料庫進行統計分析。該語料庫可論證政治隱喻在日文中同樣被普遍使用,且種類多樣。在此基礎上,采用機器學習算法搭建識別模型進行實驗。根據實驗結果,該語料庫可作為日文隱喻研究基礎數據庫,為后續日文政治隱喻的自動識別提供有力支撐。
關鍵詞:政治隱喻;語料庫;日語文本;自動識別
中圖分類號:TP391;G353.1" 文獻標識碼:A" 文章編號:2096-4706(2024)10-0081-06
A Method for Constructing a Japanese Political Metaphor Corpus
ZHU Yi1, LI Weiran1, LIU Zongnan2
(1.Dufl School of Software, Dalian University of Foreign Languages, Dalian" 116044, China;
2.School of Foreign Languages, Shenyang Ligong University, Shenyang" 110158, China)
Abstract: The paper aims to construct a proprietary Japanese political metaphor corpus, addressing the current problems of a lack of large-scale and high-quality political metaphor corpus resources and a single recognition method for Japanese political discourse. It uses speeches by the Japanese Congress as the original corpus, develops a complete labeling system, and further conducts statistical analysis on the corpus. This corpus can demonstrate that political metaphors are also widely used in Japanese and have a variety of types. On this basis, Machine Learning algorithms are used to construct recognition models for experiments. According to the experimental results, this corpus can serve as a basic database for Japanese metaphor research, providing strong support for the automatic recognition of Japanese political metaphor in the future.
Keywords: political metaphor; corpus; Japanese text; automatic recognition
0" 引" 言
隱喻(Metaphor)最早被看作是一種修辭方式,直至萊考夫和約翰遜所著的《我們賴以生存的隱喻》[1]一書問世,正式提出了概念隱喻,隱喻突破了傳統的修辭學框架轉向了認知層面。我們每一個人的生活都充滿著政治,政治家表達權力的基本工具之一正是他們使用的語言。政治話語中同樣充滿了不同類型的隱喻,而且這里使用的隱喻是有據可查的。政治家們往往通過這些類型的隱喻試圖讓群眾接受他們的觀點以達到自己的政治目的、鞏固自己的地位或是滿足某種利益。然而,國外大多數政治隱喻實證研究集中在英文和中文[2],國內的研究也少有其他語種。為彌補日文政治隱喻相關的語料庫資源并不豐富這一缺陷,本文將根據概念隱喻理論及前人研究,制定一套相對規范的標注體系,構建完成針對日文的政治隱喻語料庫。
1" 政治隱喻相關研究
基于語料庫方法的政治隱喻實證研究大多是選取相應語篇構建封閉語料庫后,研究者們先窮盡識別文本中的隱喻表達,然后利用概念隱喻理論及批評隱喻分析手法,結合政治背景或人物特點等,分析語言背后所使用的政治隱喻,捕捉政治人物的話語策略和根本意圖,揭示其中的意識形態。近十年,國外學者運用語料庫方法分析研究概念隱喻占比過半[3]。Cox [4]對2010年奧巴馬的國情咨文進行分析,結合了當時的時代背景、社會情況,揭示了奧巴馬使用這些隱喻的意義以及他對總統角色的看法。Bor?i?等人[5]將2009年和2012年的克羅地亞共和國總統伊沃·約西波維奇在訪談節目上的政治采訪作為語料,分析其中的概念隱喻。研究表明采訪里較多使用擬人隱喻、實體隱喻以及運動隱喻,且在肯定態度的表達中更為常見。Pavlikova [6]討論了2020年特朗普和拜登的選舉演講中所使用的隱喻,語料隨機選擇了兩位10篇演講(各5篇),統計其中隱喻表達的出現頻率。結果顯示在談論經濟、國家和民族的內容上,二位都會使用隱喻,而特朗普比拜登使用的隱喻表達更多。
國內的概念隱喻研究也逐步采用語料庫這種自下而上的研究方式。孫毅等人[7]對英國脫歐話語進行批評隱喻分析,語料選取英國太陽報上的脫歐板塊(Brexit),揭示了英國和歐盟之間對立沖突的關系。武建國等人[8]以美國政府網站上的31篇中美貿易談判語篇為語料,考察美國政府如何操縱話語、通過隱喻指代與中國的貿易關系,塑造中國的負面形象,進而實現貿易保護主義“合法化”。鐘玲俐等人[9]以習近平總書記系列對外演講為語料,歸納和分析其中所包含的“路”隱喻及其國家身份構建功能。此外,近3年國內基于自主學習的語言自動識別研究逐漸增多,如徐琳宏等人[10]基于計算機自主學習算法對語篇引文情感進行自動識別;劉璐等人[11]針對自然語言顯式命題展開自動識別和解析,并建立有效識別模型;以及衛欣玲[12]關于自然語言中歧義字段自動識別系統設計的探討。這些研究對象已不僅僅限于隱喻,可見語言自動識別相關研究范疇呈拓展趨勢。
毛文偉[13]提到,因為日本的法律對于著作權有著嚴格的規定,日本的研究者們在此問題上持謹慎態度。如果獲得或是使用素材的方式在法律上存在問題的話,研究結果就不能公開發表,且語料庫的基礎建設也未受到日本各大學和相關研究機構的重視。早期的語料庫主要是用來研究語言的規律、發展和變化的一個集合,隨著計算機技術與語言學研究的緊密結合,語料庫被重新定義為數字化的、成一定規模的、能被計算機程序處理的語料集合[14]。目前,隱喻識別問題已成為自然語言處理的一項子任務。在大規模語料的背景下,人工識別標注會耗費很多成本,而基于監督學習算法的自動識別研究也需要一個較為規范、標注質量較高的語料庫作為基礎。正是基于上述客觀因素,本文構建專有日文政治隱喻語料庫,并在此語料庫基礎上進行自動識別實驗評估,為此后相關研究提供一定參照。
2" 語料庫的構建
2.1" 設計原則
參照目前既有的語料庫構建分析研究[15,16],如徐琳宏等針對中文引文情感語料庫的建設路徑,提出了構建過程分為數據的采集和預處理、語料標注以及質量監控3個步驟。本文在參考上述既有步驟基礎上,結合日語政治話語語料庫實際語言特征,提出構建日文政治隱喻語料庫的設計流程如圖1所示。
2.2" 語料采集
本文選擇日本網站“首相官邸”,語料選取了2018年至2022年10篇日本國會總理大臣演說,共8.9萬字,具體演說信息如表1所示。首先,從網站檢索欄處輸入每篇演講標題,可直接獲得關聯視頻及語料原文。將語料原文保留為文本文檔txt格式,針對每篇演說,按語句分割。分句后剔除重復句子,將處理好的句子存入Excel文件中,完成語料的預處理,等待標注。
2.3" 標簽設置
本文為句子級別的隱喻標注,即每個句子中是否含有隱喻表達。目前現有的國內外公開隱喻數據集并不特定某個領域,標注內容各不相同;例如按照句法構成特點,隱喻一般分為名詞性隱喻、動詞性隱喻、形容詞性隱喻等類型。本文參照了CCL2018測評中文隱喻檢測任務所使用的評測數據集,共4 394個中文句子,該隱喻數據集標注了動詞性隱喻、名詞性隱喻和負例。此外基于現有的政治隱喻實證研究,學者們對政治話語中的隱喻表達也進行了詳細劃分[17,18]。因此,本文結合這兩部分隱喻標注的特點,設置日文政治隱喻語料庫的標簽。除句子外,共4種標簽(PosTag、Types、Keywords、Label)。各標簽含義具體描述如下:
PosTag:本文聚焦動詞性隱喻和名詞性隱喻,因此僅標注“動詞”“名詞”以及“負例”三類。例如“新しい資本主義を実現していく車の両輪は、成長戦略と分配戦略です”,這里實現新資本主義的兩項戰略就是車子至關重要不可或缺的輪子,該表達屬于名詞性隱喻。“新型コロナで、我が國の経済社會は、大きく傷つきました”,這里對于日本的經濟社會,“新型コロナ”就是敵人,在同敵人的對抗中難免受到傷害“傷つく”,該表達則屬于動詞性隱喻。
Types(Types of political metaphor):參照前人研究,按擬人隱喻、旅程隱喻、戰爭隱喻、建筑隱喻、機械隱喻、自然隱喻、力量隱喻、教育隱喻、經濟隱喻、財富隱喻、容器隱喻、藝術隱喻、旗幟隱喻共13大類對分句后的語料進行標注。在語料庫統計與分析部分中會進一步對以上13類政治隱喻闡釋說明。
Keywords:該標簽主要標注原句中識別出政治隱喻的關鍵詞,例如上述兩個例句中,隱喻關鍵詞為“両輪”和“傷つく”。其中,動詞是日語中最復雜的一類詞,在句子中會有很多不同的形態,標注動詞性隱喻的關鍵詞時需還原成動詞原形。Keywords直接對準句子中政治隱喻表達的關鍵部分,也方便其他研究者更好地理解。
Label:為后續實現日文政治隱喻自動識別等其他下游任務,單獨制定標簽判斷該句是否含有隱喻表達。“含有隱喻表達”的句子標注為0,“不含有隱喻表達”的句子則標注為1。
上述隱喻識別的過程基于概念隱喻理論和批評隱喻分析方式,標注過程中不難發現:很多句子中不止一處隱喻表達,因此在本文所構建的語料庫中除Label標簽外,其他標簽需盡可能地標注出句子中所有的隱喻表達;由于Label只需判斷整個句子是否包含政治隱喻表達即可,仍按0、1標注。
2.4" 質量監控
初回標注工作由一名熟練掌握日語的碩士生、一名日語政治語言學專業博士、一名日語母語留學生共同閱讀、完成標注,后由大連外國語大學日本語學院組成的專家組進行質檢。如果標注的結果一致,直接將對應句存入語料庫;如果不一致,則需送入疑難數據庫,由專家與標注者共同探討,意見一致后重新判定該句,進行修改標注后存入語料庫。圖2選取部分語料進行展示。
3" 語料庫統計分析
3.1" 語料庫總體建設情況
目前日文政治隱喻語料庫共標注句子1 829條,其中按詞性標注包含動詞性隱喻293條、名詞性隱喻465條、既有動詞又有名詞的為203條、負例868條。按Label標簽分為“包含隱喻表達”即0共961條,“不包含隱喻表達”即1共868條,如圖3所示。首先使用日文分詞工具MeCab繪制詞云圖,參數max_words選擇350,效果如圖4所示。圖中文字越大,該詞出現的頻率越高。通過詞云圖,能夠更加直觀快速地把握所選語料的大致內容和語境。
從政治隱喻的分類來看,統計了13類政治隱喻的句子數量如圖5所示。數量由多到少分別是旅程、擬人、戰爭、建筑、機械、教育、自然、力量、藝術、容器、旗幟、經濟和財富。再次強調的是,雖然句子總數為1 829條,但很多句子包含2處或2處以上的隱喻表達,所以政治隱喻類型的句子統計總數并不等于1 829個。
3.2" 政治隱喻類型具體分析
基于標注完成后的語料庫,匯總了13類政治隱喻的關鍵詞并統計詞頻,按照詞頻由高到低順序排列如表2所示。其中,括號里的數字表示關鍵詞出現頻數,沒有括號的為出現一次。
旅程隱喻、擬人隱喻、戰爭隱喻和建筑隱喻是諸多國家領導人常用的政治隱喻表達[19-21],從本文所構建的日文語料庫中,也不難看出這些類型同樣是日本首相十分常用的。數量最多的為旅程隱喻,日本首相熟練運用旅程這一概念域,向大眾展示出對國家未來發展正向、積極的態度。雖然提到了現有的“負擔”如醫療、社會保障、育兒以及沖繩基地負擔,但通過高頻使用“進める”“目指す”“進む”等詞,仍能傳達出日本有充足信心解決目前的問題、減輕這些負擔,國家正朝著更好的方向前進。擬人隱喻的大量使用也是日文政治演講語篇的一大特征,包含了“手”“目”等人體部位隱喻,比如對國際社會伸出“支援の手”以及同國民攜手共創新日本等,體現了日本同其他國家目標一致共同進退、政府和國民共同努力的決心。此外,通過“國家是人”等概念映射也使得人們切身地感受到日本的現狀。例如句子1)中日本的價值只是“沉睡”(眠る)并不是完全消失,通過相關政策會重新恢復日本的觀光旅游業,價值便會再次醒來。
1)日本に眠る価値を再発見し、観光地の受入れ環境整備を一挙に進め、當面の観光需要を回復していくための政策プランを、年內に策定してまいります。
譯文:重新發現沉睡在日本的價值,一舉推進觀光地接收環境的整備,年內制定恢復當前觀光需求的政策計劃。
其次,數量較多的是戰爭隱喻。受全球新冠疫情的影響,日本首相的政治演講中同樣包含這部分內容。例如句子2)中十分鮮明地使用“闘い”“最前線”這兩個具有戰爭對抗意義的名詞,意在表明日本對新冠疫情的態度即首當其沖積極抗疫、重視保護國民生命安全。通過這種沖突性質的語言表達,也更能凸顯出抗疫過后美好生活的來之不易,每位國民感受到了友善互助、溫暖的氛圍,側面促進國民們更加感謝政府、對政府保持積極態度。
2)そして、ウィルスとの闘いの最前線に立ち続ける醫療現場、保健所の皆さん、介護現場の皆さんをはじめ多くの方々の獻身的な御努力のおかげで、今の私たちの暮らしがあります。
譯文:而且,多虧了一直站在與病毒戰斗最前線的醫療現場、保健所、看護現場各位的獻身努力,才有了我們現在的生活。
其他類型的隱喻雖然與上述隱喻比較數量占比不大,但在日本政治話語中的使用具有豐富政治內涵。比如在旗幟隱喻中日本高舉自由貿易大旗,更是直截了當地隱喻自己為“旗手”,凸顯了自身在貿易中發揮著重要作用。在經濟隱喻中使用“清算”一詞,凸顯對象國的負面形象,解決目前朝鮮等一些外交問題;對于人員分配、日本的未來等則使用“投資”一詞,以經濟隱喻暗示投資雖然有風險,但投資者內心更期待更看重后續的收益,這也體現了日本對這些方面的經濟投入或是政策制定是期望看到成效的。
綜上,基于本文所構建的日文政治隱喻語料庫,不難發現在日本政治話語中政治隱喻的使用是十分頻繁的,且隱喻類型多樣。首相在話語中使用隱喻,構建出日本和平友善、互幫互助的國家形象。并且從國民角度看,日本政府同國民們共患難、共同努力解決社會保障民生問題,也將經濟成長的“果実”分給所有國民,通過隱喻操作意在群眾心中樹立一個良好的正面的形象,獲得群眾支持。
4" 實驗評估
為進一步驗證語料庫的識別性能,本文提取語料庫中的句子和label標簽作為實驗數據集,非隱喻表達的數據即label為1共868條,隱喻表達的數據即label為0共961條。按照7:2:1劃分為訓練集、測試集和驗證集,并搭建了三種傳統機器學習模型(支持向量機、樸素貝葉斯、隨機森林)進行隱喻識別。其中,支持向量機的懲罰參數C設置為1,kernel默認為’rbf’;隨機森林參數n_estimators設置為70。
實驗采用Python語言,針對日文文本,使用第三方庫Mecab的parseToNode方法進行分詞以及形態解析。根據日文的語言特點,分詞后保留名詞、形容詞、形容動詞和動詞四種詞性。文本向量化表示方法采用TF-IDF(Term Frequency-Inverse Document Frequency),是一種基于統計的數學方法,算法簡單高效。其中,TF表示某一個給定的詞語在該文檔中出現的頻率,計算過程如式(1)所示;式中ni, j表示該詞在文檔dj中的出現次數,分母則是在文檔dj中所有詞語的出現次數之和。IDF表示一個詞語普遍重要性的度量,計算過程如式(2)所示| D |表示語料庫中文檔總數,分母中|{ j;ti ∈ dj}|表示包含詞語 文件數目,如果該詞語不在語料庫中,會導致這部分為0,因此一般情況下分母使用1+|{ j;ti ∈ dj}|。評價指標為準確率(Precision,P)、召回率(Recall,R)和F1值,其實驗結果如表3所示。
根據實驗結果,基于本文所構建的日文政治隱喻語料庫,識別效果較好的模型為隨機森林,F1值達到80.87%。雖然數據量有限,但可基本完成對語句的政治隱喻識別。未來,可擴大數據量、優化模型算法,并針對日文這一自然語言,優化文本特征提取方法,進一步提升整體識別性能。
5" 結" 論
本文主要介紹了日文政治隱喻語料庫的構建工作,從學界既有研究看,目前針對該方向的研究缺乏成規模、高質量的全文數據語料,為此本研究制定了一套專門的語料標注規范,對日文政治隱喻研究領域的語料庫進行構建。該語料庫具有重要的理論與實踐意義,能夠拓展政治隱喻研究對象的范圍,豐富對日的相關研究;也為相關標注工作提供了可參考的標注規范。
另一方面,考慮到在大規模語料里所有隱喻類型的使用可多達千次甚至萬次,全部由人工識別會消耗大量的成本,因此本文語料庫可用于日文政治隱喻自動識別工作,為此提供一定的數據支持,可節約研究人員對語料庫隱喻識別的時間和精力,為日后該領域的相關研究提供一種新思路。
參考文獻:
[1] Lakoff G,Johnson M. Metaphors We Live By [M].Chicago:the University of Chicago Press,1980.
[2] 侯學昌,孫亞,梁宇航.國外隱喻實驗方法研究綜述(2016—2020) [J].外語學刊,2022(5):15-21.
[3] 于霖林,金勝昔.近十年國外概念隱喻研究方法考論 [J].浙江外國語學院學報,2022(4):39-47.
[4] COX J L.Politics in Motion: Barack Obama’s Use of Movement Metaphors [J].American Communication Journal,2012,14(2):1-13.
[5] BOR?I? N,KANI?AJ I,KR?UL S. Conceptual Metaphor in Political Communication" [J].Zbornik Sveu?ili?ta u Dubrovniku,2016 (3):73-94.
[6] PAVLIKOVA ?. The Concept of Metaphor in Political Speeches (Metaphors in the Electoral Speeches of Donald Trump and Joe Biden in the 2020 Presidential Elections)[C]//Proceedings of the 5th Annual International Scientific Conference.Bratislava:Vydavate?stvo EKONóM,2020:313-321.
[7] 孫毅,熊佳騰.英國脫歐話語的批評隱喻分析 [J].解放軍外國語學院學報,2022,45(2):1-9+137+160.
[8] 武建國,謝思思,李晶.政治話語“合法化”的批評隱喻分析——以美國政府發布的中美貿易談判話語為例 [J].當代外語研究,2022(4):111-122.
[9] 鐘玲俐,劉正光,李思藝.批評隱喻視角下外交話語中的“路”隱喻和國家身份構建——以習近平總書記系列對外演講為例 [J].北京第二外國語學院學報,2022,44(6):114-132.
[10] 徐琳宏,丁堃,林原,等.基于機器學習算法的引文情感自動識別研究——以自然語言處理領域為例 [J].現代情報,2020,40(1):35-40+48.
[11] 劉璐,彭詩雅,玉郴,等.自然語言顯式命題自動識別和解析方法 [J].中文信息學報,2021,35(2):41-51.
[12] 衛欣玲.基于知識庫的自然語言中歧義字段自動識別系統設計 [J].自動化技術與應用,2023,42(1):69-72+151.
[13] 毛文偉.日語語料庫建設的現狀綜述 [J].日語學習與研究,2009(6):42-47.
[14] 黃水清,王東波.國內語料庫研究綜述 [J].信息資源管理學報,2021,11(3):4-17+87.
[15] 張冬瑜,楊亮,鄭樸琪,等.情感隱喻語料庫構建與應用 [J].中國科學:信息科學,2015,45(12):1574-1587.
[16] 徐琳宏,丁堃,陳娜,等.中文文獻引文情感語料庫構建 [J].情報學報,2020,39(1):25-37.
[17] 鳳群.隱喻和政治神話的實現:美國總統演講的批評隱喻分析——從里根到奧巴馬 [J].解放軍外國語學院學報,2013,36(1):18-22+127.
[18] 黃一峰,姚艷玲.日語政治演講語篇批評隱喻分析 [J].日語學習與研究,2021(3):110-119.
[19] 黃秋林,吳本虎.政治隱喻的歷時分析——基于《人民日報》(1978-2007)兩會社論的研究 [J].語言教學與研究,2009(5):91-96.
[20] 陳紅.俄羅斯主流媒體政治話語中政治隱喻的批評隱喻分析(2000-2016) [J].東北亞外語研究,2018,6(3):3-10.
[21] 孫毅,李全.政治隱喻與隱喻政治——基于特朗普總統就職演講的隱喻圖景分析 [J].山東外語教學,2019,40(5):35-47.
作者簡介:朱毅(1979—),男,漢族,遼寧大連人,
副教授,碩士,研究方向:人工智能、大數據;李蔚然(1997—),女,漢族,黑龍江哈爾濱人,碩士研究生在讀,研究方向:多語言信息檢索、政治隱喻;劉棕楠(1983—),男,漢族,遼寧大連人,講師,博士,研究方向:政治語言學。