王惟晉
[內容提要] 文本是國際關系研究必不可少的資料形式。為了更方便地管理和分析文本,西方國際關系學界越來越多地將文本內容轉化為數據并整合成庫。信息技術的發展使機器逐步代替研究者進行文本數據的搜集、編碼和分析,對基于文本開展的國際關系研究貢獻良多。然而,數據本質上是意義單一的符號,數據化的過程會排除話語的背景信息和深刻內涵,若研究者以不適當的方式處理數據化文本資料,則研究結論的可靠性就會大打折扣。對此,國際關系研究者應加強發展后實證主義方法,確保研究的內在邏輯性,重視通過人際交流檢驗結論,以克服數據化文本資料的局限性。
國際關系研究者常常借助媒體報道、歷史檔案、政府報告、學術文獻等文字材料觀察和研究國家間的現象和行為。但是,研究者搜集的原始文本資料內容通常龐雜無序,這讓研究者很難找到問題中的關鍵因子,*蔣建忠:“模糊集合、質性比較與國關研究”,《國際政治科學》,2016年第2期,第148頁。無法進行有效的分析操作。對此,許多國際關系研究者將搜集到的文本資料進行數據化處理,建立了大量數據庫,實時記錄和分析國際事件等。由于存在重視實證主義與定量研究方法的學術傳統,美國學界在國際關系研究文本的數據化方面可謂世界的領導者,擁有世界上大部分的著名數據庫;單就公眾輿論數據庫而言,美國校際政治及社會研究聯盟(Inter-University Consortium for Political and Social Research)在2011年前后便已收錄1889個,當中包含500多萬組變量,規模遠超其他國家。*ICPSR, “Find & Analyze Data”, https://www.icpsr.umich.edu/icpsrweb/ICPSR/(上網時間:2018年3月2日);郭銳、王蕭軻:“國際關系定量研究與數據庫建設——評《中外關系鑒覽1950-2005——中國與大國關系定量衡量》”,《世界經濟與政治》,2011年第7期,第133頁;劉豐、陳沖:“國際關系研究的定量數據庫及其應用”,《世界經濟與政治》,2011年第5期,第38~39頁。美國還是先行者,最早在國際關系研究領域開展和應用文本資料數據化,還及時將大數據技術引入至數據庫建設中,現已建立了相對成熟的國際關系大數據分析系統。歐洲的學術傳統則更注重抽象思辨,更多學者以詮釋學的路徑開展研究,因此對數據化的文本資料采取了更謹慎的態度,所建此類數據庫數量上比美國少,*比如,在國際關系數據庫建設相對發達的北歐,著名的“斯德哥爾摩和平研究所數據庫”(SIPRI Database)、“烏普薩拉沖突數據項目”(Uppsala Conflict Data Program)和奧斯陸和平研究所的“武裝沖突數據”(Armed Conflict Dataset)提供的是戰爭傷亡、軍費開支、武器交易等客觀數據,還沒有提供從話語文本轉化而來的數據。但也取得了不少成果,近年亦有學術團隊正以大數據技術建設國際關系數據庫。許多中國國際關系學者認為,這是大勢所趨并將在技術層面引起分析手段和決策模式的革命。*蔡翠紅:“國際關系中的大數據變革及其挑戰”,《世界經濟與政治》,2014年第5期,第124~143頁;董青嶺:“大數據外交:一場即將到來的外交革命?”《歐洲研究》,2015年第2期,第130~144頁;董青嶺:“反思國際關系研究中的大數據應用”,《探索與爭鳴》,2016年第7期, 第92頁。然而,在信息科學領域,學者們一致認為,文本數據即便質量再好,歸根到底也無法表達話語中的隱晦含義。*Jennifer Rowley, “The Wisdom Hierarchy: Representations of the DIKW Hierarchy”, Journal of Information Science, Vol.33, No.2, 2007, p.167.這種含義能體現國際行為體的價值觀、規范和身份認同,因此,經過數據化處理的文本資料可對國際關系研究產生潛在影響。換言之,文本信息數據化對于國際關系研究的影響不但在于數據分析技術層面,還可源自文本內容本質。但是,目前,從數據本質的角度對文本信息數據化的影響進行的思考尚有不足,這導致學界對于國際關系研究數據化的認識還有很大空間。本文擬對此做出進一步探討,以期更好地認識數據的本質和文本資料數據化對國際關系研究的影響,進而使國際關系的文本數據處理能夠更好地服務于學術研究與國家決策。
數據是人類觀察自然和社會后用于表達事物、時間、地點等信息的標記或符號,其內容意義被抽離于具體的歷史社會環境。*Russell Ackoff, “From Data to Wisdom”, Journal of Applied Systems Analysis, Vol.16, No.1, 1989, pp.3-9; Anthony Liew, “DIKIW: Data, Information, Knowledge, Intelligence, Wisdom and Their Interrelationship”, Business Management Dynamics, Vol.2, No.10, 2013, pp.49-50; Jennifer Rowley, “The Wisdom Hierarchy: Representations of the DIKW Hierarchy”, Journal of Information Science, Vol.33, No.2. 2007, p.170; Anthony Liew, “DIKIW: Data, Information, Knowledge, Intelligence, Wisdom and Their Interrelationships”, Business Management Dynamics, Vol.2, No.10, 2013, pp.49-62.數據化是將研究材料編碼整理成為可用于操作分析的符號之過程,也是人們將自己無形的主觀理解轉化為有形的客觀事實之過程。研究者分析數據的目的是創造信息、知識和智慧。*Russell Ackoff, “From Data to Wisdom”, Journal of Applied Systems Analysis, Vol.16, No.1, 1989, pp.3-9; Chun Wei Choo,“The Knowing Organization: How Organizations Use Information to Construct Meaning, Create Knowledge and Make Decisions”, International Journal of Information Management, Vol.16, No.5, 1996, pp.329-340; Jennifer Rowley, “The Wisdom Hierarchy: Representations of the DIKW Hierarchy”, Journal of Information Science, Vol.33, No.2, 2007, p.166; Anthony Liew, “DIKIW: Data, Information, Knowledge, Intelligence, Wisdom and Their Interrelationship”, Business Management Dynamics, Vol.2, No.10, 2013, pp.49-50.
為了更好地分析國際社會的現象和行為,西方國際關系研究者很早便搜集和編碼新聞報道、歷史檔案、政府文件等文本資料,將文本內容轉化成數據并整合成庫。自20世紀60年代至今,國際關系文本資料數據庫的建設從開始興起到加速發展,*Edward Laurance, “Event Data and Policy Analysis: Improving the Potential for Applying Academic Research to Foreign and Defense Policy Problems”, Policy Sciences, Vol.23, No.2, 1990, p.113.呈現出三個突出特點。
第一個特點是自動化數據挖掘。在20世紀90年代前,文本資料的收集和編碼均由人工處理。比如在美國,查爾斯·麥克蘭德(Charles McClelland)于1966年創立“世界事件互動調查數據庫”(World Event Interaction Survey)時,其研究團隊成員自行搜集《紐約時報》的報道,閱讀報道內容,用紙、筆將相關內容轉化成各種變量,再將變量整合為數據集、組合成庫。*Charles McClelland, World Event/Interaction Survey, 1966-1978, Ann Arbor: Inter-University Consortium for Political and Social Research, 1999, pp.2-3; Edward Laurance, “Event Data and Policy Analysis: Improving the Potential for Applying Academic Research to Foreign and Defense Policy Problems”, Policy Sciences, Vol.23, No.2, 1990, p.113.類似的著名數據庫還有大衛·辛格(David Singer)于1963年建立的“戰爭相關指數數據庫”(the Behavioral Correlates of War);愛德華·阿扎爾(Edward Azar)主持的“沖突與和平數據庫”(The Conflict and Peace Data Bank)項目。*Edward Azar, “The Conflict and Peace Data Bank (COPDAB) Project”, Journal of Conflict Resolution, Vol.24, No.1, 1980, pp.146-150.在歐洲,歐共體于1974年建立“歐洲晴雨表”(Eurobarometer),將研究者通過訪談民眾得來的文本資料轉化成為量化數據,以便監測與研究輿情的變化。*European Commission, “Public Opinion”, http://ec.europa.eu/commfrontoffice/publicopinion/index.cfm/General/index.(上網時間:2018年3月2日)。由于收集與編碼文本均依賴人力,這些數據庫建設效率相對低下,比如“戰爭相關指數數據庫”中的數據集經歷數年才更新一次,*劉豐、陳沖:“國際關系研究的定量數據庫及其應用”,《世界經濟與政治》,2011年第5期,第23頁。這讓數據庫無法緊貼時勢發展,影響學術價值。*Edward Laurance, “Event Data and Policy Analysis: Improving the Potential for Applying Academic Research to Foreign and Defense Policy Problems”, Policy Sciences, Vol.23, No.2, 1990, p.119; Gary King and Will Lowe, “An Automatic Extraction Tool for International Conflict Data with Performance as Good as Human Coders: A Rare Events Design”, International Organization, Vol.53, No.3, 2003, pp.617-642.20世紀90年代起,西方國際關系學者編寫程序對文本資料進行編碼,*Min Chen, Shiwen Mao and Yunhao Liu, “Big Data: A Survey”, Mobile Networks and Applications, Vol.19, No.2, 2014, pp.171-209.建庫效率大幅提升。在這個時期,此類有影響力的數據庫集中在美國。典型的例子有德博拉·格爾納(Deborah Gerner)主持開發的”堪薩斯事件數據系統”(Kansas Events Data System),*Deborah Gerner, Philip Schrodt, Ronald Francisco and Judith Weddle, “Machine Coding of Event Data Using Regional and International Sources”, International Studies Quarterly, Vol.38, No.1, 1994, pp.91-119; Philip Schrodt, “Event Data in Foreign Policy Analysis”, in Laura Neack, Patrick Haney and Jeanne Hey, eds., Foreign Policy Analysis: Continuity and Change in Its Second Generation, New York: Prentice Hall, 1993, pp.145-165.加里·京格(Gary King)與威爾·洛維(Will Lowe)構建的“事件分析綜合數據”(the Integrated Data for Events Analysis),*Gary King and Will Lowe, “An Automatic Extraction Tool for International Conflict Data with Performance as Good as Human Coders: A Rare Events Design”, International Organization, Vol.53, No.3, 2003, pp.617-642.約翰·戴維斯(John Davies)開發的“全球事件數據系統”(The Global Event-Data System),*John Davies and Chad McDaniel, “A New Generation of International Event-data,” International Interactions, Vol.20, No.1-2, 1994, pp.55-78.肖恩·奧布萊恩(Sean O’Brien)開發的“整合性沖突早期預警系統”(the Integrated Conflict Early Warning System)等等。*Sean O’Brien, “Crisis Early Waning and Decision Support: Contemporary Approaches and Thoughts on Future Research,” International Studies Review, Vol.12, No.1, 2010, p.94.但是,這些數據庫只在文本編碼層面實現了自動化,研究者仍須自行搜集文本資料、錄入程序中加以編碼,*Gary King and Will Lowe, “ An Automatic Extraction Tool for International Conflict Data with Performance as Good as Human Coders: A Rare Events Design,” International Organization, Vol.53, No.3, 2003, pp.618-619; Sean O’Brien, “Crisis Early Waning and Decision Support: Contemporary Approaches and Thoughts on Future Research,” International Studies Review, Vol.12, No.1, 2010, pp.90-91; Rebecca Best, Christine Carpino and Mark Crescenzi, “An Analysis of the TABARI Coding System”, Conflict Management and Peace Science, Vol.30, No.4, 2013, p.336.依然難以做到根據形勢實時更新數據,令數據庫的學術價值同樣受限。
2010年后,大數據技術深刻地影響國際關系文本資料的數據化進程。此時計算機已能代替研究者自行收集文本,以每天甚至每小時的頻率對文本編碼并更新數據庫。在美國國際關系學界,卡里夫·利塔魯(Kalev Leetaru)與菲利普·施羅德(Philip Schrodt)于2013年建立的“全球事件話語數據庫”(the Global Database of Event Language and Tone)正以每日更新約70億字節的速度自動記錄1979年1月1日迄今全球媒體報道國內和國際層面發生的事件。*The GDELT Project, “Google Big Query”, https://www.gdeltproject.org.(上網時間:2018年2月15日).基于Python語言構建的“鳳凰實時事件數據集”(Pheonix Near-Real-Time Event Dataset)則能每小時自動從400多個網站上搜集文本資料并對其編碼。*John Beieler, ”Creating a Real-Time, Reproducible Event Dataset”, p.27, https://arxiv.org/pdf/1612.00866. (上網時間:2018年2月20日).在歐洲,荷蘭萊頓大學的“和平情報實驗室”(Peace Informatics Lab)下屬“未來基地”(Future Base)計劃開發新的軟件自動搜集、整合和分析全球的文本資料數據,以幫助國家安全部門制定最佳的防務政策。*Peace Informatics Lab, “FutureBase”, http://www.peaceinformaticslab.org/data-pool.html. (上網日期:2018年1月20日).由于文本收集和編碼均實現自動化,新的國際關系文本數據庫大幅提升了數據生產效率,使數據庫建設可緊貼國際形勢的變化。
第二個特點是大數據體量動態增長。1990年前,國際關系文本資料數據庫體量主要以百萬字節(MB)為單位。20世紀60年代建立的“世界事件互動調查數據庫”數據集的大小只有30多MB。*ICPSR,“World Event/Interaction Survey (WEIS) Project, 1966-1978 (ICPSR 5211)”, https://www.icpsr.umich.edu/icpsrweb/ICPSR/studies/5211.(上網時間:2018年2月15日).“沖突與和平數據庫”項目在20世紀60年代中期至1978年的數據體量也是30多MB。*Edward Azar, “The Conflict and Peace Data Bank (COPDAB) Project”, Journal of Conflict Resolution, Vol.24, No.1, 1980, p.150.同時期建立的“戰爭相關指數項目數據庫”記錄1816~1979年戰爭變量的單個數據總量不過2MB。*ICPSR,“Behavioral Correlates of War, 1816-1979 (ICPSR 8606)”, https://www.icpsr.umich.edu/icpsrweb/ICPSR/studies/8606#.(上網時間:2018年2月15日).這些數據庫的體量增長依靠研究者手工勞動補充數據集,受制于經費或人事變動等現實因素,數據增長進程容易遭遇干擾或中斷而缺乏持續性,所以研究者無法以接近實時的方式更新數據,數據庫的體量增長往往有限而且容易窮盡。
20世紀90年代國際關系文本資料編碼實現自動化后,數據庫的體量依然不大。由于研究的文本資料來源主要依賴《紐約時報》、路透社等權威媒體,*Patrick Brandt, John Freeman and Philip Schrodt, “Real Time, Time Series Forecasting of Inter- and Intra-State Political Conflict”, Conflict Management and Peace Science, Vol.28, No.2, 2011, p.47.當時數據庫體量增加幅度有限。菲利普·施羅德通過“堪薩斯事件數據系統”構建的一個數據集體量只有幾百KB(千字節)左右。*John Reuters, “A New Generation of International Event-Data”, International Interactions, Vol.20, No.1-2, p.55.“整合性沖突早期預警系統”一年更新的數據量約為200MB。*Harvard University, “Dataverse”, https://dataverse.harvard.edu/file.xhtml?fileId=3107463&version=RELEASED&version=.0. (上網時間:2018年2月18日).
大數據技術應用后,國際關系數據庫的文本來源不再局限于權威媒體,而是借助現代信息技術有了大幅拓寬,人們在社交網絡上發布的內容亦可成為分析對象。*Kenneth Cukier and Viktor Mayer-Sch?nberger, “The Rise of Big Data: How It’s Changing the Way We Think About the World”, Foreign Affairs, Vol.92, 2013, p.21; Amir Gandomi and Murtaza Haider, “Beyond the Hype: Big Data Concepts, Methods, and Analytics”, International Journal of Information Management, Vol.35, No.2, 2015, pp.137.加上云儲存技術的不斷發展為大體量數據的管理和分享創造了空間,2010年后,國際關系文本資料的數據庫體量呈現指數級別增長,從過往的千字節級別發展至萬億字節(TB)甚至千萬億字節(PB)級別。由于實現了機器自動收集和編碼文本,數據庫體量可自動增加,若研究者能妥善經營,數據庫的體量并不會窮盡。在美國,“鳳凰實時事件數據集”平均每天能自動記錄全球約3000項事件。*John Beieler, “Creating a Real-Time, Reproducible Event Dataset”, p.27, https://arxiv.org/pdf/1612.00866. (上網時間:2018年2月20日).而“全球事件話語數據庫”一年的數據體量便超過2.5TB,其間記錄超過7500億條人們對國際事件的態度和15億條國際事件發生的位置數據。*The GDELT Project, “Intro”, https://www.gdeltproject.org. (上網時間:2018年2月15日).在歐洲,國際關系學界應用大數據不如美國早和快,但也在不斷進展。比如“和平情報實驗室”項目計劃在2018~2023年間建成大數據平臺的數據體量也能自動實現增長,及時為公共及私營部門提供決策建議依據。*Peace Informatics Lab, “Data Pool”, http://www.peaceinformaticslab.org/data-pool.html. (上網日期:2018年1月20日).
第三個特點是機器代替人成為數據分析的主體。過去的電腦只擅長處理重復、規律的計算工作,并沒有解讀數據意義的能力,即便20世紀90年后機器代替研究者對文本進行編碼,計算機仍無法取代研究者進行數據分析,只能作為研究者的分析工具。在大數據技術和理念進入國際關系研究領域后,數據分析須實時進行,而人單憑自身有限的時間和精力難以適應。隨著人工智能技術特別是自然語言處理技術的發展,機器具備了從持續的數據歸納總結中學習的能力,這使計算機分析技術不再局限于從數學模型和公式中推導出結果,電腦對于文字的處理不再拘泥于句法和語義規則的理性分析,而是更多通過機器學習的方法,逐漸提升解讀文本中意義的能力。*馮志偉:“自然語言處理的歷史和現狀”,《中國外語》,2008年第1期,第21~22頁。
由于有了結合環境解讀文本意義的能力,計算機能從無結構的文本內容中辨別說話者的行為模式,當下的機器由此具備了一定的沖突預測能力。*董青嶺:“機器學習與沖突預測——國際關系研究的一個跨學科視角”,《世界經濟與政治》,2017年第7期,第100-105頁。現今許多國際關系數據庫不但可提供數據挖掘服務,還可幫助研究者進行數據分析。在美國,基于“堪薩斯事件數據系統”發展而成“帕盧斯分析系統”(Parus Analytical System)能自動分析和預測國際沖突。由于機器分析能節省大量人力物力,開發者彼得·施羅德憑一己之力便可成立一家公司,為全球客戶提供咨詢服務。*Parus Analytics, “About Us”, http://parusanalytics.com/about.html.(上網時間:2018年1月27日).IMB公司依據自然語言處理技術開發了Watson系統,該系統能通過不斷與人交流逐漸理解文本話語的意義,也具備分析國際問題的能力。*IBM,“Watson Discovery Visual Insights”, https://visual-insights.bluemix.net.(上網時間:2018年1月27日).在歐洲,塞浦路斯大學的安得利斯·安德魯(Andreas Andreou)和希臘銀行研究部的喬治·祖巴納基斯(George Zombanakis)也宣稱使用機器學習技術成功預測了希臘與土耳其的軍備競賽態勢。*董青嶺:“機器學習與沖突預測——國際關系研究的一個跨學科視角”,《世界經濟與政治》,2017年第7期,第110頁。簡而言之,此時計算機從過往被人操作的分析工具逐漸轉變為研究分析文本的主體,有能力實時監測國際關系形勢,為決策者提供行動建議。
綜上所述,數據化趨勢為國際關系的文本研究提供了越來越大的便利,日益深刻地影響到國際關系研究的形式和內容,發揮了不可替代的重要作用。
文本研究數據化為分析、研究活動帶來了空前的便利和效率,促進了國際關系研究在形式和內容上的革新,具有重大的歷史性貢獻。
第一,數據化可提升國際關系文本研究的靈活性。原始文本資料的內容不如數字般有大小之分,許多文字、詞組表達常是多義的,內涵容易混淆,內容結構不明顯。這使研究者在大容量的閱讀后即便思維再敏銳也難以準確區分不同內容間的主次關系,無法提取關鍵變量或概念進行分析處理,只能依賴主觀判斷進行詮釋。
對此,研究者可通過數據化將復雜的話語內容轉化成表達精煉的文字或數字標簽,由于這些標簽通常是單義的,能最大限度避免歧義,由此可以更確切無誤地將各類內容信息分類整理,避免混淆,讓不同內容之間的結構變得清晰,明確文本描述的事物之間相互關系。*若文本內容被編碼為精煉的文字標簽,研究者則可通過計算不同標簽出現的次數衡量不同內容的重要性差異。基于此,研究者能更容易地從文本資料中辨認并提煉分析所需的變量或概念,繼而可用更多分析工具和設計技巧研究文本資料,提升國際關系文本研究模式的多樣性。比如克里斯蒂安·格萊迪許(Kristian Gleditsch)和邁克爾·沃德(Michael Ward)在“戰爭相關指數數據庫”的基礎上將國家間的政治親密度轉換成連續型變量并建立數據庫,其他研究者便可更輕松地應用各類統計學模型對媒體報道內容進行計量分析,大幅提升了文本內容的可操作性。*Kristian Gleditsch, “Measuring Space: A Minimum-Distance Database and Applications to International Studies”, Journal of Peach Research, Vol.38, No.6, 2001, pp.749-758.查理·卡彭特(Charli Carpenter)收集訪談資料后,用質性編碼的手段將因戰時性暴力而出生的兒童面臨的困境精煉成意義單一的文字標簽,而后根據不同標簽在文本資料出現的次數判斷這些兒童面臨的主要危機,以客觀的方式驗證這些兒童得不到國際倡議組織關注的原因,讓基于文本操作的國際關系研究實現理論檢驗的功能。*Charli Carpenter, “Studying Issue (non)-Adoption in Transnational Advocacy Networks”, International Organization, Vol.61, No.3, 2007, pp.643-667.隨著大數據技術的不斷發展,更多能夠探尋事物相關關系(correlation)的方法也將引入國際關系文本研究中。*Andrej Zwitter, “Big Data and International Relations”, Ethics & International Affairs, Vol.29, No.4, 2015, p.382.由此說來,文本資料數據化后,國際關系研究者可應用更多社會科學方法與技巧加以分析,能提升文本研究操作的靈活性和文本資料的學術價值。鑒于國際關系比一般的社會關系更加抽象且復雜多變,更多樣、靈活的文本研究設計方案能幫助研究者厘清國際形勢的發展脈絡,進而從錯綜復雜的表象中正確剖析事件的內在聯系。
第二,數據化可增強國際關系文本研究的科學性。廣義上的科學應是嚴謹、系統的知識體系,應建立在前人的基礎上,為后續的研究提供重復、檢驗、證偽的可能。然而,原始文本資料的字里行間常帶有深刻、隱晦的含義,這些含義需要研究者主觀解讀和詮釋,但這種分析過程常依賴直覺,透明度低,分析結果不夠精確,以致文本研究具有較大的隨意性且流程無法重復,結論難以檢驗而在可靠性方面受到削弱或質疑。
無論文本被編碼成量化數據還是質性數據,數據化都是將文本資料中最確鑿無疑的核心內容提取為分析對象,使之變得相對客觀和穩定。鑒于研究者須根據研究對象的特質選擇方法和技巧設計分析流程,分析數據的手段須客觀、標準,一些更縝密的實證主義方法便可應用于文本研究中,進而得出更精確的分析結果。即便是純粹的質性研究,研究者也可應用相對客觀的理論框架或模型分析數據化文本內容,這方便研究者公開分析流程細節,其他研究者能更輕易地重復開展其研究,國際關系文本研究的結論可因此變得更可靠。比如尼古拉·史密斯(Nicola Smith)和科林·黑爾(Colin Hay)在開展英國與愛爾蘭關于全球化、歐洲一體化的政治觀念對比研究時,將兩國政治家的講話文本錄入Nvivo軟件中進行質性編碼并將文本內容濃縮整合為六項主題,而后根據主題設計調查問卷、詢問兩國議員對于主題內容的認可程度,再用數字數據對比兩國對于全球化與歐洲一體化的態度差異。在該項研究中,文本中數據化的政治態度變得具體,因此研究者可明確問卷問題和選項,提升分析流程透明度,得出相對精確的結論,為研究結論留下了被檢驗的可能性。*Nicola Smith and Colin Hay, “Mapping the Political Discourse of Globalisation and European Integration in the United Kingdom and Ireland Empirically”, European Journal of Political Research, Vol.47, No.3, 2008, pp.359-382.
這種處理可讓前人的成果為后續的研究打下基礎,后人也更容易站在前人的肩膀上進一步攀登學術高峰,令國際關系學科內的知識能不斷加以檢驗和完善,進而更連貫地發展,日益增加“科學”特質。*Carl Popper, The Logic of Scientific Discovery, London: Routledge, 1992, pp.57-73.再者,由于基于數據得到的分析結論相對精確,研究者由此發現的社會規律更加可靠,更具應用價值,進而為決策者提供更切實可行的建議,讓扎根于文本的國際關系研究具有更真實的科學價值和實踐意義,推動國際關系學科發展,使其向真正的科學研究靠攏,創造更多社會價值。
第三,數據化可突破小樣本研究的局限。原始文本資料中的無關內容會占據大量儲存空間,增加了管理與分享資料的難度,還降低研究者的閱讀效率。因此,國際關系研究者基于文本使用質性方法(如內容分析法、案例分析法等)開展研究時常無法有效提升樣本量,不能確保抽樣方法充分合理,從而容易取巧地選擇對論證有利的案例進行分析,令研究出現選擇性偏差。國際關系行為體的話語經過數據化處理后,無關內容被剔除,文本資料的儲存容量大大降低,比如“全球事件話語數據庫”僅以10MB左右的儲存空間便可記錄世界范圍內一天發生的超過20萬項事件。*The GDELT Project, “Master CSV Data File List”, http://data.gdeltproject.org/events/index.html.(上網日期:2018年1月20日)由于信息儲存效率大大提高,研究者可大量收集和整理文本資料,加上通訊技術高速發展,數據傳播的速度日與俱增,當下的國際關系研究者可以輕易地分享到大量經數據化處理后的文本資料。比如,哈佛大學建立的數據分享平臺(Harvard Dataverse)收錄了超過25000種數據庫供國際關系研究者使用。*Harvard University, “Harvard Dataverse”, https://dataverse.harvard.edu. (上網日期:2018年1月20日)密歇根大學校際政治與社會研究聯合會的網站提供了超過25萬份社會與行為科學領域的數據文件,亦可作為國際關系研究的重要數據來源。*ICPSR,“About ICPSR”, https://www.icpsr.umich.edu/icpsrweb/content/about/. (上網日期:2018年1月20日)
另外,數據化使用計算機程序定位或篩選話語內容,可為研究者大幅提升閱讀資料的速度,在單位時間內、以同樣的精力能認識和理解比過去更多的話語文本案例,進而提升研究的樣本量。即便是全程依賴研究者自行記錄、整理、閱讀話語資料并編碼數據的國際關系文本研究,樣本量也能增至數百甚至上千,遑論量化研究者使用當今普通的家用電腦便可瞬間處理數十億字節的文本數據。更大的樣本量能使文本中的離群值或特殊案例變得不顯著,在應用大數據技術后,國際關系文本研究更有可能實現全樣本分析,避免數據抽樣帶來的弊端。*Andrej Zwitter, “Big Data and International Relations”, Ethics & International Affairs, Vol.29, No.4, 2015, p.382.概要地說,在確保數據質量的情況下,研究者使用數據化文本資料可克服小樣本分析的局限,在研究操作中極大地降低選擇性偏差的概率。*Marie Gillespie, “Security, Media, Legitimacy: Multi-ethnic Media Publics and the Iraq War 2003”, International Relations, Vol.20, No.4, pp.467-469; Erin Denton, “International News Coverage of Human Trafficking Arrests and Prosecutions: A Content Analysis”, Women & Criminal Justice, 2010, pp.13-15.基于此,國際關系研究者分析數據化的文本資料能讓研究在統計意義上能得出更全面的結論,進而能更好地監測和預判國際事件的緣起和發展,為國家提供風險更低更準確的政策建議。
受限于自然語言處理技術的水平,加上數據化會剔除文本意義和背景信息,文本資料的數據化在短期內對國際關系研究難免存在消極影響。第一,不利于思想意識領域的研究。國際行為體以話語進行交流,其行為不是單純地逐利,*Nicholas Onuf, Making Sense, Making Worlds: Constructivism in Social Theory and International Relations, New York: Routledge, 2013, pp.3-4.它們往往都具有深刻的含義,能表現行為體的規范、價值觀和身份認同,這些均是重要的國際關系研究對象。研究者須結合具體的歷史文化背景深入理解這些行為規范、價值觀和身份認同,用翔實的語言對其詮釋,才能充分解釋國際行為體之間的現象和行為。然而,數據是意義單一、表述精練的符號,無法描述深刻隱晦的含義和豐富的背景信息,研究者單憑數據無法深入詮釋每個案例下國際行為體的規范、價值觀和身份認同。再者,當下的人工智能技術亦未能完全準確地詮釋話語中復雜、隱晦的含義。對于數據化的文本,研究者只能轉而采納實證主義的認識論和方法論進行分析。因為實證主義的認識論不要求研究者對話語和行為中的深刻含義進行詮釋,而是讓研究者在分析過程中保持價值中立,強調引入自然科學的方法分析社會科學問題。因此,數據化的趨勢讓量化方法成為學者學習和引進的重點。*劉豐、陳沖:“國際關系研究的定量數據庫及其應用”,《世界經濟與政治》,2011年第5期,第19頁;龐珣:“國際關系研究的定量方法:定義、規則與操作”,《世界經濟與政治》,2014年第1期,第5頁。比較之下,基于主觀詮釋進行操作的質性研究方法在國內外均得不到重視,*蔣建忠:“國際關系研究中的質性研究”,《國際關系研究》,2016年第4期,第3頁。也讓規范、價值觀和身份認同時常成為國際關系科學研究的規避對象,*高尚濤:“試析國際關系研究的實證問題”,《世界經濟與政治》,2006年第11期,第37頁。令話語意義中這些無法量化的研究對象得不到足夠的關注,而規范、價值觀和身份認同往往是國際現象或行為的重要動因,缺乏這方面的研究不利于國際關系科學的整體發展。
第二,可能讓研究產生內在邏輯矛盾。系統、嚴謹的研究應講究存在論和認識論的邏輯連貫。*Linda Smircich, “The Case for Qualitative Research”, Academy of Management Review, Vol.5, No.4, 1980, pp.491-492; Mark Thompson, “Ontological Shift or Ontological Drift? Reality Claims, Epistemological Framework, and Theory Generation in Organization Studies”, Academy of Management Review, Vol.36, No.4, 2011, p.755.換言之,研究者不可以客觀標準計算、衡量沒有物質形態的思維觀念,亦不能通過話語感受和詮釋并無深刻含義的客觀事物,否則在研究前提上便已產生內在矛盾。文本記錄的是國際關系行為體之間的狀態、話語或行為。國家和國際組織本身并不純粹由物質構成,*Friedrich Kratochwil and John Ruggie, “International Organization: A State of the Art on an Art of the State”, International Organization, Vol.40, No.4, 1986, pp.753-775; Alexander Wendt, “Anarchy is What States Make of It: The Social Construction of Power Politics”, International Organization, Vol.46, No.2, 1992, pp.391-425.國際現象或行為并不都是可以直接觀察(比如美國通過世界銀行推廣“華盛頓共識”)的,而是常常無法加以充分衡量。數據化后的文本資料不再是研究者理解和感受的對象,而僅作為操作的研究對象,因此,數據化也是一個將主客體進行分離的過程,數據化后的文本資料成為研究者處理的“客體”,而研究者成為處理文本的主體,換言之,數據化是讓基于文本開展的國際研究自然進入笛卡爾式主體-客體二元對立的邏輯前提。*Elizabeth St. Pierre and Alecia Jackson, “Qualitative Data Analysis After Coding,” Qualitative Inquiry, Vol. 20, No.6, 2014, pp.715-716.事實上,這種前提假設正被不假思索地全盤引入至國際關系研究中。*[英] 臺樂怡:“與權力做斗爭——拒絕美國國際關系研究中的實證主義”,《世界經濟與政治》,2010年第2期,第134頁。隨著文本信息數據化的發展,記錄國際關系事件中的任何文本都在逐漸數據化,像“全球事件話語數據庫”這樣的大型數據庫甚至將國際事件中人們的喜怒哀樂皆量化成為數據供研究者分析。*The GDELT Project, “The Datasets of GDELT as of February 2016”, March 13, 2016, https://blog.gdeltproject.org/the-datasets-of-gdelt-as-of-february-2016/. (上網日期:2018年1月20日)此類研究對象并沒有物質形態,*雖說人的情感來源于大腦中的神經元,但科學仍未能解釋神經元如何通過物質傳遞讓人產生情感,基于此,不應認為喜怒哀樂有具體的物質形態。無法進行計算。文本中的思維觀念與情感本應加以詮釋、解讀,若研究者將其強行數據化并使其變得客觀,容易形成存在論與認識論之間的脫節甚或矛盾,即研究得出了具體的結論,卻無法解釋結論具體到底是什么,因而降低了研究的科學價值。
第三,數據化的過程無法根除文本內容中的個人偏見。許多記錄國際事件的數據庫材料都來源于國際新聞、歷史材料等,*Gary King and Will Lowe, “An Automatic Extraction Tool for International Conflict Data with Performance as Good as Human Coders: A Rare Events Design”, International Organization, Vol.53, No.3, 2003, pp.617-618.這些材料經過記者或者檔案人員處理后在內容中難免帶有個人偏見。*Gary King and Will Lowe, “An Automatic Extraction Tool for International Conflict Data with Performance as Good as Human Coders: A Rare Events Design”, International Organization, Vol.53, No.3, 2003, p.617.比如在“戰爭相關指數”數據庫中,關于戰爭的性質的分類型變量本身就是研究者的主觀判斷。*比如,海灣戰爭對美國人來說是解放科威特的正義戰爭,對伊拉克人來說是入侵者發動的不義之戰。若研究者不能通過意義詮釋排除偏見,即便研究的數據量再大,模型的擬合程度再高,分析的結果再顯著,檢測得到的信度再高,也無法確保最終結論完全可靠。這種偏見時常不易被察覺,因為數據化文本資料容易獲取,諸多國際關系研究者并不是通過親身實踐或調查獲取文本資料。研究者在得到具體的數據后,受限于有限的時間和精力,通常很難與獲得第一手資料的記者或檔案人員建立直接聯系,無法感受這些資料收集者在觀察和記錄國際關系現象或行為時產生的思想與情感,更無法排除數據中的個人偏見。即便機器已開始代替研究者成為分析主體,且當下的自然語言處理技術也取得重要進展,仍然無法真正還原人的思想情感,機器及其應用技術的便捷性反而助推國際關系研究者更多地坐到計算機前,遠離真實的場景與感受,包含在數據中的偏見更難根除,而是“客觀地”呈現在分析結果中,導致研究結論不可避免有所偏頗。
由于存在以上的局限性,許多基于這種數據庫的研究并不能得到政府的認可。*Edward Laurance, “Event Data and Policy Analysis: Improving the Potential for Applying Academic Research to Foreign and Defense Policy Problems”, Policy Sciences, Vol.23, No.2, 1990, p.124.即便是美國政府和軍方資助的“整合性沖突早期預警系統”(the Integrated Conflict Early Warning System)也不能做到準確分析國際事件形勢變化,效果未如理想。*Sean O’Brien, “Crisis Early Waning and Decision Support: Contemporary Approaches and Thoughts on Future Research”, International Studies Review, Vol.12, No.1, 2010, p.95.因此,國際關系研究者應反思如何處理和應用文本資料,而不是隨波逐流,盲目地一味將文本資料數據化,更要從多方面下功夫解決數據化的局限問題。
第一,重視發展后實證主義方法論。研究者將話語文本數據化的目的是創造智慧,但數據化并不是創造智慧的唯一途徑。在國際規范、價值觀和身份認同等思維觀念領域,后實證主義的分析路徑能為研究者提供巨大支持。詮釋學和現象學是此類分析陣營中的典型代表,總體而言,詮釋學是一門對文本的意義進行理解和解釋的技藝,遵循這種分析路徑的研究者不但要理解文本的語言意義,也要結合具體的歷史環境理解研究對象的主觀世界。*李少軍:“國際關系研究與詮釋學方法”,《世界經濟與政治》,2006年第10期,第7頁。而現象學則是一種激進的、反傳統的哲學思潮,強調研究者要借助自身的意識和體驗全面地感受現象并描述現象,進而去理解世間真相。*Dermot Moran, Introduction to Phenomenology, London: Routledge, 2000, p.4無論是采用現象學的先驗、體驗、或是解釋學的路徑進行研究,后實證主義研究始終與數據化保持距離,重視保留完整的背景信息和話語中深刻、隱晦的內涵。*Matthew Miles, and Michael Huberman, Qualitative Data Analysis: An Expanded Sourcebook, Thousand Oaks: Sage, 1994, p.8.這種范式亦可包容研究資料中的偏見,鼓勵研究者帶著個人偏見去理解各種現象和行為,借助真實的社會場景解釋各種現象和行為。*劉良華;“何謂‘現象學的方法’”,《全球教育展望》,2013年第8期,第44頁。研究者循此路徑分析將耗費更多時間在研究田野中而不是計算機前,重視采用訪談甚至以直接參與活動的方式與研究對象進行交流,觀察和感受研究對象的行為模式和思想觀念,用靈動的語言記錄最為真實的場景進行論證。事實上,歐洲學界已意識到這點,荷蘭萊頓大學“和平情報實驗室”項目明確指出,國際關系大數據分析不能脫離基于具體社會環境進行主觀詮釋。*Peace Informatics Lab, “Defining Peace Informatics”, http://www.peaceinformaticslab.org/data-pool.html. (上網日期:2018年1月20日).歐盟的“歐洲晴雨表”系列數據自1987年起便已公開未經數據化處理的訪談資料,方便研究者使用原始文本資料詮釋話語中隱含的意義。*European Commission, “Public Opinion”, http://ec.europa.eu/commfrontoffice/publicopinion/index.cfm/General/index.(上網時間:2018年3月2日)。研究者通過這種方式創造的知識和智慧可避免數據語言意義單一帶來的局限,能更好地探索蘊藏在國際關系文本中的思想觀念。基于此,學者應深入地開發詮釋學、現象學此類方法論在國際關系研究中的應用途徑,讓規范、價值觀、身份認同等思維要素不再是國際關系科學研究的規避對象,*李少軍;“國際關系研究與詮釋學方法”,《世界經濟與政治》,2006年第10期,第7頁。促進國際關系學科的全面發展。
第二,強化串聯研究的存在論和認識論意識。研究背后的哲學邏輯是研究的前提和根基,而數據化本身只是處理研究資料的一種方法,屬于研究設計的末枝。文本資料數據化對于國際關系研究的科學貢獻須建立在存在論與認識論連貫一致的基礎上,否則再精妙、高效的數據處理與分析技巧只會讓研究顯得金玉其外、敗絮其中。為了避免研究出現存在論與認識論不連貫一致的情況,研究者在搜集資料時應清楚了解研究對象是什么以及最不可劃分的層次會是什么。具體而言,若研究對象本身并不具有深層次的意義或是理性逐利行為(比如純粹的貿易往來),研究者大可遵循實證主義的認識論,構建嚴謹縝密的數學模型,對數據進行分析,得到更精確的分析結果。倘若研究對象是沒有物質形態且無法加以直接觀察的心理現象或意識觀念(比如民族認同感),研究者要小心處理數據化的文本資料,謹慎使用實證主義的分析路徑開展研究,此時若研究者能重視感受和理解研究對象的心理狀態,則更容易實現存在論和認識論層面的連貫一致,進而提高研究的科學價值。也就是說,只有在研究的內在邏輯連貫的基礎上,研究者才可選擇適當的方法、設計合理的流程進行分析。
第三,通過人際學術交流檢驗結論。如上文所述,數據化會篩除文本中的深刻內涵和背景信息,可導致結論出現偏頗,研究者用數學公式進行結論檢驗并不能完全反映實際狀況。因此,在得到數據分析的結果后,研究者應深入思考數據背后的歷史文化背景是什么、研究對象的話語和行為有著怎樣的意義、分析過程中會省略掉哪些意義、在完成數據分析后應詮釋哪些意義等。帶著以上的問題,研究者應嘗試與研究對象或同行專家直接交流,將研究結果呈現給對方,通過面對面的話語交談更深入地理解研究對象的意識、情感,加強對國際現象或行為之時代背景的認識,征求對于研究結論的意見和建議,使研究盡可能完整地還原文本資料中被抽離的背景信息和深刻內涵,彌補數據分析的缺陷。研究者在確認結論充分可靠前,應將其研究交與同行專家或研究對象審閱并認可。比如安東尼·菲爾(Anthony Fee)和蘇珊·麥克格拉芙-尚普(Susan McGrath-Champ)探究國際非政府組織如何保護海外員工的安全后,不但將編碼分析的結果發受訪者以尋求反饋,還約見兩位國際安全領域的專家咨詢詮釋結果的合理性。*Anthony Fee and Susan McGrath-Champ, “The Role of Human Resources in Protecting Expatriates: Insights from the International Aid and Development Sector”, The International Journal of Human Resource Management, Vol.28, No.14, 2016, p.8.如此通過與研究對象或同行保持密切的交流,研究者能夠最大程度地限制數據化研究的不足和弊端,確保分析結論能夠盡量貼近實際,讓國際關系研究真正得益于文本資料的數據化。○