裴雷 孫建軍 周兆韜
編者按:當Jim Gray提出數據密集型科學研究范式,David Lazer提出計算性社會科學等研究理念后,以數據分析和計算思維為引導的方法理論也逐漸與傳統人文社會科學結合,產生了數字人文、社會計算、計算傳播學以及相關計算性人文社會科學,并得到廣泛的應用和發展。計算分析方法在政策研究和政策分析領域卻一直獨立發展,雖然在政見分析、比較政黨研究、政治演講分析、政策認同和政策情感研究領域都取得了不錯的研究進展,但政策計算分析一直沒有作為一個獨立術語或研究范疇被提出。事實上,在政策分析領域計算機輔助政策分析和政策文本計算分析擁有悠久的歷史,并產生了如內容分析(content analysis)、一致性分析(concordance analysis)、話語分析(conversational analysis)、話語文本分析(discourse analysis)、計算詮釋學(computational hermeneutics)、定量文本分析(qualitative text analysis)等相關的研究方法和工具。
本專題三篇研究論文系教育部人文社會科學青年項目“基于概念統計的信息政策文本計算與實證”(項目編號: 11YJC870020)與國家社會科學基金青年項目“信息政策擴散與轉移研究”(項目編號: 12CTQ024)的系列研究成果。具體而言,《政策文本計算:一種新的政策文本解讀方式》主要從方法論角度討論政策文本計算方法的可行性與應用前景,通過梳理計算分析方法在政策分析領域的應用,對政策文本計算的方法論、應用工具和典型研究議題的跟蹤,提出了政策文本計算方法的主要特征以及政策計算分析的可能應用前景;《中國信息化政策擴散中政策主題跟蹤研究》則以課題組構建的中國信息政策語料庫中的國民經濟和社會信息化中長期規劃為研究樣本,從主題承繼與主題創新、主題躍遷與主題衰退、政策擴散漣漪效應和漏斗效應等角度研究了政策擴散中的政策主題變化特征,并從信息化政策文本的計算分析中,發掘了信息化政策在地域擴散和歷時擴散兩個維度的擴散特征;《政策擴散時間滯后效應及其實證評測——以江浙信息化政策實踐為例》則選擇了從擴散滯后效應測度的角度,通過二維政策主題密度分布中的差異化象限,提出通過政策詞頻的密度分布可以間接反映政策擴散所處的階段,從而間接測度擴散滯后性,并針對兩省信息化政策文本與信息化政策理論研究的實測,發現了該方法的可行性。
摘 要:政策文本計算是大數據環境下政策分析科學與計算科學交叉融合的產物。文章通過對政策文本計算的方法論、應用工具和典型研究議題的跟蹤和梳理,提出了政策文本計算方法的主要特征與不足,并討論了該方法在精細化政策分析和定量政治研究領域的研究前景。
關鍵詞:政策文本計算;政策詮釋;政策分析;方法論
中圖分類號: D03 文獻標識碼: A DOI:10.11968/tsyqb.1003-6938.2016110
Abstract Policy text computing is a new integrated methodology combined with policy analysis science and computing science in the big data era. This paper reviewed the development of computing methods in political text analysis, summarized the typical research topics, tools and applications in this area, then concluded the main characters and shortcomings of this methodology, and discussed the potential application of policy text computing in meta-policy analysis and qualitative political analysis.
Key words policy text computing; policy interpretation; policy analysis; methodology
1 引言
政策文本是指因政策活動而產生的記錄文獻,既包括政府或國家或地區的各級權力或行政機關以文件形式頒布的法律、法規、部門規章等官方文獻,也包括政策制定者或政治領導人在政策制定過程中形成的研究、咨詢、聽證或決議等公文檔案,甚至包括政策活動過程中因辯論、演說、報道、評論等形成的政策輿情文本,歷來是政策研究的重要工具和載體[1]。如在政策研究方法論中,Trauth[2]認為主要有“預測-描述”的詮釋范式、“價值批判-價值構建”的價值范式、政策過程范式以及政策評估和績效范式等主要形式,其中詮釋范式又分政策文本分析、政策分類或框架體系、政策生命周期律、政策社會系統等理論。可見,政策文本研究在政策分析研究領域占有重要地位。
隨著計算機方法的引入應用,政策文本分析所能處理的素材量和處理精度得到了大幅提升,并引入了新的方法和理念。尤其是政策文本數據,如文本型數據(Textual Data)、數據文本(Text as Data)、文本數據空間(Text Universe)等相關概念的提出,研究者在政策文本內容分析法的基礎上相繼提出了政策文本語料庫分析和政策文本數據挖掘方法,并利用上述方法解讀和獲知政策立場、政策傾向、政策價值、政策情感等深層政策內涵以及廣義的政策比較分析。我國李江等[3]提出運用政策計量(Policiometrics)的研究思路來揭示政策引用、主題共現以及機構共現等政策關系。本文通過梳理國內外政策文本內容分析、政策語料庫以及政策文本挖掘的相關理論研究進展,探討了政策文本計算分析的可行框架與應用前景。
2 政策文本計算的方法論解析
政策文本計算是21世紀初Michchael Laver、Kenneth Benoit和Will Lowe等提出的,運用計算機科學、語言學和政治學的理論建立的海量政策文本挖掘和計算分析框架。政策文本計算主張運用政策編碼、政策概念詞表或政策與語詞之間的映射關系進行政策概念的自動識別和自動處理,最終構建從政策文本到政策語義的自動解析框架,并在此基礎上關注政策文本及其內涵分析。具體到方法論層次,政策文本計算被認為是一種非介入式、非精確性的解析方式,并廣泛應用于元政策分析領域。
2.1 政策文本計算是非介入式研究方法
從分析主體看,政策文本計算源自政策話語分析,是作為政策分析的一種非介入式方法引入政策科學領域。在政策分析傳統中,一般強調以政策利益相關者的心理或行為假設為出發點,以公共政策績效或調整結果為評價,并對政策過程、政策工具的可行性進行相關評估研究。因此,不論是運用控制論、運籌學、系統分析或博弈論等過程分析方法,還是運用行為科學、社會心理學、組織理論、權威理論、群體理論等行為解釋理論,或是預設一定的分析框架予以驗證,都不可避免地要預設政策立場以及政策價值取向,作為政策分析的判斷標準。而政策文本分析或政策話語分析(Discourse Analysis)認為政策文本已經蘊含了政策交流系統中的語義與價值情感[4],研究者無需再設計相應的政策框架,僅需要轉述或提取政策文本中蘊含的語義,并有序表達。
非介入式方法的優點是研究結果的中立與客觀性,弱化了研究者因政策立場偏見、被調查者(樣本)主觀偏性而帶來的效度瑕疵[5],并且便于將研究結果復現和應用于大范圍尺度和長時間尺度,在宏觀政策研究、比較政策研究和非預見性研究中具有廣闊應用前景[6];但不足是文本處理過程效度不夠,無法兼顧政策語境的差異性,研究結果的可解釋性較弱。
2.2 政策文本計算是非精確性研究方法
從分析方法看,政策文本計算的出發點是政策文本的自然語言處理,即政策的語法解析。雖然眾多政策文本計算研究者試圖構建語法文本與語義文本、語用文本的映射關系,或依據研究者的理解構建分析詞表或抽取若干政策元素或屬性,然后以“聚焦”方法跟蹤研究。但早期通過這種“重構”或“再塑造”方式建構的政策文本內容分析方法,不僅耗時長、成本高,而且在方法論上形成了研究者事實上的“意識介入”,研究者本身作為研究工具存在于研究過程,其可靠性依然為學界所詬病。
隨著政策文本數量的激增和開放獲取的便捷性,基于海量政策文本的語義自動提取方法日益成熟,在顯性政策要點、政策情感以及政策立場領域的識別精度越來越高。如Hjorth等[7]對自動文本分析與專家調查分析的對照分析發現,兩種自動分析方法和專家分析對CMP RILE measure政治演講語料庫的對比分析中,自動分析政策主題排序與專家主題分析排序的spearman相關系數(Spearmans ρ)顯著優于專家與一般選民識別的spearman相關系數。不過,從政策計算的分析結果看,政策文本分析結果仍然是非精確性的。如Proksch和 Slapin[8]認為,現有的政策文本處理的算法缺陷、政策文本的語言特征以及政策文本結構和語境適用性缺失都是政策文本計算分析的致命不足;雖然Mikhaylov和Benoit等[9-10]在研究政見語料庫時均發現,專家研究的手工編碼誤差并不比計算機自動編碼誤差小,因而政策文本計算的分析誤差來自編碼本身,而非計算機算法或處理誤差。而在主流政策分析領域,政策研究者雖認可政策計量在問題識別和政策分析中的價值[11],但認為政策計算分析的結果仍是非精確性的、參考性的[12]。Grimmer和Stewart[13]甚至提出政策自動文本分析的“4原則”:第一,所有的自動文本分析結論都是“錯誤”的,但可用;第二,自動文本分析永遠無法替代政策分析者本身;第三,永遠沒有最好的文本分析解決方案;第四,連說三遍“研究效度”。因此,研究者普遍認為,加強政策的解釋性分析,并融合質性方法的混合方法更具有應用前景[14]。
2.3 政策文本計算聚焦于元政策分析
在政策分析中,元政策一般是“政策的政策”,是從現有政策中抽象出的理念或方法,其關注的是整個政策系統及其改進, 涉及公共政策的指導思想、價值標準、行為準則、程序步驟、方式方法等[15]。而從分析對象看,政策文本計算處理對象多為政策語詞、政策概念(主題)、政策義素等顯性政策功能詞,或政策立場、意識形態、政策傾向、政策情感、政策價值、政策態度等元政策領域。
究其原因:首先,元政策分析的非精確編碼屬性與政策計算分析的非精確性具有很好的契合度,具備了元政策計算分析的方法論基礎;其次,元政策抽離了政策工具、政策區域以及政策地域的語境影響,一是形成了最大可能的頻次聚焦,二是具備了跨區域政策比較的可能性;最后,元政策具有非顯在性,無法通過簡單觀察獲知,而借助計量或計算方法的元政策識別機制能為研究者所接受。
3 政策文本計算分析的典型方法與議題
政策文本計算既是一種政策分析研究理念和研究框架,也是完整的政策分析流程。從分析方法角度看,Wiedemann將政策文本計算,或稱為計算機輔助文本分析(Computer Assisted Text Analysis,CATA)分為文本內容分析、文本數據處理和文本挖掘三個研究層次,并先后經歷了計算化內容分析(Computational Content Analysis,CCA)、計算機輔助定量數據分析(Computer-Assisted Qualitative Data Analysis,CAQDA)以及語料計算學(Lexicometrics for Corpus Exploration)等不同發展階段[16];從分析流程角度看,Grimmer和Steward[13]將政策計算分為政策文本獲取(Acquire Documents)、政策文本處理(Process)和政策文本分析三個典型階段(見表1)。兩者均認為政策文本處理和文本挖掘方法是政策文本計算分析的核心,本文則從政策文本內容分析、政策文本計量分析、政策文本數據處理和政策文本挖掘四個方面考察政策文本計算的典型方法。
3.1 政策文本內容分析方法
政策文本內容分析是一種介于定性與定量之間的半定量研究方法,與之類似的還有一致性分析(Concordance Analysis)、話語分析(Conversational Analysis)、話語文本分析(Discourse Analysis)、計算詮釋學(Computational Hermeneutics)、定量文本分析(Qualitative Text Analysis)等研究方法。從20世紀80年代開始業內就陸續研制了相關的文本分析軟件用于文本標記、文本編碼和相應的編碼管理工具,如Atlas.ti、MAXQDA、QDAMiner、NVivo、SPSS Text
Analytics for Surveys、QCAmap、CATMA、LibreQDA、MONK Project等文本數據管理軟件工具。雖然引入了計算機軟件對政策文本進行概念抽取和定量化統計,并具有文本數據的自動統計和關系識別方法,但其概念抽取方法仍采用傳統的文本分析方法和流程,在數據處理環節仍主要依賴研究者的人工提取,體現為一種半計算化分析工具。
因此,這類計算處理方法能夠處理的政策文本數據有限,一般處理政策樣本集(Sample,n≤200),最多通過協作方式處理政策主題集(Subsets,N≈1000)范疇的政策文本集,而對政策語料庫(Corpus,N≥10000)基本上無法處理。因而,這類研究方法的研究議題也主要沿襲了政治學和詮釋學中的政治話語研究和政治文本內容分析框架中的符號論和政治語詞解讀(政策主題識別與比較)的研究傳統。
3.2 政策文本計量分析方法
政策文本計量分析主要是采用文本計量分析的基本理論與方法,通過對已有政策文本數據庫或政策文本語料庫在政策主題分布、政策發布時間序列分布、政策引證以及政策主體關系等要素進行計量分析[3]。在Grimmer的政策計算分析框架中,政策文本主要來自政策數據庫和已有語料庫、網絡政策文本和非電子化政策文本。因此,政策文本計量分析的主要方法和工具也主要有三種類型:一是政策文本數據庫自有的文本計量分析方法與工具,如Lexis Nexis、ProQuest、Westlaw、HeinOnline、北大法寶和CNKI政府公報數據庫等政策或法律文本數據庫, 利用數據庫自帶的字段設定結合政策主題、類型、時間、地域等進行政策統計或計量分析,或應用共詞或共現分析,能有效分析政策文獻增長、擴散、流變等變化規律;二是利用網絡分析和替代計量學(Altermetrics)方法和工具進行網絡政策文本分析[17],如Wiley, NPG和PLOS One 等開始提供 Altmetric 服務,Altmetric也可以對國內新浪微博進行追蹤,因而對社會媒體中的政策文本以及跟蹤研究也成為可能,如匹茲堡大學創建的MPQA政策辯論語料和卡內基梅隆大學Sailing實驗室Jacob Eisenstein和 Eric Xing創建的政治博客文本集語料;三是通過政策文本采集與語料庫構建并提出新的統計口徑和研究方法,如蘇竣和黃萃等對中國科技政策的類型統計分析[18]以及卡內基梅隆大學Wilson等對網站隱私政策的主題解析分析[19]。
3.3 政策文本數據處理方法
從政策文本的范圍看,政策文本結構性差異很大:既有政府的政策文本、法律檔案(聽證會材料、判例),也有政策新聞、媒體數據和政策研究文獻;既有總統競選綱領、演說文本集,也有社交媒體的公眾政治言論和政治評論。而通過自然語言處理將政策文本解析為結構化文本數據(Textual Data),并構建語詞、語義或情感等特殊對象,不僅能形成對大規模政策文本語料的系統化處理,而且能在不同的政策文本集中進行比較分析和一致性分析,推動政策文本融合分析。結合政策文本分析的應用,典型的研究方法和工具有政策文本自然語言處理和語法計量分析、政策文本處理以及政策語義分析(見表2)。
在政策文本數據處理過程中,政策文本或語料集適用于通用的自然語言處理方法和文本數據處理方法,政策語詞分析和政策語義分析在政策主題統計(聚類)、政策熱點識別、政策意見分析中應用較多[20-21]。目前,在政策文本處理領域最受關注的議題:一是語料庫尺度的政策內容分析[22-24],主要是對政策語料庫的統計和計量分析,識別政策語境中的熱點議題[25],關注政策議題的擴散或影響[26-27],尤其是政治演說語料庫、政見語料庫、政治綱領語料庫分析;二是政黨和選舉研究中的政策立場分析和政策傾向研究,政策文本計算的概念本身即為比較政見研究(CMP)的Michchael Laver提出,而基于先驗詞權(Reference Score)的WordScore和無先驗詞權的WordFish也是政策文本計算分析中應用最廣泛的分析軟件,CMP以及后續研究項目(MARPOR)提供的政見語料庫也是采納率最廣的語料庫。
3.4 政策文本數據挖掘方法
文本挖掘,又稱為文本數據挖掘或文本知識發現,是指在大規模文本集合中發現隱含的、以前未知的、潛在有用的模式的過程[28],涉及數據挖掘、機器學習、統計學、自然語言處理、可視化技術、數據庫技術等多個學科領域的知識和技術[29]。與政策文本處理更注重政策語詞或語義分析相比,政策文本數據挖掘更注重在大量文本數據集合中發現分類/聚類特征、發現關聯知識或規則,并注重深層潛在語義的知識發現。因此,政策情感分析、政策意見分析、政府行為預測等典型方法得到政策研究領域的廣泛關注,如Saremento等對用戶評論的政策傾向分析[30]、Hopkins和King[31]對博客政策意見的分析。政策情感分析在西方國家選情預測中尤為關注,包括政治領導人的政策情感傾向[32]、選民的情感反饋與傾向[33-34]以及整體選情預測[35-37];在政策意見分析中,公眾意見收集和政治意見追蹤也是常見的研究主題,并將公眾政策意見與其政治立場和政黨支持度關聯,建立了計算化的政黨輿情監測、政黨競爭或政黨派系識別以及政策結果評估的分析方法[38-39];政府行為預測體現了政策預測分析的方法和思路,通過對政府領導人、政黨的競選綱領或關鍵政策文本的分析,挖掘潛在的政策熱點或發展軌跡。國內研究者也利用數據挖掘方法對政策熱點[40]以及政策價值[41]進行了分析,或系統利用文本挖掘方法對政策文本的內部結構關系進行了主題識別或關聯分析[42-44],但總體上缺乏系統性和連續性。
4 政策文本計算應用研究進展
4.1 政策文本語料庫建設
政策語料庫以及語料庫語言分析是政策文本計算分析的基礎。早期的政策語料庫一般針對政府出版物或公開政治文本進行采集加工,如政策條文、相關政策解釋、政治人物傳記、語錄或新聞紀錄等;現在則擴展到更加多樣化的語料來源。除了Lexis Nexis、北大法寶等傳統的法律信息服務提供商,目前比較典型的政策語料庫有:
(1)德國柏林社會科學研究中心比較政見研究項目政見文本語料庫(MRG / CMP / MARPOR) [45]。Manifesto語料庫是目前政策分析領域加工最為成熟的開放政策語料,包括1945-2015年70年跨度,涉及所有歐洲國家和少數英美聯邦國家(美國、加拿大、澳大利亞、南非、新西蘭)總計超過50個國家的4051個政見語料集,涵蓋了1979-1989年政見研究組MRG(Manifesto Research Group)、1989-2009年比較政見研究CMP(Comparative Manifestos Project)以及當前基于政治表達的政見研究MARPOR(Manifesto Research on Political Representation)持續研究的政策語料。在語料分析工具包中,既包括手工編碼的政策術語編碼手冊(Code Book),也包括794,536個跨語種的機器識別政策術語、短語或詞條;既包括軟件版本的WordScore分析工具,也包括R語言的分析包ManifestoR。因此,Manifesto語料庫和WordScore分析軟件是目前政見分析和政策文本計算領域引用率最廣的語料庫,尤其在政策立場和政策傾向研究中。
(2)美國康奈爾大學政策文本語料庫(Corpus of political discourse)[46],它是康奈爾大學計算機系龐大的語料集中的一個子集,主要是由Matt Thomas, Bo Pang和 Lillian Lee整理的總統國會演講數據集(Congressional speech data),同時因Lillian Lee設計開發了相應的情感開發工具ReadMe,因此在嚴肅政策文本的政策情感研究領域受關注度較高,目前共有22篇研究文獻利用或援引了該數據集。
(3)美國匹茲堡大學計算機系的MPQA Opinion Corpus語料庫(Multi-Perspective Question Answer, MPQA)[47],主要是新聞報紙素材的語料,包含4個子庫、4個詞表和基于語料庫分析技術開發的OpinionFinder系統(目前提供2.0版本下載),其中有一個專門子庫為政策辯論數據庫(Political Debate Data)。同時,因其情感標注系統比較出色,因而也是博客、評論等開源語料政策情感分析的主要素材和工具。
(4)卡內基梅隆大學計算機系Sailing實驗室的政治博客語料庫[48]。由Jacob Eisenstein 和Eric Xing整理開發,主要采集了2008年6個博客平臺的13246個政治博客文本記錄,并且通過意識形態的分層抽樣,也是政治博客研究比較重要的語料資源。類似的語料集還有美國海軍學院Twitter政策語料集。
(5)香港浸會大學整理開發的政治演講語料集(Corpus of Political Speeches-HKBU Library)[49]。目前主要包括4個部分:美國歷屆總統演說語料文本集和多媒體文本(1789-2015)(約443萬字)、歷屆香港總督或特首施政報告語料集(1984-1996,1997-2015,約43萬字)、歷屆中國臺灣地區領導人新年致辭和雙十演講語料集以及中國歷屆政府總理施政報告語料集,是比較完整的中文政策語料集之一。
此外,德國柏林Brandenburg科學研究院的阿德萊登·巴拉巴西提供的德國政策語料集[50]則結合了政策語料分析與可視化研究,利用這個政策語料集可進行總統演講頻率、演講主題和演講所涉及的政策語言的可視化分析, 網站提供粗語料、分詞后的語料以及標引后的語料等不同版本的語料。
4.2 政策文本分析工具研制
因語境意義對政策文本分析的現實意義更大,當前政策文本計算比較注重政策詞典和政策文本分析專用工具的研制。目前,主要有兩類研究方法:
第一,測試通用文本分析工具在政策文本分析中的適用性。典型如政策情感分析領域,Lori Young等[51]對DICTION、LIWC、RID、TAS/C、ANEW、DAL、WNA、PMI以及LSD等眾多情感分析詞典的對比研究發現,LSD在選民情緒跟蹤研究和對比研究中具有明顯優勢;Bei Yu等[32]則發現政策評論或政策演說文本中,情感詞匯的使用頻率明顯低于普通文本,并且不同于一般情感分析主要負載于謂詞描述,大量政策情感負載于名詞性的體詞描述中,需要結合上下文才能完全識別,因此在政策文本分類的算法中(SVM、NB),訓練文本需更充足。
第二,研制政策分析專有詞表和分析工具。典型如政策立場和政見研究中的WordScore算法和WordFish算法。兩種方法都注重政策語詞對政策內涵表達的影響權重差異,WordScore方法通過專家判定的參考文本作為政策語詞權重依據,從而生成政策分析文本中政策內涵的表達效果,其實質是對詞頻結果進行語義加權處理,類似一種基于動態“詞典”的分類算法;WordFish算法認為政策文本具有不同的政策特征向量,在某一特征中政策語詞的概率分布符合泊松分布,因此可以通過一種類似非監督學習的方式對政策文本所蘊含的“政策立場”進行分類。由于WordScore算法的分類效果和可解釋性優于WordFish,但分類效果受參考文本的影響大,在歷時分析或跨文化環境的比較參考分析中效度不高。此外,政策文本計算因德語或北歐國家特有的構詞方式而具有一定研究效度,而在英語地區卻并不顯著,這也是當前政策文本計算研究興盛于德國和北歐,而英美地區進展緩慢的主要原因。
因此,政策文本分析詞表、文本分析效度改進工具和跨語言政策文本分析工具都是目前政策文本分析工具研究的熱點問題。
5 政策文本計算的應用前景與障礙
政策文本計算方法是大數據環境下政策分析科學與計算科學交叉融合的產物,目前已經形成了較為穩定的研究議題和研究隊伍。隨著政策文本資料的日益豐裕以及大數據分析方法日益為社會科學研究者所采納,可以預見未來政策文本計算在精細化政策分析和定量政治研究領域具有廣闊的研究前景。
5.1 政策文本計算的應用前景
就政策文本計算的應用領域而言,精細化政策分析主要體現在政策預測、政策沖突分析與政策輔助決策、元政策評價與政策比較等研究領域,定量政治研究則體現為政黨研究、政治立場、政治態度、政策認同、政治聯盟以及選舉、外交等政治活動領域。
第一,政策文本計算在精細化政策分析領域已經具有研究基礎,尤其在語料庫政策語言分析中形成了相對成熟的研究框架。首先,計算方法的引入提供了跨語料分析和實時語料分析的研究可能,對政策預測的時效性和精確度都將大大提升;其次,計算方法的引入將改進政策分析的精度和深度,在政策制定中不同政策源的立場識別和主題識別可以避免顯性的政策條款沖突,同時對政策主題關系識別也能評判政策相似度或政策形式質量預判,輔助政策制定決策;再次,通過政策文本與政策語義的對應關聯,能夠挖掘政策的潛在語義和元政策要素,從政策價值、政策傾向、政策工具、意識形態等高度評價或比較不同時期、不同地域甚至不同國別的政策差異,更好地跟蹤政策擴散過程,促進政策學習與創新。
第二,定量政治研究則融合了政治學、媒介理論以及政黨研究的理論視角,能通過泛在的政策文本載體,識別公眾的政治態度、政治立場以及不同主體之間的政治互動關系,進一步通過政治文本解析框架可以分析政治立場、政治距離和政治關系緊密度,從而發現政黨合作、國際合作的潛在空間;另一方面,通過不同政治參與主體的互動機制,可以在政策認同、政黨監督、政黨競爭以及選情預測等領域進行有效分析。
5.2 政策文本計算的應用障礙
正如國內外學者對人文社會科學計算方法的擔憂[13,52-53],政策文本計算不論從方法論本身,還是從應用場景的研究效度看,其只能作為決策分析工具,而無法替代政策分析者本身。究其原因,首先,政策文本語料庫的局限。語料庫具有一定時效性與完備性限制,而語料庫規模和多樣性是政策文本計算分析效度的關鍵,但語料庫構建成本和可用技術的限制使得語料庫很難完全滿足政策分析者的需要;其次,文本挖掘和相關計算分析方法的局限。文本挖掘結果的呈現是抽象的或數據化的,只有結合相關的應用背景才能完全理解相關內涵;文本挖掘或計算分析注重研究創新點的突破,很難兼顧整體研究面的覆蓋,因而其結論往往是片面的、非系統的;文本計算分析方法是探索性分析方法,其研究結論是非可預期的、不確定的,而文本語料庫建設是高成本的,政策文本計算具有一定的研究風險;第三,政策文本計算是跨學科研究方法,需要政策研究和計算機研究學者的緊密配合,而實際研究過程中很難兼顧二者。
因此,在未來的政策文本計算研究實踐中,一是需要加強學科合作,推動專業化的政策語料庫的建設,開發適用于政策文本分析的工具;二是政策文本計算研究具有良好的中立性與客觀性,國家應該在智庫建設和國際政策比較研究中更加重視政策量化和定量政治研究。
參考文獻:
[1] Chilton P A,Sch?覿ffner C.Politics as text and talk:analytic approaches to political discourse[M].John Benjamins Publishing,2002.
[2] E.M.Trauth.An integrative approach to information policy research[J].Telecommunications Policy,1986,10(1): 41-50.
[3] 李江,劉源浩,黃萃,等.用文獻計量研究重塑政策文本數據分析——政策文獻計量的起源、遷移與方法創新[J].公共管理學報,2015(2):138-144.
[4] 楊正聯.公共政策文本分析:一個理論框架[J].理論與改革,2006(1):24-26.
[5] 黃萃,任弢,張劍.政策文獻量化研究:公共政策研究的新方向[J].公共管理學報,2015(2):129-137.
[6] Beauchamp N,Laver M,Nagler J,et al.Using Text to Scale Legislatures with Uninformative Voting[EB/OL].[2016-09-20].http://nickbeauchamp.com/work/Beauchamp_scaling_current.pdf.
[7] Hjorth F,Klemmensen R,Hobolt S,et al.Computers,coders,and voters:Comparing automated methods for estimating party positions[J].Research & Politics,2015,2(2):1-9.
[8] Sven-Oliver Proksch,Jonathan B.Slapin.How to Avoid Pitfalls in Statistical Analysis of Political Texts:The Case of Germany[J].German Politics,2009,18(18):323-344.
[9] Mikhaylov S,Laver M,Benoit K R.Coder reliability and misclassification in the human coding of party manifestos[J].Political Analysis,2010,20(1):78-91.
[10] Benoit K,Laver M.Estimating party policy positions: Comparing expert surveys and hand-coded content analysis[J].Electoral Studies,2007,26(1):90-107.
[11] Hansen,Ejnar M.Back to the Archives?A Critique of the Danish Part of the Manifesto Dataset[J].Scandinavian Political Studies,2008,31(2):201-216.
[12] Benoit K,Laver M,Mikhaylov S.Treating words as data with error:Uncertainty in text statements of policy positions[J].American Journal of Political Science,2009,53(2):495-513.
[13] Grimmer J,Stewart B.M.Text as Data: The Promise and Pitfalls of Automatic Content Analysis Methods for Political Texts[J].Political Analysis,2013,21(3):267-297.
[14] 孫建軍.大數據使社科研究不再“望數興嘆”[N].人民日報,2016-02-18(7).
[15] 李民,肖旭東.元政策視角下科學發展觀的價值分析[J].江漢論壇,2009(11):17-20.
[16] Wiedemann G.Computer-Assisted Text Analysis in the Social Sciences[M].Text Mining for Qualitative Data Analysis in the Social Sciences.Springer Fachmedien Wiesbaden,2016:17-53.
[17] Piwowar H.Altmetrics:Value all research products[J].Nature,2013,493(7431):159.
[18] 蘇竣,黃萃.中國科技政策要目概覽[M].北京:科學技術文獻出版社,2012.
[19] Wilson S,Schaub F,Ramanath R,et al.Crowdsourcing Annotations for Websites' Privacy Policies:Can It Really Work?[C].International Conference on World Wide Web.International World Wide Web Conferences Steering Committee,2016.
[20] Simon B A F,Xeons M.Dimensional Reduction of Word-Frequency Data as a Substitute for Intersubjective Content Analysis[J].Political Analysis,2010,12(1):63-75.
[21] Klebanov B B,Beigman E.Lexical Cohesion Analysis of Political Speech[J].Political Analysis,2008,16(4):447-463.
[22] ?魧del, Annelie.How to Use Corpus Linguistics in the Study of Political Discourse[M].Anne O'Keeffe and Michael McCarthy.The Routledge Handbook of Corpus Linguistics.Abingdon:Routledge,2010.
[23] Rowe C.Politics as Text and Talk:Analytic Approaches to Political Discourse,by Paul A.Chilton;Christina Sch?覿ffner[J].International Politics,2004,41(2):286-287.
[24] 涂端午.政策生產:價值的權威控制及其演變——1979-1998年中國高等教育政策文本分析[J].比較教育研究,2009(11):95-96.
[25] Laver M,Benoit K.Locating TDs in Policy Spaces:The Computational Text Analysis of Dáil Speeches[J].Irish Political Studies,2010,17(1):59-73.
[26] Budge I,Pennings P.Do they work?Validating computerised word frequency estimates against policy series[J].Electoral Studies,2007,26(1):121-129.
[27] Monroe B L.Fightin' Words:Lexical Feature Selection and Evaluation for Identifying the Content of Political Conflict[J].Political Analysis,2008,16(4):372-403.
[28] 諶志群,張國煊.文本挖掘研究進展[J].模式識別與人工智能,2005,18(1):65-74.
[29] 郭金龍,許鑫,陸宇杰.人文社會科學研究中文本挖掘技術應用進展[J].圖書情報工作,2012,56(8):10-17.
[30] Sarmento,Lu,Carvalho P,Silva,M,et al.Automatic creation of a reference corpus for political opinion mining in user-generated content[C].International CIKM Workshop on Topic-Sentiment Analysis for MASS Opinion.ACM,2009:29-36.
[31] Hopkins D J,King G.A Method of Automated Nonparametric Content Analysis for Social Science[J].American Journal of Political Science,2010,54(1):229-247.
[32] Yu B,Kaufmann S,Diermeier D.Classifying Party Affiliation from Political Speech[J].Journal of Information Technology & Politics,2008,5(1):33-48.
[33] Ceron A,Curini L,Iacus S M,et al.Every tweet counts?How sentiment analysis of social media can improve our knowledge of citizens political preferences with an application to Italy and France[J].New Media & Society,2014,16(2):340-358.
[34] Gerber E R,Lewis J B.Beyond the Median: Voter Preferences,District Heterogeneity,and Political Representation[J].Journal of Political Economy,2004,112(6):1364-1383.
[35] Choy M,Cheong M L F,Ma N L,et al.A sentiment analysis of Singapore Presidential Election 2011 using Twitter data with census correction[EB/OL].[2016-09-20].http://ink.library.smu.edu.sg/sis_research/1436.
[36] O'Connor B,Balasubramanyan R,Routledge B R,et al.From Tweets to Polls: Linking Text Sentiment to Public Opinion Time Series[C].International Conference on Weblogs and Social Media,2010.
[37] Sudhahar S,Veltri G A,Cristianini N.Automated analysis of the US presidential elections using Big Data and network analysis[J].Big Data & Society,2015,2(1):1-28.
[38] Hobolt S B,Klemmensen R.Government Responsiveness and Political Competition in Comparative Perspective[J].Comparative Political Studies,2008,41(3):309-337.
[39] Laver M,Benoit K,Sauger N.Policy competition in the 2002 French legislative and presidential elections[J].European Journal of Political Research,2006,45(4):667-697.
[40] 楊慧,楊建林.融合LDA模型的政策文本量化分析——基于國際氣候領域的實證[J].現代情報,2016,36(5):71-81.
[41] 張惠,王冰.基于文本挖掘的政府公共價值測度與比較[J].安徽理工大學學報(社會科學版),2015,17(1):35-39.
[42] 張永安,閆瑾.基于文本挖掘的科技成果轉化政策內部結構關系與宏觀布局研究[J].情報雜志,2016,35(2):44-49.
[43] 胡嫣然.基于文本挖掘的中國鐵路運輸企業財稅支持政策研究[D].北京:北京交通大學,2016.
[44] 程婷.基于文本挖掘的中國環境保護政策文本量化研究[D].武漢:華中科技大學,2014.
[45] Volkens A,Lehmann P,Matthie T,et al.The Manifesto Data Collection.Manifesto Project(MRG / CMP / MARPOR)[EB/OL].[2016-10-20].https://visuals.manifesto-project.wzb.eu/mpdb-shiny/cmp_dashboard_dataset/.
[46] Corpus of political discourse in Cornell University[EB/OL].[2016-10-20].//www.cs.cornell.edu/home/llee/data/.
[47] MPQA Opinion Corpus[EB/OL].[2016-10-20].http://mpqa.cs.pitt.edu/corpora/political_debates/.
[48] Eisenstein J,Xing E.The CMU 2008 Political Blog Corpus.2010[EB/OL].[2016-10-20].http://www.sailing.cs.cmu.edu/main/?page_id=713.
[49] Ahrens,ed.Corpus of Political Speeches.Hong Kong Baptist University Library,Retrieved date of access(2015)[EB/OL].[2016-10-20].http://digital.lib.hkbu.edu.hk/corpus/.
[50] Barbaresi A.German Political Speeches,Corpus and Visualization(2012)[EB/OL].[2016-10-20].http://adrien.barbaresi.eu/corpora/speeches/.
[51] Young L,Soroka S.Affective News:The Automated Coding of Sentiment in Political Texts[J].Political Communication,2012,29(29):205-231.
[52] 陸宇杰,許鑫,郭金龍.文本挖掘在人文社會科學研究中的典型應用述評[J].圖書情報工作,2012,56(8):18-25.
[53] Benoit K,Laver M,Mikhaylov S.Treating Words as Data with Error: Uncertainty in Text Statements of Policy Positions[J].American Journal of Political Science,2009,53(2):495-513.
作者簡介:裴雷,男,南京大學信息管理學院副教授,研究方向:信息政策分析與信息資源管理;孫建軍,男,南京大學信息管理學院教授,研究方向:大數據分析與人文社會科學、網絡信息計量與網絡信息資源管理;周兆韜,女,南京大學信息管理學院研究生,研究方向:政策語料庫分析(CAPS)。