鄭新曼 董瑜



摘?要:[目的/意義]政策文本量化是一種新興的跨學科研究方向。本文從文本數據與分析方法融合的角度,系統梳理了政策文本量化研究的最新進展,以指導政策文本量化分析實踐。[方法/過程]基于文本量化的不同方式,將現有研究方法歸納為政策計量分析、內容分析法和效詞分析法,分別總結了這些方法的特點、流程及典型應用。[結果/結論]政策文本量化研究近年來發展迅速,集中體現在文本數據類型拓展、多領域方法遷移與應用,其中效詞分析法應用逐漸廣泛;未來應關注政策文本數據源和語料庫建設以及方法的誤差研究。
關鍵詞:政策文本;定量分析;文本量化;文本分析
DOI:10.3969/j.issn.1008-0821.2021.02.018
〔中圖分類號〕G203?〔文獻標識碼〕A?〔文章編號〕1008-0821(2021)02-0168-10
Abstract:[Purpose/Significance]The quantitative analysis of political texts is an emerging interdisciplinary research direction.From the perspective of the integration of text data and analysis methods,this paper systematically summarizes the latest developments in the quantitative research of political texts,aiming to support practical guidance for future research.[Method/Process]Three main quantitative methods were summarized in the different ways of how political texts were converted into data,then concluded their process,characteristics and research tasks.[Result/Conclusion]The quantitative research of political texts has developed rapidly in recent years,which mainly studied the expansion of data resources,application of multi-domain methods,and the tokenization method became increasingly popular.In the future,researchers can pay more attention to adopting more data sources for policy research,the construction of political texts corpus and validation of methods.
Key words:political texts;quantitative analysis;text as data;text analysis
政策文本是政策存在的物理載體,是政府政策行為的反映,也是記述政策意圖和政策過程的客觀憑證[1],因此政策文本研究是追溯和觀察政策過程的一個重要途徑。近些年,隨著政府信息公開化以及互聯網的蓬勃發展,政策文本研究能夠利用前人難以想象的數據,這些數據不僅體量大,而且種類豐富。同時,信息技術的快速發展,文本挖掘、數據分析等領域不斷涌現的新方法和新工具,也極大地拓展了政策文本研究的范式。目前政策文本研究方法主要包括定性分析和定量分析,其中定性分析高度依賴研究者的實踐經驗和分析能力,強調從總體和宏觀角度把握政策內容的復雜背景和思想結構。隨著政策文本研究數據的增長,定性分析的人力成本激增。定量分析是將政策文本中有價值的信息轉換成計算機可處理的結構化數據,進而利用數學模型進行分析,這極大降低了大樣本量政策文本研究的人力成本,提高了結果的可復制性[2],因此成為當前政策文本研究的趨勢。
目前政策文本研究中所使用的定量方法大多遷移自其他學科,方法多樣且近年來發展迅速,有必要及時進行梳理與總結。此外,現有的研究綜述多從方法本身的角度進行梳理,如楊正總結了政策計量方法的概念、研究現狀及未來趨勢[3],裴雷等從政策文本計算的角度對方法論、應用工具和典型研究議題進行了梳理[4],但這些綜述對研究方法與文本數據的融合分析關注不多,這一定程度上影響了對政策文本分析實踐的指導。因此,本文從文本數據與分析方法融合的角度,系統梳理了國內外相關研究成果,歸納研究特點、流程及典型應用,以期為后續研究提供參考。
1?數據來源與處理
政策文本的定量分析融合了管理學、政治學、統計學、信息技術等多個學科。在文獻檢索過程中,為了盡可能覆蓋相關文獻,首先根據文獻調研,對國內外文章中主題詞的描述進行整理,然后結合數據庫檢索規則,確定檢索主題詞,如表1所示。
以WoS核心合集、CNKI等數據庫為文獻來源,以表1的主題詞進行檢索,檢索邏輯是“或含”。僅選擇期刊文獻。檢索結果顯示,WoS核心合集第一篇相關文獻發表于1959年,CNKI的第一篇相關文獻發表于2007年。以2007年為起始時間進行發文數量統計,可以看出,2016年后國內外相關文獻均有較為明顯地增長。需要注意的是截至論文成稿日,2020年文獻尚未完全收錄。
因此,為了總結最新研究進展,本文以近5年(2016—2020年)發表的文獻為切入點,經過主題篩選、文獻溯源等方式,獲得代表性文獻75篇,其中中文文獻31篇,英文文獻38篇,中英文專著6部。基于這些文獻,本文對政策文本定量研究的最新進展進行總結和分析。
2?相關概念辨析
2.1?政策文本量化的定義
在政策研究領域,國內外研究者對定量研究政策文本有多種表述,例如政策文獻計量[5-6]、政策文本計算[4]、政策內容分析[7]等。政策文獻計量主要是對政策文本的結構屬性進行量化分析[5],政策文本計算強調運用計算機科學、語言學和政治學理論進行政策文本挖掘[4],政策內容分析突出了對文本內容的定量和定性分析[7]。這些表述雖然側重點有所不同,但核心思想一致,即區別于定性方法對少量政策文本的解讀,展示出對大量政策文本分析方法的關注,探索的是一種新的研究范式。本文將上述表述統稱為政策文本量化。
從內涵上看,政策文本量化是通過一系列的轉換范式將非結構化政策文本轉換成抽象化、特征化的計算機可處理的結構化數據[8]。從研究范圍看,政策文本量化是政策研究、計算機科學等領域交叉融合產生的新領域。從研究方法看,政策文本量化是從計算機科學、文獻計量學到政策科學的多領域方法遷移。
2.2?政策文本的范圍
政策文本是指因政策活動而產生的記錄文獻,既包括國家、地方各級權力或行政機關以文件形式頒布的法律、法規、規章等官方文獻,也包括政策制定者或政治領導人在政策制定過程中形成的研究、咨詢、聽證或決議等公文檔案,以及政策活動過程中因辯論、演說、報道、評論等形成的政策輿情文本[4],如候選人在競選期間的辯論和政策立場陳述,新聞中有關國際關系的報道等,這些文本都可看作是廣義上的政策文本。目前常用于分析的政策文本類型包括立法、決策機關的公文、政黨聲明、聽證會陳述、條約、政治科學論文以及媒體數據等。
可以看出,政策文本類型多樣,結構復雜。在實際研究中,獲取政策文本的方式主要有:①基于政府部門的主動公開和社交媒體平臺的開放性,使用應用程序接口(API)或根據網頁特征編寫腳本批量獲取;②基于研究機構和研究者的收集整理,建立專門的政策文本數據庫,比如國內的綜合性法律文件檢索平臺北大法寶、清華大學開發的政策文件數據庫iPolicy[9]以及中國科協創新戰略研究院建立的全球政策法規庫等。
3?政策文本量化研究的典型方法
政策文本量化通常分為4個步驟[8]:①獲取文本數據并進行預處理;②將政策文本表示成計算機可處理的數據形式,即文本量化;③處理數據獲得量化結果;④檢驗方法,并對結果進行描述性分析或因果分析。
在文本量化步驟,目前有多種把政策文本轉化成數據的方式,基于這些方式的特點,可以把當前政策文本量化方法分為三大類:政策計量分析、內容分析法和效詞分析法,如圖2所示。其中政策計量分析是通過定義并識別政策文本的結構要素,使其結構化后再進行分析;內容分析法是構建從政策語詞到政策語義的分析單元框架,并以編碼的方式將文本內容轉變成含有語義信息的數字;效詞分析法是使用文本表示模型將政策文本分解成含語義特征且可處理的基本單元,從而進行后續的分析。在實踐中,文本量化方式的選擇需要權衡計算成本和分析效果,即想要獲得簡單且有意義的數據以精簡計算,但不要因此丟失過多的信息影響分析效果。
在數據處理步驟,模型選擇是關鍵,其有效性直接決定了結果的可靠性。相比其他領域,政策研究對分析結果的可信度要求更高。在結果分析步驟,為了提高易讀性,研究者通常利用可視化工具對結果進行可視化。
3.1?政策計量分析
政策計量分析(Policiometrics)是一種分析政策文獻體系和結構屬性的方法,由文獻計量學、統計學、數學等學科有機結合產生,繼承并遷移了文獻計量學中的三大定律(“洛特卡定律”“布拉德福定律”與“齊夫定律”)。其基本流程主要包括收集政策文本,并根據文本的結構要素將政策文本結構化;借助文獻計量學或社會網絡分析相關方法進行分析。
3.1.1?政策文本的結構要素
政策文本具有與科技文獻類似的基本結構要素,如發文機關、發布日期等,目前政策計量分析常用的結構要素及計量方法[6,10],如表2所示。
與論文相比,政策文本的結構要素在含義、表征等方面有著自身的特殊性,如政策文獻缺乏關鍵詞和參考文獻等結構要素。因此研究者常通過人工整理政策的標題和正文獲取相關數據。張會平等[11]運用詞頻分析軟件和人工方式提取從政府門戶網站收集到的政策文本的關鍵詞。蘇竣等[12]整理制定了由18類586個術語構成的檢索詞表。
3.1.2?主要的應用
政策計量分析常基于政策文本結構要素的統計來分析政策的分布特征,如時間分布、文種分布、主題詞詞頻分布等,可展現政策文本中隱含的關系網絡,如頒布機構的合作關系,政策擴散及主題變遷等。黃萃等[13]對4 707份科技創新政策文本的主題詞進行詞頻統計、共詞和聚類分析,揭示出我國不同歷史時期科技創新政策主題及其演進的階段特征。李燕萍等[14]從發布時間、文種、頒發部門及關鍵詞等4個方面對我國488份科技人才政策文本進行量化,并結合共詞網絡梳理了我國科技人才政策的整體狀況、發展過程及趨勢。陳慧茹[15]集成扎根理論、詞頻分析等,構建了基于政策屬性與關鍵詞權重的共詞網絡模型。張會平等[11]采用CiteSpace 5.0分析政策文本的時間分布、關鍵詞共現網絡、高頻關鍵詞及其共現關系。
3.1.3?存在的問題與對策
政策計量分析融合了文獻計量學和社會網絡分析法,有助于宏觀層面的政策分析,如政策主體的合作模式、政策體系的結構與演進等分析,但也存在較為突出的問題。首先,更為深層的語義角度的分析仍依靠人工解讀,同時一些低頻重要詞匯易被忽視。其次,現有傳統指標無法滿足復雜的政策研究需求,因此如何構建有效的分析指標是政策計量分析的一個重要方向。一些學者也在積極探索政策計量指標的設計,如張劍等[16]基于政策參照網絡和關鍵詞時序分析圖譜,設計了強度、廣度、速度與方向4個維度作為政策擴散的測量指標;劉建華[17]從直接語義關系、直接共現關系、間接共現關聯、關聯路徑衰減指數4個維度構建了科技政策實體關聯的多指標模型,并結合時間屬性揭示了政策演化路徑。此外,政策計量分析及應用較為依賴結構化語料庫,但現有政策文本語料庫在數量、質量以及開放性等方面尚無法完全滿足需求,未來應關注政策文本結構化語料庫的建設。
3.2?內容分析法
內容分析法(Content Analysis)是當前政策文本研究中常用的分析方法,通過定義能反映政策語義與語詞之間映射關系的分析單元進行政策概念的識別和處理,并構建從分析單元到數值的編碼標準與從政策文本到政策語義的政策分析框架[18]。具體研究過程包括4個步驟:①提出研究問題并抽取政策文獻樣本;②確定分析單元與編碼標準;③對文本內容進行編碼并進行百分比、平均值、相關分析、回歸分析等統計操作;④解釋并檢驗。
3.2.1?定義分析單元并編碼
分析單元是內容分析中最重要、可結構化的元素,能夠反映政策語義與政策文本內容之間的關系,可以是單詞、符號、主題、以及意義獨立的詞組、句子或段落等[18]。在政策研究中,通常基于政策工具理論作為定義分析單元的理論依據,如典型的Rothwell R等的政策工具分類法[19]。編碼是將政策文本中的分析單元轉變為數值數據的過程,其關鍵在于編碼標準及編碼的可信度[20]。
目前常用的編碼方式有人工編碼和計算機輔助編碼。人工編碼包括編碼標準構建、編碼員培訓和編碼員間編碼可靠性評估等要素[20]。有研究證實提早確立編碼標準有利于辨清和查找文本內容中固有的語義問題[21],由于當前大多數編碼方案是通過閱讀文本歸納所得,因此為了確保內容分析法有效,在對政策文本進行編碼前,往往需要邀請專家對編碼標準進行修訂。此外,由于人工編碼依賴于人工對文本的理解,因此編碼初期需要測度編碼員對內容編碼的一致性,即信度檢驗,通常認為Kappa系數達到0.8以上時編碼可靠[22]。
隨著計算機技術的進展,計算機輔助編碼蓬勃發展。CAQDAS、Code-A-text,Ethnograph、MAXQDA、Nvivo、QDA Miner、Symphony Content Analysis、ROST Content Mining(ROST CM)、DICTION、AtlasTi和ALCESTE等文本分析工具的出現,幫助了編碼人員對大樣本文本內容進行編碼[20,23-24]。有研究者對比了人工編碼和工具編碼的結果,發現使用計算機輔助編碼一定程度提高了編碼效率,降低了編碼成本[25],但仍要注意信度檢驗。
3.2.2?主要的應用
當前許多國內學者采用內容分析法進行政策發展演化研究,從政策工具[26-27]、政策主體[28]、政策作用場域[25]等方面分析并總結了某領域政策演化的階段性特征及路徑趨勢[29-31]。黃新平等[25]對我國72份科技金融發展政策進行編碼分類,總結出其政策工具體系、結構及運行特征。黃如花等[22]對我國政府數據開放共享政策文本進行編碼,并基于編碼結果進行描述性統計和分析。Huang C等[9]從“政策目標—政策工具”角度對中國核能政策進行編碼,通過計算“政策目標—政策工具”網絡節點的特征向量中心性,確定了不同時期的主要“政策目標”和主要“政策工具”,梳理了我國核能政策的演變過程。裴雷等[32]對我國智慧城市政策文本進行編碼和扎根統計,分析了我國智慧城市建設的現狀。程瑨[33]綜合利用內容分析法和計量分析法,探究了政策轉移與政策協同的關系。
3.2.3?目前的局限與發展方向
內容分析法從語義的角度對政策文本進行編碼,并使用統計學指標、PMC指數模型[34]等對編碼結果進行計算分析,具有可操作性強、適用性廣等特點。內容分析法在具體應用方面存在一些需要注意的地方,包括清楚地說明抽樣依據,分析框架設計的合理性,編碼方案等。此外,隨著樣本數量和分析視角的增加,內容分析法的人力成本和使用難度將成倍增長,如何提高內容分析法的效率是亟待解決的問題,其中立足政策文本特征制定通用的分析單元體系和框架,基于當前通用的文本分析工具研制專用于政策文本分析的工具等將是有效的解決途徑。
3.3?效詞分析法
效詞分析(Tokenization)源于自然語言處理(NLP),是指通過文本表示模型將文本分解成可處理的基本單元[35]。該方法使用文本表示模型表征政策文本中有意義的內容,旨在最大程度實現自動化文本分析,這也是該方法與前兩類方法的最大區別。在政策研究領域,國外學者將此類方法統稱為“Text as Data”[36],以區別于自然語言處理、文本挖掘等較為通用的表示。該方法集成了機器學習、自然語言處理、文本挖掘等技術[23,37-39],可以從語義角度量化和分析大型文本集,為進行大樣本量政策文本的深入分析提供了機會。如Haeder S F等[38]利用Heckman選擇模型和自動內容分析軟件WCopyfind分析了美國管理和預算辦公室(OMB)大量政策法規的變化。
3.3.1?分析流程
效詞分析法的流程由Grimmer J等[36]最早提出,通常包含以下步驟:①獲取文本,并對文本進行效詞處理;②根據研究問題選擇合適的算法進行計算和分析;③對建立的模型進行評估并驗證;④結合實際問題對結果進行實質性解析[40]。
3.3.2?文本效詞處理
根據語義表達粒度不同,常將文本表示分為詞語級、句子級和篇章級,其中詞語是語義最細粒度的表達。結合政策文本研究對語義的關注,效詞分析法通常基于詞袋模型表示文本,如TF-IDF算法;為了提高語義表示的精度,研究者也使用文本分布式表示方法,如Skip-Gram模型等。
1)詞袋模型
詞袋模型(Bag of Words Model)是常用的文本表示方法。其特點在于不考慮詞語在文檔中出現的順序,將文檔表示成一系列不同詞語的組合,即所謂的單詞袋,并計算文本中出現的不同單詞的頻率。Linguistic Inquiry Word Count(LIWC)是基于詞袋模型構建的自動詞分析工具[41],有研究者使用該工具對政策文本進行量化,把LIWC生成的單詞作為語言變量進行統計學角度的研究[42]。基于詞袋模型的常見工具還包括WordScores[7]和WordFish[43],這兩個工具常用于從政策文本中提取觀點意圖[44]。WordScores是有監督學習模型,依賴于帶有標簽的文檔樣本,例如有專家注釋的政黨宣言,以帶標簽文檔中單詞出現的相對概率作為每個單詞的分數,并將此分數視為相應意圖的指標,之后將分數應用于新文檔中找到的單詞,以此估計新文檔的政治立場類型。Daigneault P M等[45]使用WordScores定量分析半結構化訪談出版物,研究表明Wordscores在補充定性分析方面具有較大潛力。WordFish是無監督學習模型,所需的唯一輸入是列出了所有文檔中每個單詞頻率的單詞頻率矩陣,因此避免了WordScores對專家注釋的依賴和某些單詞語義受表達習慣和語義環境影響等問題。
詞袋模型考慮到了用單詞來映射文本語義,但未考慮詞法和語序的問題,如僅關注一個單詞在文檔中是否出現和其出現次數,而忽略其上下文關系,這往往會丟失一部分文本的語義。從理論上講,WordScores和WordFish都可以擴展為一個以上單詞的序列,但這會增加計算成本[46]。有學者針對此問題進行了探索,如Alschner W等[47]使用由文本中連續5個字符組成的“詞”的詞袋模型[48]來表示雙邊投資條約(BIT)文本。總體而言,詞袋模型能從語義角度表示文本且易于解釋,但其依賴單詞詞頻,在實踐中還需考慮單詞和上下文的關系以及處理高維度變量時權衡計算成本等問題。
2)分布式表示
分布式表示(Distributed Representation)通常也被稱為基于神經網絡的分布表示、詞嵌入或詞向量(Word Embedding)。相比詞袋模型離散、高維且稀疏的表示,分布式表示將詞表示成一個低維且連續的稠密向量。Word2vec是常用的工具,首先輸入文本語料作為訓練集,根據訓練文本數據構建詞匯表,并學習單詞的向量表示,最后生成低維連續的實數向量并輸出。Rodman E[49]使用Word2vec對單詞含義隨時間變化的過程進行分析,顯示出詞嵌入模型在政策研究領域的應用潛力。Rheault L等[46]介紹了詞嵌入模型在分析議會演講文本方面的應用;Jentsch C等[50]為了研究政黨立場,提出了一種詞典可隨時間變化的新模型。詞向量認為相同上下文語境的詞具有相似的含義,因而能夠通過共現來發現和表示單詞之間的關系,在一定程度上解決了僅依賴單詞詞頻方法導致的語義不足問題。但是,詞向量的使用效果非常依賴訓練用的文本語料庫,語料越多效果越好。
3.3.3?效詞分析
通過文本挖掘工具或方法對文本效詞處理后[51],需要根據研究問題選擇合適的算法進行計算和分析,如主題模型[52-53]、文本相似度算法[54]、循環神經網絡[55]等。Hollibaugh G E等[40]使用結構主題模型(Structural Topic Model)將現實事件與主題變化相對應,以分析政策文本中的主題變化。Alschner W等[47]使用Jaccard Distance來計算全球主要國家的雙邊投資條約的文本相似度,研究追溯了全球主要國家投資條約文本中的一致性和創新性。楊銳等[56]通過高頻詞識別、共詞分析及關鍵詞聚類等方法探索了不同階段科研誠信政策的主題演變。
3.3.4?主要的應用
效詞分析法目前在國內外應用逐漸廣泛,不僅促進了政策文本研究方法的創新,而且也為定量分析政策文本提供了新的視角。首先,該方法可用來深度挖掘大樣本量或時間跨度較長的政策文本。盛東方等[57]使用LDA主題模型分析了401份文本,以研究突發公共事件下中小企業扶持政策的供需匹配問題。張寶建等[58]采用K-means聚類算法分析了我國1996—2017年57份國家科技創新政策典型文本,揭示出不同政策在科技創新發展各個階段表現出的差異性和失配特征。其次,效詞分析法常用以分析政黨立場、政治傾向等隱含知識[59-60]。Windsor L等[42]將領導人發言中的單詞變成數據進行研究,提供了對某些政治現象的解釋依據。Shaffer R[61]利用國會會議筆錄的原始數據集來測量個人關注度的多樣性。Rheault L等[46]通過對議會演講文本的分析,估算了政黨立場。利用政策文本研究政治主體的政治傾向,一定程度彌補了傳統訪談法樣本小,受時間、人力限制[50]以及訪談過程中訪談對象易受影響等不足。
此外,效詞分析法能廣泛利用非傳統政策文本分析公共政策問題,如社交媒體數據。Meng Q等[62]使用社交網絡分析工具PKUVIS對政府在微博上發布的消息進行深入分析,探討了政府在社交媒體上如何治理突發公共事件。Barberá P等[63]分析了數百萬Twitter用戶的社交媒體數據用以估算用戶的政治傾向。Chang W H等[64]通過分析大量異構社交媒體數據,研究了政治立場和政治策略等問題。Casas A等[65]分析了上萬條美國共和黨人的推文(Twitter)發現,強大的政黨形象可以幫助候選人保持或獲得多數控制權。Miller C[66]通過對來自澳大利亞兩個最盛行的反伊斯蘭團體在社交媒體上的所有公開帖子進行分析,調查了這些團體的關注點。
3.3.5?優勢與不足
效詞分析法集成了自然語言處理中的文本表示模型以及文本挖掘中的多項技術,能夠借助計算機快速處理大樣本量的政策文本,人力成本低,結果可復制性強,一定程度彌補了政策計量分析深度不夠和內容分析方法無法快速分析大樣本文本數據的不足。但該方法仍有需要改進的地方,如為了獲得較好的分析結果,易出現模型過擬合等問題[67];由于不同領域政策研究問題的側重點與分析精度需求不同,加之政策文本類型多樣,僅通過已有模型或單一數據源進行政策研究也是不夠的。此外,相較前兩類方法,效詞分析法存在一定的技術門檻,雖然目前有不少開源工具包可使用[68-69],但在實踐中仍要求具備一定的技術能力。因此,效詞分析法未來需結合政策研究實踐中的真實問題,不斷設計和開發符合政策研究特點的分析框架、方法與工具等。
4?總結、討論與展望
4.1?總結與討論
政策文本量化作為一種新興的跨學科研究方向,建立在多學科研究知識和技術專長之上。近年來研究人員在方法融合、數據拓展、實踐應用等方面進行了積極的探索和研究,取得了一定的研究成果。在研究方法上,不斷融合機器學習、自然語言處理、文本挖掘等新技術和新工具,逐步向大規模政策文本分析發展;在工具方面,關注并探索政策文本專用分析工具的研制,如政策分析專有詞表;在分析深度上,從基于政策文本外部結構屬性的分析逐步深化至對文本內部語義特征的挖掘;在數據類型上,積極推動專業語料庫的建設和跨語料庫的分析,如多語種分析、視頻、音頻等多語料分析等;在應用方面,從傳統的政策演化、協同、擴散等研究,拓展至政策認同、政治傾向、政治策略、政黨競爭與合作以及選情預測等研究。
[8]Gentzkow M,Kelly B,Taddy M.Text as Data[J].Journal of Economic Literature,2019,57(3):535-74.
[9]Huang C,Yang C,Su J.Policy Change Analysis Based on“Policy Target-Policy Instrument”Patterns:A Case Study of China's Nuclear Energy Policy[J].Scientometrics,2018,117(2):1081-114.
[10]宋偉,夏輝.地方政府人工智能產業政策文本量化研究[J].科技管理研究,2019,39(10):192-9.
[11]張會平,郭寧,湯璽楷.推進邏輯與未來進路:我國政務大數據政策的文本分析[J].情報雜志,2018,37(3):152-7,92.
[12]蘇竣,黃萃.中國科技政策要目概覽[M].北京:科學技術文獻出版社,2012.
[13]黃萃,趙培強,李江.基于共詞分析的中國科技創新政策變遷量化分析[J].中國行政管理,2015,(9):115-22.
[14]李燕萍,劉金璐,洪江鵬,等.我國改革開放40年來科技人才政策演變、趨勢與展望——基于共詞分析法[J].科技進步與對策,2019,36(10):108-17.
[15]陳慧茹.基于扎根理論的國家自主創新示范區科技創新政策共詞網絡研究[D].合肥:中國科學技術大學,2017.
[16]張劍,黃萃,葉選挺,等.中國公共政策擴散的文獻量化研究——以科技成果轉化政策為例[J].中國軟科學,2016,(2):145-55.
[17]劉建華.基于實體及實體間關系的科技政策演化揭示方法研究[D].北京:中國科學院大學,2017.
[18]邱均平,鄒菲.關于內容分析法的研究[J].中國圖書館學報,2004,30(2):12-7.
[19]Rothwell R,Zegveld W.Reindusdalization and Technology[J].Logman Group Limited,1985:83-104.
[20]Neuendorf K A,Kumar A.Content Analysis[J].The International Encyclopedia of Political Communication,2015:1-10.
[21]Berelson B.Content Analysis in Communication Research[J].1952.
[22]黃如花,溫芳芳.我國政府數據開放共享的政策框架與內容:國家層面政策文本的內容分析[J].圖書情報工作,2017,61(20):12-25.
[23]Pandey S,Pandey S K,Miller L.Measuring Innovativeness of Public Organizations:Using Natural Language Processing Techniques in Computer-Aided Textual Analysis[J].International Public Management Journal,2017,20(1):78-107.
[24]李燕萍,吳紹棠,郜斐,等.改革開放以來我國科研經費管理政策的變遷、評介與走向——基于政策文本的內容分析[J].科學學研究,2009,27(10):1441-7,53.
[25]黃新平,黃萃,蘇竣.基于政策工具的我國科技金融發展政策文本量化研究[J].情報雜志,2020,39(1):130-7.
[26]譚春輝,謝榮,劉倩.政策工具視角下的我國科技評估政策文本量化研究[J].情報雜志,2020,39(10):181-90.
[27]李健,榮幸.“放管服”改革背景下社會組織發展的政策工具選擇——基于2004—2016年省級政策文本的量化分析[J].國家行政學院學報,2017,(4):73-8,146-7.
[28]許斌豐.技術創新鏈視角下長三角三省一市區域創新系統協同研究[D].合肥:中國科學技術大學,2018.
[29]楊艷,郭俊華,余曉燕.政策工具視角下的上海市人才政策協同研究[J].中國科技論壇,2018,(4):148-56.
[30]劉紅波,林彬.中國人工智能發展的價值取向、議題建構與路徑選擇——基于政策文本的量化研究[J].電子政務,2018,(11):47-58.
[31]范利君.2006—2014年間中國創新政策協同演變研究[D].成都:電子科技大學,2016.
[32]裴雷,周兆韜,孫建軍.政策計量視角的中國智慧城市建設實踐與應用[J].圖書與情報,2016,(6):41-6.
[33]程瑨.國家自主創新示范區政策轉移量化與協同研究[D].合肥:中國科學技術大學,2017.
[34]張永安,郄海拓.國務院創新政策量化評價——基于PMC指數模型[J].科技進步與對策,2017,34(17):127-36.
[35]Webster J J,Kit C.Tokenization As The Initial Phase In NLP,F,1992[C].
[36]Grimmer J,Stewart B M.Text as Data:The Promise and Pitfalls of Automatic Content Analysis Methods for Political Texts[J].Political Analysis,2013,21(3):267-97.
[37]Marvel J D,Mcgrath R J.Congress as Manager:Oversight Hearings and Agency Morale[J].Journal of Public Policy,2016,36(3):489-520.
[38]Haeder S F,Yackee S W.Influence and the Administrative Process:Lobbying the U.S.President's Office of Management and Budget[J].American Political ence Review,2015,109(3):507-22.
[39]Baker S R,Bloom N,Davis S J.Measuring Economic Policy Uncertainty[J].The Quarterly Journal of Economics,2016,131(4):1593-636.
[40]Hollibaugh G E,J R.The Use of Text as Data Methods in Public Administration:A Review and an Application to Agency Priorities[J].Journal of Public Administration Research and Theory,2019,29(3):474-90.
[41]Tausczik Y R,Pennebaker J W.The Psychological Meaning of Words:LIWC and Computerized Text Analysis Methods[J].Journal of Language and Social Psychology,2010,29(1):24-54.
[42]Windsor L,Dowell N,Windsor A,et al.Leader Language and Political Survival Strategies[J].International Interactions,2018,44(2):321-36.
[43]Slapin J B,Proksch S O.A Scaling Model for Estimating Time-series Party Positions from Texts[J].American Journal of Political Science,2008,52(3):705-22.
[44]Hjorth F,Klemmensen R,HobolT S,et al.Computers,Coders,and Voters:Comparing Automated Methods for Estimating Party Positions[J].Research & Politics,2015,2(2).
[45]Daigneault P M,Duval D,Imbeau L M.Supervised Scaling of Semi-structured Interview Transcripts to Characterize the Ideology of a Social Policy Reform[J].Quality & Quantity,2018,52(5):2151-62.
[46]Rheault L,Cochrane C.Word Embeddings for the Analysis of Ideological Placement in Parliamentary Corpora[J].Political Analysis,2020,28(1):112-33.
[47]Alschner W,Skougarevskiy D.Mapping the Universe of International Investment Agreements[J].Journal of International Economic Law,2016,19(3):561-88.
[48]Spirling A.U.S.Treaty Making with American Indians:Institutional Change and Relative Power,1784-1911[J].American Journal of Political Science,2012,56(1):84-97.
[49]Rodman E.A Timely Intervention:Tracking the Changing Meanings of Political Concepts with Word Vectors[J].Political Analysis,2020,28(1):87-111.
[50]Jentsch C,Lee E R,Mammen E.Time-dependent Poisson Reduced Rank Models for Political Text Data Analysis[J].Computational Statistics & Data Analysis,2020,142.
[51]張永安,閆瑾.基于文本挖掘的科技成果轉化政策內部結構關系與宏觀布局研究[J].情報雜志,2016,35(2):44-9.
[52]Blaydes L,Grimmer J,Mcqueen A.Mirrors for Princes and Sultans:Advice on the Art of Governance in the Medieval Christian and Islamic Worlds[J].Journal of Politics,2018,80(4):1150-67.
[53]楊慧,楊建林.融合LDA模型的政策文本量化分析——基于國際氣候領域的實證[J].現代情報,2016,36(5):71-81.
[54]張濤,馬海群,易揚.文本相似度視角下我國大數據政策比較研究[J].圖書情報工作,2020,64(12):26-37.
[55]Alschner W,Skougarevskiy D.Can Robots Write Treaties?Using Recurrent Neural Networks to Draft International Investment Agreements[M].Bex F,Villata S.Legal Knowledge and Information Systems,2016b:119-24.
[56]楊銳,楊亮,李良強,等.我國科研誠信政策特征及演化邏輯——基于文本挖掘法[J].科技進步與對策,1-10.
[57]盛東方,尹航.基于政策文本計算的突發公共事件下中小企業扶持政策供需匹配研究——以新冠肺炎疫情為例[J].現代情報,2020,40(8):10-9.
[58]張寶建,李鵬利,陳勁,等.國家科技創新政策的主題分析與演化過程——基于文本挖掘的視角[J].科學學與科學技術管理,2019,40(11):15-31.
[59]Gentzkow M,Shapiro J M,Taddy M.Measuring Group Differences in High-Dimensional Choices:Method and Application to Congressional Speech[J].Econometrica,2019,87(4):1307-40.
[60]Laver M,Garry J.Estimating Policy Positions from Political Texts[J].American Journal of Political Science,2000,44(3):619-34.
[61]Shaffer R.Cognitive Load and Issue Engagement in Congressional Discourse[J].Cognitive Systems Research,2017,44:89-99.
[62]Meng Q,Zhang N,Zhao X,et al.The Governance Strategies for Public Emergencies on Social Media and Their Effects:A Case Study Based on the Microblog Data[J].Electronic Markets,2016,26(1):15-29.
[63]Barberá P,Jost J T,Nagler J,et al.Tweeting from Left to Right:Is Online Political Communication More Than an Echo Chamber?[J].Psychological Science,2015,26(10):1531-42.
[64]Chang W H,Li J L,Lee C C,et al.Learning Semantic-Preserving Space Using User Profile and Multimodal Media Content from Political Social Network[M].2019 Ieee International Conference on Acoustics,Speech and Signal Processing,2019:3990-4.
[65]Casas A,Wilkerson J.A Delicate Balance:Party Branding During the 2013 Government Shutdown[J].American Politics Research,2017,45(5):790-812.
[66]Miller C.Australia's Anti-Islam Right in Their Own Words.Text as Data Analysis of Social Media Content[J].Australian Journal of Political Science,2017,52(3):383-401.
[67]Egami N,Fong C J,Grimmer J,et al.How to Make Causal Inferences Using Texts[J].arXiv Preprint arXiv:180202163,2018,
[68]Wilkerson J,Casas A,Annual R.Large-Scale Computerized Text Analysis in Political Science:Opportunities and Challenges[M].Annual Review of Political Science,2017,20:529-44.
[69]Benoit K,Watanabe K,Wang H,et al.Quanteda:An R Package for the Quantitative Analysis of Textual Data[J].Journal of Open Source Software,2018,3(30):774.
[70]段堯清,周密,尚婷.我國政府信息公開態勢及其調控策略研究——基于2008—2018年國務院部門政府信息公開年報分析[J].現代情報,2020,40(8):121-8,77.
[71]陳玲,段堯清.我國政府開放數據政策的實施現狀和特點研究:基于政府公報文本的量化分析[J].情報學報,2020,39(7):698-709.
[72]Proksch S-O,Wratil C,Waeckerle J.Testing the Validity of Automatic Speech Recognition for Political Text Analysis[J].Political Analysis,2019,27(3):339-59.
[73]Alschner W,Seiermann J,Skougarevskiy D.Text of Trade Agreements(ToTA)A Structured Corpus for the Text-as-Data Analysis of Preferential Trade Agreements[J].Journal of Empirical Legal Studies,2018,15(3):648-66.
[74]Benoit K,Conway D,Lauderdale B E,et al.Crowd-sourced Text Analysis:Reproducible and Agile Production of Political Data[J].American Political Science Review,2016,110(2):278-95.
[75]Roberts M E,Stewart B M,Tingley D.Stm:An R Package for Structural Topic Models[J].Journal of Statistical Software,2019,91(1):1-40.
(責任編輯:郭沫含)