孫夢
(濟南大學商學院,山東 濟南 250000)
我國的科技創新政策從上世紀八十年代來一直備受關注,尤其是近年來中國經濟處于飛速發展的階段,作為經濟轉型動力的“創新”就更受重視了,科技創新政策是中國經濟變革中十分重要的一部分,對于近些年來對科技創新政策轉變的研究也不斷增多,這其中包含了多種的研究方式,早些年只能通過人工統計分析研究科技創新政策的演變路徑,如劉鳳朝將統計分析的方法引進創新政策研究領域,對1980 年到2005 年間289 項科技創新政策進行統計分析我國科技創新政策的演變路徑[1]。伴隨著科技創新政策數量的快速膨脹,從大量的科技創新政策文本中得出科技創新政策的演化路徑就不再能夠通過傳統的人工統計分析進行實現,好在文本挖掘技術的不斷成熟以及文本挖掘技術在政策研究中的成熟利用,使得對于政策的研究更為方便,文本挖掘的方法能夠快速處理大量的文本信息,且能夠更大概率避免人為主觀思想的影響。
政策文本指的是由國家或地區的各級機關以文件形式頒布的法律法規、規章制度等文件。文件是一種載體,在一定程度上能夠反映政策頒布的意圖,并且對于追溯文件的發展提供了事實依據。所以對于大量科技創新政策演化路徑的分析有利于追溯科技領域的發展路徑,本文擬從大量的政策文本中梳理政策文本的演化路徑,進而對做出演化預測具有十分重要的意義。
國內外學者對于文本政策的量化分析也有著各種各樣的維度,既有對政策發布機關等外部要素的研究,同時也有大量對政策內容本身的研究。在對外部要素研究方面,黃萃等基于1978-2013 年中國中央部門聯合行文的科技政策文本,繪制出不同階段政府各部門合作網絡圖,并基于責任與利益兩個維度,對府際合作關系分類進行了討論[2]。當然更多的文獻著重于對政策內容的研究,如劉云等分析研究了中國不同階段創新國際化政策的主題變遷,并結合新形勢新需求,提供了若干啟示[3]。郄海拓、張志娟通過政策文本的高頻詞來概括創新政策聚焦于“創新”“科技”和“技術”等,并利用小團體分析法梳理了政策內容的深層邏輯,為創新指明方向、提供支持[4]。
本研究擬選取山東省2011-2020 十年間發布的科技創新政策文本為研究對象。本文擬采用的選取數據樣本的方法是:首先需要通過相關數據庫獲取有關科技創新的政策文件,然后再通過對有關科技創新政策的相關研究,對獲取政策進行篩選,獲得最終本文研究的樣本文本。利用Python 語言的jieba 包對政策文本按照不同年份的數據進行分詞處理,接下來建立行業詞庫,并保存作為相應的詞庫。
對政策文本進行分詞,并將分詞結果統計成詞頻,由高到低呈現。詞頻的高低能提現詞語在文中的重要程度,通過篩選得到部分詞頻統計結果,并且可以根據行業的高頻詞匯生成詞云圖,更加直觀地展現十年間政策文本中行業詞匯的變化,從而能夠分析政策文本的演化方向。
本研究選擇的政策文本的來源為北大法寶法律數據庫。在北大法寶法律數據庫中分別搜索科技、創新政策,將數據下載構成樣本數據。通過搜索2011-2020年10 年內與創新相關的山東省法律規章等文件,最終通過人工篩查得到了山東省2011-2020 年共108 篇文獻。

表1 山東省創新政策的數量統計
1.文本分詞處理
由于篩選好的科技創新政策文本都是非結構化的數據,需要對政策文本進行預處理。對于政策文本的處理,首先就是要進行分詞處理,分詞的準確與否很大程度上決定了政策文本演化分析研究的科學與否。隨著計算機技術的成熟與發展,有多種分詞的工具可供使用,由于在計算機領域和數據分析領域的應用有所不同。所以在政策分析時十分常用的分詞工具就是Python第三方中文分詞庫jieba分詞,jieba 分詞支持三種分詞模式:精確模式、全模式和搜索引擎模式,本研究采用的就是jieba 分詞的精確模式。
2.停用詞處理
停用詞指的是在文本中對文本主題內容沒有太大影響的詞語。這些詞語在政策文本中出現的頻率可能很高、但又對于結論無實際意義,去掉停用詞可以減少數據維度,提高文本處理的效率和準確度,所以下一步就是去掉停用詞的影響。
本研究使用python 語言將108 篇政策文本非結構化數據結構化,進行jieba文本分詞,在導入停用詞后去掉了文本中的停用詞,使政策文本數據的復雜度降低,從而使文本挖掘的效率提升,預處理后的政策文本分詞有一定的效果,去掉冗余數據后為后續的分析做好了準備。
對行業詞的詞頻進行統計,由高到低呈現。詞頻的高低能提現詞語在文中的重要程度。從分詞結果中可以得到,2011-2020 年行業詞在當年所發布的政策文本中出現頻次數前三位如表2 所示。

表2 山東省創新政策的行業詞頻次排名統計
為了讓高頻詞的展現更加直觀清晰,從山東省每年的科技創新政策文本中選取高頻詞和頻數的行業詞匯進行匯總,在匯總后剔除頻率較低的行業詞匯,使用python語言中的wordcloud包制作詞云圖,進行對比分析,在詞云圖中,字體越大,代表這個詞的詞頻越高,出現的次數越多。2011-2020 年間高頻行業詞直觀展示詞云圖如圖1。
通過詞云圖,我們可以直觀看到十年間的變化。首先,2011 年政策文件中多次提到發展特色產業,這相對于后來的政策文件中提到的內容來說是比較特別的,到了2014 年“特色產業”仍是較高頻的詞匯,2015 年后來的文件可能較少出現“特色產業”,但開始出現高頻的“新興產業”“科技”等字眼。這些文件中對于特色產業、新興產業等要求也體現了不斷變化中的政策需求,即希望在科技信息化的時代潮流中,把握機會發展特色產業以及新興產業,從而保持經濟的增長。第二,從詞云圖可以看到“農業”、“工業”、“制造業”等詞幾乎在每一年的政策文件中都是被高頻提到的,后來還多次出現“現代農業”的字眼,說明了對于農業的重視,也說明了在農業的發展過程中要利用信息化、智慧農業等促進山東省農業的現代化發展。第三,“服務業”的發展也是山東省產業發展的重點,在2011 年至2018 年的政策文件中都是以高或者較高頻率的詞匯出現的,所以說明政府和機構也希望通過指定合理有效的產業政策來促進服務業的發展。第四,從2018 年至2020 年,出現了“互聯網”這樣的高頻詞,這對于前些年來說是較大的改變,說明了政府在這幾年內對于互聯網產業的扶持與發展。另外“互聯網”、“IT”等詞幾乎代表了信息化的發展,現今各個行業的發展都離不開科技的發展與進步,哪個行業的信息化發展的越好,說明是更為科學有效的發展。
通過分析研究,我們可以看到山東省政策文件多為鼓勵山東省現有老牌產業和特色產業的發展,對于農業、工業、制造業等行業仍是山東經濟發展的重頭戲,也是多次提倡和鼓舞發展的。但發展也要跟緊時代的步伐,加快建設現代農業、新興產業的發展,才能不斷進步,我始終認為信息化的發展對于各行各業來說都是必不可少的,行業的信息化越成熟,越方便其發展,所以在此后的政策文件中對于行業方向的要求更應該側重新興產業的發展以及各行各業的信息化發展。
本文對于行業發展的推斷來源于文本挖掘和數據分析的結果,但整體來說行業詞的出現頻率并不很高,數據量不夠大時就無法做出更科學合理的結論,只針對現有的分詞結果所得出的結論稍顯片面,日后也將尋求新的方法解決此問題。