劉璐 余文斌 李欣桐 趙毅 何喜軍



[摘 要]提高政策與文獻研究的協同效果,有利于加強科學研究對政策制定的支撐作用,以及政策制定對科學研究的引導作用。以中國知網和白鹿數據為數據源,基于Word2Vec和余弦相似度構建政策與文獻文本的語義匹配度模型,研究京津冀協同發展政策與文獻的匹配度及熱點。研究發現:匹配度逐年上升,但匹配度值仍不夠高;政策對科學研究有正向引導作用;政策與文獻的熱點呈現多元化趨勢;政策持續關注點為城市建設,此外科技、環境、交通協同發展等也是熱點;經濟協同發展與產業轉移、環境、區域空間建設、協同創新是研究熱點。文章為政策與文獻匹配度的定量研究提供了思路和方法。
[關鍵詞]京津冀協同發展;政策;文獻;語義匹配度;熱點
[DOI]10.13939/j.cnki.zgsc.2019.35.029
1 引言
2014年2月,京津冀協同發展上升為國家戰略,為京津冀三地的跨越式發展提供重要機遇。5年來,為推動戰略實施,國家和京津冀三地政府陸續出臺多項政策,學術界也圍繞區域協同創新開展系列研究,取得了階段性的成果。在戰略實施進入攻堅階段,政策與科學研究的協同性和匹配性尤為重要,匹配度高,說明科學研究對政策制定的支撐作用加強,同時政策制定引導科學研究的問題導向功能加強。目前,已有成果多從單一維度研究政策熱點和科學前沿挖掘,對兩者語義匹配度的研究還較少關注。因此,本文將利用文本挖掘中語義分析方法基于時間系列研究政策與文獻的匹配度,并挖掘政策與文獻熱點,為提高兩者的協同效果提供對策建議,從而加強科學研究對政策制定的支撐作用,以及政策制定對科學研究的引導作用。
2 文獻回顧
2.1 京津冀協同發展政策研究及熱點識別
京津冀協同發展的核心是有序疏解北京非首都功能。董微微[1]通過對中央報刊政策文本的關鍵詞和主題詞的提煉及分析,探究京津冀協同發展熱點主題和前沿趨勢;黃萃等[2]提出政策文獻量化研究,為公共政策研究提供新方向。
2.2 京津冀協同發展文獻研究及熱點識別
魏進平等[3]利用文獻計量學和共詞分析等方法,總結京津冀協同發展的研究熱點和趨勢;陳辰[4]等結合詞頻統計與高頻關鍵詞的語義關聯分析,挖掘京津冀協同發展的熱點主題。
2.3 政策與文獻語義匹配方法研究現狀
王崇德[5]研究證明文獻計量學是科學政策制定有力的輔助工具;徐揚輝[6]表明公共政策制定過程離不開社會科學研究方法的運用。因此,研究政策與文獻語義匹配度有利于反映科研成果的有效性。目前,基于關鍵詞共現和基于語義共現匹配方法應用比較多。關鍵詞共現方法認為:關鍵詞在同篇文獻中兩兩出現的頻次越多,則認為這兩個詞的相關性強,但是當共現次數相同時則無法判斷相關性強弱,且該方法無法判斷語義相同但不共現的關鍵詞之間的相關性強度,因此,該方法更適用于相關性問題識別。基于語義共現匹配方法能更好地彌補上述方法的不足,例如:基于信息內容的詞向量模型[7],可以根據特征選擇和統計構造向量空間,計算向量的語義相似性。
本文將采用MIKOLOV等[8]提出的Word2Vec模型結合維基百科語料庫將政策與文獻文本轉化為低維實數向量,再結合余弦相似度計算政策與文獻的語義匹配度。
3 基于詞向量的政策與文獻語義匹配度模型
關于模型構建步驟,有以下三步。
3.1 采集政策與文獻文本詞集
通過Python切詞工具將政策與文獻文本切分成詞集,將文獻詞集表示為Si={Si_1,Si_2,…,Si_p}(i=1,2,…,m),m為文獻詞的個數,將政策詞集表示為Dj={Dj_1,Dj_2,…,Dj_q}(j=1,2,…,n),n為政策詞的個數。計算語義相似度是先計算詞語之間的距離,距離越小則相似度越大,因此,兩個詞集中相同詞語越多,那么其相似度也就越高,但是語義相似是指不同詞語的含義相似度,因此要將兩個詞集做去重處理。處理后的Si表示為S—i={S—i_1,S—i_2,…,S—i_p′}(p′為文獻詞集去重后詞的個數),Dj表示為D—j={D—j_1,D—j_2,…,D—j_q′}(q′為政策詞集去重后詞的個數),兩詞集的交集個數為r,且0≤r≤min(p,q)。
3.2 訓練詞向量模型
將采集到的政策與文獻信息以及維基百科數據作為語料庫,利用Word2Vec模型訓練文本,將所有的詞向量化,以此來表示詞與詞之間的關系,進而得到詞向量模型。
3.3 計算政策與文獻的語義匹配度
利用基于詞向量的詞集相似度方法[9-10]計算政策與文獻文本語義匹配度。以計算S—i和D—j中的Sim(S—i_1,D—j_1)為例,設ai和bi分別為S—i_1和D—j_1的詞向量,h為詞向量的維數,則:
Sim(S—i_1,D—j_1)=∑hi=1(ai×bi)∑hi=1(ai)2×∑hi=1(bi)2(1)
同理,可得p′×q′的語義匹配度矩陣M1:
M1Sim(S—i_1,D—j_1)Sim(S—i_1,D—j_2)…Sim(S—i_1,D—j_q′)
Sim(S—i_2,D—j_1)Sim(S—i_2,D—j_2)…Sim(S—i_2,D—j_q′)
Sim(S—i_p′,D—j_1)Sim(S—i_p′,D—j_2)…Sim(S—i_p′,D—j_q′)
將M1中的最大值元素Sim(S—i_k,D—j_v)添加到集合R中,刪除Sim(S—i_k,D—j_v)所在的第k行和第v列的所有元素值;重復以上過程,直到集合R中的元素個數T為min(p′,q′),從而得到集合R={Sim1,Sim2,…,SimT},詞集S—i和D—j的匹配度即為集合R中各元素的加權平均值,公式為:
Sim(Si,Dj)=Sim(S—i,D—j)=(p+q)×(r+∑Tt=1SimT)2pq(2)
4 京津冀協同發展政策與文獻匹配度測算
4.1 數據檢索與統計分析
文獻數據來源為中國知網,檢索時間為2014—2018年,檢索主題為 “京津冀”和“環渤海”,文獻類別為CSSCI和CSCD,共檢索到1951篇。政策文本來源為白鹿數據,檢索時間同上,檢索詞為:“京津冀”“環渤海”“北京”“天津”“河北”,共檢測到1004個政策。政策與文獻發表時間及數量分布如圖1所示。
由圖1發現,2014—2017年,文獻數量快速增長,政策數量在2014年達到最高后,呈現下降趨勢;2018年,文獻和政策數量均呈現下降趨勢。分析其原因:國家戰略制定后,各級部門快速反應并制定相關政策,短周期內政策數量達到頂點,后續圍繞實踐中面臨的主要問題進行政策的調整和完善,數量趨于平穩;而文獻研究需要周期較長,但在政策引導下,關注范圍持續升高,成果快速增長。經過5年的周期,政策與制度相對完善,呈現下降趨勢,從研究層面,對問題的關注更加深入,主題更加豐富和多元化,例如近年來的“雄安新區”建設則成為京津冀協同發展的研究熱點,但因檢索詞中未涉及,導致從數據統計上文獻數量呈下降趨勢。
4.2 匹配度計算與分析
利用基于詞向量的匹配度模型計算政策與文獻的匹配度。結果如表1所示。
由表1可得:其一,5年來,政策與文獻的語義匹配度呈現增長趨勢,說明兩者的協同性持續增長,政策研究的引導作用及文獻研究對政策的支撐作用持續增強。其二,5年來,政策與文獻的語義匹配度雖然呈現增長趨勢,但匹配度相對較小,說明政策與文獻研究的差異性依然較大。
4.3 政策與文獻的熱點挖掘及差異性分析
由于政策和文獻關注點差異較大,歸納政策與文獻的熱點關鍵詞如表2所示。
基于此,將兩類文本的熱點詞匯可視化,得到圖2、圖3、圖4和圖5所示。
4.3.1 政策熱點變化分析
結合政策熱點詞頻統計,得出政策持續關注點為城市建設,此外科技、環境、交通協同發展等也是熱點。其中,城市建設一直是政策熱點,2016年9月全國科技創新中心建設上升為國家戰略后,科技協同發展政策成為熱點。隨著大氣、污染等問題的關注度上升,京津冀環境綜合治理也是京津冀政策熱點,且關注度逐年上升。此外,京津冀交通一體化作為《京津冀協同發展規劃綱要》中的重點領域,交通問題五年間三次成為政策熱點。
4.3.2 研究熱點變化分析
結合科學文獻熱點詞頻統計,得出經濟協同發展與產業轉移、環境、區域空間建設、協同創新是研究熱點。其中,經濟協同發展與產業轉移領域主要包括經濟、產業、城市等。《京津冀協同發展規劃綱要》指出要率先突破京津冀生態環境保護、產業升級轉移等重點領域,因此近五年經濟協同與產業轉移一直是首要熱點,環境治理是第二關注點。其次,空間規劃作為實現可持續發展的必要手段和途徑,時空和空間熱度僅次于前兩大熱點。此外,科技創新也是研究熱點。
4.3.3 政策與文獻熱點共性分析
政策與科學研究共性熱點為京津冀城市建設問題。其中,主要涵蓋京津冀資源分配、城市布局、空間結構調整、緩解首都功能壓力、交通服務一體化等方面。此外環境問題連續五年作為政策與文獻的熱點關鍵詞,其中,大氣污染持續受到學者關注,是環境保護中最亟待解決的問題。
4.3.4 文獻、政策熱點差異性分析
政策關注科技與技術。“京津冀協同發展”提出之后,國家出臺多部科技、技術支持政策,以此激勵科技進步、技術開發與轉移,縮小京津冀三地的科技技術水平差距。學者更重視經濟發展、協同創新以及區域空間產業轉移。
綜上所述,隨著政策的完善及研究的深入,熱點呈現多元化趨勢,政策研究與科學探索的匹配性提高。
5 研究結論和不足
本文以維基百科、中國知網以及白鹿數據文本為語料庫訓練詞向量模型,利用Word2Vec結合余弦相似度構建政策與文獻文本語義匹配度模型,對政策與科學研究的契合度以及熱點變化進行研究,得出結論:其一,政策與文獻匹配度穩步提高,科學研究對政策制定的支撐作用增強;其二,政策對科學研究有正向引導作用;其三,政策與文獻匹配度仍不夠高;其四,政策的四大熱點為城市建設、科技、環境、交通;研究的四大熱點為經濟協同發展與產業轉移、環境、區域空間、創新,且五年間熱點變化不大;其五,學者和政策主要關注點相同,但次要關注點不同,導致政策匹配度不夠高。
基于上述結論,為提高政策與文獻匹配度水平,提出如下四點建議。
第一,挖掘政策需求熱點,增強科學研究對政策制定的支撐作用。要深入研究京津冀協同發展政策,關注城市建設、區域環境、經濟社會以及科技創新等領域的潛在問題。
第二,增強政策制定引導科學研究的導向功能。將政策目標細化,從而減小政策推行過程中熱點識別難度,提高政策導向功能。
第三,提高科學研究對政策制定的決策支持作用,科學探索一方面要解決科學難題,另一方面要面向現實問題,因此應用實踐類、案例研究類等問題研究要提高政策建議的有效性和可操作性。
第四,提高政策與科學研究的動態匹配性,要關注基于動態視角分析的政策以及文獻研究的多維統計和熱點挖掘,剖析兩者之間的協同發展關系,以及相互作用。
本研究僅采集了CNKI中收錄的文獻,數據的局限性可能影響了分析的全面性。此外,分詞的準確性會影響文本的量化分析。
參考文獻:
[1]董微微.國內京津冀協同發展研究熱點與趨勢[J].工業技術經濟,2015,34(8):134-138.
[2]黃萃,任弢,張劍.政策文獻量化研究:公共政策研究的新方向[J].公共管理學報,2015,12(2):129-137,158-159.
[3]魏進平,趙王英.基于文獻計量學方法的京津冀協同發展研究評述[J].河北工業大學學報(社會科學版),2016,8(3):11-18.
[4]陳辰,王璐,郝曉雪.基于詞頻統計與語義關聯的京津冀協同發展研究熱點與前沿監測研究[J].河北科技圖苑,2018,31(1):91-96.
[5]王崇德.文獻計量學方法在制定科學政策中的應用[J].圖書情報工作,1988(1):10-16.
[6]徐揚輝.論社會科學研究方法在公共政策制定過程中的作用和意義[J].當代經濟,2011(14):34-35.
[7]蔡圓媛,盧葦.基于低維語義向量模型的語義相似度度量[J].中國科學技術大學學報,2016,46(9):719-726.
[8]MIKOLOV T,SUTSKEVER I,CHEN K,et al.Distributed representations of wordsand phrasesand their compositionality[J].Advancesin Neural Information Processing Systems,2013(26):3111-3119.
[9]崔曉蘭,蔡淑琴,馮進展.基于本體的通信服務網絡抱怨案例相似度計算[J].系統工程理論與實踐,2017,37(6):1638-1647.
[10]何喜軍,馬珊,武玉英.基于本體和SAO結構的線上技術供需信息語義匹配研究[J].情報科學,2018,36(11):95-100.
[作者簡介]劉璐( 1998—) ,女,北京人,北京工業大學經濟與管理學院,研究方向:數據挖掘; 余文斌(1998—),男,甘肅慶陽人,北京工業大學經濟與管理學院,研究方向:軟件工程技術; 李欣桐(1998—),女,北京人,北京工業大學經濟與管理學院,研究方向:信息計量; 趙毅(1998—),男,遼寧沈陽人,北京工業大學經濟與管理學院,研究方向:數據挖掘; 何喜軍(1979—),女,河北文安人,北京工業大學經濟與管理學院,副研究員,博士,研究方向:數據挖掘與決策支持。