李力 魏姚
摘 要:近年來,智庫發展尤其迅速,基于大數據技術,對國內外智庫進行動態監測,在數據獲取、處理、分析挖掘、可視化等方面進行深入發掘與分析研究,可以為多種場景的應用研究提供經驗借鑒、決策參考、趨勢分析等信息支撐服務,對加強我國智庫建設具有一定的實用價值。
關鍵詞:大數據技術 智庫監測 趨勢分析
中圖分類號:G353 文獻標識碼:A 文章編號:1672-3791(2019)01(b)-00-03
隨著社會的進程和演變,智庫作為一個地區乃至一個國家軟實力和國際話語權的重要體現,在處理各項事務、助力決策咨詢中起到了越發重要的作用[1]。國家層面倡導的新型智庫正如火如荼的建設,地方新型智庫的建設也在蓬勃發展。在此期間,發現決策定位難以把握、研究方向無從估摸、成果內容不夠深入等主要情況,這就需要對國內外智庫進行動態監測,從中分析出有利于我國智庫相關研究的實際應用場景,為其提供信息服務。
1 整體概述
針對國內外智庫數量眾多、資源分散且無序的特點,使用大數據技術,收集來自每個智庫組織的數據,匯集后的眾多不同格式的數據首先進行處理,包括數據的清洗、去重、集成、歸約、有效性檢驗;其次對數據進行挖掘,包括聚類、分類、相關性、頻繁項集、特征化;再次對數據進行可視化展示,包括折線圖、柱狀圖、餅狀圖、文字云等知識圖譜,經過一系列的大數據處理過程,如圖1所示;最后將零亂的數據源轉化為有價值的知識,最終為實際應用提供具體服務。
2 智庫資源內容及采集方法
2.1 智庫資源內容
智庫相關數據信息眾多,篩選出核心且精煉的指標信息,既能提升采集效率,又能為分析研究提供最有價值的服務。
根據智庫數據的特征,將智庫資源劃分成智庫機構、智庫資訊、研究專家、研究成果四大數據體,在此基礎上,對每種數據體進行指標信息設計,如表1所示。
對每種數據體建立起對應聯系,智庫機構以資訊進行發聲,并匯聚研究專家作為核心主體,研究專家發表其研究成果,從而形成一個完整的脈絡關系。
2.2 數據采集方法
按照數據體的指標信息,進行國內外智庫資源內容的組織。以國內外現有智庫機構名錄為基礎,確立數據來源導向,可以保證動態監測的時效性與準確性,利用Web信息采集技術對智庫資源進行獲取[2],通過該技術的應用,可以實現智庫資源的自動采集、編輯和標準化,數據可以就地存儲,從而脫離對人為搜索及采集數據的干預,以減少信息成本的支出,達到提升采集效率的目的。
3 智庫數據分析處理
通過采集開放的智庫數據具有異構性,需要對這些異構數據進行處理,包括數據清洗、集成、轉換、歸約,使其成為有用的目標數據[3]。
(1)數據清洗:即處理缺失值,平滑降噪數據,辨認或去除重復值和解決不規整的數據。如對智庫機構中的研究專家和行政人員打標區分,對有成果的專家進行保留,無成果的行政人員進行剔除,以達到數據清洗的目的。
(2)數據集成:對不同來源的數據進行集中聚集,利用數據倉庫進行存儲。根據眾多不同智庫數據的來源,對智庫機構、研究專家、成果類型等建立統一的數據倉庫,每個倉庫存儲對應數據,從而實現數據的集成。
(3)數據轉換:目的是使數據統一標準化,并將數據轉換為另一種恰當的形式。由于研究成果全文的排版格式多樣,進行規范化處理,轉換成以html或PDF全文的格式進行存儲,實現轉換效果的提升。
(4)數據歸約:指相同的數據在盡可能的前提下最大限度地減少數據量。從智庫機構中刪除不重要或不相關的特征,如機構的經費情況、運作方式、審查機制等,以減少特征向量的維度。歸約后仍舊大抵保留原數據的完整性,但數據集變小。
通過一系列的大數據處理,既提升了數據的質量,又使數據更適合挖掘技術的運用,以達到數據的快速、規范化處理。
4 大數據挖掘技術的運用
經過持續的數據采集,后期的數據規模將達到海量級,從中找出隱藏的價值信息格外重要。剖析每種數據的屬性,實現多維分析與挖掘,將蘊含的內在聯系揭示出來,為智庫的分析提供強有力的支撐。
4.1 關聯挖掘
關聯挖掘是為了找到數據項之間的關聯。通過該技術對智庫專家發布的研究成果數量來評估專家的產出情況,也可以通過分析專家同時署名的成果分布情況來發現專家之間的合作網絡。
關聯挖掘選用Apriori算法。實現步驟:根據向下閉包性,Apriori逐層搜索,由(k-1)-項頻繁集構成k-項候選集,然后掃描數據庫找出k-項頻繁集,直到沒有新的頻繁集。此算法的優點是在頻繁項集基礎上產生的,繼而能確保該算法的支持率達到合理的程度[4]。
4.2 聚類挖掘
聚類挖掘是按照集合內的相似性原則將數據歸為若干個類別。通過該技術將研究成果按照國際關系、教育、經濟、衛生、外交等主題進行聚類,發現各個領域的成果信息。
聚類挖掘采用k-means算法。實現步驟:K-means算法是利用樣本目標函數求從數據點到原型的距離最大值的方法,得到重復反饋運算的調整規則。K-means利用兩點間的度量距離作為相似性,以此得到某一初始聚類中心向量的最好歸類,使得評價指標最低[4]。它能簡單快速地解決聚類問題,對處理大數據該算法彈性大并且效率高,時間復雜度趨近正比例關系,比較符合大數據的挖掘需求。
5 可視化展示
圖像的感知速率往往大于文字內容,經過數據的可視化所展現的直觀信息將有效增加內容的應用率。
通過可視化技術對數據進行呈現,實現年份折線圖、成果類型餅狀圖、年度柱狀圖、文字云等多種知識圖譜,提高數據本身蘊涵的價值,從而快速識別數據所呈現的圖譜規律。
實現步驟:將數據轉化為可以觀察分析的圖像,每個圖像對應一個維度,從對應圖像上標出對應的數據情況,這樣每個維度的數據都轉換成為圖形的形式。此技術使我們能夠快速高效地簡化數據流,讓我們能夠交互地過濾大量的數據,完成數據分析的任務[4]。
6 智庫動態監測與實際應用場景
6.1 智庫成果趨勢分析
通過對國內外智庫進行動態監測,可以對成果進行趨勢分析。以10年為一個時間跨度,如圖2所示,可以發現20世紀40年代至80年代,研究成果增長緩慢,但到了2000年以后,智庫成果出現指數級增長,特別是近20年以來,研究成果占到總數的80%以上。通過成果數量的監測,能進行相關趨勢的研究分析。
6.2 國際政策追蹤與預警研究
通過對國外智庫機構的長期動態關注與監測,國際上的對華政策通常會在國外智庫機構先行透露,對開展政策追蹤與預警研究十分必要。中國作為崛起的大國,離不開國際事務的合作參與,迫切需要借助相關研究,為我國的政策制定提供參考。
我國2013年提出的“一帶一路”合作倡議,受到眾多國家的強烈關注,都積極加入到合作倡議中來[5]。通過動態追蹤監測國外智庫,發現他們及時抓住了政策熱點,發表了自己的主張與見解,研究成果呈井噴狀態,特別是在2017年達到頂峰。通過這種方式進行分析與梳理,有利于精準地把握國外政策的研究現狀與動向,更加科學地為我國的政策預警提供實際的應用研究。
6.3 國際輿論監測分析
近代傳媒出現以來,國與國之間在輿論領域的戰爭已成為一種新的看不見的硝煙戰爭,輿論領域的博弈已成為國際博弈的第四種主要形式[6],在爭奪國際話語權以及引導國際輿論向有利于本國方向的發展極其重要。
通過對國外智庫動態監測發現,美國亞洲協會的“中參館”對中國進行動態和深度報道,發表了比較多的言論與主張,如中國與非洲的關系;通過進一步監測成果主題,涉及政策主題高居榜首,不難發現對輿論的導向有重要參照因素。通過監測這些智庫的資訊動態及輿論焦點,展開實時分析,對研究國家與政權的博弈過程有重要價值。
6.4 智庫評價研究服務
智庫日益受到大眾的關注,在此形勢下,智庫評價研究具有非常重要的現實意義。利用大數據技術對全球智庫進行動態監測,包括國內外智庫的數量、輿論動態、成果影響力等進行全面綜合的跟蹤分析與評價,可以做到事實客觀、海量數據和實時監測,能為智庫評價研究提供多樣化的數據利用,節省數據采集與清洗的時間,從而把工作重心放到趨勢分析、智庫評價等核心工作上來,大大提高研究的效率。
7 結語
目前,國內外智庫數量眾多,每天都會產生大量的信息,利用大數據技術,對國內外智庫進行全面監測,形成完整的智庫基礎數據,為不同的應用場景提供借鑒、分析服務。其主要體現在以下幾個方面。
(1)可以全面了解全球智庫機構、專家、成果等各種智庫資源的構成與基本現狀,有助于拓展國際視野。
(2)能方便、快速地對國外智庫機構的觀點、評論、研究課題進行動態監測,開展政策追蹤與預警研究,為我國的對外政策制定和交流合作提供參考。
(3)可以捕捉國內外智庫的輿論焦點,對研究國家與政權的國際博弈、國際話語權的爭奪以及國際輿論的引導有重要價值。
(4)可以直接用于智庫整體評價、主題評價、領域評價、趨勢分析等相關研究服務。
利用大數據技術,監測國內外智庫的最新動態,有利于加強我國新型智庫的建設,提高新型智庫的相關服務水準,制訂更加科學合理的評價指標體系,更進一步地貫徹我國對于建設特色新型智庫的指導精神,對推進現代咨詢體系的建設具有積極意義。
參考文獻
[1] 趙培陽.我國新型科技創新智庫的發展機制與路徑研究[J].科技創新與應用,2017(11):62-63.
[2] 朱潔,羅華霖.大數據架構詳解——從數據獲取到深度學習[M].北京:電子工業出版社,2016:26-28.
[3] 孔欽,葉長青,孫赟.大數據下數據預處理方法研究[J].計算機技術與發展,2018(5):1-4.
[4] CODATA中國全國委員會.大數據時代的科研活動[M].北京:科學出版社,2014:159,160,172-173.
[5] 金杭川.“一帶一路”與國際化:助力國內企業“走出去”[J].風能,2016(11):38-39.
[6] 夏慶宇.輿論領域的博弈已成為國際博弈的第四種主要形式[J].南方論刊,2017(4):13-15,19.