毛 星,董 里,李艷娜,劉 征
(公安部天津消防研究所《消防科學與技術》編輯部 天津300381)
大數據時代學術傳播主要是通過網絡平臺,以學術成果信息為內核挖掘其背景信息及其相關信息,打破傳統學術期刊與數據庫的數據孤島局面,增強數字信息使用分析與二次開發能力,利用數據挖掘技術充分釋放文獻與數據的功能,把有意義的每一條數據及其數據關系都轉換成一個知識群或信息鏈,增強優質內容的增殖與衍生能力,創造更高的附加值[1]。
通過對本研究領域大數據相關研究信息的把握,甚至介入信息數據的大數據研究中,掌握第一手資料,及時進行選題策劃,可占領學術研究的制高點[2]。
基于數據挖掘技術,應用 CiteSpace軟件,對CNKI中近年所發表的消防工程類論文的關鍵詞進行統計,分析近幾年我國在消防方面的研究熱點。利用國家科技報告服務系統,搜索相關項目申報情況,挖掘研究重點。結合實際的工作經驗,提取合適的研究方向作為專欄報道方向。
CiteSpace是一個引文可視化分析軟件,通過可視化的手段呈現科學知識的結構、規律和分布情況。當前文獻圖譜軟件有 10余種之多,各個軟件都有其不同的優勢。如 VOSviewer在主題聚類方面清晰詳細;SCI2在主題詞分析時更加靈活;HistCite則對所下載數據集的文獻互引按照時間以網路形式呈現(目前作者認為將很快被 CitNetExplorer tool代替);BibExcel則以數據集原始數據的Tag為依據,提供了多種多樣的文獻分析功能(需要外部的軟件協助完成可視化,如 Gephi、VOSviewer、Pajek 等);CiteSpace以其強大的文獻共被引分析而知名(恐怖主義研究和生物大滅絕),且隨著不斷的發展算法和功能而實現優化。
從 CNKI中導出《消防科學與技術》(核心期刊,CA、Pж(AJ)收錄)2012—2016年共 5年的發表論文信息。2012—2016年,《消防科學與技術》共發表論文2,216篇,其中2012年422篇,2013年427篇,2014年452篇,2015年485篇,2016年430篇。
《火災科學》(核心期刊,CA、CSCD 收錄)2012—2016年共發表172篇論文。
《燃燒科學與技術》(核心期刊,CA、JST、CSCD收錄)2012—2016年共發表454篇論文。
共2,842條信息。
將數據導入到 CiteSpace中,經過數據轉換后,用半徑大小不同、顏色各異的年輪形節點來表示關鍵詞的共現頻次,節點顏色代表該關鍵詞產生共現的年份,節點半徑大小及連線粗細程度代表關鍵詞共現的頻次,節點半徑越大、節點間連接線越粗,則該關鍵詞的共現頻次越高[3],得到結果如圖1所示。

圖1 關鍵詞共現分析Fig.1 Cooccurrence analysis of keywords
從圖1中可以看出,半徑較大的節點對應的關鍵詞有數值模擬、消防設計、安全疏散、火災調查、燃燒特性、滅火救援等。表 1為出現頻次排名前 20的關鍵詞。

表1 關鍵詞按出現頻次排序Tab.1 Sequencing of keywords in order of frequency of occurrence
關鍵詞共現圖譜中節點最外層的深色圓圈顯示關鍵詞共現的中心性,中心性可以反映某節點與其他節點之間的聯系以及在整個圖譜中的作用和地位。通過對關鍵詞共現中心性進行分析,可以得到具有重要作用的熱點關鍵詞,進而得到近些年的研究熱點。表2為按照中心性排序,排名前20的關鍵詞。

表2 關鍵詞按中心性排序Tab.2 Sequencing of keywords in order of centrality
對照表1和表2可知,出現頻次和中心性都高的關鍵詞有:數值模擬、安全疏散、火災調查、消防設計、防火分區、消防安全、建筑防火、熱釋放速率、細水霧、溫度場、防火分隔、錐形量熱儀。
通過聚類分析,可以考察關鍵詞之間的相關性,把聯系比較密切的關鍵詞分為一組,從而更加清晰地描述該研究領域的各個熱點研究方向。在共現分析的基礎上進一步進行聚類分析,得到結果如圖2所示。

圖2 關鍵詞聚類分析Fig.2 Clustering analysis of keywords
圖 2中,Modularity表示網絡的模塊度,值越大表示網絡的聚類結果越好,這里 Modularity值為0.713,9。Silhouette值(剪影值)是用來衡量網絡同質性的指標,越接近 1,反映網絡的同質性越高,這里Silhouette的平均值為0.398[4]。表3為聚類分析中包含10個節點以上的聚類的具體信息。

表3 聚類分析結果Tab.3 Result of clustering analysis
由表 3,可知幾個較大的聚類分別為煙氣流動、消防設計、燃燒性能、火災風險評價、火災調查、滅火劑、工業火災。
結合表 3和出現頻次及中心性都較高的關鍵詞分析結果可知,煙氣運動、消防設計、燃燒性能、火災調查等幾類是研究的重點。
在 CiteSpace中,采用一種“突發詞檢測”算法來確定研究前沿中的概念,基本原理就是統計相關領域論文的標題和摘要中詞匯頻率,根據這些詞匯的增長率來確定哪些是研究前沿的熱點詞匯。根據這些術語在同一篇文章中共同出現的情況進行聚類分析后,可以得到“研究前沿術語的共現網絡”。因此,研究前沿系指臨時形成的某個研究課題及其基礎研究問題的概念組合,也是正在興起或突然涌現的理論趨勢和新主題,代表一個研究領域的思想現狀。表 4為突發詞檢測結果。
將聚類分析結果、突發詞檢測結果與出現頻次和中心性都高的關鍵詞結果結合,綜合考慮后初步選擇如下熱點:消防設計、火災調查、數值模擬。

表4 突發詞檢測Tab.4 Testing of sudden words

表5 熱點相關項目Tab.5 Hotspot-related projects
為了確定專刊報道方向,利用國家科技報告服務系統挖掘消防設計、火災調查、數值模擬方向的研究熱點。國家科技報告服務系統是國內目前比較完整記載政府科技基金項目的特種文獻系統,將國家支持的科研活動產生的資料等向公眾免費開放共享,擁有國家和地方科研計劃及科研投入方向的龐大數據,可在線瀏覽所有公開的科技報告全文[5]。表5為在系統中檢索到的與前文選定的熱點相關的項目。
由表 4可知,4個熱點研究方向中,在研和已完成項目最多的是數值模擬方面的項目。進一步仔細研究各項目的研究內容和所用的研究方法,可以看出,數值模擬作為研究方法,可用于消防設計、煙氣運動、安全疏散、燃燒特性等方面的研究。結合前文關鍵詞出現頻次、中心性、突發性的統計結果,可知數值模擬軟件如 FDS、BuildingEXODUS、Pathfinder,包括GIS等都得到了廣泛的應用,是當前研究人員較為關注的研究方向。因此,初步擬定“數值模擬”為專欄主題,下設消防設計、煙氣運動、安全疏散、燃燒特性等報道方向。
專欄是期刊特色和風格的重要體現,是期刊的亮點,而大數據的迅猛發展和應用為專欄策劃、實施、宣傳提供了廣泛、快捷、便利的渠道。利用數據挖掘獲取有用信息,了解期刊學科熱點及發展趨勢,確定專題策劃方向,準確定位高水平作者,實現專刊精準宣傳推送等,將成為科技期刊專題策劃的重要發展方向之一。
筆者通過分析消防工程類期刊近 5年刊登文章的關鍵詞和相關項目申報情況,獲取了近年來消防領域報道的重點、熱點內容,在此基礎上提出了專欄策劃主題和報道方向。接下來還需針對策劃主題進一步調研各高校、研究院所的研究人員,為約稿和聯系審稿人提供支持。
[1]夏登武. 大數據時代學術期刊的內容優化與價值重構[J]. 中國科技期刊研究,2016,27(3):264.
[2]丁濱,陳曉紅. 芻議期刊文獻的專題大數據挖掘價值[J]. 編輯學報,2016,28(5):488-491.
[3]王春雪,呂淑然. 我國燃氣爆炸研究現狀及熱點前沿可視化分析[J]. 消防科學與技術,2016,35(11):1620-1623.
[4]李杰. CiteSpace中文版指南[EB/OL]. (2015-10-27)[2017-06-08]. http://cluster.ischool.drexel.edu/~cchen/citespace/ manual/CiteSpaceChinese.pdf.
[5]白婭娜,武英剛,宮在芹,等. 數據挖掘在專刊組稿策劃中的應用[J]. 編輯學報,2016,28(6):550-553.