◆龍皓
國內大數據偵查研究的熱點及趨勢——基于CiteSpace的知識圖譜可視化分析
◆龍皓
(中國人民公安大學偵查學院 北京 10038)
可視化分析國內大數據是偵查學方向研究的熱點及趨勢,本文旨在為該領域研究的未來發展提供有益建議。基于文獻計量法,運用CiteSpace 5.7R2、Excel等軟件對大數據偵查的研究熱點和發展現狀進行了深度剖析。結果發現,國內大數據偵查的研究仍處于發展的初級階段,存在著研究主題集中、應用型研究較少等問題。
大數據;偵查;知識圖譜
隨著網絡信息技術的快速發展,“大數據”、“云計算”、“人工智能”等新興科技融入人們的日常生活,對傳統生活方式造成了沖擊,逐步改變著人們的生活方式以及思想觀念。其中,以“大數據”的影響為甚,很多學者都將當今所處的時代形象地稱之為“大數據時代”[1]。大數據是指海量的,并且超出了傳統常規的數據庫工具處理能力范圍的數據集[2],其具有五個方面的特征:數據大體量、多類別、數據真實性、數據處理快、價值密度低[3]。在大數據時代背景下,公安領域也引入了大數據技術,并與公安實務相結合,為新時期公安機關的實務工作帶來巨大裨益,偵查領域更是如此。大數據的引入促進了傳統犯罪偵查模式的轉變,逐步從傳統警務向現代警務、被動警務向主動警務過渡。大數據偵查成為當前偵查學界研究的熱點課題,學者們積極總結當前大數據偵查的發展經驗,并在多個領域探索大數據技術與偵查工作的結合,推動著大數據下偵查工作的變革。在此背景下,對中國知網中已發表的研究主題為“大數據偵查”的期刊論文,利用CiteSpace、Excel等軟件進行知識圖譜計量分析,梳理研究熱點、預測研究趨勢,為探索未來大數據偵查研究的發展方向提供有益參考。
本文以CiteSpace 5.7 R2軟件為主、Excel、CNKI可視化分析工具為輔,對當前“大數據偵查”研究總體情況及熱點趨勢進行文獻計量分析,以知識圖譜為基礎進行可視化分析。知識圖譜即指利用數據挖掘、共詞分析、描繪圖形等技術處理方法可視化呈現一個研究領域知識的方法,具有著知識指引和導向作用[4]。通過從發文數量、關鍵詞等維度對國內“大數據偵查”研究的知識圖譜進行直觀展示,重點利用CiteSpace對研究領域的關鍵詞、突現詞進行多維度分析與解讀,系統性地梳理和剖析研究現狀、熱點,并對未來研究趨勢展開預測。
本文以中國知網期刊數據庫為數據庫來源,以大數據偵查相關期刊論文為研究對象,通過高級檢索功能,設置檢索條件,主題名設置為“大數據偵查”,檢索開始日期設置為“不限”,搜索截止日期為2020年(截止時間2020.11.8),來源類別為全部期刊種類,并設定“同義詞擴展”,期刊語言檢索類別設置為中文文獻,然后開始搜索,檢索時間為 2020年11月8日,最終得到文獻數量654篇,經過人工篩選剔除重復、無關文獻64篇,為了保證數據的全面性,將涉及大數據與偵查主題的相關研究都納入樣本的篩選范圍,因此,最終確定樣本文獻數量為590篇。
在有關大數據偵查研究文獻中,僅有《基于中國知網123篇大數據偵查研究論文的分析》一篇期刊論文從文獻計量的角度對大數據偵查相關研究進行了分析,但其所采集樣本數據時間較早,大數據偵查研究正值發展初始時期,樣本數量相對較少。因此在前有研究基礎之上,采集更新、數量更多的樣本,并且用不同的文獻計量工具軟件和分析維度對大數據偵查研究的熱點和趨勢進行再審視,是有意義的。
圖1為“大數據偵查”研究論文的年發表數量統計圖,據圖可知:我國公安偵查領域結合大數據技術的研究始于2013年,論文發表數量為2篇。結合當時背景來看,該時間段正是大數據技術應用的發展初始階段。“大數據”的概念2009年才逐步開始被人們所認知并在社會上傳播,而其研究熱潮是始于2012年,奧巴馬時期的美國政府高調發布了關于大數據研究與開發的計劃,自此“大數據研究的浪潮”開始在全球席卷[5]。習近平總書記2013年在中國科學院考察時也指出了大數據在新時代發展中的重要性,將其喻為工業社會的“石油”資源[6]。自2013年大數據相關內容引入偵查研究領域之后,2014年至2017年間大數據偵查的研究論文數量逐年增多,論文發表數量逐年穩步上升,并于2017年達至第一個頂峰增長點。這同時標志著大數據偵查研究進入到初步的大發展時期,公安學領域學者開始關注到這一新興概念,更多學者開始加入到相關問題的研究中,不斷充實領域內理論基礎研究,并探索研究方向。在此期間“大數據”研究的地位也已上升到國家戰略層面,在第二屆互聯網大會中,習近平總書記再次指出國家大數據戰略是助力推進網絡意識形態治理的關鍵之一[7]。2018年大數據偵查論文發表數量小幅度減少,較之2017年減少12篇,但在2019年論文發表數量又呈現出上漲趨勢,是2018年論文發表數的兩倍,根據知網預測在2020年論文發表數仍將達到204篇以上。著名文獻計量學專家普萊斯曾提出過“文獻增長四階段論”[8],學科發展過程主要有四個階段:學科誕生階段;學科大發展階段;學科成熟階段;學科發展完備階段。據此可知,我國大數據偵查研究從宏觀的角度來看,仍處于研究的大發展時期,關于大數據偵查研究的數量仍將持續增加,相關理論研究也將進一步完善。

圖1 2013-2020年大數據偵查文獻數量年代分布情況
關鍵詞能夠體現出一篇文獻的核心內容和研究主題,如果關鍵詞在研究領域的某一時間段內反復出現,那么將此關鍵詞的出現頻次進行統計,繪制成可視化圖譜,同時配合突現詞圖譜分析,可以更有助于學者們把握學科內的研究熱門及趨勢的衍變規律[9]。將從中國知網所搜集的590條文獻樣本格式轉換后導入CiteSpace中,再運行關鍵詞共現和聚類功能,分別得到圖2、圖3。同時以出現頻次和中心性的高低作為標準,將關鍵詞分析結果導入Excel表格,最后利用突現詞功能得到10個突現關鍵詞,并以此對國內大數據偵查研究熱點及趨勢進行全面分析。

圖2 關鍵詞共現圖譜
首先,在圖2國內大數據偵查研究的關鍵詞共現圖中,每個關鍵詞都用一個圓形節點表示,節點越大,表明該關鍵詞出現頻率越高,該研究熱點就越具有代表性。其次,各圓形節點之間的連線顏色深淺與出現時間呈正比,顏色越深、出現時間越早,越淺則表示出現時間越晚。最后,節點間的連線緊密度代表了研究的集中程度。據圖2顯示,大數據、偵查、偵查模式、大數據偵查四個關鍵詞節點明顯大于其他節點,且總體上連線數量多、連線緊密,說明研究集中程度較好。最終通過軟件分析得到關鍵詞總數量為287個。下表1為共現圖譜中出現頻次數排名前10的詳細數據情況。

表1 熱點關鍵詞表
LLR、LSI以及MI是CiteSpace軟件聚類功能中所包含的三種算法,在共現關鍵詞的基礎之上,運行LLR和MI算法將關鍵詞聚類,最終得出以下9個聚類,并用K聚類標簽加以區分,聚類標簽的數值越小,表明聚類關鍵詞的數量越多,關鍵詞之間聯系程度越緊密,具體圖譜信息如圖3所示。然后再利用CiteSpace軟件的“聚類探索”功能生成聚類分析表并導入Excel中,得到結果如表3所示。

圖3 關鍵詞聚類圖譜

表3 關鍵詞聚類分析結果表
由上述聚類分析結果可知:
#0偵查聚類,節點數量為39個,節點出現頻次最高且聚類結構顯著,聚類集團中包含了偵查、大數據、對策等主題詞。說明在2017年國內大數據偵查以偵查相關研究為視角,重點關注的是大數據、對策,偵查運用等方面,在具體類型發犯罪中體現在殺人案件、職務犯罪方面的研究。
#1偵查思維聚類,節點詞數量為27個,說明國內在2017年對大數據偵查的偵查思維方面的關注度較高。通過歸納大致可知,聯系較緊密的研究主要體現在兩個方面:一是偵查模式的變革,包括偵查情報;合成作戰;主動偵查等方面。二是具體類型案件方面,主要針對電信網絡詐騙犯罪的相關研究。
#2大數據時代聚類群組節點數為25,節點總數排第三。該聚類群組說明了在大數據時代下,國內學者較為關注犯罪偵查、偵查行為、以及大數據時代對于偵查所帶來的的影響。
#3大數據偵查聚類群組中節點數量為22個,關鍵詞最早出現時間為2018年,根據群組中關鍵詞可知,數據安全成為學界較為關注的方面,有關個人數據保護、信息保護成為研究關注點。
#4云計算聚類群組節點個數為19,其時間為2016年,大數據的發展與云計算密不可分。云計算技術是大數據偵查的必要支撐[10]。群組中的關鍵詞主要包括電子取證、偵查取證、情報信息,說明此階段偵查取證是研究的熱門。
#5職務犯罪偵查聚類節點個數為17,與之緊密相連的是大數據思維、信息化偵查兩個關鍵詞。利用大數據思維對職務犯罪進行偵查,有助于變革傳統的職務犯罪偵查模式,信息化偵查與大數據偵查也是緊密相連的。
#6視頻偵查群組節點個數為14個,由其所包含內容可以發現,視頻偵查方面的研究為重要關注點,如何進行視頻監控也是學界所關注的重要問題。此外從學科建設創新、偵查人員兩個關鍵詞可以看出,對于培訓教育也是學界所關注的方向。
#7盜竊案件聚類群組節點個數為14,由群組具體包含詞匯可以看出。首先,注重大數據偵查在盜竊案件偵查中的應用與結合,其次,對盜竊案件的大數據偵查研究已經進入到了一個較為具體的層面,偵查要素、數據挖掘、大數據方法的運用都是較貼近實戰的研究對象。
#8技術聚類群組節點數為5個,研究主題主要包括技術、分歧、情報、信息、智慧偵查、數據管理。
CiteSpace分析軟件中的時區圖譜分析有兩種分析模式:時區圖譜(Timezone)和時間線圖譜(Timeline),時區圖譜主要是在時間維度上可視化知識的發展進程,時間線圖譜繪制的重點是展現聚類關鍵詞之間的關系以及時間跨度變化[11]。利用這兩種功能對關鍵詞進行時區圖譜分析,時間區間為2013年至2020年,分別得到圖4、圖5。

圖4 關鍵詞時區圖譜分析

圖5 關鍵詞時間線圖譜
在關鍵詞時區知識圖譜中,每個節點所處的時區位置代表關鍵詞最早出現的時間年份,在之后的年份中如果該關鍵詞繼續出現,則節點圓圈會相應增大,而且不會重新出現新節點,連線表示兩個關鍵詞在同一篇研究出現。通過觀測時區和時間線知識圖譜,可以更為直觀地觀察國內大數據偵查研究領域的熱點以及演變趨勢、規律。
在時間線圖譜中,按照時間年份與關鍵詞節點數量將大數據偵查研究的發展時期分為三個階段:第一階段(2013-2016年),大數據偵查研究起始階段,從圖中可以觀察到此階段關鍵詞節點數量較多,連線數量密集,說明在該階段各學者開始從不同維度探索大數據偵查,發現其中以宏觀層面為切入點的研究較多,理論性研究成果較為豐富。可以從時間線圖譜中看到:大數據、偵查模式、偵查工作、大數據偵查、偵查、偵查情報等關鍵詞為節點形狀較大的幾個節點,通過觀察節點的連線發現,出現時間較晚的關鍵詞與上述關鍵詞節點連線數量較多,說明后續研究對上述主題持續地進行了探討。第二階段(2016年—2019年),為大數據偵查研究大發展階段。首先,通過觀察可發現,在此階段節點形狀普遍較小,但數量相對于第一階段明顯增多,連線數量較多且密集。其次,在此階段出現了一些新的關鍵詞節點:模式、偵查思維、情報信息、電子數據、犯罪、經濟犯罪偵查、犯罪預測。通過與第一階段出現的關鍵詞進行對比,可以發現該階段研究對象更為明確具體,偵查思維、電子數據、情報信息都是大數據偵查中較為基礎但又很關鍵的研究課題,夯實大數據偵查的基礎性研究具有重要意義。犯罪預測是大數據偵查的重要功能,是從傳統的被動型警務模式向主動預測型警務模式轉變的必要手段。此外,經濟犯罪偵查節點出現時間較晚,從另一方面也說明在經濟犯罪的偵查中大數據的應用程度較低,相對滯后[12]。第三階段(2019年—至今),通過發展趨勢可以預見此階段應為研究深化階段,在前有研究的基礎之上,學者已將關注點逐步調整到大數據技術具體應用的問題,研究對象更為細化,開始向應用型研究轉變,偵查手段、電子證據、大數據證據、數據管理技術等都是與偵查實踐緊密相連的研究主題,具體的應用型、技術型研究能夠直接作用于偵查實踐工作,針對性地解決偵查機關大數據偵查變革過程中所面臨的實際問題。

圖6 突現詞
CiteSpace的突現詞功能夠將一段時間內頻數變化最高的詞提煉出來,通過突現詞圖譜可以更直觀地看到每個時間段內的熱門研究以及新近研究熱點的趨勢變化。由圖6可見,國內大數據偵查研究在2013年、2014年出現的突現詞有網上作戰、信息化偵查、云計算、信息化、信息。由圖可知,信息化偵查在這兩年的突現詞中的突現強度最大,且是持續時間與“云計算”并列最長。信息化偵查與大數據偵查都有著密切的聯系,信息化偵查為大數據偵查的實現奠定了基礎,從另一種角度來講,大數據偵查是社會從信息化轉向數據化的必然產物[13]。2015年的突現詞內容表明職務犯罪中大數據偵查的應用是學者們研究的重要課題。在2016年出現的突現詞中,職務犯罪領域持續成為研究熱門方向,突現數值最大。此外影響、互聯網+、大數據技術、作案地點等也在為該階段較為關注的研究對象。大數據思維、犯罪偵查、視頻監控為2017年開始出現的突現詞,其中大數據思維突現強度最大,思想是行動的先導,轉變思維是促進偵查機關向大數據偵查模式變革的首要之務。2018年的突現詞有技戰法、犯罪預測以及經濟犯罪偵查,到2020年這些主題仍受到持續關注,這也反映了當前研究的趨勢。
大數據對我國刑事偵查工作產生了深刻影響,大數據偵查研究也已成為偵查機關適應時代發展所必需的研究主題。通過CiteSpace、Excel等軟件對中國知網國內大數據偵查研究的文獻進行計量分析,可知目前國內的大數據偵查研究已取得一定的研究成效,但仍存在不足。針對當前大數據偵查的研究特點,學界應繼續加大科研力量,豐富基礎理論型的知識研究,為后續研究奠定理論基礎;另一方面應增加應用型研究的數量,結合偵查機關的實際情況與典型案例,使大數據偵查的研究成果能夠落地實施,直接運用到公安實戰部門的偵查實務中,為案件偵破助力。
[1]黃欣榮.大數據技術的倫理反思[J].新疆師范大學學報(哲學社會科學版),2015,36(03):46-53+2.
[2]Manyika J,Chui M,Brown B,et al. Big Data:The nextfrontier for innovation,competition,and productivity[EB /OL].[2014-09-02]. http:∥www.mckinsey.com/insights/ business-technology/big-data-the-next-frontier-for-innovation.
[3]方巍,鄭玉,徐江.大數據:概念、技術及應用研究綜述[J].南京信息工程大學學報(自然科學版),2014,6(05):405-419.
[4]韓增林,李彬,張坤領,李璇.基于CiteSpace中國海洋經濟研究的知識圖譜分析[J].地理科學,2016,36(05):643-652.
[5]秦榮生.大數據、云計算技術對審計的影響研究[J].審計研究,2014(06):23-28.
[6]郭華東,王力哲,陳方,梁棟.科學大數據與數字地球[J].科學通報,2014,59(12):1047-1054.
[7]付安玲,張耀燦.大數據助力網絡意識形態治理及提升路徑[J].馬克思主義研究,2016(05):105-112.
[8]楊虎林,張磊.我國公安情報的熱點主題研究——基于CNKI文獻統計分析[J].軟件,2020,41(06):185-191.
[9]陳悅,陳超美,劉則淵,胡志剛,王賢文.CiteSpace知識圖譜的方法論功能[J].科學學研究,2015,33(02):242-253.
[10]孟小峰,慈祥.大數據管理:概念、技術與挑戰[J].計算機研究與發展,2013,50(01):146-169.
[11]陳悅,陳超美,劉則淵,胡志剛,王賢文.CiteSpace知識圖譜的方法論功能[J].科學學研究,2015,33(02):242-253.
[12]張博睿,萬金冬.論非法吸收公眾存款犯罪大數據偵查系統的構建[J].凈月學刊,2018(01):91-97.
[13]馬方,吳桐.信息化偵查的維度沖突與法律規制[J].中國人民公安大學學報(社會科學版),2017,33(02):42-51.