朱世起,努爾布力
新疆大學 信息科學與工程學院,烏魯木齊 830046
信息時代互聯網用戶的爆炸式增長,在給國家注入新的經濟增長動力的同時也為惡意黑客帶來了新的創收途徑。釣魚網站作為釣魚攻擊最常見的網絡媒介,自互聯網出現之日起就一直受到惡意黑客的青睞。而釣魚攻擊作為社會工程學攻擊的一種,比其他類型的社會工程學攻擊具有更高的復雜性與普遍性[1]。在攻擊形式上,不同于依賴純技術手段入侵的黑客攻擊,釣魚攻擊往往還利用用戶的信任并使用社會工程學通過偽造知名站點的方法去欺騙用戶。Jagatic等人[2]指出:有時候一封“友好”的電子郵件會誘使用戶在線上透漏更多信息,而這正好迎合了發件者的意圖。作為釣魚攻擊的重要一環,釣魚攻擊往往始于一封偽造的電子郵件,通過其中的鏈接最終將用戶導流至套取用戶信息的釣魚網頁當中。由PHISHLABS在2018年最新發布的報告[3]中顯示:被釣魚攻擊的對象正在由個體上升為組織;通過電子郵件和線上服務進行的釣魚攻擊中,金融機構以21%的占比排在被攻擊目標的首位;截止到2017年的年末,以https開頭的釣魚網址數量占比由2016年的1/5上升至 1/3;通過 SaaS(Software-as-a-Service:軟件即服務)作為媒介的釣魚攻擊增長速度達到了237%的歷史新高。
在2018年第13屆APWG(The Anti-Phishing Working Group:反釣魚攻擊工作小組)的電子犯罪研究專題學術會議的論文征集上,給出了網絡犯罪經濟學、安全相關風險評估、公共政策與法律法規、移動設備的安全性評估等10項有關釣魚攻擊的理論性學術研究研究投稿主題方向。同時,在產業工程性研究方向上給出了攻擊方法研究、開源信息獲取、網絡廣告欺詐研究等9項投稿主題方向。可見,盡管目前產業界與學術圈都熱衷于尋找應對釣魚攻擊的解決方案,但釣魚攻擊本身并沒有得到有效的遏制,且依然造成了巨額的經濟損失。而據2018年賽門鐵克安全報告[4]指出,通過瀏覽器傳播的挖礦劫持同比去年激增8 500%。整個環節通過網絡釣魚的方式誘導用戶點擊惡意鏈接,然后加載挖礦腳本到用戶計算機中從而完成劫持。可見,通過釣魚攻擊竊取信息或劫持主機進而牟利的途徑,已經從以往的誘導用戶輸入相關個人登陸信息,繼而盜取賬戶資金、隱私信息或是劫持網頁進行無休止的廣告彈窗騷擾等,發展到了挖礦劫持等新手段下對個人計算機運算能力的竊取。利用釣魚攻擊進行犯罪的活動范圍正在不斷擴大。與此同時,諸如SETOOLKIT、WiFiPhisher等開源釣魚工具的不斷涌現,使得進行釣魚攻擊的技術成本和經濟成本不斷降低。同時也導致盡管有大量的反釣魚軟件,但釣魚攻擊始終無法被真正杜絕。如何運用新的技術手段與思路對不斷升級的釣魚攻擊手段進行更有效地識別與遏制,是近幾年來一直未能有效解決且受到持續關注的問題。
本文主要采用文獻計量分析法,通過統計學、圖書館情報學等方式,旨在解決以下三個問題:
(1)釣魚網站檢測技術關注的熱點及核心研究領域是什么?
(2)在釣魚網站檢測技術領域下國際上著名的期刊及研究機構有哪些?
(3)釣魚網站檢測技術在國際上的發展脈絡以及未來可能的發展趨勢是什么?
為確保論文內容的質量與所調研結果的前瞻性,本文通過文獻計量工具進行分析的數據來源于包含相關SCI、CPCI-S與BKCI-S等數據庫的Web of Science核心數據合集。使用到的檢索關鍵詞如表1所示。

表1 文獻檢索策略表
考慮到Web of Science的主題檢索會檢索文章的標題、摘要以及關鍵字。同時考慮到英文中同一意義的單詞在表達時可能存在詞性的不同。例如,在表達“評估”意義時,有的文章使用其名詞形式“evaluation”,而有的文章則使用動詞形式“evaluate”。為避免因詞性書寫方式不同而導致的查找遺漏,本文在高級搜索中通過使用通配符以及精確匹配符,將表1中的主題詞凝練成如下搜索語句:
TS=((phishing OR“fishing attacks”OR“fishing attack”)AND(detect*OR classifi*OR evaluat*OR recogni*OR countermeasure*) AND(algo*OR method*OR mean*OR way*OR tech*OR approach*OR scheme*OR software*OR solution*OR tool*OR model*OR system*))
Web of Science核心數據合集中,被收錄的與釣魚網站檢測相關的文獻,年代最早起始于2005年。2005年之前雖在其他數據庫(例如知網)中有少量釣魚網站檢測文獻,因其未收錄在Web of Science核心數據合集中,默認為這些文獻在國際上影響力較低,故在下文中不予統計。因截止到本文成稿之時,2019年尚未過半無法對2019年全年的文獻進行分析。故去除個別2019年的文獻,最終從Web of Science核心數據合集得到2005—2018年文獻765篇。
借鑒Garfield博士在1955年提出的將文獻作為檢索字段從而追蹤論文創意發展脈絡的思想[5]。借助表2所示的工具,從施引文獻(Cited References)、被引文獻(Related Records)、引用次數(Times Cited)入手,分別解決計量調查的深度、廣度以及關注度的問題,完成文獻計量的關聯圖譜可視化分析。通過可視化分析的結果,指引尋找并閱讀一定量的代表性文獻,總結出較為成熟且應用較為普遍的識別方法,探索在檢測釣魚網站問題上的新方向以及可能的突破點。

表2 文獻計量工具表
為了彌補僅僅通過計量工具無法準確地提取論文中所用檢測技術的問題。本文采用將鄰域內高被引文獻人工閱讀的方式,將具體的檢測方法進行歸納匯總。通過參考計量工具得出的結果,選取具有代表性的文章,將文章中的檢測技術與工具得出的熱點方向進行對比分析,最終都得出結論。研究方法流程如圖1所示。

圖 1 研究方法流程圖
共現分析法[7-8]將不同信息載體中的共現信息量化,繼而基于不同信息載體中概念特征的相關度得到最終結果。通過共現分析,結合時間脈絡分析研究領域的發展過程,可以在一定程度上達到預測研究領域發展趨勢的目的。
共詞分析法[9]旨在通過統計詞語在同一組文獻中同時出現的次數,從而間接地概述研究領域的研究熱點,屬于共現分析法中的一種。詞頻指代所分析文檔中詞語出現的次數。使用carrot2工具通過Lingo聚類算法結合TF-IDF詞頻分析對文獻數據的標題、摘要以及關鍵詞進行聚類后做高頻短語提取,得到圖2。

圖2 詞頻統計發泡圖
圖2 中的氣泡大小與氣泡內短語在不同論文中出現的數量成正比。出現頻率越高的短語分布越靠四周、同時氣泡體積越大,出現頻率越低的短語分布越靠近幾何中心。通過高頻短語可以看出:與釣魚網站檢測技術相關的關鍵詞中,“釣魚郵件”“釣魚網站”和“英特網用戶”在論文中被提及最多。除此之外“移動設備”“瀏覽器”和相關的“數據集”也被反復提及。反映出國際上對網絡釣魚的相關檢測研究正逐漸從以往的釣魚行為主導者(郵件、網站)、受害者(英特網用戶)轉向研究網絡釣魚的媒介(瀏覽器、移動終端)。“數據集”詞頻的上升,正面說明了大數據方法正在越來越多的運用到網絡釣魚的檢測中來,從側面解釋了“機器學習”詞頻最高的原因。研究方法相關的短語中,“機器學習”“神經網絡”及“視覺相似性”占比靠前,此三者都需要大數據作為支撐,說明以大數據作為基礎進行后續工作已經成為一種趨勢。在特征相關短語上,“數字證書”“釣魚URL”與“DNS”三大常規特征排名靠前,說明即使機器學習相關方法的使用普及迅速,但很有可能在創新趨勢上是以使用常規特征結合機器學習的方式為主。在剩余高頻短語中,“分類算法”“模型提出”“垃圾郵件過濾器”等短語反應了多數論文的最終產出。而“社會工程學”作為網絡釣魚的非技術手段理論支撐,在對網絡釣魚的流程解釋上廣泛使用,故在摘要中以高頻出現。

圖3 共現關鍵詞聚類時間軸圖
關鍵詞[10]往往能夠迅速準確地反映文章的主題內容和重點。Web of Science核心數據庫中通過使用聚類算法給每篇文章新增了通過聚類得到的補充關鍵詞(keywords plus)。為了得到釣魚網站檢測技術的發展趨勢,追蹤每一年在釣魚網站檢測方面所關注重點的不同 。本文借助CiteSpace軟件生成關鍵詞及補充關鍵詞的共現網絡,人工篩選去除掉諸如:安全(security)、攻擊(attack)以及數據集(data set)等幾乎任何網絡安全領域都會出現的無參考價值關鍵詞,并利用時間軸視圖通過關鍵詞及相關領域術語的演變,間接地將發展趨勢的演變展示出來最終得到共現關鍵詞聚類時間軸圖。
圖3中“十字”形節點的大小與此關鍵詞共被引的程度成正比。與關鍵詞節點相連連線的顏色對應關鍵詞出現的年份。

表3 關鍵詞排名表
3.2.1 關鍵詞排名分析
在排名前10的關鍵詞中,隨著年代的變化,具有影響力的關鍵詞從最基礎的領域類名詞(釣魚攻擊、垃圾郵件)不斷地向方法性的名詞(數據挖掘、機器學習)進行演化,最終演化為釣魚攻擊有可能存在新的被攻擊平臺(智能手機),如表3。而在2018年的最新論文中,提取出的關鍵詞和主題詞更是變更為:手機釣魚(mobile phishing)、信號檢測理論(signal detection theory)以及隨機森林(random forest)等。可見,在釣魚網站檢測技術方向上,國際上的主流研究方向正在向如何使用人工智能的方法解決新型移動設備上的釣魚問題進行轉變。結合社會工程學通過手機、智能手表等新型移動設備進行釣魚欺詐目前正在變得日益嚴重且亟待解決。
3.2.2 冷門及熱點方向趨勢分析
由圖3作為趨勢分析的基礎,結合由Carrot2得到的詞頻聚類結果。將聚類結果盡可能細分,將首次發文時間作為橫軸將跟進研究的相關方向總發文量作為縱軸,將該方向下自首發文年份起的發文均值作為氣泡半徑,背景的藍色基調代表冷門、黃色基調代表熱點。即越是新出現的方向越接近熱點,越是發文量大的方向越接近熱點,圖的左下方至右上方研究逐漸偏熱且背景色由冷色轉為暖色,從而做出冷門及熱點趨勢氣泡圖(如圖4~6所示)確定冷熱趨勢,以求更加清晰地反映研究中的冷門方向與熱點方向。

圖4 內容研究冷門及熱點趨勢圖

圖5 檢測方法研究冷門及熱點趨勢圖

圖6 釣魚媒介研究冷門及熱點趨勢圖
從內容特征(圖4)、方法研究(圖5)以及釣魚媒介(圖6)三個大方向入手,分別對每個大方向下的小方向做冷門與熱點趨勢分析。
在內容研究有關的方向上,基于URLs的檢測雖然距離提出已經過去較長時間,但依然具有一定的熱度。而機器學習方法的提出,一定程度上使得基于URLs、域名已經文本的檢測有了回暖的趨勢。與此同時,由于網頁上圖片數量多、難獲取且難以讓計算機分辨圖片內容等因素的影響,基于視覺相似性的檢測并沒有因機器學習的出現有太大改觀。可以預想,如果釣魚網頁圖形圖像特征數據集得以構建,通過機器學習的方法將視覺相似性作為檢測依據將會是不錯的冷門方向。最后,近幾年越來越多的研究者開始關注證書對鑒別網站合法性的作用。同時,釣魚網站的諸如加入混淆文本等種種隱匿手段導致的爬蟲爬到的數據不可用,也為研究者提供了新的思路,或許被混淆了的不可用數據正是釣魚網站的另一大特征。這也解釋了為何在Lingo聚類算法下會得到“Content is not Available”這樣的關鍵詞。
在檢測方法上,機器學習的爆發成為了有史以來的最大熱點。在機器學習的子分支中,SVM逐漸降溫,而主動學習技術往往會使用SVM算法作為基準分類器,從而繼SVM開始降溫后,主動學習技術逐漸走紅有望成為新一輪的熱點。同時,近年來利用決策樹和隨機森林進行釣魚網站檢測有爆發的趨勢。潛在語義分析(LSA)作為一個該方向研究方法曇花一現的冷門,有望在將來的研究中作為釣魚網站溯源的重要手段。
郵件作為工作中交流的重要手段一直是誘導用戶進入釣魚網站的重要入口,近年來以釣魚媒介為出發點的釣魚檢測研究持續升溫。尤其是智能手機出現后,釣魚鏈接的散播途徑新增了APP內的即時通信散播。由于不同的APP對其用戶所發送消息的檢測敏感程度不同,所以針對智能手機釣魚的防范研究是近幾年來的新熱點。同時,如何甄別通過智能手機APP散播惡意鏈接的惡意用戶也是近幾年如何防范智能手機釣魚大方向下的新的研究方向。
圖7中的圓圈節點大小反應發文總量的大小。最外圈紫色圓環的厚度標識中心度的大小,即論文的學術影響力大小,外圈的紫色圓環部分越厚則節點的重要性程度越高。大紅色部分標識突發性表征節點,如果研究的內容在短時間內變化頻率較高則相應的年輪圓圈變為大紅色 。除以上部分之外,年輪圓環部分的顏色對應圖片頂部時間軸的顏色,圓圈顏色深淺與環狀厚度的不同分別代表不同年代發文量的不同。

圖7 國家合作共現網絡圖
從釣魚網站檢測領域的宏觀角度來看,美國、印度和中國占據發文量的前3名,其中美國在總發文量(160篇),中心性指數(0.53)與首次發文年限(2005年)上均占據第一,說明美國在釣魚網站檢測這一領域內與其他國家相比具備更高的理論基礎與科研實力。發文量排名前5的國家中,美國(2005)和中國(2006)都在2010年之前提出了釣魚網站檢測的概念,對于該領域有著較早的起步。相比美國和中國,印度雖然發文量第二,但于2011年才發表相關領域的第一篇文章起步較晚。在中心性上,美國(0.53)、英國(0.44)和法國(0.20)占據前3,中國雖然發文總量上超過英國和法國,但中心度指數只有0.12位居第四,可見在論文的影響力方面,我國和世界發達國家相比還具有一定的差距。
為對比被引期刊對相關領域的影響力與期刊本身在國際上認可度的關系。使用CiteSpace的被引期刊網絡計算出的中心度,作為衡量期刊對相關領域影響力的度量指標;使用評價結果總體與JCR期刊評價標準存在較高的一致性[11],但可以免費使用的Cite Score期刊評價標準,作為期刊在國際上認可度的度量指標;最終提取出文獻數量排名前10的被引期刊如表4所示。
在相關發文量排在前10的期刊中:研究方向上,基本都以“工程技術-計算機:軟件工程”為主,即釣魚網站檢測方面相比理論研究學者以偏向工程性的研究更多。而在理論研究與工程實踐中,以理論研究為主的文章往往具有更高的科技前瞻性與研究深度。所以在中心度上,以理論方法為主的《COMMUN ACM》雖然文獻數量相較第一名的《LECT NOTES COMPUT SC》僅達到后者的一半,但中心度卻明顯高于其他同文獻量級刊物。Cite Score的相關性上,因為Cite Score值所反映的是刊物的整體水平而非某領域下研究分支的水平,故中科院SCI期刊分區標準上被評為一區期刊的IEEE COMMUNSURV TUT其中心度(0.08)遠遠低于小眾期刊LECT NOTES COMPUT SC的中心度得分(0.23)。可見,釣魚網站檢測技術的整體研究水平在世界頂尖刊物上還缺乏其他研究領域所達到的深度。盡管目前的研究成果已經趨于成熟,但是尚未有一種方法至少能夠在理論上達到根治網絡釣魚的目的。

表4 TOP 10被引期刊排名表
國家科研實力的進步離不開研究機構的貢獻,而研究機構中實驗室帶頭人的實力往往可以從側面體現出機構在這一領域下的研究實力。利用3.3節得到的國家中心度作為各國在釣魚網站監測技術上的科研實力參考,提取中心度排名前10的國家,并統計尋找其國家內此領域下發文最多的研究機構與機構高產作者,如表5所示。

表5 中心度Top 10國家下其主要研究機構及高產作者排名表
在研究機構上,中國的中科院大學以15篇的發文量遠超世界其他各國發文量排名第一的機構。說明中國大學論文的發表在國際上處于一定的領先地位。但與此同時注意到,中國整體的中心度較低即文章在國際上的影響力較弱。根據之前的分析,在釣魚網站檢測相關領域的期刊以工程技術為主。故可大致看出,中國在工程技術方面已經具備一定的實力,在創新程度上與國外相比還存在一定的差距,后期應加大理論方面的研究為接下來的理論創新提供一定的基礎。
釣魚網站自出現之日起到今天,數量一直呈現上升趨勢。釣魚的手段和對象隨著時間的推進不斷發展,反釣魚的手段也在不斷更新。但無論如何演變,目前新方法的本質為將基礎方法的組合或機器學習實現,現將代表性方法與結合此方法的代表性文章整理如表6所示。
結合3.2節的時間軸圖,以關鍵詞過濾后Web of Science核心數據庫收錄的論文作為統計數據(此過濾條件下收錄的論文伊始年份為2005年,故表7中尚未起始時間段為2005年)對本領域的研究熱點以及發展趨勢歸納如表7所示。

表6 釣魚網站基礎檢測方法匯總表
在整個釣魚網站檢測技術發展的第一階段(方法探索階段),即是要解決如何選取合適的特征并通過何種技術手段進行特征值的提取問題,換句話說即是特征數據集的構建問題。而在釣魚網站檢查的第二階段(方法完善階段),如何通過特征數據高效且準確的得出判定結果成為了新一輪的研究目標。在這一階段,各種算法的嘗試與組合是檢測技術研究的主流方向。著重解決在給定特征指標不變的前提下,如何提高檢測算法準確性與高效性的問題。隨著人工智能技術的興起,釣魚網站開始利用人工智能技術對網站的釣魚特征進行智能化的偽裝,傳統的高效特征逐漸喪失其優勢,而另一些冷門特征逐漸有了檢測價值。可見,在釣魚網站檢測技術的第三階段(方法人工智能化階段),如何通過人工智能技術與同樣開始使用人工智能技術的釣魚網站進行特征挖掘與特征隱藏之間的博弈將成為新的問題。

表7 釣魚網站檢測方法及研究熱點發展脈絡表
釣魚網站的檢測本質上是對網站進行特征提取后,對所提取特征所做的檢測,而非釣魚網站本身。所以在釣魚網站監測技術的研究上,研究熱點以及趨勢的發展脈絡以釣魚網站的特征的選取與獲得作為整個研究方向的導向標。在此回答文章伊始所提出的三個問題。
(1)釣魚網站檢測技術關注的熱點及核心研究領域:
技術實力的基礎決定了釣魚網站的特征選取,而整個技術的關注點則伴隨著特征數據的發展而不斷更新。在初期的方法探索階段,由于特征數據的匱乏,所以核心關注點在特征發現、特征提取、檢測技術等一系列圍繞特征數據的收集以及定性與定量的處理上。核心研究特征數據的選取與處理問題。而在方法完善階段,由于特征數據的獲取與處理已經趨于成熟,人們開始將關注點移至僵尸網絡、數據挖掘、社會工程學等釣魚網絡的危害途徑及目的意圖上來。核心研究如何提高釣魚網站檢測的準確率同時降低所耗費時間的問題。最后,隨著人工智能熱度的不斷升溫,無論是釣魚網站的制作者還是釣魚網站檢測的白帽安全人員,都開始將人工智能技術融入網站的攻防技術中來。為了應對越來越成熟的檢測手段,對釣魚特征的隱藏從最初的單純利用社會工程學的手段混淆嫌疑URL,發展到對網站腳本的惡意代碼偽裝、注冊信息造假以及CSS文件內容的降重等。隱藏手段從過去的單一特征造假向如今的多元特征造假發展。為了攫取更高額度的利潤,釣魚的對象也從以往的個人擴展到金融組織。釣魚的媒介從過去的電子郵件和PC端網頁發展到大量通過智能手機終端,包括但不限于手機網頁、文字短信、社交APP等。關注的熱點偏向了機器學習、大數據、潛在語義分析等如何利用人工智能技術進行相關的檢測上來。核心研究如何通過人工智能的方法使得對釣魚網站的檢測從單純的特征比對,到檢測系統對特征的自主學習以至于特征理解上來。
(2)在釣魚網站檢測技術領域下國際上著名的期刊及研究機構:
國際上,釣魚網站檢測技術相關方向的投稿主要以投向工程類期刊為主,可見在這一領域的研究中相比純學術性質的研究,釣魚網站的檢測更偏向于工程實踐性質的研究。普通刊物以《LECT NOTES COMPUT SC》為主,高水平期刊以ACM和IEEE下的子刊為主,期刊詳表見3.4節的表4。
(3)釣魚網站檢測技術在國際上的發展脈絡以及未來可能的發展趨勢:
釣魚網站檢測技術主要經歷了3大發展階段,具體如第4章的表7所示。在檢測初期往往以較為容易提取及區分的URL作為特征判別的主流方向,而定性的依據則主要以不同字符的定量特征為主。在方法的完善階段,當社會工程學的內容加入之后,人們開始探索釣魚網站服務器的所在地域與網站成本之間的關系、網站存在時長與網站良惡性質之間的關系等一大批從社會工程學角度出發挖掘的特征。此時樸素貝葉斯、支持向量機以及邏輯回歸三大分類器[17]模型幾乎成了釣魚網站做二分類時的分類模型標配。近年來,隨著人工智能熱度的不斷升高,無論是釣魚網站的制作者還是釣魚網站檢測的白帽安全人員,都開始將人工智能技術融入網站的攻防技術中來。為了應對越來越成熟的檢測手段,對釣魚特征的隱藏從最初的單純利用社會工程學的手段混淆嫌疑URL,發展到對網站腳本的惡意代碼偽裝、注冊信息造假以及CSS文件內容的降重等。隱藏手段從過去的單一特征造假向如今的多元特征造假發展。為了攫取更高額度的利潤,釣魚的對象也從以往的個人擴展到金融組織。釣魚的媒介從過去的電子郵件和PC端網頁發展到大量通過智能手機終端,包括但不限于手機網頁、文字短信、社交APP等。由此引出的以人工智能手段為基礎的:釣魚頁面視覺上與合法頁面的差異性挖掘,釣魚URL與URL特征檢測方向的生成式對抗網絡構建,以及在新的移動終端出現的釣魚網站智能檢測等利用人工智能整合基礎檢測方法的方式都將可能成為今后一段時間內的新發展趨勢。