萬小博 米昂
摘要:隨著互聯網技術的發展,電子商務、移動支付的普及,互聯網已經完全融入人們生活。各類網站業務形態多樣,衍生出了豐富多彩的信息化內容。互聯網在成為信息傳播和交流的便捷手段的同時,也成為不法分子實施違法犯罪活動的新型工具。許多不法分子瞄準了目前網上銀行和網絡購物的普及趨勢,開始通過仿冒網站等手段非法獲取用戶數據,網絡詐騙也逐漸成為一種常見的詐騙手段。基于此,本文以仿冒網站為對象,探究其識別技術的應用現狀及防范措施。
關鍵詞:仿冒網站;識別技術;黑名單;特征提取;機器學習;安全防范
一、引言
仿冒網站是指界面、功能等設計得跟真實網站幾乎一樣的虛假網站,目的在于欺騙訪問者。他們通常偽裝成銀行官網或是電商平臺,竊取訪問者提交的銀行賬號、密碼、短信驗證碼等個人信息,或是在訪問者的手機中自動植入木馬,從而騙取訪問者的財產。由于互聯網特有的間接性和隱私性,犯罪分子往往很難被繩之以法,這就導致了利用仿冒網站來進行犯罪的案例數量增長十分迅速,給企業和個人用戶帶來巨大的經濟損失的同時,逐漸在社會上引起了對網絡環境的誠信度的質疑風潮,使網絡環境不斷惡化。
根據CNCERT監測數據顯示,僅2021年上半年就監測發現針對我國境內網站仿冒頁面約1.3萬余個。從承載仿冒頁面IP地址歸屬情況來看,絕大多數位于境外。根據CNNIC第50次《中國互聯網絡發展狀況統計報告》顯示,截至2022年6月,63.2%的網民表示過去半年在上網過程中未遭遇過網絡安全問題,較2021年12月提升1.3個百分點。此外,遭遇個人信息泄露的網民比例最高,為21.8%;遭遇網絡詐騙的網民比例為17.8%;遭遇設備中病毒或木馬的網民比例為8.7%;遭遇賬號或密碼被盜的網民比例為6.9%。通過對遭遇網絡詐騙網民的進一步調查發現,除冒充好友詐騙、釣魚網站詐騙和利用虛假招工信息詐騙外,網民遭遇其他網絡詐騙的比例均有所下降。其中,遭遇釣魚網站詐騙的比例為24.7%,較2021年12月上升0.9個百分點。
仿冒網站的主要表現形式有兩種:一是仿冒網站的URL鏈接與真實網站較為接近;二是仿冒網站的標題、頁面架構等內容與真實網站較為相似。因此,對仿冒網站的檢測可以通過對網站域名的分析和對網頁內容檢測等層面來實現[1]。對域名的分析可以利用威脅情報、網站域名的相似程度檢測等方式;而對網頁的檢測主要是針對網站的內容來識別,比如文字、圖片、布局、風格等,通過對這些內容的分析,總結出一些共有的特征,再利用統計方法和機器學習的分類計算來進行相似度檢測。
二、常見的仿冒網站識別方法
以非法盈利為目的的仿冒網站的出現,嚴重地影響了在線金融服務、電子商務的發展,對我國公民利益和個人信息安全構成嚴重威脅。在當今數字經濟飛速發展背景下,對社會及經濟層面也造成了極為惡劣的影響。如何快速識別仿冒網站,也成為確保我國公民個人信息安全及保障數字經濟發展的重要一環。從安全角度來講,識別仿冒網站有很多直觀的方法,可以通過域名注冊信息、第三方權威認證服務等多種手法來驗證網站的真實性[2]。本部分列舉了日常訪問互聯網的過程中一些常見仿冒網站識別方法。
(一)識別網站URL
域名(Domain Name),又稱網域,是由一串用點分隔的名字組成的Internet上某一臺計算機或計算機組的名稱,用于在數據傳輸時對計算機的定位標識(有時也指地理位置)。在網絡這個虛擬的世界里,域名天然地具有一種唯一性,相同的域名只能解析到相同的位置。正因為域名具有這種與生俱來的特性,人們可以假冒商標,卻不能假冒域名。
可將網站URL每一個“/”之間視為一個部分,一個完整的網站URL一般由三部分構成。第1部分為協議,第2部分為域名,第3部分為文件名。由于域名的唯一性,仿冒網站域名必然和真實網站域名無法完全相同,因此一些仿冒網站會通過仿冒與真實域名相似域名的方式來構造仿冒網站。例如,利用視覺相似性,將字母“i”用數字“1”替代,將字母“o”用數字“0”替代等。通過域名對比的方式可以直觀發現仿冒網站。
以上描述與網址的基本信息相關,也是防止進入假冒網站比較有效的方式。
(二)檢查瀏覽器安全標志
網站應用層協議一般建立在HTTP協議基礎之上,但HTTP協議是明文傳輸的,任何通過HTTP協議進行的通信都可能被監聽、截獲、竊取、篡改。為了避免這種情況,HTTP協議與SSL相結合催生了HTTPS協議。HTTPS是以安全為目標的HTTP通道,在HTTP的基礎上通過傳輸加密和身份認證保證了傳輸過程的安全性[3]。
綠色地址欄是EV SSL證書的展示形式,凡是安裝了EV證書的網站,瀏覽器的地址欄會顯示綠色的安全鎖扣,并且帶有綠色的公司名稱。當用戶訪問時瀏覽器的地址欄會變成綠色,并在地址欄后面顯示一個安全鎖標志和輪流顯示此網站的單位名稱和此證書的頒發機構,明確指出此網站的身份已經此證書頒發機構嚴格驗證,網站安全可靠。但凡看到綠色地址欄,就表示該網站是受到最高等級的EV證書保護的,在這個網站進行交易或者輸入個人信息都是安全的。同時,部分瀏覽器會將國內外知名網站及信譽較好或有業務合作的公司網站添加到白名單中,在客戶端訪問這些列入白名單的網站時,綠色地址欄被激活。綠色地址欄是無法被仿冒,它是網站身份和可靠性的無可辯駁的證明。
(三)查看網站證書
如果一個網站沒有綠色地址欄,那么安全連接標志只能說明此次連接是安全的。這意味著,沒有第三方可以監聽并竊取信息。但這并不意味著網站就是真實合法的網站,因為仍然無法判斷連接的服務器是否為真實的。
SSL服務器證書可以有效地證明網站的真實信息、使用域名的合法性,進而識別真實網站和仿冒網站。SSL證書在申請的時候都會通過嚴格的審查手段對申請者的身份進行確認,網站證書一般包含網站的真實域名、網站的所有者、證書頒發組織等信息。通過對證書的查看,也可以識別和發現仿冒網站。
(四)查看網站ICP備案信息
根據《非經營性互聯網信息服務備案管理辦法》,在中華人民共和國境內提供非經營性互聯網信息服務,應當依法履行備案手續。ICP備案是對網站主辦者信息的備案,以便確定網站主辦者的真實合法性。正規合法網站必須通過ICP備案,域名注冊商才能進行域名解析服務。備案的目的就是為了防止在網上從事非法的網站運營活動,打擊不良互聯網信息的傳播。仿冒網站一般無法備案,無法在工信部備案系統查詢到相關信息。
網站備案號一般會在網站頁腳公示,而仿冒網站一般無備案號或者公示的備案號為虛假備案號,因此通過查看網站備案信息的方式可以識別仿冒網站。
三、仿冒網站檢測識別技術的應用現狀
隨著社會公眾對仿冒網站的關注度越來越高,以及大數據、人工智能、機器學習等技術的發展,近幾年仿冒網站檢測的相關技術發展迅速。現有的比較典型的檢測仿冒網站的方法有:基于黑白名單機制的檢測,基于文本特征或網頁圖像特征的匹配檢測[4],和基于機器學習的分類檢測。
(一)基于黑名單的檢測
基于黑名單的檢測技術利用已有的黑名單對給定的URL進行匹配,黑名單數據庫中為已知的仿冒網站網址。當給定的URL匹配上黑名單數據庫中的網址時即可認為該網站為仿冒網站。基于黑名單的檢測方法匹配精度高,檢測速度快,實現快捷方便,因此在各種瀏覽器及網絡安全產品中該方法得到了廣泛的使用。但是,黑名單不能完全窮盡,并且只能檢測已知的仿冒網站[5]。若想達到良好的檢測效果,黑名單數據庫必須實時更新。根據一項統計顯示,20%的仿冒網站存活時間僅為一天,80%的仿冒網站存活時間不超過一個星期。因此,很可能在被加入黑名單之前,該仿冒網站就已經無法訪問了,從而使得基于黑名單的檢測效果非常有限。
現階段,有很多公開的威脅情報庫會共享仿冒網站數據,例如中國互聯網網絡安全威脅治理聯盟(CCTGA)主持并建設的網絡安全威脅信息共享平臺,每日會公開共享仿冒網站URL地址及仿冒網站服務器IP地址信息。
(二)特征匹配檢測
仿冒網站在URL、頁面結構等方面存在一定的共性特征,因此可以通過提取URL特征、頁面結構特征等方式來識別仿冒網站。
仿冒網站為了獲得訪問者的信任,其網站LOGO、頁面架構、頁面內容應該盡可能地與真實網站相似。通過提取疑似仿冒網站的頁面結構、頁面內容、圖片特征等信息,與真實網站的頁面特征進行對比,通過設置一定的閾值,即可實現仿冒網站的檢測。
宋明秋等人基于特征匹配檢測,提出了基于敏感特征的仿冒網站檢測算法PhishDetector[6]。算法結合網站的URL異常及Web頁面的身份異常,提取敏感特征,使用線性分類器對可疑網站進行分類。通過實驗結果表明,基于敏感特征的仿冒網站檢測方法,提高了仿冒網站檢測的正確率,顯著降低了誤判率。
(三)基于機器學習的分類檢測
雖然提取URL異常特征以及Web頁面異常特征來識別仿冒網站擁有更高的準確率,但是識別效率低,且提取頁面特征較為復雜。因此,近年來使用機器學習方法進行仿冒網站檢測和識別成為研究的重點。
楊鵬等人結合特征分析及機器學習算法,提出了一種基于Logistic回歸和XGBoost的仿冒網站檢測方法[7]。該方法通過提取URL、網頁、文本向量等特征,結合Logistic回歸將高維和稀疏的文本特征轉換為概率特征,并基于以上融合特征,構建了XGBoost分類模型。XGBoost是高效的梯度提升決策樹算法,它在原有的GBDT基礎上進行了改進,使得模型效果得到大幅提升。利用該算法,使得對仿冒網站的檢測具有更好的準確率、精確率和召回率,并且處理速度更快。
四、仿冒網站識別技術應用面臨的挑戰
(一)識別難度高
雖然仿冒網站識別技術在不斷發展,但是仿冒網站的數量并未有明顯減少,其識別難度也呈現逐步抬升的態勢。為遏制這一情況,也會有相關技術的研發與應用,但對于廣大的互聯網用戶來講,其效果并未達到預期。比如一些識別技術的應用需要用戶進行真偽的識別。以網址域名的識別方式為例,在網址的構成方面,是加入了可以表明其實際所在區域的標識,但對于用戶來說其識別難度依然很大;再比如相關網站安全證書的查看,是有一定計算機基礎知識的互聯網訪問者才會運用的方法,這就限制了在數量上占大多數的普通用戶能夠使用該方法;部分網絡平臺可就輸入的網址提供與之相關的安全信息,但因缺少硬性規范,平臺所收集的安全信息難以做到完全可靠。因此,在識別技術方面,仍有很長的路要走,尤其在應用方面,更要確保識別技術簡單高效,并具備應用的普遍性。
(二)監管不嚴、懲罰力度不夠
為有效遏制仿冒網站發展趨勢,單單靠技術支持還遠遠不夠,甚至可以說技術只能解決技術層面的問題,而遏制違法行為還需要相關監管機制的健全,以及相關懲罰措施的明確與加強。但在現階段,網絡安全法律法規方面尚存在不足,并未從根源杜絕仿冒網站的出現,更未在其出現后采取嚴厲的懲罰措施。懲罰力度不夠則無法就相關違法行為進行有效約束,更無法對潛在違法者形成威懾。
為此,應明確認識仿冒網站的危害,其存在不僅會造成個人財產的損失,更會對規范經營的企業造成極為負面的影響,比如其生產經營環節,以及企業信用等,如坐視其蔓延,將拖慢經濟的整體發展腳步,所以,應明確仿冒的重要性及必要性。通過防治意識的確立,構建科學健全的管理機制,進一步明確并從嚴設置相關法律法規,從根源入手,從落于實處入手。與此同時,作為網絡用戶也應提升自身的識別能力,從簡單易懂的識別技術入手,以循序漸進的方式對相關的防范知識進行學習并掌握,畢竟無論識別技術有多好用,使用相關技術的是人。防范并識別仿冒網站,應以管理制度為基礎,以識別技術為前提,從法律層面、從個人層面,實現全面的、科學的、有理有力的綜合防治。
五、仿冒網站防范建議
(一)加強防范意識
以網絡技術提升為背景,仿冒網站為追求更大利益,對真實網站的網址與內容等進行仿造,以實現其違法目的。針對此現狀,大多用戶在不了解,甚至無認知情況下,泄露了個人信息,造成資金及財產損失。為避免此類現象發生,應普及全民的網絡安全知識,提高廣大用戶與服務提供商的安全防范意識,安全常識教育是反網絡仿冒工作中防患于未然的主要環節[8]。如在瀏覽網站、使用APP過程中,收到中獎信息及親朋求助信息時應保持警惕;不輕易點擊短信、郵件中以及聊天對象發來的任何鏈接;通過官方渠道或者正規應用商店渠道下載APP應用等。
(二)加強仿冒網站識別技術研究
現有的仿冒網站檢測技術研究大部分是基于黑名單檢測、威脅情報分析、主機安全防護、語義分析、蜜罐技術、防火墻和機器學習方法等。隨著互聯網技術的發展,仿冒網站的偽造及反檢測手段在提升,仿冒網站檢測技術的研究也面臨著更大的挑戰。只有加強仿冒網站識別技術的研究,綜合利用云計算、大數據、人工智能等技術,才能有效遏制仿冒網站發展蔓延的趨勢。
(三)加強法律法規建設,加大監管力度
針對仿冒網站發展趨勢,國家應進一步完善相關法律法規,對網絡環境進行深度凈化,以實現全面監控。同時規范相關行業標準,適當提高網站注冊門檻,也可以發揮一定的制約作用。互聯網技術飛速發展,在信息技術發展的過程中,信息反饋與總結速率,遠遠低于技術提升速率,從而導致安全與發展之間失衡,造成出現仿冒網站等利用技術進行違法犯罪行為。
因此,在提高社會認知與監控技術能力的同時,也要積極總結經驗,并建立高效且具有專業技術能力的監督部門并加大監管與執法力度,以有效遏制仿冒網站,并減小其危害。
六、結束語
當今互聯網的發展速度日新月異,仿冒網站有出現時間不固定、本身基數巨大,而且進行詐騙的手段復雜多變等特點。單一固定的仿冒網站識別技術已經很難快速準確識別仿冒網站。隨著仿冒網站的“仿真”技術提高,相應的仿冒網站檢測效果會下降,并產生很多大量且錯誤的警告信息,誤報率較高。因此,進一步完善法律法規頂層設計,增強全民網絡安全防范意識,并不斷更新迭代仿冒網站識別技術的需求,迫在眉睫。
參? 考? 文? 獻
[1]盧康,周安民.基于圖像相似性的釣魚網站檢測[J].信息安全與通信保密,2016(3):115-117.
[2]李倩.釣魚網站技術與防護[J].硅谷,2012(1):193.
[3]張寶玉.淺析HTTPS協議的原理及應用[J].網絡安全技術與應用,2016(7):36-37,39.
[4]云雷,李丹,王歡歡.釣魚網站檢測技術研究綜述[J].電子產品可靠性與環境試驗,2021(5):39.
[5]Sahoo D,Liu C,Hoi S.Malicious URL Detection?using Machine Learning:A Survey[J].2017.
[6]宋明秋,曹曉蕓.基于敏感特征的網絡釣魚網站檢測方法[J].大連理工大學學報,2013(6):903-907.
[7]楊鵬,曾朋,趙廣振,等.基于Logistic回歸和XGBoost的釣魚網站檢測方法[J].東南大學學報(自然科學版),2019,49(2):207-212.
[8]孫蔚敏,劉洋.網絡仿冒(Phishing)的防范[J].信息網絡安全,2006(10):40-42.
萬小博(1987.08-),男,漢族,河北保定,碩士研究生,工程師,研究方向:網絡安全、數據安全、個人信息保護。