張一獻
(上海市第二中級人民法院,上海 200070)
網絡爬蟲(Web Craler),亦稱之為“網絡蜘蛛”或網絡機器人(Web Robot),它是一種自動化瀏覽網絡程序,其按照設置的規則,通過模擬人工點擊來自動地抓取互聯網數據和信息,從而自動、高效地讀取或收集互聯網數據。本文依據是否獲取授權和是否符合法律規定,將網絡爬蟲分為合法爬蟲和惡意爬蟲。前者遵守互聯網行業規范,通過網絡公開接口或購買接口授權爬取信息或進行訪問,不會觸發反爬蟲措施;后者分析并自行構造參數對非公開接口進行數據爬取或訪問,獲取對方不愿意提供的數據。當前互聯網信息規模呈現出指數級增長,信息的形態和分布呈現出多樣化和碎片化的特征,人們對精細化、專業化信息獲取和加工的需求與日俱增。網絡爬蟲基于技術優勢在互聯網安全監測、數據獲取等方面得到廣泛應用。但由于缺乏相應法律法規規范,網絡爬蟲行為常呈現出無序和混亂,尤其是對于惡意網絡爬蟲行為罪與非罪、此罪與彼罪的爭議愈發激烈,亟需在司法實踐中予以明確。須說明的是,為便于理解網絡爬蟲的運行原理和行為類型,本文對下列計算機專業術語進行通俗化解讀:(1)Robots協議。Robots協議是技術界為了解決爬取方和被爬取方之間通過計算機程序完成關于爬取的意愿溝通而產生的一種機制,類似的機制為設置Robots Meta標簽(1)羅剛.網絡爬蟲全解析:技術、原理與實踐[M].北京:電子工業出版社,2017.45.。它屬于互聯網行業規范,是網絡爬蟲訪問網站默認的首個文檔,爬蟲可在網站根目錄(www.AAA.com/robots.txt)中看到其內容,進而告訴訪問者可抓取頁面范圍,從而為網絡爬蟲爬行為提供路徑提示。(2)URL、HTML和UA。URL被譯為“統一資源定位符”,它是Internet上描述信息資源的字符串,主要用在各種www客戶程序(瀏覽器)和服務器上。HTML標簽是指超文本標記語言,其中包含“超級鏈接”點,啟動鏈接可使瀏覽器方便地獲取新網頁。UA(User Agent),中文名為用戶代理,它是一個特殊字符串頭,使服務器能識別訪問者使用的操作系統及版本,通過判斷 UA 來給不同的操作系統發送不同的頁面。某些網站為識別爬蟲程序會檢測鏈接對象,此時可設置UA來隱藏爬蟲真實身份,使程序正常運行。
隨著網絡爬蟲在社會經濟生活中的廣泛應用,基于其技術原理與優勢,惡意網絡爬蟲行為日益猖獗,常導致該行為面臨異化為犯罪的風險。
網絡爬蟲的系統框架中,主過程由控制器、解析器、資源庫組成。控制器屬任務中樞,它按照系統傳過來的URL鏈接來給多線程中爬蟲線程分配任務,再啟動線程啟用爬蟲獲取網頁數據;解析器是爬蟲完成任務的主體,其負責網絡爬蟲下載網頁的功能,對網頁的文本進行處理,如過濾功能,抽取特殊HTML標簽,分析數據;資源庫主要是用來存儲網頁中下載的數據,并提供生成索引的目標源。故從功能上來講,網絡爬蟲程序分為數據采集、處理、儲存三個步驟。現實中網絡爬蟲多由幾種爬蟲技術結合實現,基于自動化算法,在現實應用展現出巨大的技術優勢:
1.精準性。如聚焦網絡爬蟲能保證抓取數據與目標需求的高度相關性,它根據網頁分析算法過濾與主題無關的鏈接,保留有用的鏈接并將其放入等待抓取的URL隊列,隨后根據搜索策略從隊列中選擇要抓取的網頁URL,并重復上述過程,直到滿足系統設置條件時停止。與此同時,被抓取的網頁經系統存貯、分析等流程后建立索引以便后續檢索,其分析結果可對后續數據抓取過程予以反饋和指導,從而確保抓取的數據與主題密切相關。
2.廣泛性。通過對自動化算法程序的目的化設置,網絡爬蟲可將其抓取數據范圍拓展至最大限度。以深層網絡爬蟲為例,其能抓取深層網絡中的數據。深層網絡是指那些儲存在網絡數據庫中,不能以超鏈接訪問而通過動態網頁技術訪問的資源集合(2)曾偉輝,李淼.深層網絡爬蟲綜述[J].計算機系統應用,2008,(5):122.。相對于網頁等表層頁面無須提供表單,通用爬蟲可通過靜態鏈接訪問靜態頁面;而深層頁面隱藏在表單背后,不能通過靜態鏈接直接獲取,須通過提交關鍵字或注冊用戶后取得頁面,此時就需要使用深層網絡爬蟲進行訪問。
3.高效性。為確保網絡爬蟲在訪問網站、抓取或更新數據時避免重復,從而提高效率,大幅節省人力和時間成本,網絡爬蟲僅爬取內容有變化或新的網頁(也包括APP)。如增量式網絡爬蟲是對已下載網頁采取增量式更新,只爬行新產生的或已經發生變化的爬蟲,它能在一定程度上保證所爬行的頁面是盡可能新的頁面(3)張立偉,何國輝,吳禮發.網絡爬蟲技術的研究[J].電腦知識與技術,2010,(15):4113.。
基于上述技術優勢,網絡爬蟲被廣泛應用到社會各領域,成為檢測系統漏洞、輿情監控、行政執法、數據采集等領域的“利器”。技術是一把雙刃劍,現實中網絡爬蟲技術被濫用的現象屢禁不絕,從而引發了新的風險。一方面,隨著大數據日益巨大的內在經濟價值,人們對大數據資源流通、變現的渴求與貪婪與日俱增。另一方面,網絡爬蟲技術更新快,常見的反爬蟲措施只能提高網絡爬蟲行為成本和效率,難以有效抑制該行為,其具有明顯的滯后性。此外,網絡爬蟲行為的技術門檻低,稍懂編程技術(如Python)即可編輯網絡爬蟲軟件;技術資源獲取途徑便捷,其邏輯結構和源代碼可在網上隨意獲取。上述原因均導致惡意網絡爬蟲行為的泛濫,致使網絡爬蟲的治理常出現“道高一尺,魔高一丈”的窘境。再加之行業規范缺失和監管不力,惡意網絡爬蟲行為常被作為新型網絡犯罪的手段,進而觸犯刑法:一是擾亂計算機信息系統正常運行。如多線爬蟲頻繁訪問網站,大量占用寬帶網絡,增加網絡服務器處理和注銷的負荷,導致網站崩潰或不能訪問。二是侵入、控制或破壞計算機信息系統。惡意網絡爬蟲侵入計算機信息系統,獲取系統管理權,進而可刪除、篡改計算機信息系統或文件,危害計算機信息系統安全。三是造成相關數據泄露。如利用惡意爬蟲破解技術防范措施,非法獲取公民個人信息、商業秘密、國家秘密等。據報道,在著名的“棱鏡門”事件中,美國國安局職員斯諾登利用監管盲區,使用簡單的爬蟲軟件復制并傳播機密文件。四是惡意網絡爬蟲行為易成為滋生犯罪的“溫床”。如行為人利用網絡爬蟲技術獲取并販賣公民個人信息或計算機系統高風險漏洞等給不法分子,為他人實施下游犯罪提供幫助,從而淪為犯罪鏈中的“數據掮客”。
網絡爬蟲行為的主要目的在獲取數據。當前,大數據的功能和內涵日趨豐富,其具有“4V”特點,即大量(Volume)、高速(Velocity)、多樣(Variety)、真實(Veracity)(4)王玉林.大數據應用的風控數據監管問題[A].新時代大數據法治峰會——大數據、新增長點、新動能、新秩序論文集[C].北京:中國政法大學出版社,2017.115.。隨著數字技術觸角延伸至社會的各個領域,越來越多的數據成為傳統法益存放、分享和使用的載體,對數據的侵害逐漸成為擾亂網絡安全秩序的主要手段。信息秩序的建立無法脫離數據媒介而獨立完成,信息的分享、交易的完成亦是通過數據操作行為來實施或實現(5)梅夏英.數據的法律屬性及其民法定位[J].中國社會科學,2016,(9):169.。須說明的是,即使是惡意網絡爬蟲行為,該行為并非絕對屬于刑法調整,只有該行為具有刑法中的法益侵害性時,方構成犯罪。這是因為,刑法需對惡意網絡爬蟲行為進行篩選、甄別,并根據其行為的性質、危害結果判斷其法益侵害性程度,進而決定是否由刑法來調整,從而合理劃定惡意網絡爬蟲行為入罪邊界,確保刑法的謙抑性。故惡意網絡爬蟲行為與其他違法行為無異,其具有法益侵害性時方可入罪。
司法實踐中,囿于立法的不完善和滯后性,導致網絡爬蟲行為合法邊界模糊,再加之其侵害對象的多樣性,致使涉惡意爬蟲行為入罪出現下列問題:
1.罪名適用口袋化趨勢明顯
司法實踐中,未能區分網絡爬蟲行為獲取數據的屬性差異,忽視數據所蘊含的權利屬性,片面強調數據的物理屬性,多以兜底性罪名(非法獲取計算機信息系統數據罪)論處。究其原因,一則是因為審判中仍以計算機信息系統安全為重心,以技術限定為中心,而非以信息和數據安全為中心,基于司法慣性,多側重于保護信息網絡安全;二則囿于取證難度和證明標準等現實問題,多回避了對所抓取的數據類型、價值、獲利和損失等內容的認定,而以證明標準較低的兜底性罪名進行定罪。三則是由于刑事立法的被動性與滯后性。從現實來看,刑法應對科技發展帶來的挑戰略顯遲緩,對惡意爬蟲行為是否入罪尚存爭議,明顯難以跟上大數據時代的潮流。
2.非刑事立法缺乏體系化和精準度
刑法作為對法益的二次保護,須在其他法律難以抑制惡意網絡爬蟲行為時啟動。當前涉網絡爬蟲行為立法尚處于探索階段,常出現“無法可依”或“有法難依”的窘境:一是數據抓取方已從搜索引擎延拓至手機APP、內容聚合平臺和數據分析網站等其他主體,數據抓取方式更加復雜多變,手段更趨隱蔽,加之各主體間相關法益邊界迄今仍未劃清,這些行為合法與違法的界限益發模糊(6)曹陽.我國對違反“爬蟲協議”行為的法律規制研究[J].江蘇社會科學,2019,(3):161-162.,使得網絡爬蟲行為時常游走于法律的灰色邊界。二是規范網絡爬蟲行為的非刑事立法不足。如“違反國家有關規定”是該行為涉嫌犯罪的前提,但相關法律法規尚不完善,多屬于原則性規定,缺少系統性和可操作性。三是刑法和行政法規銜接不足。涉網絡爬蟲行為的有關規定分布松散,又未能體系化。如刑法和《數據安全管理辦法(意見稿)》中“公民個人信息”的概念明顯不同,后者內涵明顯小于前者,導致法律適用時標準不一。
隨著技術升級換代,惡意網絡爬蟲行為針對的對象和范圍日益擴大。司法實踐中,其客觀行為類型有以下幾類:
1.非法復制、傳播知識產權作品
網絡爬蟲行為未經允許復制或傳播文字、圖片、視頻等作品時,因該類作品具有獨創性和顯著性特征,該行為涉嫌構成侵犯著作權罪。常見的行為類型如下:
(1)利用網絡爬蟲行為將著作權作品形成目錄索引以供瀏覽
行為人使用聚焦爬蟲從互聯網抓取文字、照片等作品并存儲在其服務器上。用戶使用搜索引擎閱讀作品時,搜索引擎通過網絡爬蟲進行文本樣式轉碼,將作品緩存到服務器以提高用戶瀏覽速度;當用戶訪問觸發轉碼時,互聯網上相關作品自動緩存,隨后用程序將作品內容轉碼為手機版或網頁版供客戶閱讀,并設置廣告牟利。
(2)利用網絡爬蟲行為對影視作品等設置加框鏈接
行為人對網站影視、音樂等作品設置加框鏈接,并在網頁內設置目錄、索引、內容簡介等方式推薦影視等作品,通過提高網站知名度和被鏈影視作品的點擊量吸引用戶,屏蔽原先影視作品上的廣告,并在網站發布廣告牟利。如快播、百度公司都曾研發出影音播放器破解他人視頻網站的技術保護措施,并通過網絡爬蟲非法爬取相關視頻信息,進而盜播他人網站視頻。該行為系聚合相關內容以后的加框鏈接,屬于“通過信息網絡向公眾傳播他人作品”的網絡服務提供行為,侵害了他人網絡傳播權。如有觀點認為,加框鏈接實質性地損害了著作權人的利益,版權人采取自助措施消除加框鏈接負面影響有難度,著作權法需要主動干預加框鏈接行為,合理的選擇是直接禁止加框鏈接,設鏈者應該為加框鏈接所引發的作品傳播行為負責,著作權法修訂時可以采用“實質呈現”標準改造信息網絡傳播權,使之涵蓋加框鏈接所引發的作品傳播行為(7)崔國斌.加框鏈接的著作權法規制[J].政治與法律,2014,(5):76-77.。
2.非法獲取計算機信息系統數據
惡意網絡爬蟲行為的非法性表現在違反法律規定“未經授權”或者“超越授權”,從而超越授權或者突破反制措施非法獲取相關數據。常見的行為類型如下:
(1)利用網站漏洞非法爬取相關數據
司法實踐中,常見的是利用網絡爬蟲非法獲取用戶cookie。cookie是計算機信息系統和應用程序、工具形成內容過程中產生的數據,屬于用戶登錄網站時系統自動產生的認證信息,是瀏覽器儲存在用戶計算機終端上的文本文件。利用cookie可以執行對應帳號權限內的所有操作,不需要輸入帳號、密碼就可登錄,系統通過用戶以前登錄留下的信息cookie可以自動識別用戶。不法分子則利用網站源碼已有漏洞并植入Url,獲取權限訪問該網站用戶的cookie,不斷以此循環往復,再讀取虛擬隊列中的cookie以獲取用戶數據。
(2)突破或規避技術保護措施非法獲取數據
現實中,網站為了防止網絡爬蟲爬取信息,設置了一系列技術保護措施識別、限制或拒絕網絡爬蟲的訪問。大量網站為了防止他人利用爬蟲技術批量“搬運”網絡內容,利用爬蟲批量讀取數據速度的明顯差異,從而識別和拒絕爬蟲的爬取行為(8)門美子.提供動態IP服務行為的定性[J].中國檢察官,2008,(3): 9.。不法分子采取破解APP的加密算法或API(應用程序編程接口)交互規則,使用偽造的設備IP規避服務器的身份校驗,或使用偽造的UA、虛假的IP繞過服務器的訪問頻率設置等技術保護措施,突破了IP判斷安全策略(基于真實IP分配資源,識別設備),使得被訪問的網站不能辨別真實計算機物理位置和計算機設備,進而非法獲取數據。
(3)收集并破解網絡用戶賬號和密碼
行為人利用網絡爬蟲行為大量收集泄露的用戶賬號等信息,再利用網絡爬蟲軟件突破網站安全防護系統,或通過技術手段前往網站批量“嘗試”登錄,或通過找回密碼等批量操作手段和自動更換IP等方式盜取淘寶、支付寶賬號及密碼,進而利用已知賬戶和密碼登錄相關賬戶,實施竊取數據的行為。
任何技術都應遵守法律規定,不可僭越法律底線。中立的網絡爬蟲技術在非法意圖的支配下仍可構成犯罪。不法分子常利用網絡爬蟲行為侵入、控制或破壞計算機系統。常見類型有如下幾種:
1.檢測系統漏洞并侵入計算機信息系統
網絡爬蟲常被用于檢測網站內缺陷程序。實踐中,網絡爬蟲通過框架提供的便利條件對頁面進行提取分析,根據不同的攻擊方式生成特有的攻擊向量,最后使頁面注入點與攻擊向量組合達到測試是否具有漏洞的目的。實踐結果表明,這種漏洞檢測方法在爬取頁面以及漏洞檢測的效率上都有了很大的提高(9)王全民,雷佳偉,張程,趙小桐.基于爬蟲技術的Web應用程序漏洞檢測方法[J].計算機科學與應用,2016,(6):340.。現實中,絕大多數網站服務器軟件附帶測試頁面、聯機手冊和樣本程序,都包含大量的系統信息,成為惡意網絡爬蟲剖析網頁服務器的渠道,一旦被成功解析,即可發現網站隱藏的漏洞,導致網站防護系統被破解,致使計算機信息系統面臨入侵或控制的風險。
2.盜取網絡管理員賬戶、密碼并控制計算機
現實中,某些網站允許管理員遠程管理或控制系統,這為網絡爬蟲獲取管理賬號密碼創造條件。行為人利用網絡爬蟲搜索管理員登錄頁面,當管理員疏于防范未能及時修改系統初始密碼和賬戶時,其通過“撞庫”等手段測試賬號及對應密碼。一旦被網絡爬蟲搜索到登陸頁面,則極易導致計算機信息系統被劫持。
3.侵入并破壞計算機信息系統
在破壞計算機信息系統案件中,不法分子利用網絡爬蟲自動運行相關指令和規模效應的功能優勢,對網絡爬蟲輸入刪除相關信息或程序等指令,再將其植入被侵入系統,從而執行刪除信息或程序的任務。
惡意網絡爬蟲行為可嚴重影響網站正常運行。網絡爬蟲訪問系統時,一個爬蟲使用一個IP地址(網際協議地址)。當大量網絡爬蟲同時訪問網站則會大量占用寬帶流量,最終造成服務器不堪重負直至崩潰,從而使目標計算機或網站無法提供正常服務。現實中,不法分子常利用網絡爬蟲實施大批量惡意訪問,產生了類似于Dos攻擊的危害結果。如法院、鐵路等官網常被眾多惡意網絡爬蟲訪問,常出現普通用戶不能正常使用的情況。
在審理涉惡意網絡爬蟲行為犯罪時,須考察主客觀因素,根據“定性+定量”的模式,合理確定其入罪邊界。
對網絡爬蟲設置特殊功能,則可將其轉化為犯罪工具:一是網絡爬蟲具有規避或破解反爬蟲措施等功能,可非法侵入計算機系統內部。如部分網絡爬蟲可使用偽造虛假ID(計算機物理地址)繞過服務器的身份校驗,或使用偽造UA及IP繞過服務器的訪問頻率限制等功能,突破相關限制訪問計算機。此時,該功能屬于刑法中“具有避開或者突破計算機信息系統安全保護措施,未經授權或者超越授權獲取計算機信息系統數據的功能”,網絡爬蟲則屬于“專門用于侵入、非法控制計算機信息系統的程序、工具”。二是網絡爬蟲針對目標的非法性。如在套路貸案件中,涉案的網絡爬蟲具有搜集公民身份號碼、住址、手機號碼、借貸信息等法律明令禁止搜集相關數據的功能,則該類功能具有典型的非法性。
1.計算機信息系統
司法實踐中,關于計算機信息系統的概念尚未統一。本文認為,只要網絡爬蟲訪問的系統具有信息處理和人機交互功能,均屬于刑法中的計算機信息系統。
(1)網站與APP均屬于刑法中計算機信息系統
刑法中的“計算機信息系統”是指具備自動處理數據功能的系統,包括計算機、網絡設備、通信設備、自動化控制設備等。網站和APP作為廣泛應用的信息載體,承載著信息匯集、流動等功能,理應屬于計算機信息系統。首先,網站包含域名、空間服務器、網站程序、數據庫等,用戶和網站管理者均可利用其進行信息處理,具有處理數據功能;并且網站作為滿足公眾生活需求的重要載體之一,將公眾現實需求與虛擬世界相連接,具有人機交互功能。其次,APP作為手機操作系統的一部分,其安裝、運行于手機操作系統中,屬于手機信息系統的有機組成部分,且APP具體運行有相對的獨立性。此外,APP的使用須通過驗證、注冊賬號、登錄、輸入等方式,其匯集各類財產、行蹤、身份、隱私等信息,用戶可以通過移動通訊網絡實現網絡接入處理數據,也具有人機交互的功能。
(2)被侵入的計算機信息系統是否關系國家事務、國防建設和尖端科學技術領域
在認定利用網絡爬蟲行為侵入或控制計算機信息系統的行為時,須具體考察其非法運行的系統類別。如果侵入或控制的計算機系統屬于處理國家事務、國防建設、尖端科學技術領域的計算機信息系統,不論情節嚴重與否,均構成非法侵入計算機信息系統罪。因為這類計算新信息系統事關國家安全、經濟社會發展等重大事務,一旦被侵入,造成的后果難以控制和估量,故刑法對其予以特殊保護。若惡意網絡爬蟲行為侵入的是上述系統以外的計算信息系統,須滿足計算機犯罪中相關“情節嚴重”標準,方構成犯罪。
2.數據類型
對利用惡意網絡爬蟲抓取數據的行為進行定性時,須審查其抓取的數據類型。首先,網絡爬蟲行為不得抓取非公開數據。網絡爬蟲行為可抓取公開的信息,但這并不意味著可抓取該信息背后的數據。信息系統安全既包括系統自身運行的安全,也包括系統存儲、處理、傳輸數據的安全,從而確保網絡數據的可用性、完整性和保密性。數據安全有兩方面:一是數據本身的安全,主要指采用現代密碼算法對數據進行主動保護,如數據保密、數據完整性、雙向強身份認證等;二是數據防護的安全,主要是采用現代信息存儲手段對數據進行主動防護,如通過磁盤列陣、數據備份、異地容災等手段保證數據的安全(10)林學練,劉旭東,懷進鵬.XML數據安全系統的研究與實現[J].北京航空航天大學學報,2003,(4):362.。根據信息論,數據是反映事物屬性的原始載體,其經過加工處理后就變為可以通過網絡存儲或傳輸的信息,兩者屬于既有聯系又有明顯區別的概念。網絡上公開的信息系經專門處理的部分數據內容,數據本身所具有的原始狀態仍儲存在系統中,并不為他人所知曉,屬于數據安全的范疇,并不因為部分內容公開而失去了安全保護的必要性。故不能將信息公開等同于數據公開,爬取公開信息所依存的原始數據載體也屬于對大數據安全的侵害。其次,要區分網絡爬蟲行為獲取數據的具體類型。根據非法獲取數據的內容與特征,確定其在刑法上的屬性,具體如下表:

計算機數據類型歸納表
1.確定合法性依據:查清網絡爬蟲行為的行為規范
(1)明確網絡爬蟲行為應遵守的法律法規
當前,立法對大數據保護日益重視,規范網絡爬蟲行為的法律法規不斷涌現。一是《網絡安全法》《個人信息保護法(草案)》《刑法》等法律,其多屬于原則性規定。如《網絡安全法》第44條規定:“任何個人和組織不得竊取或者以其他非法方式獲取個人信息。第三方從網絡平臺獲取信息,應當注意審核提供信息方是否有權提供個人信息,獲取的信息是否經過被收集者的同意”。二是相關行政法規或規范性文件。這類文件有《信息安全技術個人信息規范》《電信和互聯網用戶個人信息保護規定》《關于加強網絡信息保護的決定》等。如《數據安全管理辦法(意見稿)》第16條規定:“網絡運營者采取自動化手段訪問收集網站數據,不得妨礙網站正常運行;此類行為嚴重影響網站運行,如自動化訪問收集流量超過網站日均流量三分之一,網站要求停止自動化訪問收集時,應當停止。”這類法律法規對網絡爬蟲行為做出了具體的或原則性的指引,理應是判斷其違法性的依據。
(2)厘清網絡爬蟲行為應遵守的行業準則
該類行業準則對規范網絡爬蟲行為作出具體要求,雖不具有強制約束力,但也是其理應考慮的因素。第一類是行業自律規范或慣例。如Robots協議、《互聯網搜索引擎服務自律公約(搜索引擎行業自律公約)》《中國互聯網網絡版權自自律公約》《中國網絡短視頻版權自律公約》等。以Robots協議為例,它是網絡爬蟲行為應遵循的行業慣例或商業規則。在民商事案件中,其往往是運營方獲得保護的必要條件。它以單方宣示的方式提示網絡爬蟲的爬取范圍,是規范數據爬取、促進信息流動的行業自律約定。信息自由流動原則是在《搜索引擎行業自律公約》中規定的,但是我們縱觀該自律公約會發現,信息的自由流動也是需要建立在遵守Robots協議的基礎之上,所以不應脫離制度整體而單獨強調其中的一條規則(11)張欽坤.反不正當競爭法一般條款適用的邏輯分析——以新型互聯網不正當競爭案件為例[J].知識產權,2015,(3):35.。部分裁判觀點認為,《互聯網搜索引擎服務自律公約》反映和體現了公認的商業道德和行為標準,屬于該行業自律行為的規則,理應成為網絡爬蟲行為的行為規范或指引。特別是該類行業自律規范符合行業發展需求,雖屬于“君子之約”,無強制性約束力,但也是法律判斷爬蟲行為是否惡意的參考依據。另一類是行業指引性文件或規范。如《網絡安全實踐指南——移動互聯網應用基本業務功能必要信息規范》《APP違法違規收集使用個人信息自評估指南》等。這類技術性文件雖不具有強制效力,但可作為對網絡爬蟲行為監管、執法、評估的參考依據。相較《網絡安全法》實施后發布的相關配套性法規及國家標準,該類文件所規定的規范性指引更為場景化、具體化,具有極高的可操作性,也是判斷該行為合法與否的依據。
2.審查行為正當性:厘清網絡爬蟲行為的合法邊界
網絡爬蟲行為不得超越法律或他人授權范圍,未經授權或超越授權獲取數據的行為均屬于非法獲取數據。司法實踐中,對其授權范圍的審查可從以下幾方面進行:
第一,查明計算機系統是否在網站根目錄下設置了Robots協議(robots.txt)以及文本內容。Robots協議明確了網絡爬蟲行為抓取數據范圍,其雖屬無強制性的行業規范,亦非技術防護措施,但代表了網站真實意志,理應屬于網絡爬蟲行為所遵守的行為準則。
第二,查明網站的版權信息及內容。版權聲明就是指網站權利人對自己創作或獲得許可作品權利的一種口頭或書面主張,一般包括權利歸屬、作品使用許可方式、責任追究等內容。互聯網領域中的版權聲明較為普遍,在網站的頁腳設置有“版權聲明”以宣示權利歸屬和侵權責任,這也是網絡爬蟲行為授權范圍的依據。
第三,根據被抓取平臺的聲明確定網絡爬蟲行為的授權范圍。針對APP、內容聚合平臺、數據分享網站抓取數據時,要區分不同的授權原則。若數據平臺禁止網絡爬蟲抓取數據,則應遵守平臺意志,不得爬取數據。如微博曾因今日頭條未經授權抓取內部用戶賬號信息,封閉數據接口,禁止今日頭條抓取微博中的數據。若數據平臺允許網絡爬蟲抓取數據,則須遵守其設定的相關規則。如某些數據平臺對網絡爬蟲行為采取“白名單”制度,未經授權不允許第三方爬取數據。一般而言,這類規則基于保護用戶隱私和知識產權的考慮,多包括以下內容:一是遵循雙方協議,不得爬取平臺禁止抓取內容,包括用戶聲明禁止轉載內容;二是符合 CC 協議(A Creative Commons license,知識共享協議),如需以原生頁面展示平臺內容,須提前獲取用戶授權;三是禁止對平臺頁面做轉碼、緩存操作;四是保護平臺用戶包括但不限于用戶針對站外展示做的隱私、圖片水印和禁止轉載等設置的權利。因此,網絡爬蟲行為抓取開放平臺數據時須取得“三重授權”,應遵循“用戶授權+平臺授權+用戶授權”的原則,即用戶同意平臺向第三方提供信息,平臺授權第三方獲取信息,用戶再次授權第三方使用信息。需注意的是,此處的用戶授權須是具體、詳細的,必須滿足“知情同意原則”,是用戶充分知情的情況下作出的決定,即不符合相關法律法規的規定或未經權利主體知情同意的,不得搜集相關數據。
3.確定行為必要性:網絡爬蟲行為不能超過一定限度
必要性原則就是指網絡爬蟲行為的必要限度,確定哪些數據屬于其正常行為所必須爬取的。對此可參考比例原則,具體內容如下:
第一,網絡爬蟲行為不得收集無關數據,要遵循最低限度原則。一方面,網絡爬蟲行為爬取數據時,必須確立搜集數據的規則,不得搜集與其目的無關的數據,且應切實履行注意義務,將公民隱私性數據等法律明令禁止抓取的數據排除在外。另一方面,只收集滿足業務必需最少類型和數量的數據,不得無限制惡意搜集。
第二,網絡爬蟲行為不能超過明示的授權范圍。首先,網絡爬蟲行為的具體手段不得違反法律規定。即使對方網站未設置Robots協議,也不得采取避開或突破防護措施等欺詐手段違規抓取數據或侵入、破壞和控制計算機信息系統;其次,網絡爬蟲行為經授權爬取數據時,不得超越授權范圍。如在授權訪問的情況下,也不能超越授權范圍訪問內部系統。
第三,網絡爬蟲行為不得妨害計算機信息系統正常運行。根據有關規定,網絡爬蟲訪問搜集網站數據,不得妨礙網站正常運行。當網絡爬蟲訪問收集流量超過網站日均流量一定比例的,網站要求停止自動化訪問收集時,應當停止。
在許多案例中,被告人以網絡爬蟲系自動運行或屬技術工具,并不知曉網絡爬蟲使用后的危害結果為由否認犯罪,即否認其具有刑法上的明知。本文認為,對該類行為主觀“明知”可從以下幾點去判斷:
1.明知網絡爬蟲行為違反法律法規等行為規范
其一,行為人認識到網絡爬蟲行為違反法律法規、規范性文件或行業自律規范等。行為人對上述規范的認知程度,能夠明確反映出其主觀上對網絡爬蟲行為性質、后果和責任的認知程度,可有效地判斷其主觀上明知行為的違法性。其二,行為人認識到惡意網絡爬蟲的特殊功能。某些網絡爬蟲的功能是根據犯罪需要而設置的,行為人對該功能的認識則表明其對該行為侵害對象或危害結果有清晰的認識,進而反映其主觀明知的內容。其三,行為人認識到網絡爬蟲行為的授權范圍。如行為人知曉反爬蟲措施的存在,則意味著其知曉網站或APP拒絕網絡爬蟲行為抓取數據。當網絡爬蟲行為規避反爬蟲措施非法獲取數據,則表明行為人故意違背他人意志爬取數據,主觀上當屬故意。其四,行為人認識到網絡爬蟲所爬取數據屬法律禁止獲取的類型。當行為人意識到爬取的數據為法律法規明令禁止爬取時,其對行為的違法性認識是清晰、具體的。如明知是知識產權作品、公民個人信息、商業秘密、財產性利益等數據,仍故意通過爬蟲行為非法獲取的,對該行為的違法性當屬明知。
2.明知中包含確知和應知
從明知的程度來看,明知應包括確知和應知。確知是指行為人對惡意爬蟲的功能、行為性質和危害結果有清晰認識;應知是指行為人根據其經驗、認知水平等因素,按照認知邏輯,其理應知曉惡意網絡爬蟲行為的性質和危害后果。應當知道屬故意的范疇,立法者并不是在過失意義上使用“應知”一詞的,它的真實含義應當是指推定知道,進而主張引入推定故意的概念(12)王自新.我國刑法中明知的含義和認定——基于刑事立法和司法解釋的分析[J].法治與社會發展,2013,(1):70.。故此處的明知可屬于概括的犯罪故意,即行為人事先對網絡爬蟲行為內容雖無具體認識,但依據專業或常識能意識到該行為的性質或危害結果。
在對惡意網絡爬蟲行為入罪進行定量分析時,其具體法益侵害性可從以下幾方面進行量化:其一,侵害計算機信息系統的具體數量。如非法侵入、控制、破壞計算機信息系統的數量。其二,非法獲取(復制)數據的具體數量。如傳播淫穢物品、非法獲取公民個人信息或結算、證券交易、期貨交易等身份認證信息的具體數量。其三,經濟損失。根據《關于辦理危害計算機信息系統安全刑事案件應用法律若干問題的解釋》,計算機犯罪中的“經濟損失”,包括網絡爬蟲行為給用戶直接造成的經濟損失,以及用戶為恢復數據、功能而支出的必要費用。具體如下:一是直接經濟損失。如給網站、APP的網絡設備、自動化控制系統、數據或文件等造成不可修復的損害;二是計算機設備租賃費用。如惡意網絡爬蟲行為攻擊網絡時需占用寬帶資源和儲存資源,進而影響寬帶和服務器,而上述設備系被害人向網絡營運商租賃而來,由此產生的費用應算作損失。三是為恢復數據和系統而產生的必要費用。該種費用是被害方事后實施的補救,屬于為恢復系統正常運營而必須支出的正常成本。其四,惡意網絡爬蟲非法獲取數據的市場價值。對于獲利數額的認定,則根據各罪中司法解釋確定的具體數額進行認定(鑒于相關司法解釋有明確規定,本文不再贅述)。
司法實踐中,惡意網絡爬蟲行為入罪受到詬病的原因之一就是其呈現出口袋化趨勢。對此,本文擬從以下幾方面進行去口袋化:
1.侵入計算機信息系統罪的認定
對于“侵入”的理解,是指網絡爬蟲行為未經授權或超越授權進入計算機信息系統。一般以兩種路徑進行判斷:一類是網絡爬蟲行為訪問網站是否屬于非法進入計算機信息系統,如無訪問權限而采用盜取賬戶、密碼或規避防護措施等采取欺詐手段,違背他人意志訪問計算機信息系統。另一類是網絡爬蟲行為超越授權范圍非法訪問。如網站或APP允許網絡爬蟲訪問,但對此設置相關限制規定,網絡爬蟲行為超越授權范圍訪問即屬于非法訪問。實踐中,對于“侵入”判斷,多表現為行為人利用網絡爬蟲及其特殊功能侵入計算機信息系統,如通過突破防護措施或發現系統漏洞侵入計算機信息系統。尤其是后者,成為當前網絡安全的主要隱患。網絡安全漏洞本質是通過軟件或者系統的邏輯缺陷所導致的錯誤,從而可以使攻擊者在未經授權的情形下訪問或者破壞,網絡安全漏洞應以軟件漏洞的防范為核心(13)趙精武.網絡安全漏洞挖掘的法律規制研究[J].暨南學報(哲學社會科學版).2017,(3):25.。司法實踐中,網絡爬蟲因其具有掃描系統漏洞、發現缺陷程序等功能,在諸多網絡犯罪中都常見到其蹤跡。
2.非法控制計算機信息系統罪和破壞計算機信息系統罪的認定
(1)非法控制計算機信息系統
認定行為人利用網絡爬蟲行為非法控制計算機信息系統時,須結合行為手段和計算機信息系統的功能予以認定:其一,惡意網絡爬蟲行為非法控制計算機信息系統是針對其信息處理和人機互動功能而言。當網絡爬蟲行為控制了計算機信息系信息處理或人機互動功能時,剝奪了他人對計算機信息系統的控制或使用權,即屬于控制計算機信息系統;其二,此處的控制分為部分或全部控制,也可是短暫或一定時間內控制,只要行為人在一定時間內控制部分計算機信息系統即可。
(2)破壞計算機信息系統
司法實踐中,利用網絡爬蟲行為破壞計算機信息系統分為兩類:一類是破壞計算機內承載特定信息的數據,屬于物理上的破壞。如不法分子利用網絡爬蟲自動運行的功能,大批量執行刪除相關數據的指令,進而實現破壞計算機信息系統。另一類是破壞計算機信息系統的相關功能,屬于抽象功能的破壞。如行為人利用網絡爬蟲行為實施網絡攻擊,其在物理上并未破壞網站或APP,但可導致人機交換或信息處理的功能無法實現,使得網站或APP不能正常訪問或運行。
3.非法獲取數據行為的罪名認定
惡意網絡爬蟲行為入罪的“口袋化”集中體現在非法獲取數據行為中。為合理界定該類行為涉及的罪名,對其入罪擬參照以下路徑:
(1)獲取計算機信息系統數據手段非法性的認定
此處的非法獲取數據的行為可分為兩類:一類是單一的“復制”數據行為。或表現為網絡爬蟲行為突破防護措施或規避限制進入計算機信息系統,復制相關信息數據;或表現為越權訪問計算機信息系統復制數據,即網絡爬蟲行為雖獲得他人的授權,但該行為系超出授權范圍訪問計算機信息系統并非法復制信息數據。另一類是復雜的“復制+傳播”行為。該行為多發生在知識產權犯罪中,即利用網絡爬蟲行為復制并傳播獲取的數據。首先,網絡爬蟲行為可被評價為知識產權犯罪中“復制、發行”行為。行為人利用網絡爬蟲抓取視頻、音頻和照片等作品,存儲于服務器內供他人閱看,將網絡爬蟲作為復制、傳播作品的工具,所導致的法益侵害結果與知識產權法意義上的復制、發行相同,應當視為《刑法》第217條規定的“復制、發行”。其次,利用網絡爬蟲行為通過信息網絡向公眾傳播他人作品,既包括提供初始作品,也包括為作品的傳播提供網絡服務。需強調的是,對傳播行為的界定應以刑法為準,不囿于著作權法中信息網絡傳播權的概念,不需要在認定行為侵權的基礎上再判斷其是否構成犯罪,只要行為形式上符合刑法的規定即可。再次,網絡爬蟲屬于非法視頻聚合鏈接軟件,具有能聚合鏈接視頻網站所有影視作品的功能。其針對其他視頻網站的影視、音樂等作品設置加框鏈接,該行為直接提供作品或為傳播作品提供便利,擴大作品的傳播范圍,嚴重削弱他人對其作品傳播范圍可控性,方便第三方實施侵權行為,達到刑法中的法益侵害標準,屬于司法解釋中的“通過信息網絡向公眾傳播他人作品”。
(2)非法獲取計算機信息系統數據行為的具體罪名認定
隨著互聯網技術的發展,越來越多的權利以數據的形式被儲存、使用、傳輸或共享,數據對各類法益的包容性愈發明顯,其內涵與外延就越發模糊,極易導致非法獲取計算機信息系統罪的“口袋化”風險日益增大。司法實踐中,涉惡意網絡爬蟲行犯罪從財產犯罪、知識產權犯罪逐漸擴大到公民個人信息安全和網絡安全等領域,從單一的模式轉化為整體性的系統風險,并由此產生了新類型的法益——大數據安全(數據的保密性、完整性和可用性)。本文認為,應嚴格區分惡意網絡爬蟲行為侵害的數據所代表具體法益,將利用網絡爬蟲行為作為手段的犯罪排除在非法獲取計算機信息系統數據罪之外,以合理去口袋化:
第一,根據所獲取數據是否具有公民個人身份的直接識別性和間接識別性來認定。以目前司法實踐認定情況來看,姓名和電話的組合是認定個人信息的最低要求,即包含了兩條以上的有效性信息(14)林哲駿.侵犯公民供人信息罪定罪標準研究——以“個人信息”和“情節嚴重”認定標準構建為視角[A].尊重司法規律與刑事法律適用研究(上)[C].北京:人民法院出版社,2016.878.,則屬于公民個人信息。此時,將非法獲取該類數據行為納入侵犯公民個人信息罪。對于難以直接或間接反映數據主體真實身份的商業個人信息,則將其納入非法獲取計算機信息系統數據罪。
第二,將侵害網絡虛擬財產的行為納入財產犯罪范疇。司法實踐中,習慣于重視數據的物理屬性而忽視其權利屬性,常將侵害虛擬財產的行為納入非法獲取計算機信息系統數據罪。當網絡爬蟲行為抓取的數據具有稀缺性、有用性、可流通性和可控制性特征時,屬于刑法中的財產,則該類行為應納入財產犯罪范疇(如盜竊罪)。
第三,當所獲取的數據具有保密性、實用性和秘密性特征時,其屬于商業秘密,應以侵犯商業秘密罪論處。
第四,當非法獲取的數據具有獨創性和顯著性特征時,屬于著作權作品,該行為則侵害了他人音樂、視頻、圖片等作品的復制、發行權,構成侵犯著作權罪。須注意的是,當該類作品包含淫穢內容而屬于淫穢物品時,則將該行為應納入傳播淫穢物品牟利罪范疇。
第五,當所獲取的數據不屬于上述范疇時,則適用兜底性罪名,依據其物理屬性歸入計算機信息系統數據,以非法獲取計算機信息系統數據罪論處。