
吳菊萍上海市人民檢察院第二分院第三檢察部副主任、三級高級檢察官、法學博士,華東政法大學兼職教授,上海市優秀公訴人、全國檢察機關網絡犯罪檢察人才,上海檢察機關網絡犯罪專業化辦案團隊召集人
沒有法律規制的數據爬蟲,很可能變異為“害蟲”。高懸達摩克利斯之劍,才能確保數據爬蟲在推動數字經濟發展中發揮正向價值。
數據作為數字經濟的重要生產要素,必須充分流動和利用起來。數據爬蟲技術推動了數據的分享與利用,也引發了市場的惡性競爭,帶來了技術濫用的法律風險。現象層面的“技術中立”,涉及科學技術倫理判斷,基于一定的動機、目的使用爬蟲技術的行為,則更涉及利用技術的行為人及其行為的規范評價。探究數據爬蟲的技術邏輯,給出相關行為的合法界限與非法判斷標準,是當下數據行為立法與司法的重點課題,也是推動數字經濟發展的題中應有之義。
隨著數字經濟的發展,我們將迎來一個數據、勞動力、資本和技術共同驅動的新時代。“數據”成了其中全新的變量。2017年12月,習近平總書記在主持中共中央政治局學習時指出,“要構建以數據為關鍵要素的數字經濟”。2019年10月,黨的十九屆四中全會作出決定,“健全勞動、資本、土地、知識、技術、管理、數據等生產要素由市場評價貢獻、按貢獻決定報酬的機制”。2020年4月,中共中央、國務院發布了《關于構建更加完善的要素市場化配置體制機制的意見》,明確將土地、勞動力、資本、技術和數據并列為五大要素。
隨著數據成為經濟發展的“新石油”,數據之爭日趨激烈,數據的權利歸屬以及獲取、利用數據的行為規則尚未達成共識。與數據的獲取和利用最直接相關的一項技術——網絡爬蟲,從一項中立的技術逐漸演變成侵權甚至犯罪的工具,引發了諸多法律爭議。
網絡爬蟲(Web Crawler),又稱“網絡蜘蛛(Web Spider)”或“網絡機器人(Web Robot)”,是一項在互聯網時代普遍運用的網絡信息搜索技術。它的基本原理是:根據搜索目的建立待爬取的URL隊列,并將其取出,對該URL所對應的網頁進行解析。當爬蟲訪問整個網頁時,會自動識別網頁中所有的URL并將其添加為待爬取URL,如此循環往復,直到URL隊列中所有URL全部爬取完畢或滿足一定要求為止。換言之,網絡爬蟲就是一個高效的下載系統,能夠將海量的網頁數據傳送到本地,在本地形成互聯網網頁的鏡像備份。網絡爬蟲的運行模式是:獲取網頁——解析網頁——存儲數據,即按照一定的規則自動抓取互聯網信息的程序或者腳本。
有業內人士稱,互聯網50%以上,甚至更高的流量其實都是爬蟲貢獻的。對某些熱門網頁,爬蟲的訪問量甚至可能占據了該頁面總訪問量的90%以上。
當前網絡爬蟲的應用場景主要有:新聞資訊的搜索、分類、排序及動態推送,如“今日頭條”等聚合媒體、“新浪微博”等網絡信息平臺等;電商平臺的商品瀏覽、銷售、評價等數據的市場調研與分析;政務公開數據的優化及商業使用,如對“裁判文書網”海量判決文書的搜索及數據優化后推出付費版數據庫,又如對工商、稅務、司法等信息搜索及數據優化后推出企業信息查詢;等等。
網絡爬蟲也被一些不法分子用來大量下載文字作品、音頻視頻等轉售牟利;用來竊取競爭對手的商業數據進行不正當競爭;更有甚者,用網絡爬蟲爬取各類公民個人信息,成為網絡賭博、電信詐騙等犯罪的黑產。即使目的正當,如果爬蟲整日無休地、自動持續地大量訪問網站,對于那些小網站或者技術實力弱的網站,還可能因服務器無法承受激增的流量,導致網站崩潰。

網絡爬蟲運行模式圖
綜上,爬蟲技術本身沒有善惡之分,但是基于一定的動機、目的使用爬蟲技術的行為,必然面臨是非善惡的價值評判,以及由此產生的法律責任評價。
誠然,并不是所有的互聯網場景都排斥數據爬蟲,有些網站和應用希望被搜索以提高曝光率,但是大多數網站基于服務器的承受能力、風險以及對商業數據的保密等原因,并不希望被爬取數據。后者會制定相應的策略,采取一定的技術手段,來防止爬蟲對數據的抓取。
常見的應對策略是在網站根目錄下放置Robots協議(也稱Robots.txt),該協議由荷蘭工程師馬丁·科斯特(Martijn Koster)在1994年編寫,由于簡單高效,當前Robots協議已成為解決爬取方和被爬取方之間關于爬取意愿的通用且被遵守的技術規范,對于維護互聯網的正常秩序與當事人合法權益具有重要意義。Robots協議通常會告訴網絡搜索引擎的漫游器,此網站中的哪些內容是不應被搜索引擎的漫游器獲取的,哪些是可以被漫游器獲取的。2012年中國互聯網協會發布的《中國互聯網行業自律公約》也將遵守Robots協議認定為“國際通行的行業管理與商業規則”。
但是,Robots協議更像“君子協議”,只能起到告示作用。有的爬蟲會通過“模擬真人訪問”“協議破解”等方法來爬取數據。于是,很多網站和應用不得不采用反爬蟲技術攔截手法。爬蟲、反爬機制、反反爬機制,如此無休止的攻防對抗,造成了大量的社會資源浪費。

Robots協議文件的作用
爬蟲與反爬機制攻防對抗的實質是數據之爭。在數據已成為經濟社會的重要生產要素、是互聯網企業核心競爭力的當下,數據爬蟲首先引發了許多競爭法范疇的糾紛。在競爭法視野下,司法裁判一般考慮兩方面利益權衡:一方面,要遵從契約精神,既然設置了Robots協議,那么在競爭過程中就應當遵守競爭規范,確保有序的市場秩序;另一方面,要防止市場壟斷,避免因Robots協議對爬蟲的限制而形成數據孤島,從而構成數據壟斷。數據作為重要的生產要素,只有在流通過程中才能產生價值。數據壟斷對握有數據的經營者而言會產生競爭優勢,但是長遠來說,對社會經濟可能帶來負面影響。
數據爬蟲的不斷發展變異還引發了刑事風險。在刑法視野下,司法裁判主要考慮以下因素:一是數據是否公開。通常認為,數據犯罪所侵害的法益為數據安全,包括數據的保密性、完整性、可用性。二是手段是否具備“侵入性”。在數據權利人采取了協議、反爬機制等手段的情況下,通過反反爬技術繼續爬取數據的行為,就具備了較為明顯的侵入性。三是行為是否具有社會危害性。社會危害性是犯罪的本質特征,如果一個行為沒有社會危害性,或是社會危害性不明顯,也沒有必要啟動刑事追責。
從當前的刑事判例來看,數據爬蟲涉刑的主要罪名有:破壞計算機信息系統罪,非法侵入計算機信息系統罪,非法獲取計算機信息系統數據罪,提供侵入與非法控制計算機程序、工具罪,侵犯著作權罪,侵犯公民個人信息罪,傳播淫穢物品牟利罪,開設賭場罪,盜竊罪,詐騙罪等。在這些刑事案件中,網絡爬蟲突破了其原有的中立技術的內涵,目的也從高效的搜索、下載,延伸至竊取他人信息進而非法牟利。
那么,合法使用網絡爬蟲技術的邊界又在哪里呢?我們認為,網絡爬蟲要體現并保持技術的中立性,可以從以下三個方面進行合法性限定:其一,就爬取對象來說,應當限定為公開數據。其二,就技術手段來說,網絡爬蟲不應具有侵入性。是否具有侵入性應當從技術本身是否具有侵入性和數據爬取行為是否遵守爬蟲協議與合同約定兩個方面來判定。其三,從爬取的目的來說,要具有正當性、合理性、公平性。
數據爬蟲從誕生至今,經歷了中立技術到一般違法,再到刑事犯罪的演變過程,其中不僅有爬蟲技術本身的變異,也有人們認識深入、觀念變化的原因。法律要規范的并非技術本身,除非該技術本身就有倫理問題。法律要調整的是由于技術運用而帶來的當事人之間的利益分配問題,要傳遞的是公平合理的價值追求。
編輯:黃靈? yeshzhwu@foxmail.com