爬蟲技術與個人信息的保護

2020-08-23 19:13:20王晨雨

河南科技 2020年12期

王晨雨

摘要：互聯網時代，數據就是資源，就是話語權。近年來，網絡爬蟲技術被廣泛應用于互聯網數據的獲取，國內也出現了不少非法收集、利用個人信息的案例，監管部門亦在完善立法、加強監管。無論如何技術革新，都應嚴守依法合規的邊界，做到個人信息安全，不得侵害個人隱私。本文從爬蟲技術的概念入手，在對現有案例分析的基礎上對爬取數據行為進行了法律界定，并提出爬蟲技術下個人信息保護的對策。

關鍵詞：爬蟲技術;數據抓取;個人信息;隱私保護

中圖分類號：TP391.3文獻標識碼：A 文章編號：1003-5168（2020）12-0154-04

1 背景介紹

近年來，隨著互聯網技術、大數據、云計算、人工智能的迅速發展，各行各業的競爭實質上變成了大數據的競爭，誰掌握了數據就掌握了主動權。如何有效地從互聯網上獲取所需要的信息已經成為眾多互聯網企業競爭研究的新方向。在大數據風控行業中，網絡爬蟲技術被廣泛的應用。網絡爬蟲，是一種用來自動挖掘互聯網信息的網絡機器人，通過遍歷網絡內容，按照指定規則下載所需要的內容。本質上就是實現高效、自動的讀取、搜集網絡信息。網絡爬蟲應用的場景很多，所有的搜索引擎都會用到該技術，網站可以通過爬蟲技術自動更新網站內容，爬蟲技術還可以被用來抓取網絡公開信息，建立專業的數據庫，例如外匯數據庫、商戶信息數據庫等[1]。

越來越多的企業甚至個人利用爬蟲技術更加便捷精確的從網站上獲取數據這時就可能會出現惡意用戶會利用爬蟲技術對服務器進行攻擊，為了維護互聯網的秩序，保護用戶的數據隱私，防止數據被過度的爬取，就會出現各種各樣的反爬技術，運用Robots協議、自動內容訪問協議、網絡爬蟲檢測、加固Web站點等手段限制爬蟲的訪問權限[2]。robots協議以其簡單高效的優點被國內外普遍采用。信息提供者可以在自己的站點設置robots協議，用來告知爬蟲控制者哪些信息是我不希望被爬取的。Robots協議是國際公認的互聯網領域內通行標準，但其性質在法律上并沒有明確的規定[3]。

2 爬取數據行為的法律界定

在現實運用中，爬蟲控制者為避免網站設置的反爬蟲程序，可能會采取偽裝措施。這樣爬蟲控制者不僅面臨爬蟲技術獲取數據本身的風險，而且還可能面臨著爬蟲技術搜集到一些受到法律保護的個人信息，而游走在違法違規的邊緣。違規使用，買賣爬蟲得來的數據，則是導致數據泄露、隱私泄露等一系列問題的根源。

2.1 獲取到的信息受到著作權法的保護

在網絡大數據中，存在著很多獨創性的數據，例如：文章、圖片、個人評論等，就數據保存本身而論，根據著作權法的角度來闡述，數據抓取行為本質上是對信息的復制，因此這些行為有可能構成對著作權人的復制權的侵犯。當然，我國對臨時復制行為是持寬容的態度。但如果爬蟲控制者在自己的網站上獲取信息并公開傳播抓取到的信息，則可能進一步侵犯著作權人在互聯網上傳播信息的信息傳播權。

數據爬蟲侵犯他人著作權，首先要判斷爬取的數據是否直接構成他人具有《著作權法》保護的獨創性作品，退而求其次，被爬取的數據是否直接構成匯編作品，這兩個請求權基礎是被爬蟲數據企業主張的依據[4]。例如：在美亞長城影視文化（北京）有限公司與精倫電子股份有限公司侵犯影視作品信息網絡傳播權糾紛中精倫電子股份有限公司主要通過相關主體和技術從互聯網上抓取影視鏈接地址，并由其提供播放器進行播放。法院認為：精倫電子向其用戶提供搜索、鏈接服務，讓其用戶獲取涉案影視作品的行為是否構成侵權是本案雙方當事人爭議的主要焦點。精倫電子盈利的點是第三方網站提供的影視內容，精倫電子鏈接他人版權作品提供給自己的用戶，應該取得著作權人及相關專利人的許可并支付相應對價，但是精倫公司沒有取得許可也沒有支付對價，法院認為，精倫電子讓用戶獲取涉案影視作品的行為主觀上具有過錯，構成侵權。

在知識產權方面，在我國的司法實踐中，數據會變能否享有著作權，主要看該作品是否具備著作權法上的獨創性。在大眾點評網訴愛幫網一案中，一審法院認為，大眾點評網中針對餐館介紹的語言以及所引用的圖片和對餐館點評內容構成的整體可以視為匯編作品，原告作為網站的經營者，對上述內容享有著作權，但在二審中被法院駁回，二審法院認為大眾點評網只是對網友的反饋信息按照時間的順序排列，不能視為具有獨創性。同時，本案現有證據無法證明上訴人對用戶點評內容進行了選擇。故二審法院沒有支持。數據抓取方式侵犯匯編作品著作權的主張，后來大眾點評另行提起不正當競爭訴訟，獲得法院支持[5]。

2.2 獲取到的信息屬于商業機密

雖然網絡上公開的信息很難構成商業秘密，但由于網絡上的數據可以通過設置權限使一部分用戶可以接觸，因此網絡上的信息任然可能具備商業秘密要求的秘密性和保密性，構成商業秘密的可能。根據《反不正當競爭法》第九條，以不正當手段獲取他人商業秘密的行為即已經構成侵犯商業秘密。而后續如果進一步利用，或者公開該信息，則構成對他人商業秘密的披露和使用，同樣構成權利人對商業秘密的侵犯[6]。

2.3 獲取到的數據構成不正當競爭

在大眾點評訴百度不正當競爭案件、新浪微博訴脈脈不正當競爭案件、深圳市谷米科技有限公司訴武漢元光科技有限公司不正當競爭案中，在這些案件中法院最終都認定為被告構成不正當競爭，原因是被告未經原告許可，使用爬蟲技術抓取并且利用從原告網站中獲取的數據牟利，這種行為不僅違反了誠實信用原則，破壞了互聯網市場的競爭秩序，并且侵犯原告的利益，損害其競爭優勢，從而構成不正當競爭。

本文認為上述案件之所以能夠勝訴其共性在于原告網站中的主要優勢來源于平臺的信息和數據，而這些信息和數據是由其用戶產生的。這種模式被稱為UGC模式，在這種模式下，未經網站或者用戶的同意，在自己的產品中使用用戶在網站上發布信息的，很容易會構成不正當競爭。

2.4 爬蟲抓取的信息屬于用戶的個人信息

《網絡安全法》第四十四條任何個人好人組織不得竊取或者以其他區非法方式獲取個人信息。因此，如果爬蟲控制者在抓取用戶個人信息時沒有經過對方的同意，那么這個行為就很容易被定性為非法收集個人信息的行為。

近日51信用卡利用爬蟲技術非法獲取用戶信息被杭州市公安局立案偵查。51信用卡如同很多網貸公司一樣，委托外包公司進行追債，在外包公司暴力追債的過程中，51公司通過爬蟲技術獲取個人通訊錄、地址等敏感信息。在對網絡爬蟲技術侵犯公民個人隱私案件中，首先要確定的是抓取的信息是否屬于公民的個人信息，其次是爬蟲技術抓取信息的行為是否違反國家關于個人信息保護的法律法規，最后還要注意這種非法獲取的行為是否達刑法中要求的“情節嚴重”或“情節特別嚴重”的標準。

3 爬蟲技術與個人信息保護

3.1 歐盟推出FDPR

隨著經濟全球化和互聯網行業的快速發展，保護數據隱私的問題不可避免的成為了一個全球性的問題。對此歐洲的反應比較激烈，在歐住的文化中一直都比較重視保護個人的隱私。早在2018年，歐盟就推出并實施了《通用數據保護條例》（GORP）。該條例可以稱得上是世界上最為嚴格的數據隱私保護條例，是因根據該條例，開出的罰單可以說是天價了，犯罪的成本增加了，人們就更加謹慎了。該條例更嚴格的是它不僅約束歐盟的成員及公司，而且只要你的客戶或者用戶中有歐盟國家的公民，并且你需要獲取利用他們的數據，就會受到GORP的管轄。此外，不僅對抓取信息的一方有天價的罰單，對于那些因為自己沒有保護好數據而導致數據泄露的，處以1 000萬歐元或一年以上全球營業額的2%，兩者取其高;自主泄露用戶數據的，處于最高2 000萬歐元或者企業上一年全球營業額收入的4%，兩者取其高[8]。

該條例自推出以來就飽受爭議，有人認為這會阻礙科技的創新。一直關注GOPR的中國互聯網協會研究中心秘書長、北京師范大學刑事法律科學研究院沈括教授認為該條例的出臺有其復雜的原因，不僅僅是對數據隱私的保護，而是深層次融合了國際政治博弈、產業經濟競爭以及社會文化擴張等諸多元素的復雜綜合體。麒麟合盛網絡技術有限公司作為中國互聯網“出?！弊罹叽硇缘墓?，全球用戶超過14億，覆蓋全球200多個國家和地區，其重要業務在歐洲市場。該條例的出臺對該公司的發展非常大。據該公司的法務總監吳映京在中國經濟周刊中表示，該公司成立了專門針對GDPR的研究團隊。根據美國專業機構的數據調查，在美國，68%的國企預計將花費100萬到1 000萬美元來滿足GDPR的要求。這從側面反映了，初創公司進入歐洲市場的一個門檻就是是否能達到GDPR合規工作投入額外的資源和成本。

該條例實行一年多以來，真正滿足人們幻想的天價罰單只有三張，可見對巨額罰單還是比較審慎的，這主要針對大型企業的數據泄露事件，應該說在實踐層面，該條例達到了創新和保護隱私的某種平衡。

3.2 中國的數據保護紅線

目前，在世界范圍都掀起了一股保護數據隱私立法的熱潮，歐盟GOPR的推出在數據隱私保護方面取得了顯著的成績，韓國、俄羅斯、日本等國也都紛紛設立了類似于GOPR的隱私保護法，美國各州已經陸續開始落實數據隱私保護法規，推出了一系列保護數據隱私的方法，比如有人提出數據就是財產這個模型，這樣一來，數據就可以出售，可以獲得對價。手機別人的信息需要支付財產，用戶本身也會有收入。在美國的聯邦層面卻沒有設立數據隱私保護法案，出于對各個州的利益考慮，短期內出臺數據隱私保護法案的可能性不大。

我國的數據紅線應該劃在哪里？自從在我國2017年6月起施行的《網絡安全法》，2018年5月生效《個人信息安全規范》以來，已經有了很多關于隱私保護的法規，例如《個人信息保護法（草案）》《網絡安全審查辦法（征求意見稿）》《APP違規違法收集使用個人信息行為認定方法（征求意見稿）》《網絡安全漏洞管理規定（征求意見稿）》等，吳映京表示，從現有的法規來看，國內對數據隱私的保護并不比歐洲弱，我國雖然沒有設置天價的罰單，但侵權者面臨基于我們國情的處罰，甚至還有可能承擔刑事責任。

數據就像是未來的“石油”，數據的搜集在跟人們帶來便利的同時也會產生數據隱私問題，因此對數據的利用以及收集的方法都必須遵循正當、必要且合法的原則。這要求政府制定出合理的、可執行的法律法規，企業和人民共同去遵守和執行。我國現在還正處于摸著石頭過河的階段，數據使用的尺度需要三方共同去尋找和把握。目前無論是國外和天價罰單還是國內的各項法規的制定，不能片面的評價哪個是最好的，這需要結合本國的實際情情況來分析，但是歸根結底就是在于明確社會、企業和用戶在隱私保護中的責任，平衡好三者的利益。這三者應該是相互促進，互惠互利的關系，并不是非此即彼的敵對關系。要通過制度的設計，技術的創新甚至是教育的推進來積極的解決這些問題。

司法部副部長趙大成指出，互聯網的普及會越來越廣泛，數據的應用也會越來越深入，數據的價值也會越來越大。雖然數據隱私保護問題依然嚴峻，但是在治理過程中不能因噎廢食，要抓住大數據時代的機遇，迎接挑戰，廣泛凝聚依法治理的共識，共同推進全球數據治理朝著更加平穩有效的方向發展[8]。

3.3 爬蟲問題最終需要技術來解決

在當下的時代，技術日新月異，歐洲實施了如此嚴苛的數據保護條例尚且還被質疑會阻礙科技的創新，“只要市場存在，即使監管再嚴格，也總會有人會因為利益去鋌而走險”，北京大學市場與網絡經濟研究中心陳永偉研究員這樣認為。他認為僅僅依靠法律是很難從根本上解決，技術問題仍然需要技術來解決。陳永偉說“比如獲得圖靈獎的、清華大學姚期智教授的“多方安全計算（MPC）”才可能是徹底解決這個問題的路徑，通過技術手段實現，保護和用戶的數據隱私，又能夠獲得有價值的數據挖掘”[5]。

事實上無論是商業模式的需要還是科學技術的進步，這都是一把雙刃劍，他們都是數據隱私的加害者，也是數據信息的守護者。因此我們可以通過鼓勵企業技術創新甚至是商業模式創新，大力發展區塊鏈技術以及多方安全計算技術，來達成個人信息保護與數據利用的動態平衡。

3.4 侵權頻發，“技術中立”值得思考

“爬蟲技術本身是中性的，關鍵在于是否合規使用爬蟲數據”中關村大數據聯盟秘書長陳新河在接受《中國新聞周刊》采訪時表示，如果通過爬蟲抓取網絡公開信息或授權信息，并不違規，但如果抓取的是未公開、未授權的個人敏感信息，并且違規存留、使用、買賣這些隱私數據，就屬于違規行為。

“爬蟲”從法律角度而言，是一種通過特殊途徑和渠道獲取信息的一種手段，其本身作為一種網絡技術手段，被廣泛的應用到網絡系統中，并不存在天然的違法性。只是其使用的手段和目的決定了其是否會產生違法的行為和后果。隨著信息技術的迅速發展，全球數據呈現出爆發增長、海量聚集的特點，對經濟的發展和民眾的生活都產生了重大的影響。

也有人持不同的意見。在51信用卡案中，爬蟲技術在其中起到什么作用，程序員又扮演什么角色？隨著越來越多的網站建立起信息的壁壘，反爬蟲技術幾乎成為每一個網站必備的保護措施。在這種情況下爬蟲程序員只能通過一些手段來獲取數據，反爬蟲程序和爬蟲程序就一直在相互比拼，在實際中爬蟲程序很有開“外掛”的可能性。比較溫和的方法是先偽裝成該網站的用戶，繞過反爬蟲程序，更加厲害的就是直接攻擊該網絡的保護措施，到達獲取數據的目的。

在這種情況下爬蟲技術就沒有中立性可言，開掛的爬蟲程序只是獲取數據的一種手段，其目的非常明確，就是欺騙、繞過、攻擊、破解網站的保護措施，這時程序員的行為就具有了違法性。我國刑法對于此類的單位犯罪一般采取雙罰制，既處罰單位也處罰直接負責的主管人員和直接責任人員。對于那些開了外掛的爬蟲程序的編寫者程序員來說，沒人比他們更了解該爬蟲程序能爬到什么東西以及帶來的后果是什么，存在犯罪的主觀惡意，而且程序員起到關鍵的作用。這就是在51信用卡案件中程序員會被批捕的原因。

3.5 對企業和程序員提出的建議

法律具有一定的滯后性，雖然現在爬蟲技術還游離在法律的邊緣，但隨著爬蟲技術的發展，其所帶來的利益和傷害都會原來越大，法律必將會將其納入到其調整的范圍，在法律正式生效之前程序員與公司應該如何規范自己的行為？

對于數據交易來說數據的提供方和使用方雙方都有責任。數據的提供方可能存在數據的過度采集、非法采集等問題。數據使用方的主要問題就是非法使用、轉賣，很多公司在花錢買了數據之后，為了降低成本就會將數據轉賣，這里面的問題比較嚴重。

這就要求網站搜集個人信息應當按照網絡安全法規定及有關個人信息保護規定本著合法、正當、必要原則，不應該強制要求用戶授權;向他人提供信息的，應當取得信息主體的同意;委托他人處理本企業數據的，確保他人具備維護數據安全的能力，委托合同中確定好雙方關于數據合規的權利與義務。對于程序員而言，要時刻有職業警惕性，明確自己做出的爬蟲程序抓取的對象是否合法，具體來說是否涉及用戶的個人信息，如社交信息、財產信息、通信信息等，是否涉及被抓取用戶的商業機密，更重要的一點是明確與被抓取的對象是否存在競爭關系。最后作為程序員要嚴格要遵守公司對于軟件開發的規定。

對于公司負責任人而言建議嚴格管理和貫徹公司內部軟件開發流程和規范，引入外部法律顧問定期對公司內部進行培訓，更重要的一點是，建立完善公司內部授權機制，明確管理層與項目開發人員對產品開發流程的權限范圍，以便發生問題時，及時找到相對應的責任人。

4 結語

在數字經濟時代，打破數據壁壘，實現資源共享是符合發展的要求的，是推動我國數字經濟發展的必由之路。所以保障數據的安全和合法的權益就顯得更為重要，這需要立法、司法、執法、聯合起來應對新技術帶來的挑戰，尋求技術創新與社會公平自由競爭秩序之間的一種平衡。

參考文獻：

[1] 李慧敏，孫佳亮.論爬蟲抓取數據行為的法律邊界[J].電子知識產權，2018（12）：58-67.

[2] 劉鵬.利用網絡爬蟲技術獲取他人數據行為的法律性質分析[J].信息安全研究，2019，5（06）：548-552.

[3] 蔡恩澤.網絡小爬蟲莫墮落成小扒手[N].證券時報，2019-10-24（A03）.

[4] 曾泓竣，曾千容.探析數據爬取中的相關知識產權問題[J].法制博覽，2019（17）：225.

[5] 孫冰.“爬蟲”背后的灰色大生意/個人數據隱私保衛戰[J].中國經濟周刊，2019-10-31.

[6] 祝建軍.利用爬蟲技術盜用他人數據構成不正當競爭[N].人民法院報，2019-05-23（007）.

[7] 曹陽.我國對違反“爬蟲協議”行為的法律規制研究[J].江蘇社會科學，2019（03）：159-167.

[8] 丁曉東.數據到底屬于誰？——從網絡爬蟲看平臺數據權屬與數據保護[J].華東政法大學學報，2019，22（05）：69-83.

河南科技2020年12期

河南科技的其它文章: 人工智能在藥物研發中的應用專利技術分析; 淺談顯示裝置領域專利檢索的誤區及檢索策略調整; 對苯二甲酸生產工藝國內專利技術綜述; 投影光源技術綜述; 用于液晶顯示器生產的膠黏劑全球專利技術分析; CPC分類號在橋梁支座領域中的檢索應用