曾泓竣 曾千容
摘 要:在大數據時代,隨著搜索引擎利用的日益常態化,數據爬取也隨之迅猛發展,勢必由此產生許多法律層面問題。本文將從知識產權保護的角度,對數據爬取衍生出的知識產權問題以及法律適用進行分析。
關鍵詞:數據處理;知識產權;法律適用
中圖分類號:D922.294文獻標識碼:A文章編號:2095-4379-(2019)17-0225-01
作者簡介:曾泓竣(1996-),男,廣西北海人,廣西大學,本科。
網絡爬蟲,是一種用來自動挖掘互聯網信息的網絡機器人,其目的一般用于編纂網絡索引,也可以用于網絡搜索引擎等站點通過爬蟲軟件更新自身的網站內容或其對其他網站的索引。網絡爬蟲始于一張被稱作種子的統一資源地址(URL)列表。爬蟲在執行的過程中復制歸檔和保存網站上的信息,這些文件通常儲存,使他們可以較容易的被查看,閱讀和瀏覽他們存儲的網站上并即時更新的信息。
robots.txt是一種ASCII編碼的文本文件,通常存放于網頁服務器中,它將提示網絡爬蟲哪些網頁不應被抓取,哪些網頁可以抓取。但這只是一個約定俗成的規范,并不具有法律效力,并不能保證所有爬蟲都準守這一規則。
目前,我國對爬蟲技術還沒有專門的法律法規加以規定。在通常意義上,爬蟲技術只是更快速有效地收集互聯網中的內容和信息,因此從技術中立的角度來看,爬蟲技術本身并沒有存在任何違反現有的法律法規之處。隨著大數據產業的快速發展,數據爬取隨著各網絡主體對資源的爭奪而越發激烈。數據爬取行為存在越來越多的問題和擔憂,爬蟲技術帶來的各種問題和顧慮日漸增加。
由于爬蟲的工作方式是通過解析代碼,為了規避網站經營者設置的反爬蟲措施,爬蟲運營方有可能會采取偽裝行為。因此通過爬蟲,爬蟲控制者將有可能訪問和抓取到一般用戶無法接觸到的內容。除了使用數據爬取技術獲取數據的自身風險外,爬蟲控制者還可能因獲取某些受法律保護的信息而面臨違法、違規甚至犯罪的風險。
(一)抓取到的信息屬于受著作權法保護的作品
互聯網中的很多數據都可能具備獨創性,例如文章、圖片、用戶評論等都存在構成著作權法保護的可能性。對于網絡爬蟲的數據抓取行為是否涉嫌侵權,主要存在下列情況:
就網絡訪問行為而言,由于爬蟲本身僅僅是對人類訪問行為的模仿,因此訪問行為不會構成對人類訪問本身可以訪問的信息的侵權行為。但是,如果被數據抓取到的網站本身設置有一些技術措施,以確保只有特定的用戶才可以通過這些技術措施以訪問這些信息,但是爬蟲運營方突破了這些限制,則爬蟲運營方的訪問行為可能涉嫌破壞技術措施的侵權或違法違規行為。
就數據保存本身而論,根據著作權法的角度來闡述,數據抓取行為本質上是對信息的復制,因此這些行為有可能構成對著作權人的復制權的侵犯。當然,我國對臨時復制行為是持寬容的態度。但如果爬蟲控制者在自己的網站上獲取信息并公開傳播抓取到的信息,則可能進一步侵犯著作權人在互聯網上傳播信息的信息傳播權。
(二)抓取到的信息屬于商業秘密
雖然在互聯網上的公開信息很難構成商業秘密,但網絡上的某些信息只能由特定的用戶通過采取技術措施訪問。因此,網絡信息可能仍然具有商業秘密所要求的保密性和秘密性,可能構成商業秘密。
根據《反不正當競爭法》第九條相關規定,以不正當手段獲取他人商業秘密的行為即構成侵犯商業秘密。后續該等信息如被進一步加以利用,則構成對他人商業秘密的披露和使用,同樣構成對他人的商業秘密的侵犯。
因此,如果爬蟲控制者有意規避網站運營方為獲取信息,突破網站運營方設置的反爬蟲保護措施,保存甚至公開普通用戶無法訪問的網站內容,從而構成商業秘密的侵犯,爬蟲控制者的行為構成侵犯他人的商業秘密。
(三)抓取到的信息屬于反不正當競爭保護的數據
如果爬蟲抓取的是UGC模式的網站上用戶發布的信息,并在爬蟲運營者自家的產品或者服務中提供這些內容,則存在構成不正當競爭的較大的風險。因為這些案件的涉及數據和內容是構成原告競爭力的主要來源。
如在D公司訴B公司不正當競爭案件等案件中,法院均認為被告未經許可,擅自獲取和使用原告網站數據的行為影響了原網站的正常使用和獲利,攫取了他人的經營成果,損害了互聯網的市場競爭秩序,構成對原告產品的實質性替代,構成不正當競爭。
為規避使用爬蟲過程中產生相關知識產權侵權風險,爬蟲控制者使用爬蟲時應:1.不違反網站設置的robots協議;2.在爬蟲策略設置上,構成版權保護的數據,某些特定網站的用戶生成內容不能隨意抓取;3.先審查所抓取的內容,方能使用、傳播抓取到的相關數據。
[ 參 考 文 獻 ]
[1]史欣媛.互聯網新型不正當競爭案件中的行為正當性判定標準研究[J].安徽大學學報(哲學社會科學版),2017(1):122-130.
[2]覃騰英.《反不正當競爭法》視閾下屏蔽廣告行為的定性——以消費者利益保護為視角[J].電子知識產權,2018(6):64-73.