搜索引擎在信息搜集過程中的信息倫理問題研究

2022-05-30 11:38:29譚哲李詣斐

計算機應用文摘 2022年4期

譚哲李詣斐

關鍵詞信息倫理搜索引擎研究

1引言

在搜索引擎企業高速發展、搜索引擎企業對社會影響越來越大的同時，搜索引擎企業所爆發出來的信息倫理問題也越來越多[1] ，與社會的矛盾也越來越尖銳。搜索引擎的信息行為主要包括信息搜集、信息加工、信息提供、信息使用四個流程。其中，信息搜索是第一步。2013 年，在百度與360 之間展開的3B 大戰中具有信息倫理內核和行業倫理準則性質的Robots協議成為判決的關鍵。這對我們解決搜索引擎在信息搜集中的倫理問題起到了啟示作用。

2搜索引擎在信息搜索過程中的信息倫理問題案例

2.1案例選擇———3B 大戰案中對Robots 協議的使用

在搜索引擎的信息搜集中，盡管搜索引擎可以開發其他的產品，通過各種形式搜集信息，但采集網頁卻是搜索引擎的基礎和重點———哪些網頁應該采集、哪些網頁不應該采集、萬一有網頁不愿意被采集。Robots 協議是行業內的軟協議，不具備法律效力，只具備倫理約束效力。Robots 協議到底存在怎樣的信息倫理內涵？我們一探究竟。

3B 大戰是搜索引擎行業的著名案例，360 違背百度設置的Robots 協議、不遵守行業規范也是案件判決的依據，下文將通過這個案例進行分析。

2.2案例回顧

2012 年年初，百度宣傳360 通過360 瀏覽器故意竄改、仿照百度搜索結果，進行惡意、不良競爭。同年8 月，360 宣布推出“360 綜合搜索”，正式進入搜索引擎市場，整個互聯網行業為之震驚，百度的市場壟斷地位或有望遭到動搖。360 將其瀏覽器的內置搜索引擎改為自主的360 搜索，替換了原來的Google 內核。

2012 年8 月28 日，百度又公開宣稱360 侵犯了其Robots 協議，違背行業道德倫理規范，除對百度數據庫進行了未被允許的抓取外，還對包括百度百科、百度知道在內的多項產品內容進行了抓取。360 的行為侵犯了百度的用戶隱私和知識產權，百度單方面宣布用重置盜鏈的方式對360 進行反制：百度實行搜索結果中的跳轉URL 動態加密，在使用一些瀏覽器時，用戶搜索諸如關鍵詞等行為也不會被記錄。這樣的強制手段旨在對網站和用戶的信息進行保護，阻止搜索引擎的爬蟲違背Robots 協議抓取本站數據，很多網站都曾采取這種方式，并非百度首創。

盡管這樣的方式能阻止360 違背Robots 協議抓取信息[2] ，但360 見招拆招，采用了網頁快照的方式進行反擊。通過360 瀏覽器會被直接跳轉至載有提示用戶該頁面系360 儲存及具體儲存時間的網頁快照頁面。

2012 年9 月，雙方的惡意斗爭終于引起了相關部門的關注。相關部門為避免再次發生3Q 大戰中傷及用戶的“二選一”現象，要求雙方停止惡意斗爭，不要再炒作。然而，事件并沒有因此而平息，百度啟用釣魚策略，用“鬼節捉鬼”的手段證實了360 瀏覽器不僅抄襲其他瀏覽器的搜索結果，而且還用其360 瀏覽器記錄用戶的信息，嚴重侵犯用戶隱私，造成用戶的信息安全隱患。此外，百度還搜集證據，試圖通過法律途徑解決問題，同時呼吁用戶對360 軟件進行卸載。

2013 年4 月，法院判決百度訴360 不正當競爭和商標侵權案中360 不正當競爭行為成立。360 當即上訴。2013 年11 月法院駁回了360 的上訴。2014 年8月，北京市中級人民法院就此案做出一審判決，認為360 違反不正當競爭法，判決360 賠償百度70 萬元，同時駁回了關于百度申請禁止360 抓取其網頁數據的行為。

法院認為，Robots 協議是搜索引擎業內的公認規則，屬于倫理道德的范疇，行業企業需要遵守，360 搜索引擎沒有遵守百度設置的Robots 協議，構成了不正當競爭。同時，法院也認為設置Robots 協議時要有充分的理由，百度對360 的針對性設置并不公平，因此駁回了百度的其他請求。

3案例分析———信息存取權問題

3.1 Robots 協議對搜索引擎信息存取權的影響

（1）結果論分析：以上文案例為例，上述違反Robots 的情況將會導致搜索引擎企業為了獲取更大的商業利益和贏得競爭而抓取網站保護數據以優化搜結果、抄襲同行對手的數據庫及產品[3] 、濫用Robots 協議排擠競爭者等現象日益增多。搜索引擎可以為了降低成本而抄襲其他搜索引擎的搜索結果，搜索引擎也可能會為了獲取更多的信息而侵犯一些網站不想被抓取的信息，這些信息可能對信息隱私和信息產權、信息安全有著極大的影響。

這樣的行為會侵害網站、用戶權益和公共利益。

最終打破搜索行業利益平衡，打亂行業秩序。從結果來說，違反Robots 協議是不利于結果論所追求“人類最大福祉”的。

（2）義務論分析：康德把義務理解為對普遍法則的尊重，就像網球俱樂部的會員需要遵守網球俱樂部的規則，而Robots 協議則可以看作是搜索引擎行業的普遍法則。Robots 協議是互聯網網站的站長和搜索引擎服務商兩者的共同協商之下于1994 年誕生的，其以Robots.txt 的形式實現，它可以引導搜索引擎的爬蟲如何抓取本網站的信息，也可以告訴爬蟲哪些信息可以抓取，哪些信息不能抓取，還能指定哪些搜索引擎可以抓取，哪些搜索引擎不可抓取。

Robots 協議的意義非凡，它的主要目的是保護網站中的敏感數據和信息，也可以保護網站用戶的隱私，同時對網站的服務器也有保護作用，因為過高頻率的抓取會給服務器帶來巨大的壓力。因此，Robots協議一經發布便被大部分的搜索引擎遵守。

在國內，《互聯網搜索引擎服務自律公約》便有明文規定行業內成員要自覺遵守Robots 協議[4] ，在搜索引擎企業簽署這一協議后，Robots 協議已上升為搜索引擎行業的信息倫理層面，應當普遍遵守。因此，違反Robots 協議是不符合義務論倫理的。

（3）美德論分析：Robots 協議并非命令，它是網站為防止被別人肆意抓取站內數據信息的警告，依賴搜索引擎自覺遵守。尊重是傳統美德，同時中國儒家傳統美德中也有“ 己所不欲勿施于人” 一說。違反Robots 協議也會違反公平、平等、誠實信用等美德。從美德論的角度來說，作為搜索引擎企業也需遵守Robots 協議。

3.2前移動互聯網時代搜索引擎對信息的掌控

在國內，曾經很多人打開瀏覽器后的第一個步驟便是進入百度頁面，以獲取網絡信息。

CNNIC 基于《2016.12～2017.06 中國網民各類互聯網應用使用率》報告認為搜索引擎位列中國網民互聯網應用使用率的第二位（表一）。在一般人都是用電腦使用瀏覽器瀏覽互聯網信息的時候，搜索引擎對于網絡中的信息有著極大的控制權。這時搜索引擎就成為網絡世界的把關者，其可以決定讓用戶優先看到哪些網站，對信息的獲取起到關鍵性影響。搜索引擎由此可以對信息資源進行掌控，用戶想接觸網絡信息需要經由搜索引擎這道門，網站想讓用戶被看到也要通過搜索引擎這道門。

百度一下和Google it 兩個搜索引擎的企業名直接成為搜索的代名詞，也成為獲得信息的代名詞。

3.3移動互聯網時代搜索引擎信息存取遭遇挑戰

在這個移動互聯網時代，更多的人選擇通過手機上網。第40 次《中國互聯網絡發展狀況統計報告》就指出搜索引擎的營收遭到挑戰。

隨著互聯網的發展，越來越多的網站并不希望通過搜索引擎讓用戶找到，它們開始拒絕被搜索引擎抓取，搜索引擎也越來越難以存取、獲得所有信息[5] 。

雖然搜索引擎應用在手機互聯網應用中排名前三（表2），但搜索引擎這一產品似乎漸漸從底層瓦解，同時搜索引擎這門生意漸漸被分散，不再是一門集中網絡資源的好生意。

搜索引擎曾經是互聯網最主要的入口，而在移動互聯網時代來臨后，手機APP 成為互聯網的又一大入口。原來的搜索引擎企業紛紛轉移重心開拓別的領域，這或許更能說明搜索引擎在公共領域和倫理領域具有更大的價值和挑戰。搜索引擎企業信息存取權的問題正遭到前所未有的挑戰，或許，未來會出現相關部門主導的搜索引擎企業，這樣的搜索引擎就會像現在的圖書館收藏書籍一樣———能夠搜集所有互聯網的信息以真正實現所有人對所有合法信息都有存取的權利，而屆時Robots 協議的內容肯定也需要進行相應調整[6] 。