十大深網搜索引擎提供無法從Google和Bing獲取的信息

2018-09-10 09:39:38王雄

計算機與網絡 2018年20期

王雄

當想要搜索某些內容時，Google或Bing通常會是第一選擇。但無論是Google還是Bing都不會提供隱藏在暗網中的信息。此外，當通過Google搜索時，Google還會記錄你在互聯網上的每一步操作。對于注重個人隱私安全的人來說，能夠對在線活動保持匿名顯然更能引起興趣。

“深網（Deep Web）”也稱為“不可見網（invisible Web）”，該術語指的是一個龐大的底層內容存儲庫，一個通用網絡爬蟲工具無法訪問的在線數據庫。

說它龐大，是因為深網所包含的內容估計要比能夠通過常規搜索引擎搜索到內容要多近500倍，但由于搜索引擎的限制，大部分內容仍無法被搜索到。

由于大多數個人檔案、公共記錄和其他與個人有關的文檔都存儲在數據庫中而不是靜態網頁上，因此大多數關于個人的敏感隱私信息對于常規搜索引擎來說都是“不可見的”。

然而，隨著搜索算法的不斷完善和更新，通過深網搜索引擎來找到想要的商品、內容或信息正在變得越來越容易。

為什么無法通過Google搜索出深網的內容

通常來講，深網或者暗網（Dark Web，深網的一個子集）的內容是沒有編制索引的，所以無法通過常規搜索引擎（如Google和Bing）搜索出結果。換句話來說，所有Deb網站（.onion）都沒有編制索引，而Google不會提供任何不通過萬維網索引的搜索結果，這些內容隱藏在HTML表單后面。

通過常規搜索引擎進行搜索，內容會從相互連接的服務器上提供，而當訪問暗網時，并不是在瀏覽這些相互連接的服務器。相反，一切都保留在Tor網絡的內部，這就為每個人都提供了安全和隱私。

根據研究人員的說法，只有4 %的互聯網內容是公眾可見的，其余96 %的網站和數據隱藏在深網中。

不得不說的robots.txt文件

robots.txt文件是搜索引擎中訪問網站的時候要查看的第一個文件，通常位于一個站點的根目錄下，其作用是告訴搜索機器人哪些記錄、注冊表、文件和目錄禁止被索引。

當搜索機器人訪問一個站點時，它會首先檢查該站點根目錄下是否存在robots.txt，如果存在，搜索機器人就會按照該文件中的內容來確定訪問的范圍；如果該文件不存在，搜索機器人將訪問網站上所有沒有受到口令保護的頁面。

這里為大家介紹十款能夠獲取深網搜索結果的搜索引擎，有一些讀者可能使用過，但相信并不是所有人都了解。

1. pipl

pipl的查詢引擎可以幫助找到在常規搜索引擎上無法找到的深層網頁。與其他搜索引擎不同，pipl能夠提供從深網獲取的搜索結果。pipl的robots文件設置為與可搜索的數據庫進行交互，并從個人檔案、成員目錄、科學出版物、法庭記錄和許多其他深網資源中提取相關信息。

根據pipl官方的說法，pipl搜索引擎所使用高級語言分析和排序算法，能夠在一個簡單、易于閱讀的結果頁面中提供關于某個人或事物的最相關的信息。

2. My Life

MyLife的公共頁面可以列出與某個人相關的大量數據，包括年齡、曾居地和現居地地址、電話號碼、電子郵箱地址、就業信息、照片、親屬信息等。

據稱，MyLife擁有超過2.25億個公共頁面，幾乎涵蓋了所有18歲以上的美國公民的數據。

3. Yippy

事實上，Yippy是一個元搜索引擎（它通過利用其他網絡索引得到的結果）。與Google不同，它不會存儲你的瀏覽歷史、查看過的條款或電子郵件。

4. Surfwax

SurfWax搜索是一項免費和基于訂閱的服務。該搜索網站提供了許多功能，而不是純粹的搜索。這些功能包括：

Focus-允許添加“焦點詞”到搜索中。根據焦點詞的不同，可用于擴大或縮小搜索范圍；

SiteSnaps-獲取網站頁面的簡要說明，并進一步識別引擎認為與焦點詞相關的詞條；

ResultStats-衡量并顯示要羅列出大量搜索結果所需花費的時間。

根據Surfwax的比喻，這就相當于在沖浪過程中，surfwax能夠幫助沖浪者抓住他們的沖浪板，而對于網上沖浪的人來說，SurfWax可以幫助獲得最佳的信息控制———提供最佳相關搜索結果。

5. Way Back Machine

Wayback Machine是互聯網檔案館（Internet Archive）收集開放網頁的一個前端，包含超過100 TB的數據。

Wayback Machine通過URL訪問這些數據，但無法通過內容來訪問，因為客戶端必須知道特定網頁或Web網站的正確URL才能進入對應的頁面。

互聯網檔案館允許公眾將數字資料上傳和下載到其數據集群，但其大部分數據是由其網絡爬蟲工具自動收集的，這些爬蟲工具可以盡可能多地保留公共網絡。Wayback Machine的Web檔案包含超過1 500億份網絡捕獲數據。

6. Google Scholar

Google Scholar允許搜索各種學術文獻。它從期刊出版商、大學資料庫和其他被它認為是學術性的網站上獲取信息。Google Scholar旨在幫助發現與輸入關鍵詞相關的學術資源。另外，還可以配置Google Scholar，以允許它自動訪問NCSU庫對期刊和數據庫的訂閱。

7. DuckDuckGo

這個深網搜索引擎與其他九款搜索引擎一樣，允許搜索常規的網頁。它有一個簡潔易用的界面，且不會追蹤使用者的搜索內容，并且搜索設置中的選項是十分豐富，甚至可以通過自定義它來增強用戶體驗。

DuckDuckGo強調返回最好的結果，而不是最多的結果，并從400多個獨立的來源中篩選出這些結果，包括一些知名的百科網站（如維基百科），以及其他搜索引擎，如Bing、Yahoo！、Yandex和Yummly。

8. Fazzle

Fazzle.com是一個元網絡索引，可以用英語、法語和荷蘭語訪問。Fazzle會搜索120多個經過修改的Web索引，以傳達“快速準確的結果”，每一條搜索結果旁邊都有一個查看頁面。它的查詢項目包括網站、下載、圖像、視頻、音頻、黃頁、白頁、購物和新聞等。

不管其他的查詢項是什么，都是從Fazzle運行的眾多搜索列表中組合起來的，但是Fazzle會在它的SERPS頁面上顯示“最佳選擇”和20個不同的結果。

9. not Evil

與其他Tor搜索引擎不同，not Evil并不是以營利為目的的，它是Tor網絡中的另一個搜索引擎，從功能和搜索質量來看，它在眾多搜索引擎中具有很強的競爭力，且沒有廣告和追蹤。隨著搜索算法不斷更新和完善，用戶可以很容易找到想要的商品、內容或信息，使用not Evil，可以節省大量時間并保持完全匿名，且它的用戶界面非常地直觀。

10. Start Page

如果十分注重個人隱私安全，并且不會使用Tor瀏覽器，那么Start Page絕對會是一個非常不錯的選擇，它可以說是最好的搜索引擎之一。

Start Page也不會記錄IP地址，因此用戶的搜索歷史會得到很好地保護。對于從事研究的人來說，Start Page搜索引擎會是一種很好的選擇，因為它不會泄露個人隱私。