趙靜
(陜西財經職業技術學院 信息工程系 咸陽 712000)
搜索引擎已逐漸成為人們日常生活中必不可少的工具,而且人們對搜索引擎的依賴還在不斷增強。互聯網上存在的巨大利潤驅使著很多人使其站點和頁面變得有名,以期待人們在進行相關內容查詢時,他們的網頁排在搜索結果的前列。當訪問者使用關鍵字通過搜索引擎來查找相關網站時,哪個網站如果能在搜索結果中名列前茅,則無疑會獲得更好的點擊率。因此,伴隨而來的搜索引擎排名的作弊也孕育而生。
搜索引擎作弊,或SEO作弊是指為了在搜索引擎中提高排名的目的而欺騙搜索引擎的行為。它與搜索引擎優化最大的區別在于,搜索引擎優化是一種利用搜索引擎的搜索規則來提高網站在有關搜索引擎內的排名。
1、 隱藏文本或隱藏鏈接
一般指網頁專為搜索引擎所設計,網頁內含的文字不能被人們所看到,但是卻能被搜索引擎看到。在形形色色的隱藏技術中,最常見的就是把文本或鏈接文字的字體顏色設置為與背景色相同或十分接近。
2、 惡意更換頁面內容
一般發生于先向搜索引擎提交一個網站,等該網站被收錄后再以其它頁面替換該網站。“誘餌行為”就屬于此類偷梁換柱之舉:創建一個優化頁和一個普通頁,然后把優化頁提交給搜索引擎,當優化頁被搜索引擎收錄后再以普通頁取而代之。
3、 關鍵詞堆砌
關鍵詞堆砌是指在頁面上堆放大量與頁面主題相關或無關的關鍵詞,這樣做是為了增加某些關鍵詞的詞頻以提高頁面相關性。它通常分為誤導性關鍵詞和重復性關鍵詞兩種形式。
4、 域名重定向
簡單的說就是通過各種方法,例如使用刷新標記、CGI程序、JAVA等將各種網絡請求重新定個方向轉至其他位置。常見的重定向包括301 redirect,302 redirect和meta fresh三種。
5、 門頁
門頁是指針對搜索引擎而進行特別優化的頁面,當用戶訪問門頁時,會自動或被引導至另外一個內容完全不同的頁面上。門頁可能是針對一個搜索引擎,也可能是針對多個不同的搜索引擎。由于每個搜索引擎的算法會存在或多或少的差異,不同的搜索引擎會有不同的門頁,在對不同的搜索引擎蜘蛛程序返回相應的門頁。
6、 鏡像網站
廣義上的鏡像網站是指那些復制或者抄襲其他網站內容的網站。常見的鏡像網站有三種:克隆網站,數據采集網站,多域名網站。
7、 作弊鏈接技術
指由大量網頁交叉連接而構成的一個網絡系統。這些網頁可能來自同一個域或多個不同的域,甚至可能來自不同的服務器。這種方法在建站初期的時候可能影響不會太大,畢竟搜索引擎要發現這些網站群的關系是需要一定的時間的。假如這些網站的鏈接超過了半年,依舊大量的相互鏈接,,很有可能這幾十個網站都會被察覺。
1、 搜索引擎要反作弊的重要性
搜索引擎是各大搜索公司的生命。因此,對于上述提到的搜索引擎作弊行為,谷歌,百度這些知名公司總是想方設法防范的。搜索引擎作弊不僅直接破壞了搜索引擎網站賴以生存的關鍵,而且也破壞了搜索引擎網站獲得收益的來源。近幾年來谷歌、百度等已經在反作弊上做了很大的工作,并對這些作弊行為給出了相應的懲罰措施。
2、 搜索引擎反作弊方法
像谷歌,百度等這樣的知名公司,總是不斷的運用各種技術提高自己的搜索質量。因為作弊具有共性,只要抓住這些共性就可以解決一類問題,一類類問題的解決,作弊的影響就可以降到最低點。
(1)基于網頁特征分析的方法
從大規模的網頁實驗集中提取網頁特征,然后通過統計的方法對特征進行分析,得到作弊網頁和正常網頁的不同特征。根據這些特征建立一個網頁分類器來實現自動的把網頁分成作弊網頁和正常網頁。最常見的方法是建立常用的spam列表并對其分類和分級,通過常用的spam列表分析相關詞匯重復使用率,密度,分布等情況,進而判斷是否存在惡意重復現象。
(2)基于頁面鏈接結構分析的方法
通過分析網頁的鏈接結構來判斷某網頁是否是作弊頁面,這種方法主要通過算法來實現,主要的思路是從正面出發的hilltop算法、trustrank算法和從反面出發的badrank算法。通過不同的算法對作弊進行防范,不同的排序算法會有不同的排序依據,不斷的尋找作弊者不能控制的排序依據使其無法進行作弊行為。
(3)檢測隱藏技術的方法
通過分析使用隱藏技術的網頁的特征,一些簡單的隱藏技術很容易被檢測出來。例如:對于隱形頁面作弊如果發現頁面內部大量文本采用和背景相同的顏色設置,則確定為作弊頁面;對于重定向、偽裝頁面可以使用網絡爬蟲來檢測。搜索引擎可以讓一部分爬蟲偽裝成普通用戶來訪問站點,對網站進行測試,看網站對用戶和搜索引擎返回的內容是否一致,如果不一致則很大可能是在作弊。
(4)加強人工審查
雖然通過技術手段反作弊的精準度接近于100%,但也不可能完全的消除,只能有效的減少。當技術手段不能解決問題,就用人工來解決。人工審核是最后的補充,前面的技術方法可以將需要審核的作弊網站范圍大大縮小,人工審核是判斷搜索引擎作弊的最后方法,也是最準確的方法。
如今,反作弊技術已經日趨成熟,搜索引擎在對付網頁作弊的工作上取得了不錯的效果。但是,商業利益的誘惑讓作弊技術不斷的更新和改進,所以搜索引擎很難從根本上消除網頁作弊現象。因此,作弊和反作弊的斗爭將是一個長期的反復的過程,同時也變相的推動了互聯網搜索行業的不斷創新和發展。我們相信,隨著反作弊技術的發展和成熟,在識別和對付作弊網頁上一定可以取得更好的成績。
[1]網利剛,趙政文,趙鑫鑫。搜索引擎中的反SEO作弊研究[M].計算機應用研究.2009.
[2]張興華.搜索引擎技術及研究[J].現代情報.2004.
[3]格拉夫,庫 辛.搜索引擎優化[M].清華大學出版社.2007.
[4]馬張華.分類搜索引擎類目體系研究[M].圖書情報工作.2001.