李亞
摘?要:互聯(lián)網(wǎng)時(shí)代人們檢索信息的主要方式都是利用搜索引擎完成的,不管是通用的全文搜索引擎,還是分類別的垂直搜索引擎,面臨的主要行為就是作弊行為,網(wǎng)頁(yè)作弊成為當(dāng)前搜索引擎面臨的一個(gè)重大挑戰(zhàn),很多作弊者利用各種作弊技術(shù)來(lái)騙取虛假或排名。信息時(shí)代的不斷發(fā)展,作弊行為也各種各樣,而搜索引擎需要通過(guò)不斷的優(yōu)化和完善內(nèi)部排序算法來(lái)有效杜絕作弊行為。
關(guān)鍵詞:搜索引擎;反作弊技術(shù);應(yīng)用研究
優(yōu)化網(wǎng)頁(yè),自然排名才能夠有效地靠前,很多網(wǎng)頁(yè)通過(guò)騙術(shù)騙過(guò)搜索引擎,獲得絕佳排名,但是搜索引擎通過(guò)學(xué)會(huì)這些騙術(shù),提高自己防騙能力,這就是反作弊算法。網(wǎng)絡(luò)作弊的直接后果就是導(dǎo)致搜索引擎的質(zhì)量直線下降。在當(dāng)前網(wǎng)頁(yè)作弊主要分為內(nèi)容作弊,鏈接作弊和隱藏技術(shù)。網(wǎng)絡(luò)網(wǎng)頁(yè)作弊的大量泛濫會(huì)影響搜索引擎正常工作,也給用戶在獲取信息過(guò)程中帶來(lái)極大麻煩,因此通過(guò)研究各種網(wǎng)頁(yè)作弊的技術(shù)和方法。將當(dāng)前反作弊技術(shù)分為三大類,分別是基于網(wǎng)頁(yè)特征分析方法,基于網(wǎng)絡(luò)鏈接分析方法和檢測(cè)各種隱藏技術(shù)的方法。
一、作弊網(wǎng)頁(yè)的危害概述
搜索引擎是通過(guò)收取網(wǎng)絡(luò)中主要信息進(jìn)行索引,構(gòu)建用戶的搜索請(qǐng)求提交給搜索引擎后,搜索引擎會(huì)通過(guò)搜索系統(tǒng)選出符合條件的網(wǎng)頁(yè)。網(wǎng)站的盈利就主要是借助于流量,網(wǎng)站流量越大,網(wǎng)站就可以拉到更多廣告投放,實(shí)現(xiàn)大面積的盈利,因此就有很多網(wǎng)站站長(zhǎng)為了提高自身網(wǎng)站流量而進(jìn)行作弊,利用一些非正常的手段提高網(wǎng)站搜索引擎內(nèi)部排名[1]。作弊網(wǎng)頁(yè)的存在對(duì)搜索引擎的威脅是非常明顯的,它不僅會(huì)增加搜索引擎的負(fù)擔(dān),而且嚴(yán)重降低了用戶對(duì)搜索引擎的信任程度。經(jīng)過(guò)研究證明網(wǎng)頁(yè)作弊同時(shí)具備多樣性和復(fù)雜性的特點(diǎn),這給搜索引擎帶來(lái)極大的困難。隨著時(shí)代的發(fā)展,網(wǎng)絡(luò)作弊具備多樣性和復(fù)雜性的特征,很多情況下是幾種作弊方式相互結(jié)合的情況,這給搜索引擎工作帶來(lái)了極大的困難。所以需要通過(guò)反作弊技術(shù)和算法做好一定的作弊檢測(cè),減少作弊網(wǎng)頁(yè)的危害。
二、反作弊技術(shù)和算法的基本研究
反作弊技術(shù)主要分為基于網(wǎng)頁(yè)特征分析的方法,基于網(wǎng)絡(luò)鏈接分析的方法,以及檢測(cè)各種隱藏技術(shù)的方法。
(一)基于網(wǎng)頁(yè)特征分析的方法
基于網(wǎng)頁(yè)特征分析技術(shù),這種方法就是從大規(guī)模的網(wǎng)頁(yè)實(shí)驗(yàn)中提取網(wǎng)頁(yè)特征,通過(guò)統(tǒng)計(jì)的方法對(duì)特征進(jìn)行分析,發(fā)展作弊網(wǎng)頁(yè)和正常網(wǎng)頁(yè)之間的不同特點(diǎn),根據(jù)這些特征建立好一個(gè)網(wǎng)頁(yè)分類器,實(shí)現(xiàn)當(dāng)網(wǎng)頁(yè)自動(dòng)分為作弊網(wǎng)頁(yè)和正常網(wǎng)頁(yè)。這是作為一項(xiàng)非常基礎(chǔ)的反作弊技術(shù),通過(guò)對(duì)網(wǎng)頁(yè)主機(jī)名組成,主機(jī)和IP個(gè)數(shù)比例入鏈和出鏈數(shù)站點(diǎn)網(wǎng)頁(yè)的平均更新率內(nèi)容等信息進(jìn)行有效的研究,發(fā)現(xiàn)其中蘊(yùn)含的特征:有些域名很長(zhǎng),域名中還有一些特殊的字符,同時(shí)頻繁更換內(nèi)容,那么這些網(wǎng)頁(yè)就極有可能是作弊網(wǎng)頁(yè)。通過(guò)對(duì)這些特征進(jìn)行有效的識(shí)別研究,就能夠?qū)ψ鞅拙W(wǎng)頁(yè)和正常網(wǎng)頁(yè)進(jìn)行有效的區(qū)分,但是由于時(shí)代的不斷發(fā)展,這些作弊網(wǎng)頁(yè)的技術(shù)也在不斷發(fā)展,因此要想利用網(wǎng)頁(yè)特征分析的方法,有效的實(shí)現(xiàn)反作弊技術(shù)的發(fā)展,那么網(wǎng)頁(yè)特征分析的方法也需要與時(shí)俱進(jìn),不斷更新[2]。搜索引擎在抓取網(wǎng)頁(yè)時(shí)對(duì)網(wǎng)頁(yè)正文標(biāo)題標(biāo)簽進(jìn)行分析,如果發(fā)現(xiàn)某個(gè)站點(diǎn)內(nèi)存在大量重復(fù)內(nèi)容或者是網(wǎng)頁(yè)的出現(xiàn),那么就可以判斷是一個(gè)作弊網(wǎng)頁(yè)。比如在一個(gè)網(wǎng)頁(yè)中出現(xiàn)超級(jí)和免費(fèi)電影等詞語(yǔ),這些詞語(yǔ)出現(xiàn)是單一的那么就不能判定為作弊網(wǎng)頁(yè),但是這些詞語(yǔ)出現(xiàn)的頻率極高,出現(xiàn)多次這樣的詞語(yǔ),那么就可以判定為作弊網(wǎng)頁(yè),利用這種相關(guān)性的評(píng)分方式,能夠?qū)@樣的網(wǎng)頁(yè)進(jìn)行評(píng)測(cè)
(二)基于網(wǎng)絡(luò)鏈接分析的方法
基于頁(yè)面鏈接分析的方法主要有兩種思路,分別是從正面出發(fā)的HillTop算法和TrustRank算法,以及從反面出發(fā)的Bad Rank算法,HillTop算法是在2001年提出的,這種算法認(rèn)為主題相關(guān)的網(wǎng)頁(yè)之間的鏈接對(duì)于權(quán)重計(jì)算貢獻(xiàn)應(yīng)該比主題不相關(guān),鏈接的價(jià)值更高,所以這種算法就是假設(shè)網(wǎng)絡(luò)中的文檔,所指向的網(wǎng)頁(yè)不會(huì)是作弊頁(yè)面,專家頁(yè)面指向排序應(yīng)該更高。但是這種算法存在著一個(gè)致命弊端就是,如果找不到數(shù)量足夠的專家,文檔至少有兩個(gè),那么該算法就失效。TrustRank算法是在2004年提出的,利用這種算法衡量網(wǎng)頁(yè)的可信度,從中挑出那些可能使用鏈接作弊的網(wǎng)頁(yè),由人工判別是否在排名中降權(quán),這種算法的依據(jù)是好的頁(yè)面很少會(huì)有鏈接指向作弊頁(yè)面。但是需要有反作弊專家挑選網(wǎng)頁(yè)中的一個(gè)好的集合,根據(jù)這些集合中的鏈接關(guān)系,找到同樣好的網(wǎng)頁(yè),將好的網(wǎng)頁(yè)也放在集合中。BadRank算法和提到的以上兩種算法是完全不同的,它是從反面出發(fā),發(fā)現(xiàn)那些肯定是作弊的網(wǎng)頁(yè)。主要流程就是維持一個(gè)作弊網(wǎng)易的黑名單,這個(gè)黑名單是通過(guò)用戶舉報(bào)或利用技術(shù)獲得的,然后內(nèi)容就是黑名單發(fā)現(xiàn)其他的作弊網(wǎng)頁(yè)。
(三)檢測(cè)各種隱藏技術(shù)的方法
結(jié)束語(yǔ):
總結(jié)全文,網(wǎng)頁(yè)作弊成為搜索引擎的重大威脅,作弊網(wǎng)頁(yè)在搜索引擎檢索中獲得較高排名,獲取流量,利用多種作弊方式欺騙搜索引擎。伴隨著信息化時(shí)代的發(fā)展,新的作弊技術(shù)不斷出現(xiàn),甚至互相融合,給搜索引擎帶來(lái)了極大的困難,為了進(jìn)一步增強(qiáng)反作弊技術(shù),凈化網(wǎng)絡(luò)環(huán)境,給用戶帶來(lái)更好的搜索功能體驗(yàn),需要對(duì)檢測(cè)作弊技術(shù)進(jìn)行不斷的更新,結(jié)合用戶的行為習(xí)慣,不斷地改善排序算法,提高搜索引擎的反作弊效率。
參考文獻(xiàn)
[1]?高尚建,魏國(guó),楊功.網(wǎng)站搜索引擎優(yōu)化策略研究[J].科學(xué)技術(shù)創(chuàng)新,2020(18):98-99.
[2]?顧惠超.大數(shù)據(jù)分析下智能搜索引擎的構(gòu)建研究[J].信息與電腦(理論版),2020,32(04):125-126.
[3]?王慶福,王興國(guó).搜索引擎反作弊方法研究[J].電腦知識(shí)與技術(shù),2016,12(15):202-203.