文/楊望
Web Spam技術的發展與防御
文/楊望
隨著Web技術的發展,Spam不再是Email領域的專利,萬維網垃圾(Web Spam)成為一種新的危害,垃圾網頁(Spam page)開始日益充斥著互聯網。在今年USENIX舉辦的LEET 2011,業界對Web Spam的危害、發展以及控制進行了討論,本文將通過對大會上幾篇論文的分析對Web Spam進行一個概要的介紹。

來自微軟公司的Sasi Parthasarathy在大會上作了題為“Complex Search of Web Spam”的演講。在演講中,Parthasarathy對垃圾網頁和搜索引擎的關聯做了詳細的介紹。在他看來,一個垃圾網頁是一個使用垃圾技術來提升其在搜索結果的排名,但實際對用戶沒有任何使用價值的網頁。用戶不會主動地去瀏覽這些垃圾網頁,所以垃圾網頁必須通過搜索引擎才能欺騙用戶并創造收入。要達到這樣效果,垃圾網頁就必須了解搜索引擎對頁面排名的方法。目前通用的頁面排名依賴于兩方面的數據:網頁內容數據和網頁鏈接數據。垃圾網頁也從這兩方面實施對搜索引擎的欺騙。在頁面方面,常見的欺騙技術包括:
堆砌(Keyword Stuffing)
域名停放 (Parked Domain)
內容隱藏(Hidden Content)
機器自動生成內容 (Machine GeneratedContent)
社交媒體網站欺騙(Social Media Spam)這些欺騙技術有著不同的實現方法,但總體來說都是生成大量對用戶沒有意義甚至不可閱讀的內容,但這些內容包含大量關鍵字,可以被搜索引擎發現并評估。例如內容隱藏技術可以生成如圖1的一段HTML代碼,這段代碼在頁面上不可見,但羅列并重復大量的搜索引擎敏感的關鍵字。當相應的關鍵字被搜索時,該頁面會被排列在靠前的搜索結果中,但當用戶點擊該頁面時,可能無法得到任何想要的與關鍵字相關的信息。
除了基于頁面內容的欺騙,垃圾網頁還采用基于鏈接的欺騙方式,主要形式包括:
鏈接農場(Link Farms)
鏈接交換(Link Exchange)
這兩種方式都是企圖通過對垃圾網頁建立大量的鏈接,從而提高搜索引擎對垃圾網頁的排名。
Parthasarathy針對這些欺騙技術指出,目前各家搜索引擎也在試圖通過相關性判定等技術手段進行自動或人工的垃圾網頁識別技術,但目前的效果很不理想。一方面一些合法的提升網站排名技術(例如一些大網站會購買付費鏈接)和欺騙技術的效果相似,搜索引擎難以判定哪一個是合法,哪一個是非法;另一方面如何判定內容的意義也是一個難題。

圖1
來自印第安納大學的Youngsang Shin等人發表的《The Nuts and Bolts of a Forum Spam Automator》通過對流行的垃圾網頁工具XRumer的分析揭示了目前為何垃圾網頁能如此盛行。XRumer這一類工具通過在各類論壇上自動發布包含執行垃圾網頁鏈接的帖子來提高垃圾網頁在搜索引擎對鏈接層次分析上的排名。盡管現在的論壇通過用戶注冊、CAPTCHA、用戶信譽識別等技術來盡量避免這類自動發帖工具對論壇的污染,但在經濟利益的驅動下,這類工具的開發者逐個擊破了論壇管理員設立的各類防護手段。
Shin通過對XRumer軟件的功能分析,發現XRumer可以通過模板自動注冊帳號,并具有學習功能,對于沒有見過的注冊界面,可以將其關鍵字段采集并交由用戶進行配置。對于大多數論壇需要的郵件認證,XRumer可以依賴用戶配置的郵箱或者自動注冊免費郵箱來完成認證過程。雖然很多論壇使用CAPTCHA技術來識別人和程序,阻礙程序的自動注冊過程,XRumer可以自己破解簡單的基于文本和問題的CAPTCHA,并提供接口識別那些基于圖片的CAPTCHA技術,黑客的經濟生態圈已經發展得很完善,存在一些第三方的CAPTCHA破解服務提供者,提供每1000個問題1美元的低廉價格服務。
很多論壇會對用戶的行為進行統計,只有良好信譽的用戶才能發帖并避免自己的帖子被刪除。XRumer也提供了用戶行為的模擬功能,例如設置不同的帳號互相提問和回答一些正常的問題來偽裝正常用戶。同時XRumer還會根據在論壇搜索關鍵字的結果,調整發帖的內容,并采用隨機生成文本的方式,來避免基于黑名單過濾的監控方式。
簡而言之,在這樣強大的工具面前,為了將這些垃圾網頁相關的發帖清除,論壇管理員將面對一場艱苦的斗爭。
垃圾網頁的清除是一項系統的工作,從搜索引擎和論壇管理員的角度,都無法最終有效地控制垃圾網頁,而域名是垃圾網頁的基礎設施之一,如果能控制垃圾網頁存在的域名,就能在一定程度上直接削弱垃圾網頁的存在。來自加州圣迭戈分校的He Liu介紹了如何從域名上對垃圾網頁進行控制。He Liu介紹了CNNIC(中國互聯網信息中心)和LegalScript兩個不同組織的不同手段。CNNIC是.cn域名的注冊服務商,.cn域名曾經是垃圾網頁的重災區。
目前CNNIC采用的方式是提高域名注冊和持有的成本,垃圾網頁的控制者對經濟因素非常敏感,.cn域名成本的升高成功地讓中國的垃圾網頁開始大量地向俄羅斯的.ru域名轉移。LegalScript則采用域名認證的方式,對某些領域的網頁進行審查,一旦判定該網頁為垃圾網頁,則和對應的域名服務商聯系,采用ClientHold的方式,即中止用戶對該域名的使用,同時繼續保留該域名的使用權,防止有人試圖在其他服務商那里繼續注冊和使用相同的域名,這一類域名主要針對使用.com等頂級域名的垃圾網頁。
(作者單位為東南大學計算機學院)
網康科技連續三年入圍中央政府采購系統
2011年6月1日,中央國家機關2011年度計算機等產品政府集中采購協議供貨項目(總第18期)第三批開標,網康科技作為業內領先的網絡應用管理設備提供商,憑借全球頂尖的網絡應用管理技術、產品和解決方案,連續3年成功入圍中央政府采購系統。
中央國家機關采購協議供貨項目是我國目前級別最高的政府采購項目。網康科技作為國內成長最快、高端用戶最多的網絡應用管理廠商之一,在2011年持續發力,此次采購項目中,上網行為管理9款產品以及流量分析10款產品實現入圍。同去年相比,產品數量有大幅度地提升。
在本次開標結果中,網康科技上網行為管理以及流量分析兩大系列產品是同類入圍產品數量最多的廠商,證明了網康科技在該領域的耕耘頗深。此外,網康的拳頭產品上網行為管理系列產品在中央政府采購系統中,與同類廠商相比,采購量長期排名前三。
目前,網康科技的產品已經被廣泛應用于政府、金融、能源、教育、通信、制造等眾多行業,擁有超過一萬家企業級客戶。
首屆互聯網電視產業論壇在京舉行
6月8日,由南方廣播影視傳媒集團、創維集團和北京優朋普樂聯合主辦的2011年首屆中國互聯網電視產業鏈高峰論壇在北京舉行。在本次研討會上,由南方傳媒、創維集團、優朋普樂以及索尼影視等產業實踐者聯合組建的互聯網電視產業鏈第一次正式完整展現。
據DisplaySearch預測,全球互聯網電視市場在2012年則可望達8,700萬部,市場占有率約38%, 2014年全球互聯網電視出貨量將達到1.2億臺。在這種形勢下,產業鏈合作模式將為互聯網電視產業運營服務打造出新標桿,成為服務提供的事實標準,對推動中國互聯網電視產業的發展將會產生重大影響。通過產業鏈合作,廣電牌照方、內容商、電信運營商、電視機廠商等多個企業都將有序參與到未來的互聯網視頻內容服務產業中。