劉宇松
摘 要:Web代理緩存對提高萬維網的性能起著關鍵性的作用。然而,在確定哪些Web對象在隨后的網絡訪問中會被再一次訪問非常困難,這仍然是現有Web代理緩存技術所面臨的一個大問題。利用支持向量機對Web代理日志數據的學習,可以很好地解決Web代理緩存技術的相關問題,從而使代理緩存的利用率更高。
關鍵詞:支持向量機;代理緩存;高維度空間;Web緩存技術
中圖分類號:TP333 文獻標識碼:A DOI:10.15913/j.cnki.kjycx.2016.21.099
網絡對我們的生活產生了巨大的影響。在許多領域,比如教育、娛樂、醫學等,網絡已經成為一個十分有用的工具。這些跡象表明,互聯網用戶的快速增長,導致互聯網經常“擁堵”,最終,互聯網用戶受到了緩慢的響應時間的影響,尤其是在瀏覽特別流行的網站。最流行的基于軟件的解決方案是Web緩存技術,Web緩存有3個層次,分別是客戶端層、代理層和原始服務器層。代理服務器在用戶與網站之間起著紐帶作用,它可以縮短用戶請求的響應時間,節省網絡帶寬。因此,為了實現更短的響應時間,一個有效的緩存應該建立在代理服務器上。
由于緩存空間的限制,需要一個智能的方式來有效管理Web緩存內容。傳統的緩存策略是無效的,因為其只考慮一個因素,而忽略了其他對Web緩存效率有影響得因素。因此,現在有許多緩存策略提出,并獲得了很好的效果。
支持向量機是一種監督式的學習方法,它有許多良好的品質,使其成為了最流行的算法之一,在許多分類應用中,比如文本分類、網頁分類等的應用比其他算法更快、更準確。
本文提出了用支持向量機來預測稍后可重新訪問的Web對象,將這些預測的Web對象存儲在代理緩存空間上,以更有效地利用代理緩存空間。
1 支持向量機
支持向量機(Support Vector Machine,SVM)是Corinna Cortes和Vapnik等人于1995年首先提出的,其在解決小樣本、非線性及高維模式識別中表現出許多特有的優勢,并能推廣應用到函數擬合等其他機器的學習中。
支持向量機的主要思想是使用一個高維度空間,在這個空間中找到一個錯誤率最小的超平面,進而用來對兩個類進行二元劃分。支持向量機是一個學習模型,需要通過學習來運行。在學習階段,支持向量機學會發現幾個代表學習數據的支持向量。因此,支持向量機根據學習模型對一個給定的未知的數據集進行分類。
然而,對于許多現實生活中的問題,想要找到一個超平面的數據進行分類很困難。對于處理非線性可分數據,在線性情況下仍然可使用相同的公式和方法,輸入的數據只從其原始空間轉換到另一個高維度空間。在這個空間里,一個線性決策邊界可以分離出正面和負面樣本,我們將這個空間稱為特征空間。因此,支持向量機的基本思想是將輸入空間中的數據通過一個非線性映射將數據映射到一個特征空間里。
綜上所述,非線性決策邊界通過轉換將原始數據轉換到一個更高維度的特征空間中。然而,這種轉換卻從來都沒有明確的實施過。相反,支持向量機的核心函數在學習過程中不需要了解變換功能就可以計算所有的數據點。支持向量機有多個核心函數供用戶選擇,以解決不同的問題。不同的核心函數適用于不同的問題類型。
2 基于支持向量機的分類方法
本文提出一個基于支持向量機的對Web代理緩存內容進行分類的分類器方法框架,如圖1所示。該方法包括數據收集、預處理和學習階段。因此,Web緩存是可以通過經過學習的支持向量機分類器來管理的。
2.1 數據收集
Web代理日志文件可以提供用戶在登錄到服務器后所進行的一切操作信息。筆者認為,Web代理日志文件是完整的知識體系,是可以作為學習數據來使用的,可有效預測下一個Web對象。
2.2 數據預處理
在支持向量機學習階段之前,需要對數據進行預處理,使數據可被支持向量機學習。數據預處理包括數據跟蹤準備和數據集準備兩方面。
由于在日志文件中有一些無效的條目和不相關的條目,在數據跟蹤準備時需要刪除這些條目。數據跟蹤準備分為以下3步:①數據分析。明確日志文件中連續記錄之間的邊界以及每條記錄中的不同字段。②數據過濾。了解不相關的輸入,比如非緩存請求、錯誤的HTTP狀態碼輸入等,只考慮正確的輸入。③數據定型。消除不必要的字段,將數據確定為最終適合支持向量機學習的格式。
2.3 學習階段
支持向量機已被廣泛應用于解決各種分類問題中。在核心函數學習的幫助下,支持向量機已經應用到了許多領域中,并取得了成功。
3 結束語
Web緩存是提高Web系統可擴展性的有效解決方案之一。本文提出了基于支持向量機的預測Web對象的智能方案,用支持向量機預測Web對象隨后是否可以重新訪問。因此,支持向量機可以有效地優化代理緩存的使用,具有良好的性能。
參考文獻
[1]郎宇寧,藺娟如.基于支持向量機的多分類方法研究[J].中國西部科技,2010(17).
[2]劉成忠.兩種不確定支持向量機分類性能的對比研究[J].計算機技術與發展,2011(11).
[3]張松蘭.支持向量機的算法及應用綜述[J].江蘇理工學院學報,2016(02).
[4]張超群.代理緩存關鍵技術的研究[J].計算機工程與科學,2007(02).
〔編輯:張思楠〕