謝海艇
山東體育學院 山東 濟南 250000
搜索引擎的基本概念出現于20世紀70年代,并于20世紀90年代中期得到快速的發展。隨著Web信息的迅速增加,搜索引擎市場出現了前所未有的繁榮景象,搜索引擎正向著智能化、個性化等適應不同用戶需求的方向發展。目前,搜索引擎仍然存在很多的局限性,主要表現在以下幾個方面:查詢精度不高且不能根據用戶興趣返回信息、資料檢索與用戶的交互不夠、查詢結果排序不合理、不能處理多種格式的文件等。
Web挖掘[1]是指從異構的分布式互聯網數據中收集信息,利用計算機網絡技術和人工智能技術,不斷地發現有用的數據模型和隱含知識。根據挖掘對象的不同,Web挖掘可分為Web內容挖掘、Web結構挖掘以及Web日志記錄挖掘。
Web內容挖掘是基于Internet中各種網站的數據內容,以獲得有效的知識驅動模型,并自動檢索網絡資源,提高網絡數據的使用。
Web結構挖掘是研究Web文檔的鏈接結構,找到鏈接中隱含的可用模式。其中兩個最著名的算法是PageRank算法和HITS算法。
Web日志記錄挖掘也稱為Web日志挖掘,以Web服務器訪問日志為主要數據,分析用戶的瀏覽行為與頁面之間的結構類型,改進站點結構,為用戶提供個性化服務。
用戶個性化數據庫以用戶的多維信息為基礎,不斷深入挖掘用戶的瀏覽行為,并根據頁面權重、時間間隔、下載信息等因素不斷更新數據庫,幫助用戶查找真實需求的資源信息[2]。用戶個性化數據庫包括信息收集與信息更新。
如何獲取有關用戶的個性化信息是用戶個性化數據庫需要解決的首要問題。用戶個性化數據庫的數據信息主要來自于用戶提交的信息以及分析用戶的訪問日志。用戶在訪問互聯網的過程中,提交的查詢關鍵詞、停留網頁時間、下載狀態等信息會在Web服務器上留下記錄,并形成用戶訪問日志。用戶個性化數據庫通過不斷分析用戶訪問日志,挖掘用戶的潛在個性化信息。
用戶的個性化需求不是一成不變的,大多數用戶的個人特征數據會隨著時間推移而變化。其主要表現形式有兩方面,一為興趣領域的變化,二為興趣程度的變化。用戶興趣的變化將不可避免地影響用戶個性化數據庫的內容,這就要求用戶個性化數據庫具有自主學習的能力,并根據用戶的興趣變化不斷更新數據庫中的相關特征項。
本文采用改變權重的方法更新用戶的個性化特征項,公式如下:

i為用戶訪問網站的參數。針對不同用戶的訪問行為進行定義,如用戶對訪問內容進行下載、對網頁進行全文瀏覽、對部分網頁內容進行瀏覽、未對網頁進行瀏覽等。不同的訪問行為反應了用戶對信息的滿意程度,依次為i確定不同的數值。
t是時間參數。用戶通常會長時間瀏覽他們感興趣的頁面,否則瀏覽時間將會變短。
個性化服務的目標是反映用戶之間的差異,尊重用戶的個性特征并向用戶提供各種信息服務[3]。基于Web挖掘的個性化搜索引擎模型主要為用戶提供個性化的信息檢索服務,便于用戶查閱使用。
本系統主要包括個性化數據庫、檢索系統、后臺管理系統。
個性化數據庫主要表示用戶的興趣趨勢,通過不斷挖掘用戶訪問日志,自動更新用戶的個性化特征項。
檢索系統主要基于用戶查詢關鍵詞,在檢索信息的同時計算相應頁面的權重,以此為依據進行排序,并把檢索結果反饋給用戶。
后臺管理系統主要加強子系統之間的通信連接,維持系統的穩定運行。
隨著互聯網信息的急劇增加,搜索引擎技術在信息檢索中發揮的作用越來越大。相信隨著科學技術的進步,網絡信息檢索技術的發展也會越來越快。※