蒙 華,蘇 靜,李立峰,翟玉蘭
( 廣西醫科大學 a.第一附屬醫院 計算機管理中心;b.信息與管理學院 教研科, 南寧 530021)
醫院網站日志挖掘研究即利用數據挖掘技術分析用戶訪問模式等信息,從網站日志中發現并抽取有效信息,挖掘訪客感興趣的潛在有用信息。醫院網站的用戶訪問模式較為復雜,具有時間分布的隨機性、不均勻性,用戶瀏覽器及其版本的不確定性以及使用網絡代理多樣性等特點[3-4]。數據挖掘對象范圍是數據庫中的結構化數據,針對醫院網站訪問用戶無結構或者半結構化的行為數據進行挖掘分析的難度較大,分析效果不理想,無法有效接近用戶行為。針對以上存在的問題,需對Web日志數據進行預處理,將原始Web日志數據中錯誤、缺漏、干擾的信息轉換成相對完整和準確的用戶訪問事務數據庫,以適應新挖掘應用需求[5-7]。數據預處理操作主要是通過清洗原始數據和用戶識別、進行會話處理、標準化頁面和建立用戶相似度矩陣等操作,獲取反映用戶瀏覽行為的有效數據并轉換成后續挖掘算法可識別的格式,以此提高挖掘質量[8-10]。
本文對用戶訪問廣西某大型綜合性醫院官網的日志數據進行預處理,旨在從繁雜數據源中抽象出適合數據挖掘算法所需模式,提高預處理結果矩陣的有效信息含量。
Web日志記錄數據挖掘模型的算法流程如圖1所示,分成2個步驟:① 日志記錄數據的預處理操作,包括過濾日志數據、識別用戶、識別會話數據及路徑補充,確保日志數據應用于數據挖掘模型的有效性。② 頁面聚類處理得到日志數據。
Web日志數據預處理包括清洗、過濾日志數據,識別用戶,識別會話,數據標準化。其中數據預處理是基礎,決定后期數據挖掘的質量。數據挖掘流程見圖1。

圖1 數據挖掘流程
1) 清洗數據及過濾
清洗數據是在數據的多種屬性中抽取對挖掘目標影響較大的屬性,從而降低數據維數,提高日志數據中信息有效率。日志源數據表共有14項屬性,根據挖掘需求,清洗相關系數較小的屬性,保留用戶訪問時間、方式、IP地址、請求頁面、瀏覽器類型及用戶計算機操作系統共6個屬性。
過濾日志數據訪問頁面痕跡中包含的圖片、圖像、視頻、音頻以及服務器對用戶請求響應失敗的信息等,這些數據對后續分析無影響[5]。
[10]Selected Works of Jawaharlal Nehru, Second Series, Vol.11, New Delhi: Oxford University Press, 1991, p.372.
2) 用戶識別原則
對日志中訪問的用戶,根據用戶IP、瀏覽器及其版本、操作系統等對用戶進行劃分。當 IP地址一致時,若客戶機操作系統或使用瀏覽器類型、版本不同,則視為不同用戶[3,11-12]。
3) 會話識別
識別用戶的訪問行為,并劃分每個訪問用戶瀏覽的頁面序列到相應的會話事務,即進行事務識別。根據文獻[6,13],25.5 min為最佳用戶會話中止的界定時間,此即為時間戳[14]。
4)會話補充
① 客戶端瀏覽器Cache存儲近期瀏覽的文件,包括某些點擊率很高的網頁點擊信息。本文根據Web日志和Web站點結構中鏈接信息填補會話空缺。
② 若在瀏覽站點設置中,當前瀏覽網頁與用戶前一次請求的網頁之間無鏈接路徑,則用戶可能使用瀏覽器返回鍵,調取客戶機的緩存頁面,獲得一個完整的用戶訪問路徑。但實際情況中該方法很難獲取客戶機的緩存信息進行會話補充[8-9]。
5) 結構化、標準化
網站日志經過清洗等處理操作后,需轉換為符合數據挖掘算法的輸入格式,并保存到關系型數據庫表或數據倉庫中,即將數據標準化或結構化。本文選擇頁面序列作為指標進行聚類。
后期聚類分析結果準確程度受Web頁面相似度分析的影響,相似度分析也是歸類不同頁面群體的重要依據。選取頁面序列作為相似性度量指標[6],從預處理結果數據中統計用戶對各頁面的訪問次數。
根據式(1)計算頁面Pi和用戶clientj之間的關聯度矩陣L。
(1)

根據頁面和用戶的關聯度矩陣計算出頁面之間的相似度矩陣R,如式(2)所示[14],R即為日志數據標準化后的結果。
(2)
計算后得到Web日志數據標準化后的結果矩陣R(詳見實驗結果)。R凝聚了用戶和訪問頁面之間聯系的信息量,運用聚類分析、神經網絡等算法對R聚類,得出頁面聚類模式等以利于對醫院網站結構的分析優化。
本文數據來源于廣西某大型綜合性三級甲等醫院網站2011年10月31日日志.txt文件,總大小為31.2 M。日志文件是非結構化的文本文件,記載用戶訪問該醫院網站的記錄總計152 500多條,見圖2。

圖2 醫院網站日志片段
利用SQL2000數據庫技術刪除音頻等數據,得到32 500多條醫院網站訪問記錄,清除率為80%。網頁唯一性編碼共計1 850多個,即為經過數據過濾后該日用戶瀏覽的所有界面集合。對這些記錄進行會話識別和補充,得到2 800多個不同會話,見表1。其中:time表示當日時間;no表示該用戶訪問醫院網頁對應的編碼;ping表示融合IP地址、瀏覽器和操作系統等內容的字段;work表示區分會話字段。若ping相同,用戶會話會分割記錄點,兩者time字段相差≥25.5 min,即分為兩個會話記錄。
表1 網站日志文件會話集片段

timenopingwork23∶14∶3311365.52.110.190Mozilla/5.0+(compatible;…023∶14∶3611365.52.110.190Mozilla/5.0+(compatible;…02∶21∶2219265.52.110.22Mozilla/5.0+(compatible;…1002∶21∶221 63365.52.110.22Mozilla/5.0+(compatible;…02∶21∶2514665.52.110.22Mozilla/5.0+(compatible;…02∶46∶211 46265.52.110.22Mozilla/5.0+(compatible;…253∶11∶2288065.52.110.22Mozilla/5.0+(compatible;…258∶15∶521 39365.52.110.22Mozilla/5.0+(compatible;….3058∶16∶5120565.52.110.22Mozilla/5.0+(compatible;….18∶16∶511 65465.52.110.22Mozilla/5.0+(compatible;….08∶16∶5339665.52.110.22Mozilla/5.0+(compatible;….08∶16∶5314665.52.110.22Mozilla/5.0+(compatible;….08∶16∶5577865.52.110.22Mozilla/5.0+(compatible;….0

timenopingwork14∶00∶061 39365.52.110.22Mozilla/5.0+(compatible;…34314∶00∶5120565.52.110.22Mozilla/5.0+(compatible;…114∶00∶53141465.52.110.22Mozilla/5.0+(compatible;…014∶00∶581 46265.52.110.22Mozilla/5.0+(compatible;…018∶53∶03154365.52.110.22Mozilla/5.0+(compatible;…29218∶53∶0320565.52.110.22Mozilla/5.0+(compatible;…018∶53∶0714665.52.110.22Mozilla/5.0+(compatible;….018∶53∶0710765.52.110.22Mozilla/5.0+(compatible;…018∶53∶1089465.52.110.22Mozilla/5.0+(compatible;…018∶53∶101 41465.52.110.22Mozilla/5.0+(compatible;…021∶59∶5226165.52.110.22Mozilla/5.0+(compatible;…1870∶54∶151 39365.52.110.23Mozilla/5.0+(compatible;….100
最后,經過頁面聚類分析,得出頁面聚類矩陣R,即信息含量較大、較可靠的相似度矩陣。矩陣R大小為2 363×2 363,反映了頁面和用戶的關聯程度。圖3所示為R矩陣的片段A,大小為11×11。

圖3 頁面聚類輸出矩陣片段
實驗基于預處理原理及流程,采用win7操作系統、SQL2000、Matlab7.1實現網站日預處理過程。將存在缺失、錯誤、噪音的原始數據轉化為信息含量較大,較可靠、完整的相似度矩陣R,直接用于網站日志挖掘分析。
收集醫院官網一段時間內的網站日志數據,通過預處理,提取主要特征量,降低聚類分析數據維度和復雜性,組成更龐大的相識度矩陣R群。R群可作為進一步深入聚類分析的徑向基神經網絡(radial basis function,RBF)輸入向量群。RBF網絡一般由輸入層、隱層和輸出層組成,其非線性映射能力和逼近性能較強[15]。隱層一般采用高斯型函數,第i個隱層節點輸出為

i=1,2,…,m
(3)
式(3)中:m為隱層神經元個數;X為多維輸入向量即相似度R矩陣集;ci第i個隱層節點高斯核函數中心;σi第i個隱層節點基寬度。結合遺傳算法優化RBF神經網絡的權值ci、閾值σi及隱層神經元i,降低RBF聚類算法對初始數據中心的依賴,可使聚類結果更準確[16-17]。通過遺傳算法優化RBF神經網絡的聚類算法,分析網站訪問用戶的瀏覽行為、頻繁度、主題、歸類興趣、目標相同的用戶行為及相似用戶組頻繁訪問的頁面組,能持續優化網站目錄結構、推薦特色、針對性的網站[18-22],進而提高醫療結構的服務滿意度。
數據挖掘是近年來研究的熱點,但針對醫院日志挖掘分析較少。日志文件的預處理工作著重考慮在提高信息含量時適合挖掘算法輸入的模式。但在完善用戶瀏覽路徑和會話識別對常態時間域的依賴上仍有不足,無法有效地將日志和站點拓撲結構結合起來,這也是今后的研究工作。進一步需要深入分析空間數據挖掘聚類算法在醫院網站日志中的應用以及網站日志大數據在監測異常行為預警中的應用。