999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

醫院網站日志挖掘數據預處理的研究

2019-09-19 07:41:28李立峰翟玉蘭
關鍵詞:頁面數據挖掘醫院

蒙 華,蘇 靜,李立峰,翟玉蘭

( 廣西醫科大學 a.第一附屬醫院 計算機管理中心;b.信息與管理學院 教研科, 南寧 530021)

醫院網站日志挖掘研究即利用數據挖掘技術分析用戶訪問模式等信息,從網站日志中發現并抽取有效信息,挖掘訪客感興趣的潛在有用信息。醫院網站的用戶訪問模式較為復雜,具有時間分布的隨機性、不均勻性,用戶瀏覽器及其版本的不確定性以及使用網絡代理多樣性等特點[3-4]。數據挖掘對象范圍是數據庫中的結構化數據,針對醫院網站訪問用戶無結構或者半結構化的行為數據進行挖掘分析的難度較大,分析效果不理想,無法有效接近用戶行為。針對以上存在的問題,需對Web日志數據進行預處理,將原始Web日志數據中錯誤、缺漏、干擾的信息轉換成相對完整和準確的用戶訪問事務數據庫,以適應新挖掘應用需求[5-7]。數據預處理操作主要是通過清洗原始數據和用戶識別、進行會話處理、標準化頁面和建立用戶相似度矩陣等操作,獲取反映用戶瀏覽行為的有效數據并轉換成后續挖掘算法可識別的格式,以此提高挖掘質量[8-10]。

本文對用戶訪問廣西某大型綜合性醫院官網的日志數據進行預處理,旨在從繁雜數據源中抽象出適合數據挖掘算法所需模式,提高預處理結果矩陣的有效信息含量。

1 數據預處理流程

Web日志記錄數據挖掘模型的算法流程如圖1所示,分成2個步驟:① 日志記錄數據的預處理操作,包括過濾日志數據、識別用戶、識別會話數據及路徑補充,確保日志數據應用于數據挖掘模型的有效性。② 頁面聚類處理得到日志數據。

1.1 日志數據預處理

Web日志數據預處理包括清洗、過濾日志數據,識別用戶,識別會話,數據標準化。其中數據預處理是基礎,決定后期數據挖掘的質量。數據挖掘流程見圖1。

圖1 數據挖掘流程

1) 清洗數據及過濾

清洗數據是在數據的多種屬性中抽取對挖掘目標影響較大的屬性,從而降低數據維數,提高日志數據中信息有效率。日志源數據表共有14項屬性,根據挖掘需求,清洗相關系數較小的屬性,保留用戶訪問時間、方式、IP地址、請求頁面、瀏覽器類型及用戶計算機操作系統共6個屬性。

過濾日志數據訪問頁面痕跡中包含的圖片、圖像、視頻、音頻以及服務器對用戶請求響應失敗的信息等,這些數據對后續分析無影響[5]。

[10]Selected Works of Jawaharlal Nehru, Second Series, Vol.11, New Delhi: Oxford University Press, 1991, p.372.

2) 用戶識別原則

對日志中訪問的用戶,根據用戶IP、瀏覽器及其版本、操作系統等對用戶進行劃分。當 IP地址一致時,若客戶機操作系統或使用瀏覽器類型、版本不同,則視為不同用戶[3,11-12]。

3) 會話識別

識別用戶的訪問行為,并劃分每個訪問用戶瀏覽的頁面序列到相應的會話事務,即進行事務識別。根據文獻[6,13],25.5 min為最佳用戶會話中止的界定時間,此即為時間戳[14]。

4)會話補充

① 客戶端瀏覽器Cache存儲近期瀏覽的文件,包括某些點擊率很高的網頁點擊信息。本文根據Web日志和Web站點結構中鏈接信息填補會話空缺。

② 若在瀏覽站點設置中,當前瀏覽網頁與用戶前一次請求的網頁之間無鏈接路徑,則用戶可能使用瀏覽器返回鍵,調取客戶機的緩存頁面,獲得一個完整的用戶訪問路徑。但實際情況中該方法很難獲取客戶機的緩存信息進行會話補充[8-9]。

5) 結構化、標準化

網站日志經過清洗等處理操作后,需轉換為符合數據挖掘算法的輸入格式,并保存到關系型數據庫表或數據倉庫中,即將數據標準化或結構化。本文選擇頁面序列作為指標進行聚類。

1.2 頁面聚類

后期聚類分析結果準確程度受Web頁面相似度分析的影響,相似度分析也是歸類不同頁面群體的重要依據。選取頁面序列作為相似性度量指標[6],從預處理結果數據中統計用戶對各頁面的訪問次數。

根據式(1)計算頁面Pi和用戶clientj之間的關聯度矩陣L。

(1)

根據頁面和用戶的關聯度矩陣計算出頁面之間的相似度矩陣R,如式(2)所示[14],R即為日志數據標準化后的結果。

(2)

計算后得到Web日志數據標準化后的結果矩陣R(詳見實驗結果)。R凝聚了用戶和訪問頁面之間聯系的信息量,運用聚類分析、神經網絡等算法對R聚類,得出頁面聚類模式等以利于對醫院網站結構的分析優化。

2 醫院日志挖掘預處理實驗

2.1 實驗數據

本文數據來源于廣西某大型綜合性三級甲等醫院網站2011年10月31日日志.txt文件,總大小為31.2 M。日志文件是非結構化的文本文件,記載用戶訪問該醫院網站的記錄總計152 500多條,見圖2。

圖2 醫院網站日志片段

2.2 實驗結果分析

利用SQL2000數據庫技術刪除音頻等數據,得到32 500多條醫院網站訪問記錄,清除率為80%。網頁唯一性編碼共計1 850多個,即為經過數據過濾后該日用戶瀏覽的所有界面集合。對這些記錄進行會話識別和補充,得到2 800多個不同會話,見表1。其中:time表示當日時間;no表示該用戶訪問醫院網頁對應的編碼;ping表示融合IP地址、瀏覽器和操作系統等內容的字段;work表示區分會話字段。若ping相同,用戶會話會分割記錄點,兩者time字段相差≥25.5 min,即分為兩個會話記錄。

表1 網站日志文件會話集片段

timenopingwork23∶14∶3311365.52.110.190Mozilla/5.0+(compatible;…023∶14∶3611365.52.110.190Mozilla/5.0+(compatible;…02∶21∶2219265.52.110.22Mozilla/5.0+(compatible;…1002∶21∶221 63365.52.110.22Mozilla/5.0+(compatible;…02∶21∶2514665.52.110.22Mozilla/5.0+(compatible;…02∶46∶211 46265.52.110.22Mozilla/5.0+(compatible;…253∶11∶2288065.52.110.22Mozilla/5.0+(compatible;…258∶15∶521 39365.52.110.22Mozilla/5.0+(compatible;….3058∶16∶5120565.52.110.22Mozilla/5.0+(compatible;….18∶16∶511 65465.52.110.22Mozilla/5.0+(compatible;….08∶16∶5339665.52.110.22Mozilla/5.0+(compatible;….08∶16∶5314665.52.110.22Mozilla/5.0+(compatible;….08∶16∶5577865.52.110.22Mozilla/5.0+(compatible;….0

timenopingwork14∶00∶061 39365.52.110.22Mozilla/5.0+(compatible;…34314∶00∶5120565.52.110.22Mozilla/5.0+(compatible;…114∶00∶53141465.52.110.22Mozilla/5.0+(compatible;…014∶00∶581 46265.52.110.22Mozilla/5.0+(compatible;…018∶53∶03154365.52.110.22Mozilla/5.0+(compatible;…29218∶53∶0320565.52.110.22Mozilla/5.0+(compatible;…018∶53∶0714665.52.110.22Mozilla/5.0+(compatible;….018∶53∶0710765.52.110.22Mozilla/5.0+(compatible;…018∶53∶1089465.52.110.22Mozilla/5.0+(compatible;…018∶53∶101 41465.52.110.22Mozilla/5.0+(compatible;…021∶59∶5226165.52.110.22Mozilla/5.0+(compatible;…1870∶54∶151 39365.52.110.23Mozilla/5.0+(compatible;….100

最后,經過頁面聚類分析,得出頁面聚類矩陣R,即信息含量較大、較可靠的相似度矩陣。矩陣R大小為2 363×2 363,反映了頁面和用戶的關聯程度。圖3所示為R矩陣的片段A,大小為11×11。

圖3 頁面聚類輸出矩陣片段

實驗基于預處理原理及流程,采用win7操作系統、SQL2000、Matlab7.1實現網站日預處理過程。將存在缺失、錯誤、噪音的原始數據轉化為信息含量較大,較可靠、完整的相似度矩陣R,直接用于網站日志挖掘分析。

收集醫院官網一段時間內的網站日志數據,通過預處理,提取主要特征量,降低聚類分析數據維度和復雜性,組成更龐大的相識度矩陣R群。R群可作為進一步深入聚類分析的徑向基神經網絡(radial basis function,RBF)輸入向量群。RBF網絡一般由輸入層、隱層和輸出層組成,其非線性映射能力和逼近性能較強[15]。隱層一般采用高斯型函數,第i個隱層節點輸出為

i=1,2,…,m

(3)

式(3)中:m為隱層神經元個數;X為多維輸入向量即相似度R矩陣集;ci第i個隱層節點高斯核函數中心;σi第i個隱層節點基寬度。結合遺傳算法優化RBF神經網絡的權值ci、閾值σi及隱層神經元i,降低RBF聚類算法對初始數據中心的依賴,可使聚類結果更準確[16-17]。通過遺傳算法優化RBF神經網絡的聚類算法,分析網站訪問用戶的瀏覽行為、頻繁度、主題、歸類興趣、目標相同的用戶行為及相似用戶組頻繁訪問的頁面組,能持續優化網站目錄結構、推薦特色、針對性的網站[18-22],進而提高醫療結構的服務滿意度。

3 結束語

數據挖掘是近年來研究的熱點,但針對醫院日志挖掘分析較少。日志文件的預處理工作著重考慮在提高信息含量時適合挖掘算法輸入的模式。但在完善用戶瀏覽路徑和會話識別對常態時間域的依賴上仍有不足,無法有效地將日志和站點拓撲結構結合起來,這也是今后的研究工作。進一步需要深入分析空間數據挖掘聚類算法在醫院網站日志中的應用以及網站日志大數據在監測異常行為預警中的應用。

猜你喜歡
頁面數據挖掘醫院
大狗熊在睡覺
刷新生活的頁面
保健醫苑(2022年1期)2022-08-30 08:39:14
探討人工智能與數據挖掘發展趨勢
我不想去醫院
兒童繪本(2018年10期)2018-07-04 16:39:12
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
萌萌兔醫院
一種基于Hadoop的大數據挖掘云服務及應用
帶領縣醫院一路前行
中國衛生(2015年8期)2015-11-12 13:15:20
為縣級醫院定錨
中國衛生(2014年7期)2014-11-10 02:33:12
基于GPGPU的離散數據挖掘研究
主站蜘蛛池模板: 精品国产免费观看一区| 女人18毛片水真多国产| 色欲综合久久中文字幕网| 国产人成网线在线播放va| 777国产精品永久免费观看| 午夜小视频在线| 亚洲人人视频| 国产精品极品美女自在线网站| 午夜少妇精品视频小电影| 欧美伦理一区| 国产亚洲精| 日韩精品无码不卡无码| 青青草一区二区免费精品| 午夜a级毛片| 日韩高清无码免费| 国产精品精品视频| 国产一区二区三区精品欧美日韩| 国产女主播一区| 精品伊人久久久久7777人| 国产精品成人免费视频99| 国产又大又粗又猛又爽的视频| 国产精品久久国产精麻豆99网站| 免费人成视网站在线不卡| 国产成人综合日韩精品无码首页 | 在线欧美a| 国产精品永久久久久| 欧美国产视频| 免费看美女自慰的网站| 色综合久久综合网| 国产91成人| 国产女人爽到高潮的免费视频| 亚洲成在人线av品善网好看| 在线国产91| 国产欧美日韩va另类在线播放| 久久成人国产精品免费软件 | 国产在线无码av完整版在线观看| 无码国产伊人| 狠狠五月天中文字幕| 97在线公开视频| 久久久久亚洲av成人网人人软件 | 青青网在线国产| 久久天天躁狠狠躁夜夜2020一| 亚洲,国产,日韩,综合一区| 国产h视频免费观看| 亚洲无线一二三四区男男| 特级欧美视频aaaaaa| 88av在线| 精品少妇人妻一区二区| 国产成人毛片| 欧美一区精品| 伊人久久大香线蕉综合影视| 亚洲女同一区二区| 久久99蜜桃精品久久久久小说| 亚洲AV人人澡人人双人| 国产区网址| 一级毛片在线直接观看| 久久国产av麻豆| 亚洲三级a| 麻豆精品国产自产在线| 国产精品视频白浆免费视频| 国产91无码福利在线| 欧美日韩久久综合| 精品国产成人三级在线观看| 高清精品美女在线播放| 国产91熟女高潮一区二区| 国产欧美在线观看一区| 亚洲第一视频区| 日韩精品一区二区三区免费在线观看| 青青热久麻豆精品视频在线观看| 国产亚洲欧美日韩在线一区二区三区| 国国产a国产片免费麻豆| 六月婷婷精品视频在线观看 | 国产成人1024精品下载| 国产精品亚洲αv天堂无码| 国产精品欧美在线观看| 国产性爱网站| 毛片基地视频| 免费99精品国产自在现线| www.99在线观看| 五月婷婷精品| 成人免费午间影院在线观看| 日韩精品成人网页视频在线|