白 亮
(吉林建筑大學城建學院,吉林長春 130111)
基于Agent技術的Web個性化數據挖掘研究
白 亮
(吉林建筑大學城建學院,吉林長春 130111)
本文討論了基于Web的概念、特性、分類以及相關技術,并在此基礎上闡述了Web數據挖掘結構。然后對Agent技術進行了分析,根據Agent技術的智能性、移動性等特征,構造了一個關于Agent的Web個性化數據挖掘模型,設計了一個以J2EE技術的Web挖掘系統平臺,通過實驗分析結果和運行程序,得出的結論是基于J2EE平臺,使用先進的移動Agent技術的Web挖掘,最終能夠降低挖掘成本、提高挖掘效率。
Agent技術;挖掘;Web;J2EE
數據挖掘(Data Mining)是從超大型的數據庫、知識庫中獲取有用知識的過程。這些知識可能是一些粗糙的、無結構的、不完整的信息,沒有確定格式、沒有語法對其進行描述。隨著網絡的發展,Web網頁上還儲存著很多沒有被利用的資源。數據挖掘技術有利于用戶便捷地傳輸、獲取、存儲、處理、分析Web網頁上的大量數據。在數據挖掘過程中使用的技術有人工智能技術、數據庫技術、機器學習、神經網絡、數據分析和決策支持等。除了上述技術,運用程序設計及網絡技術能夠合理地設計數據挖掘平臺,強化評價方法和完善內容,也起到了關鍵性的作用。國內外一些學者主要側重對非結構化數據信息化處理以及Web挖掘的理論探討,對實際應用的研究還偏少。JAVA是面向對象、平臺無關、安全機制、高可靠性、多線程和內嵌的網絡支持的軟件開發工具,它是基于多層次構架的分布式網絡環境下應用系統模型。
在傳統的數據庫中,數據存在都表示為結構化,數據量不大,一般的服務器就可以滿足儲存要求。而現在由于大數據的出現,數據容量規模都在PB級以上,面對海量、復雜、變化莫測的數據,使用原來的挖掘、處理方式顯然是不夠的。一般的數據挖掘是指從大型數據庫的數據中提取人們感興趣的知識,這些知識是隱含的、事先未知的有用信息,數據挖掘側重于從已有的信息中提取規律性知識,還要解決異構數據集成的問題。而Web挖掘的研究對象是以半結構化和無結構文檔為中心的Web,這些數據沒有統一的模式,數據的內容和表示互相交織,數據內容基本上沒有用語義信息來描述,僅僅依靠HTML語法對數據進行結構上的描述。
1.1 基于Web數據挖掘的基本分類
從理論上分析,基于Web數據挖掘方法較多,國內外學者對數據挖掘過程眾說紛紜??傊?,根據挖掘對象的不同,我們可以把基于Web的數據挖掘分為三大類,即Web內容挖掘、Web使用挖掘、Web結構挖掘,如如圖1所示。
1.1.1 Web內容挖掘
Web上的數據類型比較多,有結構化的,也有半結構化的?;赪eb上內容挖掘就是將Web上的散列文檔集進行遞歸關聯比較、分析預測,挖掘知識和內容,其中內容涉及多媒體、網頁等。目前的研究主要集中
圖1 Web數據挖掘分類
在詞頻統計、分類算法、模式識別,并從網頁中分離出實體和屬性。一般的Web信息檢索使用基于詞頻的統計模型,矢量空間模型是最廣泛采用的模型。在這個模型里文檔用矢量來表示,而文檔中詞匯的屬性用矢量的分量來表示,其分量值是該屬性的權重,也就是該屬性出現的頻率。同理,查詢組合也可以用矢量來表示,查詢與文檔的相似度就是兩個矢量的內積,即兩個矢量夾角的余弦值。
1.1.2 Web結構挖掘
Web結構挖掘主要是從Web本身隱含的以及鏈接過程與結構的數據中獲取知識的過程,在通常的搜索引擎中沒有考慮結構的復雜性,只把Web看作平面文檔的集合。其實,在結構中隱藏著大量有用的信息,用戶在尋找信息的過程中對頁面進行聚類和分類關注,通常用戶只關注網頁搜索的結構內容,如果把頁面信息一起加載到鏈接結構中,能夠獲得更多的數據量。最初人們使用PageRank結構挖掘算法,是因為PageRank是評價網頁權威性的一種重要工具,搜索引擎Google就是利用該算法與anchor text標記、詞頻統計等因素相結合的方法對檢索出的大量結果進行相關度排序,將最權威的網頁盡量排在前面。
1.2 使用Agent的Web數據挖掘
目前大多數數據挖掘都是基于Web的,并且有很多的算法,但是這些算法與挖掘過程都有一定的局限性。大部分都是使用面向對象的語言工具對信息進行加工處理,有的使用關聯規則和模式識別,將文檔拆分為段落和語句,把準備好的段落或語句的語法結構與選中的語言模式結構進行匹配,從而獲得所需的語句內容,這些內容一般通過編程和在數據庫中自覺學習方式獲得,但是耗費很大的學習成本和編程的人力資源,而且使運行速度明顯變慢。有的人使用Ntology對數據自身進行數據挖掘,但這些方法不能完全滿足數據挖掘的根本需要。將人工智能領域知識融入挖掘過程中,大大地提高了挖掘效率,更充分地實現了數據挖掘。Agent是人工智能中的重要分支,它具有智能性、移動性、自學性等特點,其應用于Web數據挖掘更能體現它的優越性。Agent挖掘結構由用戶、知識庫、Agent主體、數據庫組成,如圖2所示。
圖2 基于智能Agent挖掘模型結構
當收到用戶輸入的初始挖掘請求時,系統把所有的請求放在工作日志上,移動接口Agent主體訪問知識庫中的領域知識庫和網絡信息知識庫,然后抽取請求知識庫,通過智能Agent進行學習訓練,尋找分類模式及規則。
J2EE是由類組成的,運行之前首先要定義對象,然后對類進行實例化,根據對象的動態遷移性傳輸到其它用戶機或代理服務器上,這些過程是通過類庫里的方法實現的。例如,調用BufferedWriter類庫里的void flush()方法,調用BorderLayout類中的void layoutContainer(Contatner target)方法可以把對象設置為容器組件,根據J2EE技術與平臺無關性的特點,如果有新的數據加入這個模式中,注冊表不需修改,直接刷新頁面就可以了,基于J2EE的挖掘過程如圖3所示。
圖3 基于J2EE的挖掘過程
Web 數據挖掘過程是由Web服務器端進行的,通過發送JAVA Applet,SQL申請,將其下載到客戶機服務器與RMI/IIOP協議鏈接上,讓服務對象注冊引用,SQL查詢封裝為本次申請參數之一;通過數據挖掘算法以及挖掘工具完成整個運行過程,再把計算結果反饋給用戶。
此次實驗中,我們選取的指標有訪問頁面連接次數、點擊次數、預取頁面數、選中頁面數、然后統計命中率,由式(1)可得到挖掘效率。
.
(1)
隨機選取一臺客戶機的150個頁面,里面裝有JavaBean和EJB模塊。采用基于Agent的Web移動平臺,通過跟蹤、預測來模擬用戶的行為特征。表1為對頁面點擊得出的數據。
確定預測模型(prediction model)算法程序:
(ⅰ)定義抽象累
{ Data members;
The return value of the data type method(parameters……){}
Abstract The type of return value The method name(parameters……);
}
(ⅱ)定義抽象類派生的子類
Abstract Public name extends class wjuexiaolu {
Double sum; //定義累加器類型
Public void sumber(int m) //定義處理方法
{
For(int x=0;x<=m;x++)
{sum=sum+mtmt[x]; } // 求頁面總和
返回sum的平均值 ; }
}
(ⅲ)抽象類方法的實現
Class abst
{public static void main(String[] args)
{
abst ss=new abst() ;
ss. sumber (10); }
}
實驗結果表明,點擊率與用戶的興趣、愛好有很大關系。經過統計分析和程序的運行結果不難發現, 用戶的點擊率主要取決于自己的興趣,用戶對不感興趣的頁面選中幾率不到10%,用戶對感興趣的頁面選中幾率占50%以上。因此,用戶使用智能數據挖掘大大提高了數據挖掘效率。
由于數據量的不斷增大,數據的存儲問題越來越受到人們的關注,在大數據中獲得我們需要的信息是數據挖掘的主要任務。傳統的挖掘技術已不適合現代挖掘需求,目前專家們正在不斷地擴展數據挖掘的模式、算法以及數據存儲方式等。但實際上,在設計一個Web數據挖掘系統時,要考慮的問題比較多,比如:如何處理各個用戶之間的交互問題、服務器之間負載均衡和瓶頸問題、通信過程的安全問題等,這些仍將是目前乃至今后的Web數據挖掘系統研究的主要目標和任務。這里我們使用J2EE作為開發平臺,以基于Agent技術的Web信息挖掘系統作為技術支持,不斷優化和完善Web數據挖掘模型,從而大大提高挖掘效率。
[1]徐寶文,張衛豐.數據挖掘技術在Web預取中的應用研究[J].計算機學報,2011(4):430-436.
[2]陳莉,焦李成.Internet/Web數據挖掘研究現狀及最新進展[J].西安電子科技大學:自然科學版,2011(1):114-119.
[3]廖樂健,曹元大,李新穎.基于Ontology的信息抽取[J].計算機工程與應用,2012(23):110-113.
[4]Paul J. Perrone,et al.J2EE構建企業系統專家級解決方案[M].張志偉,譚郁松,張明杰,譯,北京:清華大學出版社,2010.
[5]李雪,于書舉.基于J2EE的市場需求預測支持系統模型的研究與實現[J].計算機與信息技術,2006(7):37-40.
Abstract: This paper discusses the concept, characteristics, classification and related technologies, and expounds the structure of Web data mining.Then the Agent technology is analyzed, based on intelligent, mobility, etc., we construct a personalized Web data mining model and design a system platform based on J2EE.Through the experimental analysis results and running program, we find that the system platform used of advanced mobile Agent,it is able to reduce the mining cost and improves the mining efficiency.
Public digging- efficacy //定義挖掘效率抽象類
The Research of Web Personalized Data Mining Based on the Agent
BAI Liang
(The City College of Jilin Jianzhu University,Changchun Jilin 130111,China)
Agent;mining;Web;J2EE
2015-10-12
白 亮(1984- ),男,吉林榆樹人,吉林建筑大學城建學院助教,從事數據庫開發與數據挖掘研究。
TP311
A
2095-7602(2015)12-0043-04