[摘要] 本文簡述了XML語言的特點,并對電子商務Web數據采掘技術的方法進行了分析,探討了基于XML的電子商務Web數據采掘技術的應用,為企業有效地確認目標市場、改進決策獲得更大的競爭優勢提供幫助。
[關鍵詞] XML 電子商務 數據采掘
一、引言
家用計算機的普及、互聯網及網絡通信的迅猛發展已經將人類社會帶入了網絡經濟時代。電子商務以其具有的成本、效率和創新優勢,在商務活動中占據了一席之地,并不斷地為越來越多的企業及個人所接受和采用。
在電子商務活動中,每個客戶都會有自己的消費習慣,并對信得過的商品有一定的忠誠度,分析客戶的需求信息和購物行為特征就成了商家必做的功課?;诰W絡技術的電子商務的發展,使得商家Web服務器上積累了大量的客戶信息數據,這些數據為從事電子商務的商家提供了深入了解客戶需求,改進經營現狀和提供更好的服務的可能性。從網絡上得到的大量信息數據中提取有用的信息和知識,為商家創造更多潛在的利潤,在這樣的商業背景下出現了電子商務Web環境中的數據采掘技術。目前,數字采掘技術作為電子商務領域的重要應用技術之一,為商業決策提供著強有力的支持和保證,已經逐漸成為電子商務的重要工具。
二、XML與數據采掘
XML是The Extensible Markup Language(可擴展標識語言)的簡寫。XML是一套用來標記文檔的語法,它是由SGML發展而來,由W3C(World Wide Web Consortium萬維網聯盟)制定標準。其目標是統一未來跨平臺數據交換的格式,并取代現有的HTML成為下一代Web頁的標準。
XML是一種跨平臺的語言,因規范簡單、良好的可擴展性、傳輸內容與傳輸方式相隔離、具有自我描述能力等優異特性而在全世界范圍內得到了越來越多的認可,成為眾多商家與用戶爭相開發及采用的技術。
數據采掘又稱數據挖掘,就是從大量的、不完全的未知數據中提取隱含在其中的對使用者的分析有用的信息和規律。數據采掘的主要任務是對數據進行描述和預測,描述數據的特性,對數據進行合并分組,并進行推斷預測。
數據采掘應用于商業中,它是一種新的商業信息處理技術,主要特點是對商業數據庫中的大量業務數據進行抽取、轉換、分析和其它模型化處理,從中提取輔助商業決策的關鍵性數據。
三、電子商務Web數據采掘技術
客戶在互聯網上漫游時,其瀏覽信息會被網站服務器自動收集并保存在訪問日志、引用日志、代理日志中。通過對這些信息的有針對性的分析,可以揭示其中的關聯關系、時序關系、被頻繁訪問的頁面和路徑等等。
1.數據動態采集與預處理
在開發Web使用記錄采掘技術中,首先要對日志文件進行預處理數據,預處理的方法包括:數據清理、數據集成和轉換、數據歸約。數據清理可以去掉數據中的噪音,糾正不一致。數據集成將數據由多個源合并成一致的數據存儲,如數據倉庫或數據方。數據轉換(如規范化)可以改進涉及距離度量的挖掘算法的精度和有效性。數據歸約可以通過聚集、刪除冗余特征或聚類等方法來壓縮數據。數據預處理在數據采掘之前使用,以便改進數據的質量,提高其后的采掘過程的精度和性能,降低實際采掘所需要的時間。
2.Web數據采掘的基本方法
Web數據采掘(Web Data Mining),是數據采掘技術在Web環境下的應用,是從大量的Web文檔集合和在站點內進行瀏覽的相關數據中發現潛在的、有用的模式或信息。對應于不同的Web數據,Web采掘分成三類:Web內容采掘、Web結構采掘和Web使用模式采掘。
Web內容采掘是指從Web上的文件內容及其描述信息中獲取潛在的、有價值的知識或模式的過程。Web結構采掘就是對Web文檔的結構進行采掘。對于給定的Web文檔集合,應該能夠通過算法發現他們之間連接情況的有用信息,文檔之間的超連接反映文檔之間的包含、引用或者從屬關系。
Web使用模式采掘(Web Usage Mining)是對用戶訪問Web時在服務器方留下的訪問記錄進行采掘,通過采掘Web日志記錄,分析和探究 Web日志記錄中的規律,可以識別電子商務的潛在客戶,增強對最終用戶的網上信息服務的質量和交付,改進 Web 服務器系統的性能。其主要特點是對用戶信息數據進行抽取、轉換、分析和其他模型化處理,從中提取輔助商業決策的關鍵性數據。
數據采掘通過數據采掘器進行,其主要功能是進行實際的采掘操作,從經過預處理的數據中發現模式和規則,借助OLAP引擎和相關算法實現動態更新。
在Web日志記錄上可以進行數據采掘,用于找出關聯模式,序列模式,和Web訪問趨勢等。
3.Web數據采掘的主要技術
適用于電子商務數據采掘的主要技術有關聯分析、序列模式分析、分類分析和聚類分析等。數據采掘器按照數據采掘的技術方法進行設計,每種采掘技術包含一些不同的具體實現算法,構成在功能上相互獨立的子模塊,存放在采掘算法庫中。采掘算法庫包括:
關聯分析:應用已有關聯規則算法側重進行興趣關聯規則分析,找出或判斷出客戶對網站進行訪問的相關關系,揭示數據間的內在聯系,可據此調整站點的結構。
序列模式分析:采掘出數據的前后時間順序關系,分析其是否存在一定的趨勢,以預測未來的行為(訪問,瀏覽等)。
分類分析:通過對數據的分析,給出數據間類的公共屬性描述,為每個類別做出準確的描述或建立分析模型或采掘出分類規則,然后用這個分類規則對其它數據庫中的記錄進行分類。
聚類分析:分類分析的逆過程,按照“類內相似性最大,類間相似性最小”的原則,對數據進行類的聚集。通過分組聚類找出具有相似行為的客戶,分析其共同特點,據此可向客戶提供更為合適的服務。
路徑分析:通過對日志文件中的數據進行分析,尋找到被訪問最頻繁的路徑。
借助圖形學和圖像處理技術,將通過數據采掘獲得的數據模式,以圖表或可視性文本的形式呈現給使用者,以利于具有不同知識背景的使用者能夠快速地從采掘結果中得到有效信息,從而盡快做出決策。
4.數據采掘面臨的問題
利用數據采掘技術可以幫助獲得決策所需的多種知識。但是隨著數據采掘研究的深入,需要解決面臨的問題:(1)數據預處理是一個比較煩瑣的過程,每個數據庫描述數據的格式幾乎都是不同的;(2)不同來源數據的集成問題的存在,搜索多樣的不兼容的數據庫實際上也是不可能的;(3)客戶端采用不同的應用程序,不同的系統間在編程語言、操作系統、網絡協議等方面存在異構性,使系統的可移植性、可重用性和互操作性受到限制。
隨著結構化標記語言 XML 越來越被人們接受和采納,將會有大量的 Web頁面用 XML書寫,可以促進不同 Web 站點間的信息交換,方便構造多層次 Web 信息庫的信息提取。我們可以利用XML 語言的優異特性來解決數據采掘中面臨的困難。
四、基于XML的電子商務Web數據采掘技術的應用
XML 是一種非常適于應用程序之間數據交換的格式,特別是松耦合的應用程序。XML 能夠使不同來源的結構化的數據很容易地結合在一起,可以促進應用程序代碼的重用,提高應用系統在面對需求和程序變化時的適應能力。
1.XML格式轉換器
在源數據端,數據可以是多種格式的,XML僅僅起到中間數據表示和消息傳輸的作用。 在數據預處理前,將源數據直接進入一個XML格式轉換器,轉換器是由 XML格式分析模塊、XML 格式轉換模塊、XML格式生成模塊構成,其中XML格式分析模塊對進入的數據進行分析,判斷進入的數據格式。XML格式轉換模塊中存儲了相應的格式轉換程序,加入智能搜索引擎機制,用來把其他的數據格式轉換為 XML格式,能夠自動地進行格式匹配和格式轉換,該模塊是整個轉換器的中樞。XML格式生成模塊則把格式轉換結果進行整理,經過 XML格式轉換器處理過的數據為統一、清潔的數據,具有規范的格式,能夠被用來進行高效的數據采掘。這樣就大大簡化了數據預處理操作。
XML格式轉換器的思想就是通過統一訪問接口和不同訪問實現異構數據源互連,數據源的異構性從而被屏蔽,可以改善應用的可移植性。
2.在電子商務Web數據采掘中的應用
在電子商務活動中,XML簡化了商家與消費者、商家與商家之間的數據交換過程。Web數據采掘是為了從數據中發現模式。XML具有很大的靈活性,為Web數據帶來了結構化、智能化和互操作性,可使使用者共同享有標準的信息,也可根據他們商務應用程序的特定參數來采納信息。
3.客戶購買行為分析
通過對客戶購買行為的分析,可以發現客戶的購買習慣、愛好模式和需求趨勢,便于商家改進服務質量,設計出更好的網頁服務界面和銷售策略,動態地調整Web頁面以滿足客戶的需要。提高滿意度,保持忠誠度,并通過信息共享和優化商業流程有效地降低經營成本。
通過用戶在網站上的瀏覽行為分析,發現潛在客戶群體并對這類客戶實施一定的策略,使他們盡快成為注冊客戶群體,增加網站經濟和社會效益。
4.優化Web站點鏈接結構
通過對日志的采掘,發現用戶訪問頁面的相關性,從而對密切聯系的網頁之間增加鏈接,方便用戶使用。利用路徑分析技術判定在一個Web站點中最頻繁的訪問路徑,可以考慮把重要的商品信息放在這些頁面中,改進頁面和網站結構的設計,增強對客戶的吸引力。通過對Web日志的采掘,發現用戶的期望位置,實現對Web站點結構的優化。
推薦系統采用聚類算法,按照客戶的特點進行分類,根據客戶的基本信息和購買經歷、習慣、愛好等,進行個性化的商品推薦。聚類技術可以將具有相似特征、購買經歷、購買習慣的客戶分配到相同的組中。同類的客戶具有一定的相似性,聚類產生后,就可以在推薦商品時借鑒這類客戶的特點和愛好,推薦更合適這類客戶特點的商品,取得客戶更多好感、樹立良好的商家形象的同時也對客戶有了更進一步的了解。
五、結束語
在開放的Internet平臺上進行電子商務活動時,基于XML的電子商務Web數據采掘技術應用,可以大大簡化數據的交換過程, XML為電子商務Web數據采掘提供了巨大的潛在效益。
參考文獻:
[1](美)貝爾森,史密斯,西瑞林著;賀奇等譯. 構件面向CRM的數據挖掘應用[M].人民郵電出版社,2001~08
[2]劉君強,王勛,孫曉瑩智能型數據挖掘工具的設計與實現[J].計算機工程與應用,2003,39(17):195~197
[3]仇麗青;王敏;趙慶禎:面向Web的數據倉庫體系設計[J].計算機應用研究,2004,09
[4]岑琴趙建民朱信忠:基于Multi_Agent與數據挖掘的電子商務系統[J].計算機科學,2006,33(8):269~272