李 寰,賈保先,許麗莉
(聊城大學(xué) 計(jì)算機(jī)學(xué)院,山東 聊城 252059)
基于本體的數(shù)據(jù)挖掘在CRM決策分析中的應(yīng)用
李 寰,賈保先,許麗莉
(聊城大學(xué) 計(jì)算機(jī)學(xué)院,山東 聊城 252059)
文章融合了本體和數(shù)據(jù)挖掘技術(shù),提出了基于本體的數(shù)據(jù)挖掘決策分析模型,利用基于本體的數(shù)據(jù)挖掘方法從語義層面上實(shí)現(xiàn)了對用戶數(shù)據(jù)的挖掘,實(shí)現(xiàn)了用戶數(shù)據(jù)的高效率和高精度挖掘,并根據(jù)挖掘結(jié)果進(jìn)行決策分析,根據(jù)分析結(jié)果為用戶提供基于RSS聚合的個性化服務(wù)。
本體;數(shù)據(jù)挖掘;客戶關(guān)系管理;語義;RSS聚合;決策分析
本體是概念化規(guī)范說明,對于CRM中的用戶本體來說它包括有關(guān)用戶概念的各種術(shù)語、關(guān)系并給出術(shù)語的語義。用戶本體可以從用戶的不同視圖或側(cè)面,例如用戶類型、行為、狀態(tài)等,進(jìn)行用戶描述,展示用戶的不同屬性及屬性之間的關(guān)系。利用用戶本體作為一種用戶知識的展示模型可以提高企業(yè)與用戶之間基于語義的協(xié)同性,從而實(shí)現(xiàn)用戶信息的高度共享和寵用。文獻(xiàn)[1]將用戶本體引入到用戶數(shù)據(jù)挖掘中,利用本體實(shí)現(xiàn)了CRM數(shù)據(jù)一致性,解決了數(shù)據(jù)異構(gòu)的問題,解決了傳統(tǒng)規(guī)則難于理解的問題。同時,用戶本體在語義規(guī)則前提下挖掘提高了挖掘的有效性,而本體進(jìn)化也可方便規(guī)則的增加和刪改[2]。
在挖掘過程中,本體是用來協(xié)助用戶構(gòu)成有效DM過程(可執(zhí)行方案)集合。因此用戶本體的構(gòu)建至關(guān)重要。構(gòu)建用戶本體的步驟首先是用戶本體建模,其次是在一些成熟的元本體基礎(chǔ)上,用自然語言描述用戶本體的概念及其之間的關(guān)系,并對自然語言描述的結(jié)果選擇合適的本體描述語言對其進(jìn)行形式化,最終生成可供計(jì)算機(jī)識別、處理的文件。本體的構(gòu)建方法有很多,結(jié)合電子商務(wù)CRM本體變化快、動態(tài)性及健壯性需求比較高的前提下,我們建議采用用軟件工程思想的原型法[3]或知識工程方法[4]來構(gòu)建CRM本體。
基于本體的數(shù)據(jù)挖掘中,首先引入軟件工程需求分析的思想,管理者通過和用戶交流獲得挖掘的目標(biāo),其次由CRM建好的本體構(gòu)建成DM所需的數(shù)據(jù)集,然后選擇合適的數(shù)據(jù)預(yù)處理方法或挖掘方法,對本體庫集進(jìn)行挖掘,此過程中可以選擇合適的挖掘算法對數(shù)據(jù)庫進(jìn)行優(yōu)化、可視化的操作。在整個過程中,由于本體注重概念屬性之間的關(guān)聯(lián)和知識的共享,因此挖掘工作者不會忽略此領(lǐng)域中并不熟悉、但又有可能導(dǎo)致發(fā)現(xiàn)知識的數(shù)據(jù)挖掘技術(shù)[5]。
下面以關(guān)聯(lián)規(guī)則的應(yīng)用來舉例說明基于本體的數(shù)據(jù)挖掘在決策分析在網(wǎng)上書店中的具體應(yīng)用。假設(shè)CRM知識庫中存在以下兩個本體:用戶本體和圖書本體,其中圖書本體的計(jì)算機(jī)相關(guān)學(xué)科的部分本體我們選用文獻(xiàn)[6]所描述層次,如圖1所示。基于本體的數(shù)據(jù)挖掘系統(tǒng)根據(jù)數(shù)據(jù)倉庫中的數(shù)據(jù)推導(dǎo)出關(guān)聯(lián)規(guī)則如下:一個用戶如果購買圖書《計(jì)算機(jī)應(yīng)用》的同時也購買了《人工智能》,此時基于本體的數(shù)據(jù)挖掘決策分析系統(tǒng)會通過知識庫中已有的本體規(guī)則推理,即沿著本體的念底層向上歸納發(fā)現(xiàn)這些購買《計(jì)算機(jī)應(yīng)用》圖書的用戶大多是計(jì)算機(jī)科學(xué)技術(shù)專業(yè)的讀者,因此系統(tǒng)便可以通過推理可以得到這樣的結(jié)論:計(jì)算機(jī)科學(xué)與技術(shù)專業(yè)的用戶購買《計(jì)算機(jī)應(yīng)用》圖書時,購買《人工智能》的概率很大。然后,系統(tǒng)將此結(jié)果反饋給企業(yè)管理人員,管理人員由此設(shè)定個性化推薦的界面,提高效率,節(jié)約成本,同時提高用戶的滿意度。

經(jīng)過以上本體構(gòu)建及數(shù)據(jù)挖掘分析,結(jié)合電子商務(wù)CRM實(shí)際情況,借鑒文獻(xiàn)[1]的架構(gòu),我們初步提出了基于本體的數(shù)據(jù)挖掘在電子商務(wù)CRM個性化推薦的系統(tǒng)架構(gòu)的設(shè)想,架構(gòu)分四個層次:原始數(shù)據(jù)層、用戶本體層、數(shù)據(jù)挖掘?qū)印€性推薦層。
(1)原始數(shù)據(jù)層主要存放了CRM及圖書等相關(guān)的原始數(shù)據(jù)。比如在CRM中我們包含了對用戶日常訪問日志信息的搜集。這些日志信息的搜集及挖掘?qū)Φ谒膶哟蔚耐扑]非常重要,因?yàn)閃eb使用挖掘主要是將數(shù)據(jù)挖掘技術(shù)應(yīng)用于Web站點(diǎn)的用戶訪問日志以分析Web站點(diǎn)的使用,通過Web站點(diǎn)的使用挖掘,對用戶的訪問內(nèi)容,停留時間和頻度進(jìn)行分析,可以得到關(guān)于用戶訪問行為和方式的普遍知識,用以改進(jìn)Web站點(diǎn)服務(wù)設(shè)計(jì)。更重要的是,通過對這些用戶特征的理解和分析,可以開展有針對性的個性化服務(wù)。Web使用挖掘主要是將數(shù)據(jù)挖掘技術(shù)應(yīng)用于Web站點(diǎn)的用戶訪問日志以分析Web站點(diǎn)的使用,通過Web站點(diǎn)的使用挖掘,對用戶的訪問內(nèi)容,停留時間和頻度進(jìn)行分析,可以得到關(guān)于用戶訪問行為和方式的普遍知識,用以改進(jìn)Web站點(diǎn)服務(wù)設(shè)計(jì)。更重要的是,通過對這些用戶特征的理解和分析,可以開展有針對性的個性化服務(wù)。
(2)用戶本體層。該層次是對原始數(shù)據(jù)層的提出及優(yōu)化,使原來雜亂無章、無結(jié)構(gòu)化或半結(jié)構(gòu)化的數(shù)據(jù)通過語義提取、語義標(biāo)注等方法形成結(jié)構(gòu)化可共享重用、無歧義理解的本體庫,為數(shù)據(jù)挖掘?qū)犹峁┩诰虻幕A(chǔ)。
(3)數(shù)據(jù)挖掘?qū)印T搶哟沃饕酶鞣N挖掘技術(shù)對形成的本體庫進(jìn)行深層次挖掘,挖掘手段多樣,包括關(guān)聯(lián)規(guī)則、聚類分析、決策樹、離散點(diǎn)檢測、神經(jīng)網(wǎng)絡(luò)、演變分析等。例如關(guān)聯(lián)規(guī)則的挖掘可以應(yīng)用在CRM本體挖掘中,把一個URL地址看作一個項(xiàng)目,一次瀏覽過程看作一個記錄,則每條記錄(即一次事務(wù)處理),由該次瀏覽所訪問的所有URL地址構(gòu)成。從這樣一個數(shù)據(jù)庫中,就可以找出有關(guān)URL地址的關(guān)聯(lián)規(guī)則,這些規(guī)則對于網(wǎng)絡(luò)搜索引擎的設(shè)計(jì)是有幫助的,從而可以把一連串有關(guān)聯(lián)的網(wǎng)絡(luò)地址提交給用戶。當(dāng)用戶在閱讀某個網(wǎng)頁時,根據(jù)關(guān)聯(lián)規(guī)則就可以預(yù)先取出該用戶在后面可能訪問的頁面,提供個性化的服務(wù)。

(4)個性推薦層可以根據(jù)基于數(shù)據(jù)挖掘的結(jié)果進(jìn)行語義相關(guān)性推薦。當(dāng)用戶對某一子領(lǐng)域感興趣時,由于同一本體論下屬的各個領(lǐng)域之間存在相關(guān)性,這種相關(guān)性使得不同領(lǐng)域間的推薦成為可能。我們知道,用戶在圖書資源上的偏好屬性的表現(xiàn)形式不一樣,然而,如果我們能夠識別各類圖書資源相關(guān)屬性,就可以實(shí)現(xiàn)不同圖書資源之間的匹配,并做出這樣的推薦。通過構(gòu)建一個領(lǐng)域里關(guān)于用戶在某類產(chǎn)品上的偏好特征模式,可以對不同的子領(lǐng)域進(jìn)行匹配。例如在圖1所示的計(jì)算機(jī)科學(xué)圖書領(lǐng)域,計(jì)算機(jī)科學(xué)包含人工智能、系統(tǒng)結(jié)構(gòu)、計(jì)算機(jī)應(yīng)用三個子學(xué)科,當(dāng)用戶當(dāng)前關(guān)注的是人工智能子領(lǐng)域時,通過相關(guān)性分析,例如喜歡人工智能類圖書的用戶很可能在某種程度上也喜歡計(jì)算機(jī)應(yīng)用類圖書,因此我們在展示人工智能類圖書的同時,也附著推薦計(jì)算機(jī)應(yīng)用類圖書。因此,可以通過確定該領(lǐng)域所屬本體論,推斷出用戶可能對該本體論中的其它領(lǐng)域感興趣的部分。當(dāng)前瀏覽的次本體不屬于同一個根節(jié)點(diǎn),我們認(rèn)為它與用戶當(dāng)前興趣無關(guān),不需要推薦。這樣也就避免了推薦一些無關(guān)頁面給用戶,提高了推薦的精確度[7]。個性推薦時,我們采用RSS技術(shù),RSS 是“Really Simple Syndication(真正簡易聚合)”。RSS 通過XML標(biāo)準(zhǔn)定義內(nèi)容的包裝和發(fā)布格式,使內(nèi)容提供者和接受者都能從中獲益。對內(nèi)容提供者來說,RSS具有及時、全面、有序、高效等特點(diǎn)[8]。其可及時傳遞客戶需要的最新信息、全面報(bào)道客戶感興趣的網(wǎng)站內(nèi)容、能夠按照內(nèi)容的重要性進(jìn)行排序,并且將最新和最重要的內(nèi)容置于頂端、客戶可以根據(jù)自己的興趣對商品進(jìn)行定制,并且能夠隨時掌握最新的標(biāo)價等信息等。
本文主要針對CRM數(shù)據(jù)繁多、格式不統(tǒng)一等弊端,提出了基于本體的數(shù)據(jù)挖掘決策分析模型,利用此模型實(shí)現(xiàn)了高精度的語義挖掘,并根據(jù)挖掘結(jié)果制定相應(yīng)的決策分析,為用戶提供了基于RSS聚合的個性化服務(wù),同時全文中利用關(guān)聯(lián)規(guī)則具體說明了基于本體的數(shù)據(jù)挖掘決策分析在網(wǎng)上書店中的應(yīng)用過程。下一步需要進(jìn)一步完善用戶本體的構(gòu)建思想,建立操作性強(qiáng)、共享重用度高的用戶本體,然后具體研究用戶本體與數(shù)據(jù)挖掘技術(shù)結(jié)合的方法,設(shè)計(jì)切實(shí)可行的算法,提高挖掘的深度和精度。
[1]周倩.基于User-Ontology的圖書館用戶數(shù)據(jù)挖掘研究[J].圖書館雜志,2006,(10).
[2]路曉偉,蔣馥.侯立文.基于客戶本體的客戶特征提取[J].計(jì)算機(jī)工程,2005,(5).
[3]鄒景華,朱慶生.基于語義互聯(lián)網(wǎng)的智能信息檢索研究[D].重慶大學(xué),2005.
[4]李景,蘇曉鷺,錢平.構(gòu)建領(lǐng)域本體的方法[J].計(jì)算機(jī)與農(nóng)業(yè),2003,(7).
[5]鄒力鹍,王麗珍,姚紹文.數(shù)據(jù)挖掘方法本體研究[J].計(jì)算機(jī)科學(xué),2005,(3).
[6]王存剛.基于Ontology的智能信息檢索系統(tǒng)研究[D].中國海洋大學(xué),2006.
[7]陳晉進(jìn).基于本體論的個性化信息服務(wù)的研究湘潭大學(xué)[D].碩士學(xué)位論文,2004.
[8]劉位龍,魏墨濟(jì).RSS技術(shù)在電子商務(wù)平臺設(shè)計(jì)中的應(yīng)用[J].情報(bào)理論與實(shí)踐,2006,29(5).
(責(zé)任編輯/易永生)
TP393
A
1002-6487(2010)18-0158-02
國家自然科學(xué)基金資助項(xiàng)目(60874075);山東教育廳項(xiàng)目(J08LJ20)
李 寰(1978-),男,山東聊城人,碩士,講師,研究方向:軟件測試、電子商務(wù)等。
賈保先(1982-),男,山東聊城人,碩士研究生,助教,研究方向:物流、RFID、本體等。