基于本體的數(shù)據(jù)挖掘在CRM決策分析中的應(yīng)用

2010-09-15 08:49:30賈保先許麗莉

統(tǒng)計(jì)與決策 2010年18期

關(guān)鍵詞：數(shù)據(jù)挖掘語義規(guī)則

李寰，賈保先，許麗莉

（聊城大學(xué) 計(jì)算機(jī)學(xué)院，山東聊城 252059）

基于本體的數(shù)據(jù)挖掘在CRM決策分析中的應(yīng)用

李寰，賈保先，許麗莉

（聊城大學(xué) 計(jì)算機(jī)學(xué)院，山東聊城 252059）

文章融合了本體和數(shù)據(jù)挖掘技術(shù)，提出了基于本體的數(shù)據(jù)挖掘決策分析模型，利用基于本體的數(shù)據(jù)挖掘方法從語義層面上實(shí)現(xiàn)了對用戶數(shù)據(jù)的挖掘，實(shí)現(xiàn)了用戶數(shù)據(jù)的高效率和高精度挖掘，并根據(jù)挖掘結(jié)果進(jìn)行決策分析，根據(jù)分析結(jié)果為用戶提供基于RSS聚合的個性化服務(wù)。

本體；數(shù)據(jù)挖掘；客戶關(guān)系管理；語義；RSS聚合；決策分析

1 基于本體的數(shù)據(jù)挖掘

本體是概念化規(guī)范說明，對于CRM中的用戶本體來說它包括有關(guān)用戶概念的各種術(shù)語、關(guān)系并給出術(shù)語的語義。用戶本體可以從用戶的不同視圖或側(cè)面，例如用戶類型、行為、狀態(tài)等，進(jìn)行用戶描述，展示用戶的不同屬性及屬性之間的關(guān)系。利用用戶本體作為一種用戶知識的展示模型可以提高企業(yè)與用戶之間基于語義的協(xié)同性，從而實(shí)現(xiàn)用戶信息的高度共享和寵用。文獻(xiàn)[1]將用戶本體引入到用戶數(shù)據(jù)挖掘中，利用本體實(shí)現(xiàn)了CRM數(shù)據(jù)一致性，解決了數(shù)據(jù)異構(gòu)的問題，解決了傳統(tǒng)規(guī)則難于理解的問題。同時，用戶本體在語義規(guī)則前提下挖掘提高了挖掘的有效性，而本體進(jìn)化也可方便規(guī)則的增加和刪改[2]。

在挖掘過程中，本體是用來協(xié)助用戶構(gòu)成有效DM過程（可執(zhí)行方案）集合。因此用戶本體的構(gòu)建至關(guān)重要。構(gòu)建用戶本體的步驟首先是用戶本體建模，其次是在一些成熟的元本體基礎(chǔ)上，用自然語言描述用戶本體的概念及其之間的關(guān)系，并對自然語言描述的結(jié)果選擇合適的本體描述語言對其進(jìn)行形式化，最終生成可供計(jì)算機(jī)識別、處理的文件。本體的構(gòu)建方法有很多，結(jié)合電子商務(wù)CRM本體變化快、動態(tài)性及健壯性需求比較高的前提下，我們建議采用用軟件工程思想的原型法[3]或知識工程方法[4]來構(gòu)建CRM本體。

基于本體的數(shù)據(jù)挖掘中，首先引入軟件工程需求分析的思想，管理者通過和用戶交流獲得挖掘的目標(biāo)，其次由CRM建好的本體構(gòu)建成DM所需的數(shù)據(jù)集，然后選擇合適的數(shù)據(jù)預(yù)處理方法或挖掘方法，對本體庫集進(jìn)行挖掘，此過程中可以選擇合適的挖掘算法對數(shù)據(jù)庫進(jìn)行優(yōu)化、可視化的操作。在整個過程中，由于本體注重概念屬性之間的關(guān)聯(lián)和知識的共享，因此挖掘工作者不會忽略此領(lǐng)域中并不熟悉、但又有可能導(dǎo)致發(fā)現(xiàn)知識的數(shù)據(jù)挖掘技術(shù)[5]。

下面以關(guān)聯(lián)規(guī)則的應(yīng)用來舉例說明基于本體的數(shù)據(jù)挖掘在決策分析在網(wǎng)上書店中的具體應(yīng)用。假設(shè)CRM知識庫中存在以下兩個本體：用戶本體和圖書本體，其中圖書本體的計(jì)算機(jī)相關(guān)學(xué)科的部分本體我們選用文獻(xiàn)[6]所描述層次，如圖1所示。基于本體的數(shù)據(jù)挖掘系統(tǒng)根據(jù)數(shù)據(jù)倉庫中的數(shù)據(jù)推導(dǎo)出關(guān)聯(lián)規(guī)則如下：一個用戶如果購買圖書《計(jì)算機(jī)應(yīng)用》的同時也購買了《人工智能》，此時基于本體的數(shù)據(jù)挖掘決策分析系統(tǒng)會通過知識庫中已有的本體規(guī)則推理，即沿著本體的念底層向上歸納發(fā)現(xiàn)這些購買《計(jì)算機(jī)應(yīng)用》圖書的用戶大多是計(jì)算機(jī)科學(xué)技術(shù)專業(yè)的讀者，因此系統(tǒng)便可以通過推理可以得到這樣的結(jié)論：計(jì)算機(jī)科學(xué)與技術(shù)專業(yè)的用戶購買《計(jì)算機(jī)應(yīng)用》圖書時，購買《人工智能》的概率很大。然后，系統(tǒng)將此結(jié)果反饋給企業(yè)管理人員，管理人員由此設(shè)定個性化推薦的界面，提高效率，節(jié)約成本，同時提高用戶的滿意度。

2 基于本體的數(shù)據(jù)挖掘決策分析設(shè)計(jì)

經(jīng)過以上本體構(gòu)建及數(shù)據(jù)挖掘分析，結(jié)合電子商務(wù)CRM實(shí)際情況，借鑒文獻(xiàn)[1]的架構(gòu)，我們初步提出了基于本體的數(shù)據(jù)挖掘在電子商務(wù)CRM個性化推薦的系統(tǒng)架構(gòu)的設(shè)想，架構(gòu)分四個層次：原始數(shù)據(jù)層、用戶本體層、數(shù)據(jù)挖掘?qū)印€性推薦層。

（1）原始數(shù)據(jù)層主要存放了CRM及圖書等相關(guān)的原始數(shù)據(jù)。比如在CRM中我們包含了對用戶日常訪問日志信息的搜集。這些日志信息的搜集及挖掘?qū)Φ谒膶哟蔚耐扑]非常重要，因?yàn)閃eb使用挖掘主要是將數(shù)據(jù)挖掘技術(shù)應(yīng)用于Web站點(diǎn)的用戶訪問日志以分析Web站點(diǎn)的使用，通過Web站點(diǎn)的使用挖掘，對用戶的訪問內(nèi)容，停留時間和頻度進(jìn)行分析，可以得到關(guān)于用戶訪問行為和方式的普遍知識，用以改進(jìn)Web站點(diǎn)服務(wù)設(shè)計(jì)。更重要的是，通過對這些用戶特征的理解和分析，可以開展有針對性的個性化服務(wù)。Web使用挖掘主要是將數(shù)據(jù)挖掘技術(shù)應(yīng)用于Web站點(diǎn)的用戶訪問日志以分析Web站點(diǎn)的使用，通過Web站點(diǎn)的使用挖掘，對用戶的訪問內(nèi)容，停留時間和頻度進(jìn)行分析，可以得到關(guān)于用戶訪問行為和方式的普遍知識，用以改進(jìn)Web站點(diǎn)服務(wù)設(shè)計(jì)。更重要的是，通過對這些用戶特征的理解和分析，可以開展有針對性的個性化服務(wù)。

（2）用戶本體層。該層次是對原始數(shù)據(jù)層的提出及優(yōu)化，使原來雜亂無章、無結(jié)構(gòu)化或半結(jié)構(gòu)化的數(shù)據(jù)通過語義提取、語義標(biāo)注等方法形成結(jié)構(gòu)化可共享重用、無歧義理解的本體庫，為數(shù)據(jù)挖掘?qū)犹峁┩诰虻幕A(chǔ)。

（3）數(shù)據(jù)挖掘?qū)印Ｔ搶哟沃饕酶鞣N挖掘技術(shù)對形成的本體庫進(jìn)行深層次挖掘，挖掘手段多樣，包括關(guān)聯(lián)規(guī)則、聚類分析、決策樹、離散點(diǎn)檢測、神經(jīng)網(wǎng)絡(luò)、演變分析等。例如關(guān)聯(lián)規(guī)則的挖掘可以應(yīng)用在CRM本體挖掘中，把一個URL地址看作一個項(xiàng)目，一次瀏覽過程看作一個記錄，則每條記錄（即一次事務(wù)處理），由該次瀏覽所訪問的所有URL地址構(gòu)成。從這樣一個數(shù)據(jù)庫中，就可以找出有關(guān)URL地址的關(guān)聯(lián)規(guī)則，這些規(guī)則對于網(wǎng)絡(luò)搜索引擎的設(shè)計(jì)是有幫助的，從而可以把一連串有關(guān)聯(lián)的網(wǎng)絡(luò)地址提交給用戶。當(dāng)用戶在閱讀某個網(wǎng)頁時，根據(jù)關(guān)聯(lián)規(guī)則就可以預(yù)先取出該用戶在后面可能訪問的頁面，提供個性化的服務(wù)。

（4）個性推薦層可以根據(jù)基于數(shù)據(jù)挖掘的結(jié)果進(jìn)行語義相關(guān)性推薦。當(dāng)用戶對某一子領(lǐng)域感興趣時，由于同一本體論下屬的各個領(lǐng)域之間存在相關(guān)性，這種相關(guān)性使得不同領(lǐng)域間的推薦成為可能。我們知道，用戶在圖書資源上的偏好屬性的表現(xiàn)形式不一樣，然而，如果我們能夠識別各類圖書資源相關(guān)屬性，就可以實(shí)現(xiàn)不同圖書資源之間的匹配，并做出這樣的推薦。通過構(gòu)建一個領(lǐng)域里關(guān)于用戶在某類產(chǎn)品上的偏好特征模式，可以對不同的子領(lǐng)域進(jìn)行匹配。例如在圖1所示的計(jì)算機(jī)科學(xué)圖書領(lǐng)域，計(jì)算機(jī)科學(xué)包含人工智能、系統(tǒng)結(jié)構(gòu)、計(jì)算機(jī)應(yīng)用三個子學(xué)科，當(dāng)用戶當(dāng)前關(guān)注的是人工智能子領(lǐng)域時，通過相關(guān)性分析，例如喜歡人工智能類圖書的用戶很可能在某種程度上也喜歡計(jì)算機(jī)應(yīng)用類圖書，因此我們在展示人工智能類圖書的同時，也附著推薦計(jì)算機(jī)應(yīng)用類圖書。因此，可以通過確定該領(lǐng)域所屬本體論，推斷出用戶可能對該本體論中的其它領(lǐng)域感興趣的部分。當(dāng)前瀏覽的次本體不屬于同一個根節(jié)點(diǎn)，我們認(rèn)為它與用戶當(dāng)前興趣無關(guān)，不需要推薦。這樣也就避免了推薦一些無關(guān)頁面給用戶，提高了推薦的精確度[7]。個性推薦時，我們采用RSS技術(shù)，RSS 是“Really Simple Syndication(真正簡易聚合)”。RSS 通過XML標(biāo)準(zhǔn)定義內(nèi)容的包裝和發(fā)布格式，使內(nèi)容提供者和接受者都能從中獲益。對內(nèi)容提供者來說，RSS具有及時、全面、有序、高效等特點(diǎn)[8]。其可及時傳遞客戶需要的最新信息、全面報(bào)道客戶感興趣的網(wǎng)站內(nèi)容、能夠按照內(nèi)容的重要性進(jìn)行排序，并且將最新和最重要的內(nèi)容置于頂端、客戶可以根據(jù)自己的興趣對商品進(jìn)行定制，并且能夠隨時掌握最新的標(biāo)價等信息等。

3 結(jié)束語

本文主要針對CRM數(shù)據(jù)繁多、格式不統(tǒng)一等弊端，提出了基于本體的數(shù)據(jù)挖掘決策分析模型，利用此模型實(shí)現(xiàn)了高精度的語義挖掘，并根據(jù)挖掘結(jié)果制定相應(yīng)的決策分析，為用戶提供了基于RSS聚合的個性化服務(wù)，同時全文中利用關(guān)聯(lián)規(guī)則具體說明了基于本體的數(shù)據(jù)挖掘決策分析在網(wǎng)上書店中的應(yīng)用過程。下一步需要進(jìn)一步完善用戶本體的構(gòu)建思想，建立操作性強(qiáng)、共享重用度高的用戶本體，然后具體研究用戶本體與數(shù)據(jù)挖掘技術(shù)結(jié)合的方法，設(shè)計(jì)切實(shí)可行的算法，提高挖掘的深度和精度。

[1]周倩.基于User-Ontology的圖書館用戶數(shù)據(jù)挖掘研究[J].圖書館雜志，2006,(10).

[2]路曉偉，蔣馥.侯立文.基于客戶本體的客戶特征提取[J].計(jì)算機(jī)工程，2005，（5）.

[3]鄒景華，朱慶生.基于語義互聯(lián)網(wǎng)的智能信息檢索研究[D].重慶大學(xué),2005.

[4]李景，蘇曉鷺，錢平.構(gòu)建領(lǐng)域本體的方法[J].計(jì)算機(jī)與農(nóng)業(yè),2003,(7).

[5]鄒力鹍，王麗珍，姚紹文.數(shù)據(jù)挖掘方法本體研究[J].計(jì)算機(jī)科學(xué)，2005,（3）.

[6]王存剛.基于Ontology的智能信息檢索系統(tǒng)研究[D].中國海洋大學(xué),2006.

[7]陳晉進(jìn).基于本體論的個性化信息服務(wù)的研究湘潭大學(xué)[D].碩士學(xué)位論文，2004.

[8]劉位龍,魏墨濟(jì).RSS技術(shù)在電子商務(wù)平臺設(shè)計(jì)中的應(yīng)用[J].情報(bào)理論與實(shí)踐，2006,29(5).

（責(zé)任編輯/易永生）

TP393

1002-6487（2010）18-0158-02

國家自然科學(xué)基金資助項(xiàng)目（60874075）；山東教育廳項(xiàng)目（J08LJ20）

李寰（1978－），男，山東聊城人，碩士，講師，研究方向：軟件測試、電子商務(wù)等。

賈保先（1982-），男，山東聊城人，碩士研究生，助教，研究方向：物流、RFID、本體等。