邰 宇(黑龍江省計算機軟件研究中心,黑龍江 哈爾濱 150028)
?
Web數(shù)據(jù)挖掘技術(shù)在電子商務(wù)中的應(yīng)用研究
邰 宇
(黑龍江省計算機軟件研究中心,黑龍江哈爾濱150028)
摘要:大數(shù)據(jù)時代迅速增長的商業(yè)數(shù)據(jù)和信息之間的內(nèi)在聯(lián)系,備受電子商務(wù)經(jīng)營者的普遍關(guān)注。本文基于商業(yè)數(shù)據(jù)和信息之間的關(guān)聯(lián),較深入地探討了Web數(shù)據(jù)挖掘技術(shù)相關(guān)理論及其在電子商務(wù)中的具體應(yīng)用。
關(guān)鍵詞:數(shù)據(jù)抽取;聚類分析;Web數(shù)據(jù)挖掘技術(shù)
日常生活中時常會出現(xiàn)如下情況,商場經(jīng)營者總期望銷售量較大的商品放在同一區(qū)域以便于提高銷售額;銀行想了解具有何種特征的客戶需要申請購房貸款;保險公司精算師期望在眾多病歷中尋找到患某種疾病患者的同類特征,進(jìn)而提高設(shè)計理賠條款的最合理性。針對上述問題,采用傳統(tǒng)數(shù)據(jù)分析工具難以達(dá)到實際需求。由于傳統(tǒng)信息管理系統(tǒng)采用的數(shù)據(jù)庫系統(tǒng)還是只有簡單處理數(shù)據(jù)功能,以實現(xiàn)對報表的查詢統(tǒng)計,而無法提取數(shù)據(jù)中蘊含內(nèi)在的深層關(guān)系。
隨著不斷增加的信息量及廣泛應(yīng)用的信息管理系統(tǒng),更期望其具有更豐富的數(shù)據(jù)分析功能,進(jìn)而提供出科學(xué)決策。基于該需求,有利地促進(jìn)了Web數(shù)據(jù)挖掘技術(shù)的迅速發(fā)展。數(shù)據(jù)挖掘主要是指將隱藏在大量數(shù)據(jù)中的有用信息提取出來,在大型數(shù)據(jù)庫中應(yīng)用機器學(xué)習(xí)的綜合信息處理技術(shù)。它將各學(xué)科技術(shù)的信息處理方法進(jìn)行綜合,主要有分類、聚類、關(guān)聯(lián)規(guī)則、預(yù)測及檢測偏差等功能。
數(shù)據(jù)挖掘作為新興技術(shù),在處理數(shù)據(jù)方面具有的特征十分明顯。數(shù)據(jù)挖掘主要用于海量數(shù)據(jù),也是其產(chǎn)生的一個重要原因。數(shù)據(jù)一般都是不完全的,數(shù)據(jù)結(jié)構(gòu)比較復(fù)雜,也具有較大維數(shù)。數(shù)據(jù)挖掘交叉了很多學(xué)科,采用信息、統(tǒng)計、數(shù)學(xué)等多個學(xué)科技術(shù),在實際中最為常見和廣泛應(yīng)用的有傳統(tǒng)統(tǒng)計方法、可視化技術(shù)、決策樹、神經(jīng)網(wǎng)絡(luò)、遺傳算法及關(guān)聯(lián)規(guī)則挖掘算法六種算法和模型。
隨著知識發(fā)現(xiàn)的影響日益增大,1995年國際知識發(fā)現(xiàn)組委會將專題討論會改為國際會議,并在加拿大召開世界第一屆知識發(fā)現(xiàn)國際學(xué)術(shù)會議,并形成年度國際會議。近年來,在知識發(fā)現(xiàn)方面開展了很多卓有成效的研究工作并得到快速發(fā)展,特別是應(yīng)用于商業(yè)和銀行領(lǐng)域尤為迅速。
國外在數(shù)據(jù)挖掘方面比較關(guān)注于貝葉斯方法及Boosting方法的研究,在知識發(fā)現(xiàn)中應(yīng)用傳統(tǒng)的統(tǒng)計學(xué)回歸法,并緊密結(jié)合數(shù)據(jù)庫。研發(fā)完成了很多知識發(fā)現(xiàn)軟件工具并日益完善,加強用于解決問題的整體系統(tǒng)的研發(fā),而過程并非孤立。
國內(nèi)主要是高校、科研機構(gòu)等研究人員開展Web數(shù)據(jù)挖掘技術(shù)的研究,主要開展學(xué)習(xí)算法、數(shù)據(jù)挖掘相關(guān)理論及技術(shù)應(yīng)用等很多方面的研究,國家也在自然基金、863計劃等對相關(guān)研究提供資助經(jīng)費。有關(guān)統(tǒng)計數(shù)據(jù)顯示,知識發(fā)現(xiàn)及人工智能等技術(shù)是未來對工業(yè)具有較重要影響的關(guān)鍵技術(shù)。充分說明數(shù)據(jù)挖掘的研究和應(yīng)用備受社會關(guān)注,并已成為一個研究熱點。
在電子商務(wù)活動中主要是將客戶作為Web數(shù)據(jù)挖掘技術(shù)的研究對象,進(jìn)而發(fā)現(xiàn)客戶具有個性和共性、必然和偶然、獨立和關(guān)聯(lián)及現(xiàn)實和預(yù)測等方面的知識。上述知識都可發(fā)現(xiàn)處于不同概念層次,從微觀分析到宏觀,客觀分析統(tǒng)計客戶的消費行為,為提高電子商務(wù)管理水平提供重要決策,以充分滿足各類客戶實際需求。
4.1 應(yīng)用于電子商務(wù)的分類與預(yù)測
分類技術(shù)在電子商務(wù)中應(yīng)用最多,也是電子商務(wù)中很重要的一項任務(wù)。主要用于采用統(tǒng)計、機器學(xué)習(xí)及神經(jīng)網(wǎng)絡(luò)等方法構(gòu)造分類器,將數(shù)據(jù)庫中數(shù)據(jù)項向給定某類別中的一個進(jìn)行映射,以利于預(yù)測未來數(shù)據(jù)。
4.2 應(yīng)用于電子商務(wù)中的聚類分析
聚類就是根據(jù)相似性原則將一組個體歸為多個不同類別,在電子商務(wù)中主要采用客戶聚類實現(xiàn)對市場不同消費群體的細(xì)分。使同類別個體之間只有最小距離,而不同類別個體之間具有較大距離,利于提取聚類客戶特征,電子商務(wù)網(wǎng)站可采用統(tǒng)計、機器學(xué)習(xí)及神經(jīng)網(wǎng)絡(luò)等方法為客戶提供個性化服務(wù)。
4.3 應(yīng)用于電子商務(wù)中的數(shù)據(jù)抽取
相對于傳統(tǒng)商務(wù)活動,電子商務(wù)具有諸如客戶購買動機、心理、欲望及能力等很多虛擬和不確定因素,采用何種方法在無規(guī)則的零散數(shù)據(jù)中尋找到具有價值和規(guī)則的數(shù)據(jù)是數(shù)據(jù)挖掘的主要任務(wù)。數(shù)據(jù)抽取就是其中的一個基本方法,主要是濃縮數(shù)據(jù),采用平均、求和及方差等統(tǒng)計值或直方、餅狀等圖形方式給出數(shù)據(jù)抽取的緊湊描述,最重要的是基于數(shù)據(jù)泛化對數(shù)據(jù)總結(jié)進(jìn)行討論。數(shù)據(jù)泛化是將低層次的原始、基本的信息數(shù)據(jù)向高層次進(jìn)行抽象的一個過程,在電子商務(wù)活動中,數(shù)據(jù)抽取通常采用多維數(shù)據(jù)分析方法,對客戶數(shù)據(jù)倉庫中的數(shù)據(jù)進(jìn)行分析,以用于決策支持系統(tǒng)。
4.4 應(yīng)用于電子商務(wù)中的關(guān)聯(lián)規(guī)則
事務(wù)型數(shù)據(jù)庫是用于關(guān)聯(lián)規(guī)則對主要對象進(jìn)行發(fā)現(xiàn)。一個事務(wù)通常由處理時間、顧客標(biāo)識及所購物品構(gòu)成,因條形碼及Web技術(shù)的日益成熟,管理部門能夠?qū)⒋鎯Φ目蛻糍Y料與售貨數(shù)據(jù)進(jìn)行收集,對其分析后并發(fā)現(xiàn)關(guān)聯(lián)規(guī)則,根據(jù)網(wǎng)購客戶的購買行為提供具有價值的信息。可用于對市場進(jìn)行規(guī)劃,對商品種類、價格等進(jìn)行確定。關(guān)聯(lián)規(guī)則一般分為有意義關(guān)聯(lián)規(guī)則和泛化關(guān)聯(lián)規(guī)則,前者主要是指對最小支持度和可信度提供界限的規(guī)則;后者對最小可信度提供界限,使最低可靠度在關(guān)聯(lián)規(guī)則上得到反應(yīng)。泛化關(guān)聯(lián)規(guī)則更具有實用性,由于研究對象之間具有層次關(guān)系,對于更多有意義規(guī)則的發(fā)現(xiàn)更具有輔助意義。
綜上所述,現(xiàn)代信息技術(shù)有力促進(jìn)了電子商務(wù)的發(fā)展,也在商業(yè)運作模式中不可或缺。基于全球經(jīng)濟(jì)一體化,應(yīng)對網(wǎng)絡(luò)基礎(chǔ)設(shè)施繼續(xù)加強建設(shè),推進(jìn)企業(yè)電子商務(wù)化進(jìn)程,在電子商務(wù)方面健全安全立法并建設(shè)更加完善的物流配送體系,使電子商務(wù)具有良好的發(fā)展環(huán)境。并在文本、多媒體及網(wǎng)絡(luò)等方面深入Web數(shù)據(jù)挖掘技術(shù)研究,使存在于電子商務(wù)中的數(shù)據(jù)安全保密、數(shù)據(jù)質(zhì)量及集成其它商業(yè)軟件等問題得到妥善解決。充分利用數(shù)據(jù)挖掘等技術(shù),使企業(yè)優(yōu)勢得到充分發(fā)揮,加快技術(shù)與管理創(chuàng)新,才能促進(jìn)使企業(yè)在電子商務(wù)中的有序發(fā)展。
參考文獻(xiàn)
[1]李業(yè)麗.神經(jīng)網(wǎng)絡(luò)在數(shù)據(jù)挖掘中的應(yīng)用研究[J].計算機工程與應(yīng)用,2013(10).
[2]陳國萍,李巍,劉仲英.數(shù)據(jù)挖掘中概念樹的標(biāo)準(zhǔn)、生成和實現(xiàn)[J],計算機工程,2012(08).
中圖分類號:TP311
文獻(xiàn)標(biāo)識碼:A