999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于大數(shù)據(jù)的商業(yè)智能在電商數(shù)據(jù)分析中的應(yīng)用

2019-09-10 22:03:30錢丹丹周金海
電子商務(wù) 2019年4期
關(guān)鍵詞:數(shù)據(jù)挖掘大數(shù)據(jù)

錢丹丹 周金海

摘要:為了將大數(shù)據(jù)與傳統(tǒng)商業(yè)智能相結(jié)合,重新設(shè)計(jì)了商業(yè)智能的架構(gòu)平臺(tái),著重探討了數(shù)據(jù)獲取方式,以中藥飲片企業(yè)電商數(shù)據(jù)為例,用聚類分析中的K-Means算法對(duì)消費(fèi)者進(jìn)行分群,以此實(shí)現(xiàn)對(duì)不同消費(fèi)者進(jìn)行個(gè)性化營(yíng)銷的目的。

關(guān)鍵詞:大數(shù)據(jù);商業(yè)智能;數(shù)據(jù)挖掘;聚類分析

引言

商業(yè)智能(Bl)概念由Gartner Group提出,涉及信息搜索、管理和分析,目的是使企業(yè)決策者獲得知識(shí),促使他們做出對(duì)企業(yè)更加有力的決策。商業(yè)智能不是一種獨(dú)立的技術(shù),而是一套完整的解決方案。它將數(shù)據(jù)倉(cāng)庫(kù),聯(lián)機(jī)分析(OLAP),數(shù)據(jù)挖掘和可視化等技術(shù)結(jié)合應(yīng)用于業(yè)務(wù)活動(dòng),使企業(yè)的復(fù)雜信息轉(zhuǎn)化為可供輔助的知識(shí),最后將知識(shí)呈現(xiàn)給用戶,以支持企業(yè)決策[1]。

隨著Internet應(yīng)用程序規(guī)模的不斷擴(kuò)大,需要處理的數(shù)據(jù)量呈指數(shù)級(jí)增長(zhǎng),數(shù)據(jù)結(jié)構(gòu)變得越來越復(fù)雜。業(yè)務(wù)運(yùn)營(yíng)壓力急劇增大,從而直接推動(dòng)了大數(shù)據(jù)處理技術(shù)的發(fā)展[2]。隨著電子商務(wù)、云計(jì)算、移動(dòng)社交媒體等新一代IT技術(shù)的快速發(fā)展,傳統(tǒng)的Bl系統(tǒng)逐漸不能滿足企業(yè)數(shù)據(jù)分析的需求。個(gè)性化、數(shù)據(jù)化、科學(xué)的數(shù)據(jù)分析技術(shù)逐漸使傳統(tǒng)的Bl系統(tǒng)需要與大數(shù)據(jù)技術(shù)相結(jié)合,實(shí)現(xiàn)一種滿足大數(shù)據(jù)分析的新平臺(tái)架構(gòu)。

1、基于傳統(tǒng)BI體系的大數(shù)據(jù)應(yīng)用設(shè)計(jì)

在大數(shù)據(jù)時(shí)代,傳統(tǒng)BI的數(shù)據(jù)存儲(chǔ)能力、數(shù)據(jù)分析能力、實(shí)時(shí)數(shù)據(jù)處理能力不能勝任非結(jié)構(gòu)化的復(fù)雜數(shù)據(jù)源的應(yīng)用分析。因此,如何綜合利用現(xiàn)有的BI和大數(shù)據(jù)技術(shù)是新平臺(tái)架構(gòu)設(shè)計(jì)的關(guān)鍵。傳統(tǒng)的BI數(shù)據(jù)主要來自內(nèi)部操作系統(tǒng)和管理系統(tǒng);大數(shù)據(jù)的主要來源是互聯(lián)網(wǎng),如微博,網(wǎng)頁(yè)和其他數(shù)據(jù)交換。在數(shù)據(jù)源、數(shù)據(jù)收集、數(shù)據(jù)處理、數(shù)據(jù)存儲(chǔ)和以后的數(shù)據(jù)應(yīng)用程序方面,這兩者都有本質(zhì)上的不同?;谝陨峡紤],設(shè)計(jì)了新的架構(gòu)平臺(tái)如圖1所示。

數(shù)據(jù)源主要包括企業(yè)的內(nèi)部數(shù)據(jù)和外部數(shù)據(jù),內(nèi)部數(shù)據(jù)由OA系統(tǒng)、ERP系統(tǒng)、財(cái)務(wù)報(bào)表系統(tǒng)等相關(guān)結(jié)構(gòu)化數(shù)據(jù)組成;外部數(shù)據(jù)包括互聯(lián)網(wǎng)上的非結(jié)構(gòu)化數(shù)據(jù),如超文本,圖像和視頻。數(shù)據(jù)采集在原有采集方式中新增了互聯(lián)網(wǎng)網(wǎng)頁(yè)爬蟲的采集方式。針對(duì)結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)采用不同的處理方法。非結(jié)構(gòu)化數(shù)據(jù)整理成結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)在分布式結(jié)構(gòu)化數(shù)據(jù)庫(kù)中;傳統(tǒng)數(shù)據(jù)仍存儲(chǔ)在關(guān)系型數(shù)據(jù)庫(kù)中。大數(shù)據(jù)主要以分布式文件系統(tǒng)(HDFS)和NoSQL數(shù)據(jù)庫(kù)的形式存儲(chǔ)。最終數(shù)據(jù)主要用于聯(lián)機(jī)分析處理,數(shù)據(jù)挖掘,數(shù)據(jù)可視化等方面。

2、數(shù)據(jù)采集方式

大數(shù)據(jù)背景下的數(shù)據(jù)收集方法主要包括三類:系統(tǒng)日志收集,網(wǎng)絡(luò)數(shù)據(jù)收集和數(shù)據(jù)接口收集。日志數(shù)據(jù)的采集是通過設(shè)備中的日志記錄子系統(tǒng)實(shí)現(xiàn)的,這個(gè)子系統(tǒng)能夠在必要的時(shí)候生成日志消息。常用的商用數(shù)據(jù)API都支持REST API的方式獲取數(shù)據(jù)信息。網(wǎng)絡(luò)數(shù)據(jù)采集主要采用網(wǎng)絡(luò)爬蟲技術(shù),其核心原則是:使用超文本傳輸協(xié)議HTTP仿真瀏覽器通過統(tǒng)一資源定位器URL地址訪問Web服務(wù)器,獲取Web服務(wù)器的權(quán)限,返回到原始頁(yè)面并解析數(shù)據(jù)[3]。

傳統(tǒng)的網(wǎng)絡(luò)爬蟲技術(shù)可能存在問題,因此為爬取web資源而設(shè)計(jì)的聚焦爬蟲技術(shù)應(yīng)運(yùn)而生。聚焦爬蟲有選擇地訪問因特網(wǎng)上的與網(wǎng)頁(yè)相關(guān)的鏈接,以基于已建立的爬行目標(biāo)(使用某電商銷售主題)獲得他們所需的信息。聚焦爬蟲并不追求網(wǎng)頁(yè)的全面覆蓋,相反,它針對(duì)與特定主題相關(guān)的網(wǎng)頁(yè),并為面向主題的用戶查詢準(zhǔn)備數(shù)據(jù)資源。

3、中藥飲片企業(yè)電商數(shù)據(jù)應(yīng)用案例

3.1中藥飲片企業(yè)發(fā)展?fàn)顩r

傳統(tǒng)中藥飲片在生產(chǎn)銷售過程中比較混亂,沒有統(tǒng)一的質(zhì)量標(biāo)準(zhǔn),因此,質(zhì)量監(jiān)督管理難度較大。由于中藥飲片生產(chǎn)企業(yè)已經(jīng)逐漸全面實(shí)施藥品GMP認(rèn)證,其生產(chǎn)已從純手工加工獨(dú)立出來成為中藥行業(yè)的一項(xiàng)產(chǎn)業(yè)。也因此中藥飲片、中藥材、中成藥并稱為中藥的三大組成部分。隨著GMP認(rèn)證的實(shí)施,中藥飲片生產(chǎn)企業(yè)也發(fā)生了本質(zhì)的變化,中藥飲片的質(zhì)量得到了提高,同時(shí)取得了良好的社會(huì)效益。然而,中藥飲片的來源,加工方法和用途均有其傳統(tǒng)特征。這一目標(biāo)特性與GMP要求之間存在很大差異。因此,在實(shí)施過程中存在很多問題,特別是2010版的GMP和附錄對(duì)中藥飲片生產(chǎn)的要求達(dá)到了前所未有的高度,中藥飲片企業(yè)的管理面臨嚴(yán)峻挑戰(zhàn)。

3.2 K-Means算法

K均值是一種廣泛使用的聚類方法,它將D個(gè)實(shí)體劃分為N個(gè)聚類。從而確保集群內(nèi)的相似性盡可能高,集群之間的相似性盡可能低。K-means算法的過程如下:

(1)隨機(jī)選擇N個(gè)數(shù)據(jù)點(diǎn)作為質(zhì)心;

(2)計(jì)算數(shù)據(jù)集中每個(gè)數(shù)據(jù)點(diǎn)到質(zhì)心的距離,并將數(shù)據(jù)集中的所有數(shù)據(jù)點(diǎn)聚合為N個(gè)簇;

(3)根據(jù)第2步計(jì)算得到的N組數(shù)據(jù)點(diǎn),迭代計(jì)算出新的質(zhì)心:

(4)重復(fù)步驟2-3,直到最終質(zhì)心與前一個(gè)質(zhì)心之間的距離很?。M足收斂);

(5)最后讀入所有的觀察值,將每個(gè)觀察值按照最接近質(zhì)心的類別進(jìn)行分類,分類結(jié)束。

質(zhì)心和距離是K-MEANS算法的兩個(gè)基本概念。質(zhì)心可以被看做是一個(gè)樣本,或者可以被認(rèn)為是數(shù)據(jù)集中的某個(gè)數(shù)據(jù)點(diǎn)A,并規(guī)定它是具有相似性的一組數(shù)據(jù)的中心。質(zhì)心的選擇對(duì)聚類結(jié)果有很大影響,因?yàn)樵撍惴ㄊ请S機(jī)選擇任何一個(gè)對(duì)象作為初始聚類的質(zhì)心,并且最初表示聚類結(jié)果。當(dāng)然,這個(gè)結(jié)果通常是不合理的,只是隨機(jī)劃分的數(shù)據(jù)集。質(zhì)心的具體校正還需要多輪迭代計(jì)算才能逐漸逼近所需的聚類結(jié)果:具有相似性的對(duì)象被分組為一組,所有這些對(duì)象都具有共同的質(zhì)心。另外,由于初始質(zhì)心選擇的隨機(jī)性,最終結(jié)果不一定是預(yù)期的,因此需要多次迭代,在每次迭代時(shí)重新隨機(jī)獲得初始質(zhì)心,直到最終聚類結(jié)果滿足預(yù)期。

距離實(shí)際上是相似度的度量。常見的距離公式計(jì)算有:曼哈頓距離,歐幾里德距離,閔可夫斯基距離,切比雪夫距離等。聚類分析中最常用的距離公式是歐氏距離,因?yàn)闅W氏距離直觀且容易計(jì)算,而且歐式距離對(duì)對(duì)象的點(diǎn)進(jìn)行坐標(biāo)偏移和變化旋轉(zhuǎn),最后,距離的值保持不變,因此仍然可以通過對(duì)象的原始相似性來判斷對(duì)象相似性。設(shè)d(x,y)為對(duì)象a和b之間的距離,則d(x,y)應(yīng)滿足以下三個(gè)屬性:

(1)非負(fù)性:即d(x,y)30恒成立;當(dāng)且僅當(dāng)x=y時(shí),d(x,y)=O。

(2)對(duì)稱性:即d(x,y)=d(y,X)。

(3)三角不等式:任意對(duì)象a,b,c恒有d(x,y+d(y,z)3d(x,z)。

3.3中藥飲片企業(yè)電商數(shù)據(jù)應(yīng)用分析

在大數(shù)據(jù)時(shí)代,獨(dú)立的數(shù)據(jù)本身價(jià)值不大,通過數(shù)據(jù)預(yù)測(cè)未來趨勢(shì)以及利用數(shù)據(jù)發(fā)現(xiàn)隱藏的知識(shí)才是關(guān)鍵。眾多中藥飲片企業(yè)緊跟時(shí)代發(fā)展,在電商網(wǎng)站都有相應(yīng)的門店銷售中藥飲片,因此積累了大量顧客購(gòu)買中藥飲片的消費(fèi)記錄。對(duì)這些消費(fèi)記錄的分析可以對(duì)消費(fèi)者進(jìn)行分組,不同群體的消費(fèi)者可以根據(jù)消費(fèi)行為對(duì)營(yíng)銷進(jìn)行個(gè)性化。客戶分類有利于中藥飲片企業(yè)針對(duì)性的為不同群體客戶提供差別化服務(wù),也能夠讓企業(yè)及時(shí)察覺市場(chǎng)和客戶的一些微小變化并針對(duì)其調(diào)整策略。

RFM模型是廣泛應(yīng)用的多因素客戶分類方法,R(Recency)表示客戶最近交易到當(dāng)前時(shí)間的時(shí)間段。F(Frequency)代表在指定時(shí)間段內(nèi)客戶與企業(yè)合作的次數(shù)(即購(gòu)買行為),M(Monetary)代表在指定時(shí)間段內(nèi)客戶與企業(yè)交易所產(chǎn)生的金額[4],RFM是以客戶創(chuàng)造的絕對(duì)金額來衡量客戶價(jià)值的。

現(xiàn)從某中藥飲片電商網(wǎng)站爬取相關(guān)數(shù)據(jù),依據(jù)一定的數(shù)據(jù)處理原則對(duì)原始數(shù)據(jù)進(jìn)行清洗采集,經(jīng)過處理后得到消費(fèi)者數(shù)據(jù)(3000條),R在這里表示最近一次購(gòu)買中藥飲片的時(shí)間間隔,F(xiàn)表示購(gòu)買中藥飲片頻率,M表示在某平臺(tái)上消費(fèi)的總金額,截取部分有效數(shù)據(jù)見表1:

不同數(shù)據(jù)項(xiàng)之間存在著數(shù)值大小和數(shù)值單位的差異,因此不能直接用來參與運(yùn)算。比如,消費(fèi)者購(gòu)買的產(chǎn)品總金額M是一個(gè)很大的數(shù)值屬性,單位一般在百以上,而在一定時(shí)間內(nèi)購(gòu)買產(chǎn)品的頻率往往較小,且相對(duì)于消費(fèi)金額來說沒什么作用。為了讓這些屬性都能發(fā)揮作用,需要將屬性與其自身對(duì)應(yīng)的范圍進(jìn)行比較,保證單位和數(shù)值不存在差值性,以便后期直接使用這些標(biāo)準(zhǔn)數(shù)據(jù)進(jìn)行運(yùn)算。本文采用歸一化處理方法對(duì)數(shù)據(jù)進(jìn)行處理,以下表2是經(jīng)過處理后的3000條數(shù)據(jù)中的部分?jǐn)?shù)據(jù)。

使用K-Means算法設(shè)置簇的數(shù)量為3,最大迭代次數(shù)為3,距離函數(shù)使用歐幾里德距離。由于初始質(zhì)心是隨機(jī)的,因此每個(gè)簇的結(jié)果可能不同。經(jīng)過多次重復(fù)實(shí)驗(yàn)后,檢測(cè)聚類結(jié)果基本相同,因此可以采用此聚類結(jié)果,對(duì)聚類用戶進(jìn)行群體特征分析,并進(jìn)行群體個(gè)性化營(yíng)銷。以下是K-Means算法聚類生成的群體一、二、三的圖片,如圖3消費(fèi)群體所示:

群體一:這些客戶最近一次在電商網(wǎng)站消費(fèi)間隔天數(shù)(R)較短,消費(fèi)總金額(M)較多。他們是企業(yè)最理想的客戶類型,同時(shí)也是潛在客戶,對(duì)公司貢獻(xiàn)大,但所占比例很小。企業(yè)應(yīng)優(yōu)先考慮將資源投放到他們身上,以此實(shí)現(xiàn)差異化管理和一對(duì)一營(yíng)銷,從而提高此類客戶的忠誠(chéng)度和滿意度,并最大限度地提高此類客戶的高消費(fèi)水平。

群體二:這些客戶的購(gòu)買頻率(F)一般,最后一次在電子商務(wù)網(wǎng)站上消費(fèi)的時(shí)間間隔(R)較短,并且消費(fèi)總量(M)是適中的。他們客戶價(jià)值變化的不確定性很高,消費(fèi)下降的原因各不相同,因此及時(shí)了解客戶信息并與客戶保持互動(dòng)尤為重要。企業(yè)可以根據(jù)近期消費(fèi)間隔時(shí)間和消費(fèi)頻次來推測(cè)顧客消費(fèi)行為的變化,重點(diǎn)關(guān)注這些客戶并采用特定的營(yíng)銷方案來延長(zhǎng)這類客戶的生命周期。

群體三:這類客戶的購(gòu)買頻率(F)一般,最近一次在電商網(wǎng)站消費(fèi)間隔天數(shù)(R)適中,消費(fèi)總金額(M)較少。他們是中藥飲片企業(yè)的一般用戶與低價(jià)值客戶,可能只有中藥飲片打折促銷時(shí)才會(huì)購(gòu)買。

4、總結(jié)

在大數(shù)據(jù)的背景下,充分利用數(shù)據(jù)挖掘信息可以抓住市場(chǎng)機(jī)遇。眾多企業(yè)除了線下實(shí)體銷售外也開展了具有獨(dú)特優(yōu)勢(shì)的線上交易,從電商大數(shù)據(jù)中挖掘隱藏的信息,根據(jù)這些信息,針對(duì)不同的客戶群體進(jìn)行個(gè)性化營(yíng)銷,從而提高企業(yè)的客戶滿意度和經(jīng)濟(jì)效益。本文主要研究了大數(shù)據(jù)與傳統(tǒng)商業(yè)智能在電商企業(yè)(中藥飲片電商網(wǎng)站)數(shù)據(jù)分析中的應(yīng)用,重點(diǎn)描述聚類分析的K—Means算法并應(yīng)用于電子商務(wù)網(wǎng)站中客戶消費(fèi)數(shù)據(jù)的挖掘。通過聚類分析將客戶分為3個(gè)群體,根據(jù)不同客戶群體的特征有助于企業(yè)識(shí)別客戶,從而實(shí)現(xiàn)差異化的營(yíng)銷目標(biāo)。

參考文獻(xiàn):

[1]陳榮鑫,付永鋼,陳維斌.基于Pentaho的商業(yè)智能系統(tǒng)[J].計(jì)算機(jī)工程與設(shè)計(jì),2008,09: 2407-2409.

[2]楊超.基于大數(shù)據(jù)技術(shù)的BI系統(tǒng)關(guān)鍵技術(shù)研究[D].華南理工大學(xué),2016.

[3]卞偉瑋,王永超,崔立真,郭偉,李暉,周苗,薛付忠,劉靜.基于網(wǎng)絡(luò)爬蟲技術(shù)的健康醫(yī)療大數(shù)據(jù)采集整理系統(tǒng)[J].山東大學(xué)學(xué)報(bào)(醫(yī)學(xué)版),2017,55[06): 47-55.

[4]李品睿,許守任,許暉.基于RFM模型的核心客戶識(shí)別與關(guān)系管理研究——以保險(xiǎn)業(yè)為例[J].現(xiàn)代管理科學(xué),2015,(6):24-26.

猜你喜歡
數(shù)據(jù)挖掘大數(shù)據(jù)
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
大數(shù)據(jù)環(huán)境下基于移動(dòng)客戶端的傳統(tǒng)媒體轉(zhuǎn)型思路
新聞世界(2016年10期)2016-10-11 20:13:53
基于大數(shù)據(jù)背景下的智慧城市建設(shè)研究
科技視界(2016年20期)2016-09-29 10:53:22
數(shù)據(jù)+輿情:南方報(bào)業(yè)創(chuàng)新轉(zhuǎn)型提高服務(wù)能力的探索
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
數(shù)據(jù)挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
基于GPGPU的離散數(shù)據(jù)挖掘研究
主站蜘蛛池模板: 青青草原国产av福利网站| 国产微拍精品| 亚洲一区二区三区麻豆| 91极品美女高潮叫床在线观看| 天堂网亚洲系列亚洲系列| a亚洲天堂| 国产综合在线观看视频| 午夜精品区| 看你懂的巨臀中文字幕一区二区| 亚洲久悠悠色悠在线播放| 91久久精品日日躁夜夜躁欧美| 丰满少妇αⅴ无码区| 91久久精品日日躁夜夜躁欧美| 欧美在线一二区| 亚洲网综合| 就去色综合| 免费无码在线观看| 欧美精品v| 精品无码日韩国产不卡av| 久久熟女AV| 一级看片免费视频| 国产乱肥老妇精品视频| 国产无码网站在线观看| 久久久久青草线综合超碰| 久久久波多野结衣av一区二区| 亚洲无码在线午夜电影| 亚洲欧美日韩中文字幕在线一区| 亚洲无码高清视频在线观看| 久久一色本道亚洲| 少妇高潮惨叫久久久久久| 日本影院一区| 欧美狠狠干| 国产精品污视频| 久久国产高清视频| av在线无码浏览| a毛片在线| 亚洲成人免费在线| 国产国语一级毛片| 97人妻精品专区久久久久| 毛片大全免费观看| 国产精品夜夜嗨视频免费视频| 国产网站黄| 波多野结衣中文字幕一区| 国产丰满成熟女性性满足视频| 欧美日韩导航| 天天躁狠狠躁| 亚洲色无码专线精品观看| 成人国产免费| 色综合激情网| 亚洲人妖在线| 亚洲成a人在线观看| 午夜限制老子影院888| 人妻无码一区二区视频| 美女视频黄频a免费高清不卡| 青草娱乐极品免费视频| 亚洲九九视频| 国产精品主播| 四虎影视库国产精品一区| 亚洲精品无码抽插日韩| 亚洲视频在线网| 高清色本在线www| 欧美精品影院| 在线观看亚洲人成网站| 成人精品午夜福利在线播放 | 波多野结衣无码视频在线观看| 婷婷色丁香综合激情| 成人免费黄色小视频| 国产成人精品综合| 日韩在线永久免费播放| 91久久精品国产| 99热线精品大全在线观看| www.av男人.com| 亚洲天堂日韩在线| 99热这里只有精品免费| 欧美午夜理伦三级在线观看| 手机在线看片不卡中文字幕| 26uuu国产精品视频| 成人欧美在线观看| 五月六月伊人狠狠丁香网| 久久人妻xunleige无码| 欧美一级专区免费大片| 国产香蕉在线视频|