999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于WEKA平臺(tái)聚類分析的檢測(cè)客戶消費(fèi)分析

2022-07-19 09:53:48
信息記錄材料 2022年5期
關(guān)鍵詞:數(shù)據(jù)挖掘檢測(cè)

吳 臻

(上海木材工業(yè)研究所有限公司 上海 200051)

0 引言

隨著檢測(cè)技術(shù)的精細(xì)化、智能化,檢測(cè)行業(yè)發(fā)展迅速,競(jìng)爭(zhēng)環(huán)境日趨惡劣,檢測(cè)服務(wù)不僅需要技術(shù)的提升,服務(wù)質(zhì)量也需要達(dá)到更高的標(biāo)準(zhǔn),這樣才能使客戶的消費(fèi)更具有彈性和粘性。據(jù)粗略統(tǒng)計(jì),每年一個(gè)檢測(cè)站中產(chǎn)生的檢測(cè)相關(guān)數(shù)據(jù)多達(dá)3萬(wàn)條,僅僅委托信息產(chǎn)生的數(shù)據(jù)就有1萬(wàn)多條,針對(duì)這些數(shù)據(jù)進(jìn)行分析與挖掘,可以讓數(shù)據(jù)變得鮮活。利用數(shù)據(jù)挖掘技術(shù),在這些海量數(shù)據(jù)后面發(fā)現(xiàn)有價(jià)值的線索和規(guī)律,精確滿足客戶需求,實(shí)現(xiàn)精細(xì)化營(yíng)銷。

隨著社會(huì)從信息化進(jìn)入到數(shù)字化,大數(shù)據(jù)技術(shù)得到較快發(fā)展,而這又促使機(jī)器學(xué)習(xí)高速發(fā)展。在眾多機(jī)器學(xué)習(xí)算法中,聚類分析方法具有實(shí)用性、簡(jiǎn)單化和高效性的特點(diǎn),這些優(yōu)點(diǎn)使聚類分析方法廣泛應(yīng)用于許多領(lǐng)域[1]。

1 數(shù)據(jù)挖掘

1.1 數(shù)據(jù)挖掘原理

數(shù)據(jù)挖掘是一門將人工智能、機(jī)器學(xué)習(xí)、模式識(shí)別、數(shù)據(jù)庫(kù)、可視化技術(shù)等技術(shù)進(jìn)行交叉綜合的學(xué)科。本質(zhì)上,數(shù)據(jù)挖掘是通過(guò)分析每個(gè)數(shù)據(jù),并使用技術(shù)在大量數(shù)據(jù)中查找其規(guī)律模式的過(guò)程。換言之,數(shù)據(jù)挖掘是從未知的數(shù)據(jù)庫(kù)中揭露隱含的、之前未知的并有潛在價(jià)值的數(shù)據(jù)的過(guò)程。數(shù)據(jù)挖掘的過(guò)程一般難度系數(shù)大,且是一個(gè)多層次的過(guò)程,它包含了數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)挖掘、結(jié)果表達(dá)和解釋3個(gè)主要階段,見(jiàn)圖1[2]。

1.2 聚類分析與K-means

在數(shù)據(jù)挖掘技術(shù)中有一種非常常用且重要的技術(shù),叫作聚類分析技術(shù),在機(jī)器學(xué)習(xí)中,它屬于無(wú)監(jiān)督學(xué)習(xí)方法。在對(duì)數(shù)據(jù)不作任何假設(shè)的條件下,聚類分析使用數(shù)學(xué)方法研究數(shù)據(jù)集對(duì)象,并將所給對(duì)象進(jìn)行分類,然后分析各類之間的親疏程度。聚類分析的目標(biāo)是將數(shù)據(jù)分類到不同的類或簇,相同類別內(nèi)的數(shù)據(jù)有很大的相似性,而不同類別之間的差異則較大[3]。從本質(zhì)上可以將這種技術(shù)定義為嘗試將對(duì)象按相關(guān)特征進(jìn)行分組,使同一組的對(duì)象處于同一聚類中的過(guò)程。按照數(shù)據(jù)是否劃分層次,聚類分析算法可以分為兩大類:即層次聚類算法和劃分聚類算法。層次聚類算法是通過(guò)某種相似性規(guī)律將各節(jié)點(diǎn)進(jìn)行排序,由此形成一個(gè)具有高層次結(jié)構(gòu)的聚類樹(shù),按照各節(jié)點(diǎn)排序方式將聚類樹(shù)分成兩種類型:一種是以自下向上的方式構(gòu)建樹(shù)結(jié)構(gòu),叫做凝聚型層次聚類;另一種是以自上向下的方式構(gòu)建樹(shù)結(jié)構(gòu),叫做分裂型層次聚類。劃分聚類算法則是根據(jù)預(yù)先指定聚類數(shù)目和聚類中心,將數(shù)據(jù)集分成若干個(gè)沒(méi)有交集的簇,在這一過(guò)程中會(huì)優(yōu)化一些損失函數(shù)[4]。需要注意的是,聚類分析只能分析連續(xù)性的數(shù)據(jù)值,而不能分析離散化的數(shù)據(jù)。

K-Means算法是聚類分析算法中最為普遍使用的算法,它具有聚類效果良好、原理簡(jiǎn)單易懂等優(yōu)點(diǎn),在1967年,Mac Queen就首次使用K-Means算法對(duì)數(shù)據(jù)進(jìn)行了聚類分析。K-Means算法是以數(shù)據(jù)對(duì)象間的距離即歐式距離作為衡量數(shù)據(jù)對(duì)象間相似度的指標(biāo),而數(shù)據(jù)的相似度與數(shù)據(jù)間的距離呈反比關(guān)系,這意味著數(shù)據(jù)間相似度越高,則數(shù)據(jù)之間的距離越小,通過(guò)按照數(shù)據(jù)間距離將數(shù)據(jù)對(duì)象進(jìn)行分類,可以得到不同的聚類分布。K-Means算法的前提是需要預(yù)先給出初始聚類簇?cái)?shù)k值,通過(guò)k值可以得到不同的聚類中心,然后再根據(jù)數(shù)據(jù)對(duì)象與聚類中心之間的相似度,不斷調(diào)整聚類中心的位置,在這過(guò)程中類簇的誤差平方和(Sum of Squared Error,SSE)也在不斷降低,當(dāng)SSE不再變化或目標(biāo)函數(shù)收斂時(shí),此時(shí)聚類分析結(jié)束,并得到最終結(jié)果。

K-Means算法的準(zhǔn)則函數(shù)定義為:

其中SSE是數(shù)據(jù)庫(kù)所有對(duì)象的平方誤差和,x是空間中的點(diǎn),表示給定的數(shù)據(jù)對(duì)象,是簇Ci的平均值。

1.3 WEKA工具

在進(jìn)行聚類分析時(shí),一般使用懷卡托智能分析環(huán)境(Waikato Environment for Knowledge Analysis,縮寫為“WEKA”),這是一種用Java語(yǔ)言編寫的用于數(shù)據(jù)挖掘機(jī)器學(xué)習(xí)軟件,集合了大量能承擔(dān)數(shù)據(jù)挖掘任務(wù)的機(jī)器學(xué)習(xí)算法[3],軟件中包含如分類、聚類、回歸、關(guān)聯(lián)等處理標(biāo)準(zhǔn)數(shù)據(jù)挖掘問(wèn)題的大量算法,并可通過(guò)軟件進(jìn)行可視化處理。WEKA的一大特點(diǎn)是其為開(kāi)放源代碼,無(wú)需編寫任何程序代碼,只要新編寫的算法符合其接口規(guī)范,就可以嵌入其中,而使其原有算法可以得到擴(kuò)充。更為便利的是,WEKA不僅提供了大量學(xué)習(xí)算法進(jìn)行數(shù)據(jù)集分析,它還能提供一系列用于轉(zhuǎn)換數(shù)據(jù)集的工具,例如用于排序和采樣的算法。因此,在對(duì)客戶的消費(fèi)行為進(jìn)行聚類分析時(shí),選用WEKA工具能夠得到很有效的結(jié)果。

2 數(shù)據(jù)預(yù)處理

2.1 客戶消費(fèi)數(shù)據(jù)處理

檢測(cè)委托平臺(tái)中導(dǎo)出的2021年檢測(cè)客戶消費(fèi)信息1500份,這些委托信息由委托時(shí)間、消費(fèi)金額、檢測(cè)周期、委托項(xiàng)目等構(gòu)成。現(xiàn)將客戶消費(fèi)項(xiàng)分為金額(money)、時(shí)間(time)、月份(month)及頻次(frequecy)4部分,本文將圍繞這4個(gè)維度進(jìn)行聚類分析,分析客戶的消費(fèi)行為,從而對(duì)不同的客戶類型進(jìn)行分類評(píng)價(jià),針對(duì)不同類型的客戶指定不同的服務(wù)方針和檢測(cè)制度,從而提升檢測(cè)服務(wù)質(zhì)量。

2.2 k值的確定

在傳統(tǒng)K-Means算法中,一般要求初始聚類簇?cái)?shù)k值預(yù)先指定的,否則無(wú)法進(jìn)行聚類分析,但在實(shí)際操作過(guò)程中,由于需要計(jì)算的數(shù)據(jù)量過(guò)大或操作人員缺乏經(jīng)驗(yàn),無(wú)法準(zhǔn)確確定k值,k值的確定也是K-Means算法的難點(diǎn)和缺陷。如果k值選取得過(guò)小,則會(huì)導(dǎo)致同一簇內(nèi)數(shù)據(jù)對(duì)象差異性很大,不同簇的聚類之間互相交集過(guò)多;如果k值選取得過(guò)大,則會(huì)導(dǎo)致不同簇間差異過(guò)小,可能會(huì)分類出過(guò)多特征及其相似的簇,失去了聚類的意義。另一方面,k值選取不當(dāng)也會(huì)使最終的聚類結(jié)果無(wú)法實(shí)現(xiàn)所有數(shù)據(jù)的最優(yōu)化。因此,在實(shí)際操作中一般運(yùn)用肘部法確定初始聚類簇?cái)?shù)k值,其原理是基于初始聚類簇?cái)?shù)k值與誤差平方和SSE的關(guān)系,取不同k值,并得到對(duì)應(yīng)的SSE的變化趨勢(shì),見(jiàn)圖2,選擇肘點(diǎn),即誤差平方和SSE的變化程度最大時(shí)所對(duì)應(yīng)的k值作為最優(yōu)簇?cái)?shù)[5]。

在進(jìn)行客戶消費(fèi)行為分析時(shí),通過(guò)運(yùn)用肘部法,將k值從1設(shè)置到8,然后計(jì)算出其對(duì)應(yīng)的誤差平方和SSE。根據(jù)圖2所示,當(dāng)k為4時(shí),誤差平方和SSE的變化程度最大,此時(shí)為肘點(diǎn),由此得到最優(yōu)簇?cái)?shù)為4。

3 數(shù)據(jù)分析

3.1 WEKA平臺(tái)設(shè)置

在WEKA平臺(tái)進(jìn)行聚類分析,首先將數(shù)據(jù)文件由CSV格式轉(zhuǎn)換成為WEKA能識(shí)別的ARFF文件。WEKA 平臺(tái)分為4種界面:Explorer(探索者)、Exper-imenter(實(shí)驗(yàn)者)、Knowledge Flow(知識(shí)流)、Simple CLI(命令行)。本文使用Explorer用戶界面對(duì)數(shù)據(jù)集進(jìn)行聚類分析實(shí)驗(yàn)。其操作步驟為:首先,進(jìn)入Explorer界面,打開(kāi)ARFF文件;然后,通過(guò)選擇Cluster選項(xiàng)卡,在下拉菜單中選擇打開(kāi)Simple K-Means界面;接著,按照表1的參數(shù)值對(duì)Simple K-Means的參數(shù)進(jìn)行設(shè)置;最后,點(diǎn)擊聚類分析Cluster中的Start按鈕,即可對(duì)數(shù)據(jù)進(jìn)行K-Means聚類分析,WEKA平臺(tái)輸出聚類分析結(jié)果,并可進(jìn)行可視化呈現(xiàn)[6]。

表1 Simple K-Means參數(shù)設(shè)置

3.2 數(shù)據(jù)聚類分析

通過(guò)WEKA平臺(tái)對(duì)客戶消費(fèi)數(shù)據(jù)集進(jìn)行K-Means聚類分析,得到如下結(jié)果。

右擊左下方“Result list”列出的結(jié)果,在下拉菜單中選擇“Visualize cluster assignments”,彈出的窗口呈現(xiàn)了各數(shù)據(jù)的散點(diǎn)圖。散點(diǎn)圖中X軸代表實(shí)例號(hào)(Instance number)、Y軸代表金額(money),而不同的顏色代表不同的簇(Cluster)。通過(guò)散點(diǎn)圖不同簇實(shí)例的散點(diǎn)分布可以比較直觀地看出各實(shí)例的聚類分布情況,見(jiàn)圖4。

由圖3及圖4的分析結(jié)果可知,在4個(gè)Cluster簇中,簇?cái)?shù)為0的客戶有215人,占14%,簇?cái)?shù)為1的客戶有629人,占42%,簇?cái)?shù)為3的客戶有256人,占17%,簇?cái)?shù)為4的客戶有391人,占26%。通過(guò)分析可以發(fā)現(xiàn)客戶的不同消費(fèi)習(xí)慣和消費(fèi)水平,簇?cái)?shù)為0的客戶消費(fèi)金額最多,達(dá)到近4 000元的金額,超過(guò)其他簇金額的2倍,委托試驗(yàn)周期最長(zhǎng),可達(dá)21天,是其他簇客戶委托時(shí)間的3~4倍。但這類客戶委托頻率不高,這些客戶可以定義為高消費(fèi)客戶,分析這類客戶需要進(jìn)行產(chǎn)品全項(xiàng)目檢測(cè),并且委托了多個(gè)產(chǎn)品進(jìn)行檢測(cè),一般包含委托周期為21天的甲醛氣候箱法檢測(cè)項(xiàng)目。這類客戶一般以工程驗(yàn)收為主,針對(duì)這些客戶提出的相關(guān)產(chǎn)品檢測(cè),可以簽訂合同給予價(jià)格優(yōu)惠增加客戶委托頻率,特別是針對(duì)委托金額較高且時(shí)間較長(zhǎng)的甲醛氣候箱法檢測(cè)項(xiàng)目,提高客戶粘度,也可擴(kuò)展檢測(cè)能力,盡量接受更多類型檢測(cè)項(xiàng)目,也能提高其服務(wù)體驗(yàn),這類客戶一般6月—7月前來(lái)委托,夏季為此類客戶前來(lái)消費(fèi)的高峰期。

另外,工程驗(yàn)收類型的客戶對(duì)檢測(cè)時(shí)間的要求比較嚴(yán)格,需要檢測(cè)機(jī)構(gòu)格外重視客戶這方面的用戶體驗(yàn);簇?cái)?shù)為2的客戶消費(fèi)金額較少,委托金額平均值為1 500元左右,而這類客戶一般消費(fèi)1 000元,低于平均值,周期也短,一般為5天,但委托頻率最高,一年可達(dá)到50次,是高消費(fèi)客戶委托頻率的8倍,說(shuō)明其對(duì)實(shí)驗(yàn)室檢測(cè)能力充滿信任,客戶來(lái)源比較穩(wěn)定,可以定義為高頻客戶,這類客戶一般7月—8月前來(lái)委托,委托時(shí)間太集中且與高消費(fèi)客戶的委托相重合,會(huì)給實(shí)驗(yàn)室實(shí)驗(yàn)進(jìn)度帶來(lái)壓力,可以與其進(jìn)行溝通協(xié)商,約定每月固定委托數(shù)量,將委托數(shù)量均衡分布,既滿足客戶整體委托需求又可以保證實(shí)驗(yàn)室日常檢測(cè)能力;簇?cái)?shù)為1和3的客戶消費(fèi)金額尚可,一般在1 200~1 300元左右,略低于平均值,委托頻率一般,一年可以來(lái)消費(fèi)7~8次,委托時(shí)間也較短,一般為5~6天,可以定義為普通客戶,但簇?cái)?shù)為1和3的客戶數(shù)量占整體客戶數(shù)量的70%,大部分客戶都屬于這一類,其中簇?cái)?shù)為1的客戶一般9月—10月來(lái)委托,簇?cái)?shù)為3的客戶一般4月—5月來(lái)委托,分別分布在下半年與上半年,且與高消費(fèi)客戶、高頻客戶的委托高峰避開(kāi),這類客戶需要正常維護(hù)好客戶關(guān)系,保持固定頻率的委托業(yè)務(wù),同時(shí)通過(guò)不斷與客戶進(jìn)行業(yè)務(wù)溝通,針對(duì)不同客戶的委托特點(diǎn),可以將常規(guī)客戶發(fā)展為高消費(fèi)客戶或高頻客戶。另一方面,由于7月—8月為高消費(fèi)客戶與高頻客戶前來(lái)委托的高峰期,檢測(cè)任務(wù)比較集中且繁重,且正值夏日,實(shí)驗(yàn)室檢測(cè)壓力較大,有可能需要加班,可以適當(dāng)給予實(shí)驗(yàn)室加班或高溫補(bǔ)貼,提高工作積極性,也有利于提高檢測(cè)服務(wù)質(zhì)量。同時(shí),綜合以上情況,每年的11月至次年的3月,客戶委托量較少,分析原因?yàn)橛捎谡颠^(guò)年前后,相關(guān)企業(yè)受生產(chǎn)產(chǎn)能影響,需要進(jìn)行的檢測(cè)量也相應(yīng)減少,檢測(cè)機(jī)構(gòu)可以在這段時(shí)間進(jìn)行體系文件改進(jìn)或檢測(cè)能力的提升,或者開(kāi)發(fā)新的業(yè)務(wù)領(lǐng)域,增加整體委托量。

通過(guò)將客戶的消費(fèi)進(jìn)行聚類分析,能夠比較方便地反映客戶消費(fèi)存在的差異,通過(guò)不同客戶委托金額、時(shí)間、頻率、月份的不同,促進(jìn)檢測(cè)機(jī)構(gòu)對(duì)客戶進(jìn)行分類評(píng)價(jià),并進(jìn)一步指導(dǎo)檢測(cè)部門在進(jìn)行檢測(cè)服務(wù)過(guò)程中改進(jìn)與客戶溝通方法,有針對(duì)性地改進(jìn)客戶服務(wù)方法與實(shí)驗(yàn)室運(yùn)營(yíng)模式,從而提升檢測(cè)服務(wù)質(zhì)量。

4 結(jié)論

(1)高消費(fèi)客戶可以與其簽訂長(zhǎng)期試驗(yàn)合同,給予價(jià)格優(yōu)惠,也可擴(kuò)展檢測(cè)能力,提高這類客戶的委托頻率,增加其消費(fèi)粘性,同時(shí)工程驗(yàn)收類型的客戶對(duì)檢測(cè)時(shí)間要求嚴(yán)格,需重視這方面的用戶體驗(yàn)。

(2)高頻客戶可以與其溝通協(xié)商,約定每月固定委托數(shù)量,將委托數(shù)量均勻分布,減輕實(shí)驗(yàn)室委托高峰期的壓力。

(3)普通客戶數(shù)量占整體客戶數(shù)量的70%左右,占了絕大部分,且委托時(shí)間正好與以上兩類客戶不沖突,需要經(jīng)常進(jìn)行溝通維護(hù)好客戶關(guān)系,并可根據(jù)不同客戶委托特點(diǎn),將普通客戶發(fā)展為高消費(fèi)客戶或高頻客戶。

(4)7月—8月為客戶委托的高峰期,實(shí)驗(yàn)室有可能需要加班,且天氣炎熱,可適當(dāng)給予實(shí)驗(yàn)室加班或高溫補(bǔ)助,提高實(shí)驗(yàn)室人員工作積極性。

(5)每年11月至次年3月為委托淡季,實(shí)驗(yàn)室可以在這段時(shí)間進(jìn)行體系文件改進(jìn)或檢測(cè)能力提升,也可開(kāi)發(fā)新的業(yè)務(wù)領(lǐng)域。

猜你喜歡
數(shù)據(jù)挖掘檢測(cè)
“不等式”檢測(cè)題
“一元一次不等式”檢測(cè)題
“一元一次不等式組”檢測(cè)題
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
“幾何圖形”檢測(cè)題
“角”檢測(cè)題
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
小波變換在PCB缺陷檢測(cè)中的應(yīng)用
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
主站蜘蛛池模板: 99re热精品视频国产免费| 欧美一级视频免费| 日韩无码黄色| 国产女人在线视频| 无码精品国产dvd在线观看9久| 国产精品视频导航| 亚洲 日韩 激情 无码 中出| 亚洲成综合人影院在院播放| 精品人妻AV区| 中国黄色一级视频| 久久情精品国产品免费| 国产午夜小视频| 欧美日韩一区二区三区四区在线观看| 精品一区二区三区无码视频无码| 日本免费a视频| 亚洲精品中文字幕午夜| 福利在线不卡一区| 国产激情无码一区二区三区免费| 日韩精品毛片人妻AV不卡| 99热线精品大全在线观看| 毛片免费高清免费| 精品中文字幕一区在线| 欧美a网站| 国产精品久久久久久久伊一| 久热中文字幕在线观看| 国产精品伦视频观看免费| 中文字幕亚洲专区第19页| h网址在线观看| 毛片免费在线视频| 亚洲无码视频图片| 国产成人1024精品| 成人综合在线观看| 又粗又硬又大又爽免费视频播放| 91美女视频在线| 国产高清在线观看| 在线看片中文字幕| 久久黄色毛片| 国产免费网址| 欧美日韩另类在线| 国产尤物jk自慰制服喷水| 国产男人的天堂| 婷婷六月综合网| 国产欧美日韩一区二区视频在线| 欧美yw精品日本国产精品| 蜜臀AVWWW国产天堂| 久久亚洲欧美综合| 亚洲欧美另类中文字幕| 成人免费网站在线观看| 国产视频欧美| 视频二区中文无码| 免费看a级毛片| 亚洲成人免费看| 尤物亚洲最大AV无码网站| 热99精品视频| 亚洲国产精品成人久久综合影院| 国产制服丝袜91在线| 亚洲国产黄色| 久久国产精品电影| 亚洲第一区精品日韩在线播放| 婷婷久久综合九色综合88| 无码高潮喷水在线观看| 2020精品极品国产色在线观看 | 无码区日韩专区免费系列 | 日本不卡视频在线| 国产成人免费| 精品久久久无码专区中文字幕| 久久青草精品一区二区三区| 欧美日韩中文国产| 99热国产这里只有精品无卡顿"| 制服丝袜一区二区三区在线| 五月综合色婷婷| 日本三级黄在线观看| 久久国产高清视频| 国产成人你懂的在线观看| 欧美高清三区| 亚洲精品中文字幕午夜| 99精品热视频这里只有精品7| 性网站在线观看| 国产精品极品美女自在线| 中文字幕无线码一区| 国产福利小视频高清在线观看| 波多野一区|