基于WEKA平臺(tái)聚類分析的檢測(cè)客戶消費(fèi)分析

2022-07-19 09:53:48吳臻

信息記錄材料 2022年5期

吳臻

（上海木材工業(yè)研究所有限公司上海 200051）

0 引言

隨著檢測(cè)技術(shù)的精細(xì)化、智能化，檢測(cè)行業(yè)發(fā)展迅速，競(jìng)爭(zhēng)環(huán)境日趨惡劣，檢測(cè)服務(wù)不僅需要技術(shù)的提升，服務(wù)質(zhì)量也需要達(dá)到更高的標(biāo)準(zhǔn)，這樣才能使客戶的消費(fèi)更具有彈性和粘性。據(jù)粗略統(tǒng)計(jì)，每年一個(gè)檢測(cè)站中產(chǎn)生的檢測(cè)相關(guān)數(shù)據(jù)多達(dá)3萬(wàn)條，僅僅委托信息產(chǎn)生的數(shù)據(jù)就有1萬(wàn)多條，針對(duì)這些數(shù)據(jù)進(jìn)行分析與挖掘，可以讓數(shù)據(jù)變得鮮活。利用數(shù)據(jù)挖掘技術(shù)，在這些海量數(shù)據(jù)后面發(fā)現(xiàn)有價(jià)值的線索和規(guī)律，精確滿足客戶需求，實(shí)現(xiàn)精細(xì)化營(yíng)銷。

隨著社會(huì)從信息化進(jìn)入到數(shù)字化，大數(shù)據(jù)技術(shù)得到較快發(fā)展，而這又促使機(jī)器學(xué)習(xí)高速發(fā)展。在眾多機(jī)器學(xué)習(xí)算法中，聚類分析方法具有實(shí)用性、簡(jiǎn)單化和高效性的特點(diǎn)，這些優(yōu)點(diǎn)使聚類分析方法廣泛應(yīng)用于許多領(lǐng)域[1]。

1 數(shù)據(jù)挖掘

1.1 數(shù)據(jù)挖掘原理

數(shù)據(jù)挖掘是一門將人工智能、機(jī)器學(xué)習(xí)、模式識(shí)別、數(shù)據(jù)庫(kù)、可視化技術(shù)等技術(shù)進(jìn)行交叉綜合的學(xué)科。本質(zhì)上，數(shù)據(jù)挖掘是通過(guò)分析每個(gè)數(shù)據(jù)，并使用技術(shù)在大量數(shù)據(jù)中查找其規(guī)律模式的過(guò)程。換言之，數(shù)據(jù)挖掘是從未知的數(shù)據(jù)庫(kù)中揭露隱含的、之前未知的并有潛在價(jià)值的數(shù)據(jù)的過(guò)程。數(shù)據(jù)挖掘的過(guò)程一般難度系數(shù)大，且是一個(gè)多層次的過(guò)程，它包含了數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)挖掘、結(jié)果表達(dá)和解釋3個(gè)主要階段，見(jiàn)圖1[2]。

1.2 聚類分析與K-means

在數(shù)據(jù)挖掘技術(shù)中有一種非常常用且重要的技術(shù)，叫作聚類分析技術(shù)，在機(jī)器學(xué)習(xí)中，它屬于無(wú)監(jiān)督學(xué)習(xí)方法。在對(duì)數(shù)據(jù)不作任何假設(shè)的條件下，聚類分析使用數(shù)學(xué)方法研究數(shù)據(jù)集對(duì)象，并將所給對(duì)象進(jìn)行分類，然后分析各類之間的親疏程度。聚類分析的目標(biāo)是將數(shù)據(jù)分類到不同的類或簇，相同類別內(nèi)的數(shù)據(jù)有很大的相似性，而不同類別之間的差異則較大[3]。從本質(zhì)上可以將這種技術(shù)定義為嘗試將對(duì)象按相關(guān)特征進(jìn)行分組，使同一組的對(duì)象處于同一聚類中的過(guò)程。按照數(shù)據(jù)是否劃分層次，聚類分析算法可以分為兩大類：即層次聚類算法和劃分聚類算法。層次聚類算法是通過(guò)某種相似性規(guī)律將各節(jié)點(diǎn)進(jìn)行排序，由此形成一個(gè)具有高層次結(jié)構(gòu)的聚類樹(shù)，按照各節(jié)點(diǎn)排序方式將聚類樹(shù)分成兩種類型：一種是以自下向上的方式構(gòu)建樹(shù)結(jié)構(gòu)，叫做凝聚型層次聚類；另一種是以自上向下的方式構(gòu)建樹(shù)結(jié)構(gòu)，叫做分裂型層次聚類。劃分聚類算法則是根據(jù)預(yù)先指定聚類數(shù)目和聚類中心，將數(shù)據(jù)集分成若干個(gè)沒(méi)有交集的簇，在這一過(guò)程中會(huì)優(yōu)化一些損失函數(shù)[4]。需要注意的是，聚類分析只能分析連續(xù)性的數(shù)據(jù)值，而不能分析離散化的數(shù)據(jù)。

K-Means算法是聚類分析算法中最為普遍使用的算法，它具有聚類效果良好、原理簡(jiǎn)單易懂等優(yōu)點(diǎn)，在1967年，Mac Queen就首次使用K-Means算法對(duì)數(shù)據(jù)進(jìn)行了聚類分析。K-Means算法是以數(shù)據(jù)對(duì)象間的距離即歐式距離作為衡量數(shù)據(jù)對(duì)象間相似度的指標(biāo)，而數(shù)據(jù)的相似度與數(shù)據(jù)間的距離呈反比關(guān)系，這意味著數(shù)據(jù)間相似度越高，則數(shù)據(jù)之間的距離越小，通過(guò)按照數(shù)據(jù)間距離將數(shù)據(jù)對(duì)象進(jìn)行分類，可以得到不同的聚類分布。K-Means算法的前提是需要預(yù)先給出初始聚類簇?cái)?shù)k值，通過(guò)k值可以得到不同的聚類中心，然后再根據(jù)數(shù)據(jù)對(duì)象與聚類中心之間的相似度，不斷調(diào)整聚類中心的位置，在這過(guò)程中類簇的誤差平方和（Sum of Squared Error，SSE）也在不斷降低，當(dāng)SSE不再變化或目標(biāo)函數(shù)收斂時(shí)，此時(shí)聚類分析結(jié)束，并得到最終結(jié)果。

K-Means算法的準(zhǔn)則函數(shù)定義為：

其中SSE是數(shù)據(jù)庫(kù)所有對(duì)象的平方誤差和，x是空間中的點(diǎn)，表示給定的數(shù)據(jù)對(duì)象，是簇Ci的平均值。

1.3 WEKA工具

在進(jìn)行聚類分析時(shí)，一般使用懷卡托智能分析環(huán)境（Waikato Environment for Knowledge Analysis，縮寫為“WEKA”），這是一種用Java語(yǔ)言編寫的用于數(shù)據(jù)挖掘機(jī)器學(xué)習(xí)軟件，集合了大量能承擔(dān)數(shù)據(jù)挖掘任務(wù)的機(jī)器學(xué)習(xí)算法[3]，軟件中包含如分類、聚類、回歸、關(guān)聯(lián)等處理標(biāo)準(zhǔn)數(shù)據(jù)挖掘問(wèn)題的大量算法，并可通過(guò)軟件進(jìn)行可視化處理。WEKA的一大特點(diǎn)是其為開(kāi)放源代碼，無(wú)需編寫任何程序代碼，只要新編寫的算法符合其接口規(guī)范，就可以嵌入其中，而使其原有算法可以得到擴(kuò)充。更為便利的是，WEKA不僅提供了大量學(xué)習(xí)算法進(jìn)行數(shù)據(jù)集分析，它還能提供一系列用于轉(zhuǎn)換數(shù)據(jù)集的工具，例如用于排序和采樣的算法。因此，在對(duì)客戶的消費(fèi)行為進(jìn)行聚類分析時(shí)，選用WEKA工具能夠得到很有效的結(jié)果。

2 數(shù)據(jù)預(yù)處理

2.1 客戶消費(fèi)數(shù)據(jù)處理

檢測(cè)委托平臺(tái)中導(dǎo)出的2021年檢測(cè)客戶消費(fèi)信息1500份，這些委托信息由委托時(shí)間、消費(fèi)金額、檢測(cè)周期、委托項(xiàng)目等構(gòu)成。現(xiàn)將客戶消費(fèi)項(xiàng)分為金額（money）、時(shí)間（time）、月份（month）及頻次（frequecy）4部分，本文將圍繞這4個(gè)維度進(jìn)行聚類分析，分析客戶的消費(fèi)行為，從而對(duì)不同的客戶類型進(jìn)行分類評(píng)價(jià)，針對(duì)不同類型的客戶指定不同的服務(wù)方針和檢測(cè)制度，從而提升檢測(cè)服務(wù)質(zhì)量。

2.2 k值的確定

在傳統(tǒng)K-Means算法中，一般要求初始聚類簇?cái)?shù)k值預(yù)先指定的，否則無(wú)法進(jìn)行聚類分析，但在實(shí)際操作過(guò)程中，由于需要計(jì)算的數(shù)據(jù)量過(guò)大或操作人員缺乏經(jīng)驗(yàn)，無(wú)法準(zhǔn)確確定k值，k值的確定也是K-Means算法的難點(diǎn)和缺陷。如果k值選取得過(guò)小，則會(huì)導(dǎo)致同一簇內(nèi)數(shù)據(jù)對(duì)象差異性很大，不同簇的聚類之間互相交集過(guò)多；如果k值選取得過(guò)大，則會(huì)導(dǎo)致不同簇間差異過(guò)小，可能會(huì)分類出過(guò)多特征及其相似的簇，失去了聚類的意義。另一方面，k值選取不當(dāng)也會(huì)使最終的聚類結(jié)果無(wú)法實(shí)現(xiàn)所有數(shù)據(jù)的最優(yōu)化。因此，在實(shí)際操作中一般運(yùn)用肘部法確定初始聚類簇?cái)?shù)k值，其原理是基于初始聚類簇?cái)?shù)k值與誤差平方和SSE的關(guān)系，取不同k值，并得到對(duì)應(yīng)的SSE的變化趨勢(shì)，見(jiàn)圖2，選擇肘點(diǎn)，即誤差平方和SSE的變化程度最大時(shí)所對(duì)應(yīng)的k值作為最優(yōu)簇?cái)?shù)[5]。

在進(jìn)行客戶消費(fèi)行為分析時(shí)，通過(guò)運(yùn)用肘部法，將k值從1設(shè)置到8，然后計(jì)算出其對(duì)應(yīng)的誤差平方和SSE。根據(jù)圖2所示，當(dāng)k為4時(shí)，誤差平方和SSE的變化程度最大，此時(shí)為肘點(diǎn)，由此得到最優(yōu)簇?cái)?shù)為4。

3 數(shù)據(jù)分析

3.1 WEKA平臺(tái)設(shè)置

在WEKA平臺(tái)進(jìn)行聚類分析，首先將數(shù)據(jù)文件由CSV格式轉(zhuǎn)換成為WEKA能識(shí)別的ARFF文件。WEKA 平臺(tái)分為4種界面：Explorer（探索者）、Exper-imenter（實(shí)驗(yàn)者）、Knowledge Flow（知識(shí)流）、Simple CLI（命令行）。本文使用Explorer用戶界面對(duì)數(shù)據(jù)集進(jìn)行聚類分析實(shí)驗(yàn)。其操作步驟為：首先，進(jìn)入Explorer界面，打開(kāi)ARFF文件；然后，通過(guò)選擇Cluster選項(xiàng)卡，在下拉菜單中選擇打開(kāi)Simple K-Means界面；接著，按照表1的參數(shù)值對(duì)Simple K-Means的參數(shù)進(jìn)行設(shè)置；最后，點(diǎn)擊聚類分析Cluster中的Start按鈕，即可對(duì)數(shù)據(jù)進(jìn)行K-Means聚類分析，WEKA平臺(tái)輸出聚類分析結(jié)果，并可進(jìn)行可視化呈現(xiàn)[6]。

表1 Simple K-Means參數(shù)設(shè)置

3.2 數(shù)據(jù)聚類分析

通過(guò)WEKA平臺(tái)對(duì)客戶消費(fèi)數(shù)據(jù)集進(jìn)行K-Means聚類分析，得到如下結(jié)果。

右擊左下方“Result list”列出的結(jié)果，在下拉菜單中選擇“Visualize cluster assignments”，彈出的窗口呈現(xiàn)了各數(shù)據(jù)的散點(diǎn)圖。散點(diǎn)圖中X軸代表實(shí)例號(hào)（Instance number）、Y軸代表金額（money），而不同的顏色代表不同的簇（Cluster）。通過(guò)散點(diǎn)圖不同簇實(shí)例的散點(diǎn)分布可以比較直觀地看出各實(shí)例的聚類分布情況，見(jiàn)圖4。

由圖3及圖4的分析結(jié)果可知，在4個(gè)Cluster簇中，簇?cái)?shù)為0的客戶有215人，占14%，簇?cái)?shù)為1的客戶有629人，占42%，簇?cái)?shù)為3的客戶有256人，占17%，簇?cái)?shù)為4的客戶有391人，占26%。通過(guò)分析可以發(fā)現(xiàn)客戶的不同消費(fèi)習(xí)慣和消費(fèi)水平，簇?cái)?shù)為0的客戶消費(fèi)金額最多，達(dá)到近4 000元的金額，超過(guò)其他簇金額的2倍，委托試驗(yàn)周期最長(zhǎng)，可達(dá)21天，是其他簇客戶委托時(shí)間的3～4倍。但這類客戶委托頻率不高，這些客戶可以定義為高消費(fèi)客戶，分析這類客戶需要進(jìn)行產(chǎn)品全項(xiàng)目檢測(cè)，并且委托了多個(gè)產(chǎn)品進(jìn)行檢測(cè)，一般包含委托周期為21天的甲醛氣候箱法檢測(cè)項(xiàng)目。這類客戶一般以工程驗(yàn)收為主，針對(duì)這些客戶提出的相關(guān)產(chǎn)品檢測(cè)，可以簽訂合同給予價(jià)格優(yōu)惠增加客戶委托頻率，特別是針對(duì)委托金額較高且時(shí)間較長(zhǎng)的甲醛氣候箱法檢測(cè)項(xiàng)目，提高客戶粘度，也可擴(kuò)展檢測(cè)能力，盡量接受更多類型檢測(cè)項(xiàng)目，也能提高其服務(wù)體驗(yàn)，這類客戶一般6月—7月前來(lái)委托，夏季為此類客戶前來(lái)消費(fèi)的高峰期。

另外，工程驗(yàn)收類型的客戶對(duì)檢測(cè)時(shí)間的要求比較嚴(yán)格，需要檢測(cè)機(jī)構(gòu)格外重視客戶這方面的用戶體驗(yàn)；簇?cái)?shù)為2的客戶消費(fèi)金額較少，委托金額平均值為1 500元左右，而這類客戶一般消費(fèi)1 000元，低于平均值，周期也短，一般為5天，但委托頻率最高，一年可達(dá)到50次，是高消費(fèi)客戶委托頻率的8倍，說(shuō)明其對(duì)實(shí)驗(yàn)室檢測(cè)能力充滿信任，客戶來(lái)源比較穩(wěn)定，可以定義為高頻客戶，這類客戶一般7月—8月前來(lái)委托，委托時(shí)間太集中且與高消費(fèi)客戶的委托相重合，會(huì)給實(shí)驗(yàn)室實(shí)驗(yàn)進(jìn)度帶來(lái)壓力，可以與其進(jìn)行溝通協(xié)商，約定每月固定委托數(shù)量，將委托數(shù)量均衡分布，既滿足客戶整體委托需求又可以保證實(shí)驗(yàn)室日常檢測(cè)能力；簇?cái)?shù)為1和3的客戶消費(fèi)金額尚可，一般在1 200～1 300元左右，略低于平均值，委托頻率一般，一年可以來(lái)消費(fèi)7～8次，委托時(shí)間也較短，一般為5～6天，可以定義為普通客戶，但簇?cái)?shù)為1和3的客戶數(shù)量占整體客戶數(shù)量的70%，大部分客戶都屬于這一類，其中簇?cái)?shù)為1的客戶一般9月—10月來(lái)委托，簇?cái)?shù)為3的客戶一般4月—5月來(lái)委托，分別分布在下半年與上半年，且與高消費(fèi)客戶、高頻客戶的委托高峰避開(kāi)，這類客戶需要正常維護(hù)好客戶關(guān)系，保持固定頻率的委托業(yè)務(wù)，同時(shí)通過(guò)不斷與客戶進(jìn)行業(yè)務(wù)溝通，針對(duì)不同客戶的委托特點(diǎn)，可以將常規(guī)客戶發(fā)展為高消費(fèi)客戶或高頻客戶。另一方面，由于7月—8月為高消費(fèi)客戶與高頻客戶前來(lái)委托的高峰期，檢測(cè)任務(wù)比較集中且繁重，且正值夏日，實(shí)驗(yàn)室檢測(cè)壓力較大，有可能需要加班，可以適當(dāng)給予實(shí)驗(yàn)室加班或高溫補(bǔ)貼，提高工作積極性，也有利于提高檢測(cè)服務(wù)質(zhì)量。同時(shí)，綜合以上情況，每年的11月至次年的3月，客戶委托量較少，分析原因?yàn)橛捎谡颠^(guò)年前后，相關(guān)企業(yè)受生產(chǎn)產(chǎn)能影響，需要進(jìn)行的檢測(cè)量也相應(yīng)減少，檢測(cè)機(jī)構(gòu)可以在這段時(shí)間進(jìn)行體系文件改進(jìn)或檢測(cè)能力的提升，或者開(kāi)發(fā)新的業(yè)務(wù)領(lǐng)域，增加整體委托量。

通過(guò)將客戶的消費(fèi)進(jìn)行聚類分析，能夠比較方便地反映客戶消費(fèi)存在的差異，通過(guò)不同客戶委托金額、時(shí)間、頻率、月份的不同，促進(jìn)檢測(cè)機(jī)構(gòu)對(duì)客戶進(jìn)行分類評(píng)價(jià)，并進(jìn)一步指導(dǎo)檢測(cè)部門在進(jìn)行檢測(cè)服務(wù)過(guò)程中改進(jìn)與客戶溝通方法，有針對(duì)性地改進(jìn)客戶服務(wù)方法與實(shí)驗(yàn)室運(yùn)營(yíng)模式，從而提升檢測(cè)服務(wù)質(zhì)量。

4 結(jié)論

（1）高消費(fèi)客戶可以與其簽訂長(zhǎng)期試驗(yàn)合同，給予價(jià)格優(yōu)惠，也可擴(kuò)展檢測(cè)能力，提高這類客戶的委托頻率，增加其消費(fèi)粘性，同時(shí)工程驗(yàn)收類型的客戶對(duì)檢測(cè)時(shí)間要求嚴(yán)格，需重視這方面的用戶體驗(yàn)。

（2）高頻客戶可以與其溝通協(xié)商，約定每月固定委托數(shù)量，將委托數(shù)量均勻分布，減輕實(shí)驗(yàn)室委托高峰期的壓力。

（3）普通客戶數(shù)量占整體客戶數(shù)量的70%左右，占了絕大部分，且委托時(shí)間正好與以上兩類客戶不沖突，需要經(jīng)常進(jìn)行溝通維護(hù)好客戶關(guān)系，并可根據(jù)不同客戶委托特點(diǎn)，將普通客戶發(fā)展為高消費(fèi)客戶或高頻客戶。

（4）7月—8月為客戶委托的高峰期，實(shí)驗(yàn)室有可能需要加班，且天氣炎熱，可適當(dāng)給予實(shí)驗(yàn)室加班或高溫補(bǔ)助，提高實(shí)驗(yàn)室人員工作積極性。

（5）每年11月至次年3月為委托淡季，實(shí)驗(yàn)室可以在這段時(shí)間進(jìn)行體系文件改進(jìn)或檢測(cè)能力提升，也可開(kāi)發(fā)新的業(yè)務(wù)領(lǐng)域。