吳 臻
(上海木材工業(yè)研究所有限公司 上海 200051)
隨著檢測(cè)技術(shù)的精細(xì)化、智能化,檢測(cè)行業(yè)發(fā)展迅速,競(jìng)爭(zhēng)環(huán)境日趨惡劣,檢測(cè)服務(wù)不僅需要技術(shù)的提升,服務(wù)質(zhì)量也需要達(dá)到更高的標(biāo)準(zhǔn),這樣才能使客戶的消費(fèi)更具有彈性和粘性。據(jù)粗略統(tǒng)計(jì),每年一個(gè)檢測(cè)站中產(chǎn)生的檢測(cè)相關(guān)數(shù)據(jù)多達(dá)3萬(wàn)條,僅僅委托信息產(chǎn)生的數(shù)據(jù)就有1萬(wàn)多條,針對(duì)這些數(shù)據(jù)進(jìn)行分析與挖掘,可以讓數(shù)據(jù)變得鮮活。利用數(shù)據(jù)挖掘技術(shù),在這些海量數(shù)據(jù)后面發(fā)現(xiàn)有價(jià)值的線索和規(guī)律,精確滿足客戶需求,實(shí)現(xiàn)精細(xì)化營(yíng)銷。
隨著社會(huì)從信息化進(jìn)入到數(shù)字化,大數(shù)據(jù)技術(shù)得到較快發(fā)展,而這又促使機(jī)器學(xué)習(xí)高速發(fā)展。在眾多機(jī)器學(xué)習(xí)算法中,聚類分析方法具有實(shí)用性、簡(jiǎn)單化和高效性的特點(diǎn),這些優(yōu)點(diǎn)使聚類分析方法廣泛應(yīng)用于許多領(lǐng)域[1]。
數(shù)據(jù)挖掘是一門將人工智能、機(jī)器學(xué)習(xí)、模式識(shí)別、數(shù)據(jù)庫(kù)、可視化技術(shù)等技術(shù)進(jìn)行交叉綜合的學(xué)科。本質(zhì)上,數(shù)據(jù)挖掘是通過(guò)分析每個(gè)數(shù)據(jù),并使用技術(shù)在大量數(shù)據(jù)中查找其規(guī)律模式的過(guò)程。換言之,數(shù)據(jù)挖掘是從未知的數(shù)據(jù)庫(kù)中揭露隱含的、之前未知的并有潛在價(jià)值的數(shù)據(jù)的過(guò)程。數(shù)據(jù)挖掘的過(guò)程一般難度系數(shù)大,且是一個(gè)多層次的過(guò)程,它包含了數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)挖掘、結(jié)果表達(dá)和解釋3個(gè)主要階段,見(jiàn)圖1[2]。
在數(shù)據(jù)挖掘技術(shù)中有一種非常常用且重要的技術(shù),叫作聚類分析技術(shù),在機(jī)器學(xué)習(xí)中,它屬于無(wú)監(jiān)督學(xué)習(xí)方法。在對(duì)數(shù)據(jù)不作任何假設(shè)的條件下,聚類分析使用數(shù)學(xué)方法研究數(shù)據(jù)集對(duì)象,并將所給對(duì)象進(jìn)行分類,然后分析各類之間的親疏程度。聚類分析的目標(biāo)是將數(shù)據(jù)分類到不同的類或簇,相同類別內(nèi)的數(shù)據(jù)有很大的相似性,而不同類別之間的差異則較大[3]。從本質(zhì)上可以將這種技術(shù)定義為嘗試將對(duì)象按相關(guān)特征進(jìn)行分組,使同一組的對(duì)象處于同一聚類中的過(guò)程。按照數(shù)據(jù)是否劃分層次,聚類分析算法可以分為兩大類:即層次聚類算法和劃分聚類算法。層次聚類算法是通過(guò)某種相似性規(guī)律將各節(jié)點(diǎn)進(jìn)行排序,由此形成一個(gè)具有高層次結(jié)構(gòu)的聚類樹(shù),按照各節(jié)點(diǎn)排序方式將聚類樹(shù)分成兩種類型:一種是以自下向上的方式構(gòu)建樹(shù)結(jié)構(gòu),叫做凝聚型層次聚類;另一種是以自上向下的方式構(gòu)建樹(shù)結(jié)構(gòu),叫做分裂型層次聚類。劃分聚類算法則是根據(jù)預(yù)先指定聚類數(shù)目和聚類中心,將數(shù)據(jù)集分成若干個(gè)沒(méi)有交集的簇,在這一過(guò)程中會(huì)優(yōu)化一些損失函數(shù)[4]。需要注意的是,聚類分析只能分析連續(xù)性的數(shù)據(jù)值,而不能分析離散化的數(shù)據(jù)。
K-Means算法是聚類分析算法中最為普遍使用的算法,它具有聚類效果良好、原理簡(jiǎn)單易懂等優(yōu)點(diǎn),在1967年,Mac Queen就首次使用K-Means算法對(duì)數(shù)據(jù)進(jìn)行了聚類分析。K-Means算法是以數(shù)據(jù)對(duì)象間的距離即歐式距離作為衡量數(shù)據(jù)對(duì)象間相似度的指標(biāo),而數(shù)據(jù)的相似度與數(shù)據(jù)間的距離呈反比關(guān)系,這意味著數(shù)據(jù)間相似度越高,則數(shù)據(jù)之間的距離越小,通過(guò)按照數(shù)據(jù)間距離將數(shù)據(jù)對(duì)象進(jìn)行分類,可以得到不同的聚類分布。K-Means算法的前提是需要預(yù)先給出初始聚類簇?cái)?shù)k值,通過(guò)k值可以得到不同的聚類中心,然后再根據(jù)數(shù)據(jù)對(duì)象與聚類中心之間的相似度,不斷調(diào)整聚類中心的位置,在這過(guò)程中類簇的誤差平方和(Sum of Squared Error,SSE)也在不斷降低,當(dāng)SSE不再變化或目標(biāo)函數(shù)收斂時(shí),此時(shí)聚類分析結(jié)束,并得到最終結(jié)果。
K-Means算法的準(zhǔn)則函數(shù)定義為:
其中SSE是數(shù)據(jù)庫(kù)所有對(duì)象的平方誤差和,x是空間中的點(diǎn),表示給定的數(shù)據(jù)對(duì)象,是簇Ci的平均值。
在進(jìn)行聚類分析時(shí),一般使用懷卡托智能分析環(huán)境(Waikato Environment for Knowledge Analysis,縮寫為“WEKA”),這是一種用Java語(yǔ)言編寫的用于數(shù)據(jù)挖掘機(jī)器學(xué)習(xí)軟件,集合了大量能承擔(dān)數(shù)據(jù)挖掘任務(wù)的機(jī)器學(xué)習(xí)算法[3],軟件中包含如分類、聚類、回歸、關(guān)聯(lián)等處理標(biāo)準(zhǔn)數(shù)據(jù)挖掘問(wèn)題的大量算法,并可通過(guò)軟件進(jìn)行可視化處理。WEKA的一大特點(diǎn)是其為開(kāi)放源代碼,無(wú)需編寫任何程序代碼,只要新編寫的算法符合其接口規(guī)范,就可以嵌入其中,而使其原有算法可以得到擴(kuò)充。更為便利的是,WEKA不僅提供了大量學(xué)習(xí)算法進(jìn)行數(shù)據(jù)集分析,它還能提供一系列用于轉(zhuǎn)換數(shù)據(jù)集的工具,例如用于排序和采樣的算法。因此,在對(duì)客戶的消費(fèi)行為進(jìn)行聚類分析時(shí),選用WEKA工具能夠得到很有效的結(jié)果。
檢測(cè)委托平臺(tái)中導(dǎo)出的2021年檢測(cè)客戶消費(fèi)信息1500份,這些委托信息由委托時(shí)間、消費(fèi)金額、檢測(cè)周期、委托項(xiàng)目等構(gòu)成。現(xiàn)將客戶消費(fèi)項(xiàng)分為金額(money)、時(shí)間(time)、月份(month)及頻次(frequecy)4部分,本文將圍繞這4個(gè)維度進(jìn)行聚類分析,分析客戶的消費(fèi)行為,從而對(duì)不同的客戶類型進(jìn)行分類評(píng)價(jià),針對(duì)不同類型的客戶指定不同的服務(wù)方針和檢測(cè)制度,從而提升檢測(cè)服務(wù)質(zhì)量。
在傳統(tǒng)K-Means算法中,一般要求初始聚類簇?cái)?shù)k值預(yù)先指定的,否則無(wú)法進(jìn)行聚類分析,但在實(shí)際操作過(guò)程中,由于需要計(jì)算的數(shù)據(jù)量過(guò)大或操作人員缺乏經(jīng)驗(yàn),無(wú)法準(zhǔn)確確定k值,k值的確定也是K-Means算法的難點(diǎn)和缺陷。如果k值選取得過(guò)小,則會(huì)導(dǎo)致同一簇內(nèi)數(shù)據(jù)對(duì)象差異性很大,不同簇的聚類之間互相交集過(guò)多;如果k值選取得過(guò)大,則會(huì)導(dǎo)致不同簇間差異過(guò)小,可能會(huì)分類出過(guò)多特征及其相似的簇,失去了聚類的意義。另一方面,k值選取不當(dāng)也會(huì)使最終的聚類結(jié)果無(wú)法實(shí)現(xiàn)所有數(shù)據(jù)的最優(yōu)化。因此,在實(shí)際操作中一般運(yùn)用肘部法確定初始聚類簇?cái)?shù)k值,其原理是基于初始聚類簇?cái)?shù)k值與誤差平方和SSE的關(guān)系,取不同k值,并得到對(duì)應(yīng)的SSE的變化趨勢(shì),見(jiàn)圖2,選擇肘點(diǎn),即誤差平方和SSE的變化程度最大時(shí)所對(duì)應(yīng)的k值作為最優(yōu)簇?cái)?shù)[5]。
在進(jìn)行客戶消費(fèi)行為分析時(shí),通過(guò)運(yùn)用肘部法,將k值從1設(shè)置到8,然后計(jì)算出其對(duì)應(yīng)的誤差平方和SSE。根據(jù)圖2所示,當(dāng)k為4時(shí),誤差平方和SSE的變化程度最大,此時(shí)為肘點(diǎn),由此得到最優(yōu)簇?cái)?shù)為4。
在WEKA平臺(tái)進(jìn)行聚類分析,首先將數(shù)據(jù)文件由CSV格式轉(zhuǎn)換成為WEKA能識(shí)別的ARFF文件。WEKA 平臺(tái)分為4種界面:Explorer(探索者)、Exper-imenter(實(shí)驗(yàn)者)、Knowledge Flow(知識(shí)流)、Simple CLI(命令行)。本文使用Explorer用戶界面對(duì)數(shù)據(jù)集進(jìn)行聚類分析實(shí)驗(yàn)。其操作步驟為:首先,進(jìn)入Explorer界面,打開(kāi)ARFF文件;然后,通過(guò)選擇Cluster選項(xiàng)卡,在下拉菜單中選擇打開(kāi)Simple K-Means界面;接著,按照表1的參數(shù)值對(duì)Simple K-Means的參數(shù)進(jìn)行設(shè)置;最后,點(diǎn)擊聚類分析Cluster中的Start按鈕,即可對(duì)數(shù)據(jù)進(jìn)行K-Means聚類分析,WEKA平臺(tái)輸出聚類分析結(jié)果,并可進(jìn)行可視化呈現(xiàn)[6]。

表1 Simple K-Means參數(shù)設(shè)置
通過(guò)WEKA平臺(tái)對(duì)客戶消費(fèi)數(shù)據(jù)集進(jìn)行K-Means聚類分析,得到如下結(jié)果。
右擊左下方“Result list”列出的結(jié)果,在下拉菜單中選擇“Visualize cluster assignments”,彈出的窗口呈現(xiàn)了各數(shù)據(jù)的散點(diǎn)圖。散點(diǎn)圖中X軸代表實(shí)例號(hào)(Instance number)、Y軸代表金額(money),而不同的顏色代表不同的簇(Cluster)。通過(guò)散點(diǎn)圖不同簇實(shí)例的散點(diǎn)分布可以比較直觀地看出各實(shí)例的聚類分布情況,見(jiàn)圖4。
由圖3及圖4的分析結(jié)果可知,在4個(gè)Cluster簇中,簇?cái)?shù)為0的客戶有215人,占14%,簇?cái)?shù)為1的客戶有629人,占42%,簇?cái)?shù)為3的客戶有256人,占17%,簇?cái)?shù)為4的客戶有391人,占26%。通過(guò)分析可以發(fā)現(xiàn)客戶的不同消費(fèi)習(xí)慣和消費(fèi)水平,簇?cái)?shù)為0的客戶消費(fèi)金額最多,達(dá)到近4 000元的金額,超過(guò)其他簇金額的2倍,委托試驗(yàn)周期最長(zhǎng),可達(dá)21天,是其他簇客戶委托時(shí)間的3~4倍。但這類客戶委托頻率不高,這些客戶可以定義為高消費(fèi)客戶,分析這類客戶需要進(jìn)行產(chǎn)品全項(xiàng)目檢測(cè),并且委托了多個(gè)產(chǎn)品進(jìn)行檢測(cè),一般包含委托周期為21天的甲醛氣候箱法檢測(cè)項(xiàng)目。這類客戶一般以工程驗(yàn)收為主,針對(duì)這些客戶提出的相關(guān)產(chǎn)品檢測(cè),可以簽訂合同給予價(jià)格優(yōu)惠增加客戶委托頻率,特別是針對(duì)委托金額較高且時(shí)間較長(zhǎng)的甲醛氣候箱法檢測(cè)項(xiàng)目,提高客戶粘度,也可擴(kuò)展檢測(cè)能力,盡量接受更多類型檢測(cè)項(xiàng)目,也能提高其服務(wù)體驗(yàn),這類客戶一般6月—7月前來(lái)委托,夏季為此類客戶前來(lái)消費(fèi)的高峰期。
另外,工程驗(yàn)收類型的客戶對(duì)檢測(cè)時(shí)間的要求比較嚴(yán)格,需要檢測(cè)機(jī)構(gòu)格外重視客戶這方面的用戶體驗(yàn);簇?cái)?shù)為2的客戶消費(fèi)金額較少,委托金額平均值為1 500元左右,而這類客戶一般消費(fèi)1 000元,低于平均值,周期也短,一般為5天,但委托頻率最高,一年可達(dá)到50次,是高消費(fèi)客戶委托頻率的8倍,說(shuō)明其對(duì)實(shí)驗(yàn)室檢測(cè)能力充滿信任,客戶來(lái)源比較穩(wěn)定,可以定義為高頻客戶,這類客戶一般7月—8月前來(lái)委托,委托時(shí)間太集中且與高消費(fèi)客戶的委托相重合,會(huì)給實(shí)驗(yàn)室實(shí)驗(yàn)進(jìn)度帶來(lái)壓力,可以與其進(jìn)行溝通協(xié)商,約定每月固定委托數(shù)量,將委托數(shù)量均衡分布,既滿足客戶整體委托需求又可以保證實(shí)驗(yàn)室日常檢測(cè)能力;簇?cái)?shù)為1和3的客戶消費(fèi)金額尚可,一般在1 200~1 300元左右,略低于平均值,委托頻率一般,一年可以來(lái)消費(fèi)7~8次,委托時(shí)間也較短,一般為5~6天,可以定義為普通客戶,但簇?cái)?shù)為1和3的客戶數(shù)量占整體客戶數(shù)量的70%,大部分客戶都屬于這一類,其中簇?cái)?shù)為1的客戶一般9月—10月來(lái)委托,簇?cái)?shù)為3的客戶一般4月—5月來(lái)委托,分別分布在下半年與上半年,且與高消費(fèi)客戶、高頻客戶的委托高峰避開(kāi),這類客戶需要正常維護(hù)好客戶關(guān)系,保持固定頻率的委托業(yè)務(wù),同時(shí)通過(guò)不斷與客戶進(jìn)行業(yè)務(wù)溝通,針對(duì)不同客戶的委托特點(diǎn),可以將常規(guī)客戶發(fā)展為高消費(fèi)客戶或高頻客戶。另一方面,由于7月—8月為高消費(fèi)客戶與高頻客戶前來(lái)委托的高峰期,檢測(cè)任務(wù)比較集中且繁重,且正值夏日,實(shí)驗(yàn)室檢測(cè)壓力較大,有可能需要加班,可以適當(dāng)給予實(shí)驗(yàn)室加班或高溫補(bǔ)貼,提高工作積極性,也有利于提高檢測(cè)服務(wù)質(zhì)量。同時(shí),綜合以上情況,每年的11月至次年的3月,客戶委托量較少,分析原因?yàn)橛捎谡颠^(guò)年前后,相關(guān)企業(yè)受生產(chǎn)產(chǎn)能影響,需要進(jìn)行的檢測(cè)量也相應(yīng)減少,檢測(cè)機(jī)構(gòu)可以在這段時(shí)間進(jìn)行體系文件改進(jìn)或檢測(cè)能力的提升,或者開(kāi)發(fā)新的業(yè)務(wù)領(lǐng)域,增加整體委托量。
通過(guò)將客戶的消費(fèi)進(jìn)行聚類分析,能夠比較方便地反映客戶消費(fèi)存在的差異,通過(guò)不同客戶委托金額、時(shí)間、頻率、月份的不同,促進(jìn)檢測(cè)機(jī)構(gòu)對(duì)客戶進(jìn)行分類評(píng)價(jià),并進(jìn)一步指導(dǎo)檢測(cè)部門在進(jìn)行檢測(cè)服務(wù)過(guò)程中改進(jìn)與客戶溝通方法,有針對(duì)性地改進(jìn)客戶服務(wù)方法與實(shí)驗(yàn)室運(yùn)營(yíng)模式,從而提升檢測(cè)服務(wù)質(zhì)量。
(1)高消費(fèi)客戶可以與其簽訂長(zhǎng)期試驗(yàn)合同,給予價(jià)格優(yōu)惠,也可擴(kuò)展檢測(cè)能力,提高這類客戶的委托頻率,增加其消費(fèi)粘性,同時(shí)工程驗(yàn)收類型的客戶對(duì)檢測(cè)時(shí)間要求嚴(yán)格,需重視這方面的用戶體驗(yàn)。
(2)高頻客戶可以與其溝通協(xié)商,約定每月固定委托數(shù)量,將委托數(shù)量均勻分布,減輕實(shí)驗(yàn)室委托高峰期的壓力。
(3)普通客戶數(shù)量占整體客戶數(shù)量的70%左右,占了絕大部分,且委托時(shí)間正好與以上兩類客戶不沖突,需要經(jīng)常進(jìn)行溝通維護(hù)好客戶關(guān)系,并可根據(jù)不同客戶委托特點(diǎn),將普通客戶發(fā)展為高消費(fèi)客戶或高頻客戶。
(4)7月—8月為客戶委托的高峰期,實(shí)驗(yàn)室有可能需要加班,且天氣炎熱,可適當(dāng)給予實(shí)驗(yàn)室加班或高溫補(bǔ)助,提高實(shí)驗(yàn)室人員工作積極性。
(5)每年11月至次年3月為委托淡季,實(shí)驗(yàn)室可以在這段時(shí)間進(jìn)行體系文件改進(jìn)或檢測(cè)能力提升,也可開(kāi)發(fā)新的業(yè)務(wù)領(lǐng)域。