集裝箱船舶裝卸客戶滿意度研究

2020-03-16 02:31:56李田田

電子技術(shù)與軟件工程 2020年24期

李田田

（南京信息工程大學(xué) 江蘇省南京市 210044）

1 引言

集裝箱船舶裝卸涉及船方、碼頭、一關(guān)三檢、理貨、貨主等多家單位；作業(yè)過(guò)程中需要岸橋、場(chǎng)橋、拖車、叉車等多種設(shè)備；司機(jī)、理貨員、關(guān)手、調(diào)度員、業(yè)務(wù)員等多工種的配合，裝卸工藝流程較為復(fù)雜，客戶滿意度受到諸多因素影響，故有必要對(duì)集裝箱船舶裝卸客戶滿意度展開(kāi)研究，能夠有效改善影響客戶滿意度的關(guān)鍵因素，從而改變消費(fèi)者行為，建立和提高客戶忠誠(chéng)度，提升企業(yè)的競(jìng)爭(zhēng)力和盈利能力[1]。

2 數(shù)據(jù)與方法介紹

2.1 數(shù)據(jù)說(shuō)明

通過(guò)分析簡(jiǎn)化，我們選取靠泊時(shí)長(zhǎng)、等待作業(yè)時(shí)長(zhǎng)、離泊時(shí)間、作業(yè)時(shí)間、在泊時(shí)長(zhǎng)、船艙板作業(yè)、裝載箱量和困難作業(yè)箱量作為我們所要研究的影響因素變量[2]。其中靠泊時(shí)長(zhǎng)=實(shí)際靠泊時(shí)間-計(jì)劃靠泊時(shí)間；離泊時(shí)間=實(shí)際離泊時(shí)間-計(jì)劃離泊時(shí)間。本文分析使用的數(shù)據(jù)共有381 個(gè)樣本量。

2.2 主成分分析

主成分分析是一種設(shè)法將原變量重新組合成一組新的互相無(wú)關(guān)的綜合變量，同時(shí)從這些綜合變量中選取較少的幾個(gè)綜合變量，盡可能多地反映原變量的信息的統(tǒng)計(jì)方法[3]。主要目的是希望能夠提取出較少的幾項(xiàng)綜合性指標(biāo)，它們互不相關(guān)，并且能最大限度地反映出原來(lái)較多指標(biāo)所反映的信息，進(jìn)而用這較少的幾項(xiàng)綜合性指標(biāo)來(lái)刻畫個(gè)體。

其中每個(gè)主成分的貢獻(xiàn)率是指每個(gè)主成分所提取的信息量在全部信息量中所占的比例。前m 個(gè)主成分的貢獻(xiàn)率之和稱為前m 個(gè)主成分的累計(jì)貢獻(xiàn)率，在實(shí)際應(yīng)用中，只要累計(jì)貢獻(xiàn)率大于85%，就可以認(rèn)為前m 個(gè)主成分已綜合了原變量中的大部分信息。

2.3 聚類分析

聚類分析是研究一組多維樣本的分類問(wèn)題。在分類之前，對(duì)類的個(gè)數(shù)和類的屬性并不清楚，只是希望通過(guò)模糊概念(例如樣本間的相似或相互關(guān)系的密切程度)對(duì)它們加以適當(dāng)?shù)臍w類。聚類是將數(shù)據(jù)分到不同的類或者簇，要滿足同一個(gè)簇中的對(duì)象有很大的相似性，而不用的簇間的對(duì)象有很大的相異性。

其中K-Means 聚類是一種應(yīng)用范圍非常廣的聚類方法，其思想是在給定聚類數(shù)k 時(shí)，通過(guò)最小化組內(nèi)誤差平方和來(lái)獲得每個(gè)樣本點(diǎn)的分類。首先，隨即確定k 個(gè)初始點(diǎn)作為質(zhì)心，然后將數(shù)據(jù)集中的每個(gè)點(diǎn)分配到一個(gè)簇中，具體來(lái)講，找到最接近每個(gè)點(diǎn)的質(zhì)心，并將其分配給該質(zhì)心所對(duì)應(yīng)的簇。之后，每個(gè)簇的質(zhì)心更新為該簇所有點(diǎn)的平均值[4]。

圖1：作業(yè)時(shí)間箱線圖

圖2：作業(yè)時(shí)間核密度圖

圖3：在泊時(shí)長(zhǎng)箱線圖

圖4：在泊時(shí)長(zhǎng)核密度圖

圖5：艙蓋板作業(yè)量核密度圖

圖6：裝卸箱量核密度圖

圖7：等待作業(yè)時(shí)長(zhǎng)核密度圖

圖8：困難作業(yè)箱量核密度圖

2.4 決策樹(shù)

分類是一種根據(jù)輸入數(shù)據(jù)集建立分類模型的數(shù)據(jù)挖掘算法，通過(guò)一種學(xué)習(xí)算法來(lái)確定分類模型，該模型可以很好地?cái)M合輸入數(shù)據(jù)中類標(biāo)號(hào)和屬性集之間的聯(lián)系。學(xué)習(xí)算法得到的模型不僅要很好擬合輸入數(shù)據(jù)，還要能夠正確地預(yù)測(cè)未知樣本的類標(biāo)號(hào)。決策樹(shù)是以樹(shù)結(jié)構(gòu)形式來(lái)表達(dá)的一種重要的預(yù)測(cè)分析模型。

表1：在泊時(shí)長(zhǎng)分箱結(jié)果

表2：靠泊時(shí)長(zhǎng)分箱結(jié)果

表3：混淆矩陣

決策樹(shù)的構(gòu)造過(guò)程不依賴領(lǐng)域知識(shí)，它使用屬性選擇度量來(lái)選擇將元組最好地劃分成不同的類的屬性。使用決策樹(shù)進(jìn)行決策的過(guò)程就是從根節(jié)點(diǎn)開(kāi)始，測(cè)試待分類項(xiàng)中相應(yīng)的特征屬性來(lái)選擇輸出分支，從而確定各個(gè)特征屬性之間的結(jié)構(gòu)[5]。構(gòu)造決策樹(shù)的關(guān)鍵步驟是在某個(gè)節(jié)點(diǎn)處按照某一特征屬性的不同劃分構(gòu)造不同的分支，盡可能讓一個(gè)分裂子集中待分類項(xiàng)屬于同一類別。決策樹(shù)算法主要圍繞兩大核心問(wèn)題展開(kāi)：

（1）決策樹(shù)的生長(zhǎng)問(wèn)題，即利用訓(xùn)練樣本集，進(jìn)行決策樹(shù)的建立。

（2）決策樹(shù)的剪枝問(wèn)題，在保證決策精度的前提下，在樹(shù)的大小和正確率之間尋找平衡點(diǎn)，使樹(shù)的葉子節(jié)點(diǎn)最少，葉子節(jié)點(diǎn)的深度最小。

3 主要結(jié)果

3.1 數(shù)據(jù)預(yù)處理

3.1.1 靠泊時(shí)長(zhǎng)(DDKB)

靠泊時(shí)長(zhǎng)的數(shù)據(jù)分布大都集中在[0,25]區(qū)間以內(nèi)，整體呈現(xiàn)非正態(tài)分布，根據(jù)數(shù)據(jù)的特點(diǎn)，對(duì)數(shù)據(jù)進(jìn)行分箱處理，盡量保證每個(gè)箱子分到的數(shù)據(jù)均勻。采用了左閉右開(kāi)的方式進(jìn)行分箱，由于值為0 的數(shù)據(jù)個(gè)數(shù)偏多，所以將0 單獨(dú)作為一個(gè)箱子，分箱的結(jié)果如表1 所示。

圖9：聚類結(jié)果

圖10：散點(diǎn)圖1

圖11：雙變量核密度圖1

圖12：雙變量核密度圖2

經(jīng)過(guò)分箱以后，將每個(gè)區(qū)間進(jìn)行命名，一共分成5 個(gè)箱子，可以看成5 個(gè)類別，也就是說(shuō)將在泊時(shí)長(zhǎng)進(jìn)行變量轉(zhuǎn)化，從數(shù)值型數(shù)據(jù)轉(zhuǎn)化為分類變量，在后續(xù)處理中，分別將其記為0，1，2，3，4，方便建模。

3.1.2 作業(yè)時(shí)間(ZYSJ)

作業(yè)時(shí)間呈現(xiàn)右偏分布，因?yàn)閿?shù)據(jù)有缺失，所以采用中位數(shù)的方法對(duì)缺失值進(jìn)行填充。對(duì)數(shù)據(jù)進(jìn)行填充后，并通過(guò)箱線圖（圖1）檢測(cè)異常值。

對(duì)異常值采取蓋帽法進(jìn)行處理，由箱線圖可知，大于2000 的值都是異常值，對(duì)將大于2000 的值都設(shè)為2000。將處理后的數(shù)據(jù)畫核密度圖（圖2），可以看出呈現(xiàn)正態(tài)分布。

圖13：散點(diǎn)圖2

圖14：決策樹(shù)

圖15：變量重要性排序

3.1.3 離泊時(shí)長(zhǎng)(DDLB)

離泊時(shí)長(zhǎng)全部數(shù)據(jù)大部分集中于[0,400]區(qū)間內(nèi)。因?yàn)殡x泊時(shí)長(zhǎng)有缺失值，而且離泊時(shí)長(zhǎng)服從嚴(yán)重的偏態(tài)分布，所以不宜使用全部數(shù)據(jù)的均值或中位數(shù)進(jìn)行填充，故截取數(shù)據(jù)范圍在[0,400]的范圍，觀察其分布情況,呈現(xiàn)右偏分布，則使用該區(qū)間的中位數(shù)進(jìn)行缺失值填充。根據(jù)離泊時(shí)長(zhǎng)數(shù)據(jù)特點(diǎn)和變量特征，將采用蓋帽法，令大于1700 的數(shù)值等于563，再采用分箱的方式，分箱結(jié)果如表2 所示。

3.1.4 在泊時(shí)長(zhǎng)(ZBSC)

作出在泊時(shí)長(zhǎng)的箱線圖（圖3），發(fā)現(xiàn)值大于2200 以上的都是異常點(diǎn)，故采用蓋帽法，將大于2200 的值等于2000，并作出處理過(guò)后的在泊時(shí)長(zhǎng)核密度圖（圖4），發(fā)現(xiàn)數(shù)據(jù)已呈現(xiàn)正態(tài)分布。

3.1.5 艙蓋板作業(yè)量(HATCHES)和裝卸箱量(XL)

經(jīng)繪制箱線圖檢驗(yàn)艙蓋板作業(yè)量和裝卸箱量的異常值，發(fā)現(xiàn)艙蓋板作業(yè)量只有一個(gè)異常點(diǎn)，值為95，采用蓋帽法改為48。處理后的數(shù)據(jù)呈正態(tài)分布如圖5 所示。裝卸箱量小于10 和大于900 的數(shù)據(jù)是異常點(diǎn)，將蓋帽處理后，呈現(xiàn)正態(tài)分布如圖6 所示。

3.1.6 等待作業(yè)時(shí)長(zhǎng)(DDZY)、困難作業(yè)箱量(DIFF)

等待作業(yè)時(shí)長(zhǎng)呈右偏分布，故對(duì)數(shù)據(jù)進(jìn)行取對(duì)數(shù)處理，經(jīng)處理后的直方圖如圖7，可見(jiàn)呈對(duì)稱分布。

從圖8 看出困難作業(yè)箱量的分布近似為正態(tài)分布。

3.2 實(shí)證分析

3.2.1 聚類分析

主成分分析是一種常用于減少大數(shù)據(jù)集維數(shù)的降維方法，通過(guò)將高維變量縮減到低維變量，并能通過(guò)低維變量代表原數(shù)據(jù)的大部分信息。減少數(shù)據(jù)集的變量數(shù)量，自然是以犧牲精度為代價(jià)的，降維的好處是以略低的精度換取簡(jiǎn)便。因?yàn)檩^小的數(shù)據(jù)集更易于探索和可視化，并且使機(jī)器學(xué)習(xí)算法更容易和更快地分析數(shù)據(jù)，而不需處理無(wú)關(guān)變量。針對(duì)本文胡數(shù)據(jù)，通過(guò)提取兩個(gè)主成分，方差貢獻(xiàn)率達(dá)到95%，說(shuō)明提取出的兩個(gè)主成分能夠反映原來(lái)變量的大部分信息。

將提取出的兩個(gè)主成分用于聚類分析的變量，以第一主成分作為橫坐標(biāo)，以第二主成分作為縱坐標(biāo)，得出分類結(jié)果如圖9。其中第一個(gè)類別有126 個(gè)樣本，第二個(gè)類別有106 個(gè)樣本，第三個(gè)類別有149 個(gè)樣本。并從聚類的結(jié)果來(lái)看，分成3 類效果較好，類與類之間界限清晰，存在較大差異。

3.2.2 探索性分析

通過(guò)聚類分析得到各個(gè)樣本的類別，將樣本類別作為研究的目標(biāo)變量，分別查看各個(gè)影響因素與類別之間的關(guān)系。

（1）不同類別下對(duì)比。

由圖10 可以看出在不同類別里面，樣本點(diǎn)的分布不同，在類別0 情況下，作業(yè)時(shí)長(zhǎng)基本都是低于1100，在類別1 情況下，作業(yè)時(shí)長(zhǎng)大部分高于1100，而在類別2 里作業(yè)時(shí)長(zhǎng)處在1000 和1500之間。靠泊時(shí)長(zhǎng)處在區(qū)間[10,50)的樣本被分到類別2 的數(shù)目較少，處在區(qū)間[1,10)的樣本被分到類別0 的數(shù)目較少。

（2）單個(gè)因素與類別。

雙變量核密度表示如果顏色越深，則頻數(shù)多大，故由圖11 和圖12可以看出類別0的情況下，等待作業(yè)時(shí)長(zhǎng)主要集中在[2,3]之內(nèi)，船艙板作業(yè)主要集中在[15,20]之內(nèi)，裝載箱量主要集中在[300,400]之內(nèi)，困難作業(yè)箱量主要集中在[0,10]和[30,40]之內(nèi)。同理也可以看出類別1 和類別2 的分布情況。

（3）在泊時(shí)長(zhǎng)、作業(yè)時(shí)間和類別。

由散點(diǎn)圖圖13 可以看出在泊時(shí)長(zhǎng)在[750,1000]區(qū)間和作業(yè)時(shí)間在750 附近的值被分在了類別0，值越大則越容易被分為類別1，處在中間范圍的被分為了類別2。

綜上所述，根據(jù)集裝箱船舶裝卸背景及數(shù)據(jù)特點(diǎn)，將類別按照客戶滿意度進(jìn)行劃分，一般來(lái)說(shuō)客戶比較傾向于希望在泊時(shí)長(zhǎng)短，作業(yè)時(shí)間少，所以類別0 表示客戶的滿意度是不滿意，類別1 表示客戶的滿意度是滿意，則類別2 表示客戶的滿意度是一般。

3.2.3 決策樹(shù)

通過(guò)按照樣本的60%的比例劃分出訓(xùn)練集，剩下的40%作為測(cè)試集，并根據(jù)訓(xùn)練集訓(xùn)練出的模型對(duì)測(cè)試集進(jìn)行預(yù)測(cè)，從而判斷模型的建立是否合理。得到混淆矩陣如表3 所示。從混淆矩陣結(jié)果看出，模型的建立是合理的，其中只有少數(shù)樣本預(yù)測(cè)的類別與實(shí)際類別不符合。

繪制決策樹(shù)如圖14 所示。在劃分?jǐn)?shù)據(jù)集之間之后信息發(fā)生的變化稱為信息增益，知道如何計(jì)算信息增益，我們就可以計(jì)算每個(gè)特征值劃分?jǐn)?shù)據(jù)集獲得的信息增益，獲得信息增益最高的特征就是最好的選擇。從決策樹(shù)可以看出在泊時(shí)長(zhǎng)這個(gè)因素最為重要，以在泊時(shí)長(zhǎng)為1338.5 為分界線進(jìn)行劃分，如果在泊時(shí)長(zhǎng)小于1338.5，再根據(jù)作業(yè)時(shí)間進(jìn)行劃分，可見(jiàn)作業(yè)時(shí)間是繼在泊時(shí)長(zhǎng)的第二個(gè)重要影響因素。如果在泊時(shí)長(zhǎng)小于1338.5 且作業(yè)時(shí)間大于940.5，則考慮裝載箱量因素。以此類推，可根據(jù)細(xì)分具體情況，從而判斷在何種情況下，判斷客戶的滿意度是滿意的。對(duì)于客戶不滿意情況，可針對(duì)具體情況，進(jìn)行改進(jìn)，對(duì)于滿意度一般的情況，也可以進(jìn)行某些方面的提高，從而更充分的讓客戶感受到滿意。

由對(duì)特征的重要性進(jìn)行排序，得到的結(jié)果如圖15 所示，可見(jiàn)在泊時(shí)長(zhǎng)、作業(yè)時(shí)間和裝載箱量因素為主要影響因素。靠泊時(shí)長(zhǎng)、離泊時(shí)長(zhǎng)、船艙版作業(yè)、等待作業(yè)時(shí)長(zhǎng)和困難作業(yè)箱量等因素對(duì)客戶滿意度的影響不大。

4 結(jié)論

通過(guò)對(duì)集裝箱船舶裝卸相關(guān)指標(biāo)進(jìn)行變量轉(zhuǎn)換、缺失值填充，異常值檢測(cè)等措施以后，將其做主成分分析，通過(guò)提取了兩個(gè)主成分，累計(jì)貢獻(xiàn)率達(dá)到95%，能夠充分代表原始數(shù)據(jù)的大部分信息。利用提取出的主成分將整個(gè)樣本進(jìn)行聚類分析分成三類，其中包括客戶滿意，客戶滿意度一般和客戶不滿意三種。將客戶滿意度作為目標(biāo)變量、影響因素作為自變量，從而構(gòu)建決策樹(shù)。使用訓(xùn)練集得出的決策樹(shù)用于預(yù)測(cè)測(cè)試集，預(yù)測(cè)效果良好，并且得出在泊時(shí)長(zhǎng)、作業(yè)時(shí)間和裝載箱量因素為主要影響因素。靠泊時(shí)長(zhǎng)、離泊時(shí)長(zhǎng)、船艙版作業(yè)、等待作業(yè)時(shí)長(zhǎng)和困難作業(yè)箱量等因素沒(méi)有參與到?jīng)Q策樹(shù)建模中，故對(duì)客戶滿意度的影響不大。