秦智聃 陳章躍 弓憲文



摘? 要: 傳統物流配送成本估計方法對于配送費用數據的支持度閾值計算不夠精確,導致物流配送成本估計困難,為此研究基于數據挖掘技術的物流配送成本估計方法。該方法通過聚類分析,將龐大的費用數據劃分成具有相同特征的數據類簇,找出其中出現頻繁的數據類簇計算每一特征屬性下的支持度閾值,挖掘出數據之間的關聯規則,利用回歸差分移動平均法搭建數學模型,以此實現物流配送成本估計。實驗結果表明,與傳統成本估計方法相比,所研究的方法對于數據支持度閾值計算更加準確,挖掘到的關聯規則更詳盡,估計出的物流配送成本更加精確。由此可見,所研究的方法更適用于企業物流配送成本估計要求。
關鍵詞: 物流配送; 成本估計; 數據挖掘技術; 數學模型搭建; 閾值計算; 關聯規則挖掘
中圖分類號: TN911.1?34; TP361? ? ? ? ? ? ? ? ? ? 文獻標識碼: A? ? ? ? ? ? ? ? ? ?文章編號: 1004?373X(2020)13?0183?04
Research on logistics distribution cost estimation based on data
mining technology
QIN Zhidan, CHEN Zhangyue, GONG Xianwen
(Chongqing University of Education, Chongqing 400067, China)
Abstract: The traditional logistics distribution cost estimation method is not accurate enough to calculate the support threshold of the distribution cost data, which leads to the difficulty of logistics distribution cost estimation. Therefore, the logistics distribution cost estimation method based on data mining technology is studied. With this method, the huge cost data is divided into the data type of clusters with the same characteristics by means of cluster analysis, the data class clusters which appear frequently are found out to compute the support threshold of each feature attribute, the association rules between the data are mined, and the mathematical model is built with the regression difference moving average method. The logistics cost estimation method is realized in this way. The experimental results show that, in comparison with the traditional cost estimation method, the proposed method is more accurate in calculating the data support threshold, its mined association rules are more exhaustive and its estimated logistics distribution cost is more precise. It can be seen that the method is more suitable for cost estimation of logistics distribution enterprises.
Keywords: logistics distribution; cost estimation; data mining technology; mathematic model building; threshold value calculation; association rule mining
0? 引? 言
數據挖掘技術旨在處理數量龐大、信息類型復雜、結構形式多樣化的數據信息。而當前的物流運輸配送行業發展迅速,并且一些企業也將物流配送作為發展外延,因此使得企業財務部門對于物流配送成本估算有了更高的要求[1]。傳統的成本估計方法考慮的影響因素較少,對于相關數據的劃分也不夠細致,這就使管理人員在查詢關聯數據時,數據基數變小,估計出的成本數值會影響企業的發展。為此本文研究一種基于數據挖掘技術的成本估計方法,該方法對相關費用數據進行聚類分析、分類分析、異常分析、組群分析以及關聯性分析,通過找到數據之間隱含的潛在規則,提升成本估計的準確度,確保企業的成本預算[2]的準確性。
1? 數據挖掘技術的物流配送成本估計方法
1.1? 聚類物流配送數據
數據挖掘技術與計算機科學相關,通過數據收集、回歸分析、數據聚類、關聯規則以及神經網絡方法,可以從海量數據中抓取隱藏的具有特殊關聯屬性的數據信息,預測或估計有關數據。
物流配送成本主要在配送流程和配送環節產生,主要包括分揀費用、流通加工費用、裝配費用以及運輸費用。其中,分揀費用包含分揀人工費用、分揀設備費用;流通加工費用包含流通加工設備、加工材料以及在流通加工過程中從事加工活動的管理人員、工人及有關人員工資、獎金等費用的總和;裝配費用包含裝配材料、人工以及相關輔助費用;運輸費用則包含車輛費用和其他運營間接費用[3]。由此可知,配送成本細化后,其中的費用類別多,二階科目更加繁瑣,因此,利用數據挖掘技術中的數據聚類手段,根據配送成本相關數據的近似情況,將數據信息組成多個不同類別或簇,保證同一個類別或簇中的數據彼此之間存在一定關聯屬性,而不同類別或簇之間存在一定的數據差異。因此聚類物流配送成本相關數據的計算公式為:
式中:[m]表示聚類后的類簇數量,[i],[j]分別表示具有一個特征屬性的簇;[nj]表示[j]數據簇中的項目數;[k]表示數據項;[d]表示空間維度;[ajkd]代表數據簇[j]中的第[k]項數據;[bid]代表數據簇[i]中的初始中心節點在[d]維度空間中的數據[4]。將配送成本進行聚類的部分示意圖如圖1所示。
通過圖1a)可以看出:[W]代表總的物流配送成本,其中,包含了[n]個相關費用數據,聚類后得到圖1b),可知按照不同的費用類型,將這些數據打散,根據相同屬性特征進行劃分可得到新的同種類的數據類簇[5]。
1.2? 挖掘數據之間的關聯規則
根據聚類后的成本數據類簇,找出同一特征數據中不同信息之間的內在關聯。各結構通常被用來列舉那些存在可能性的數據類簇,一般包含[c]個不同項的數據類簇,可能會存在[2c]個頻繁數據類簇,并且會有[s]個規則[6]。因此,在這些復雜繁瑣的數據集合中找出滿足最小支持閾值的所有頻繁數據類簇,再從這些類簇中挖掘出具有高置信度的關聯規則,頻繁數據類簇之間可能存在的規則可以利用式(2)進行表述:
根據表1中的頻繁數據類簇項目,計算得到每一數據之間的支持度,以此得到數據之間每一種關系的關聯程度,找出不同費用之間存在的關聯規則[10][φ]。
1.3? 搭建數學模型估計成本
在挖掘出配送成本中各項數據關聯規則的基礎上,搭建一個數學預測模型,估計物流配送的總成本。物流配送成本中,總的來說主要涉及到人工成本和機械設備成本兩大類,因此配送成本在估計的過程中,根據分配和運送兩個流程中的管理人員、裝卸人員以及運送人員的調度,計算每一工作階段中產生的直接人工費用以及運輸費用[11]。將細化后的費用上傳到財務部門的記賬管理系統中,按配送時間,記錄貨物種類、配送人員、使用車輛等摘要,分別記錄每一操作流程下的費用,登錄財務記賬頁面,輸入相關數據,如圖2所示[12]。
從圖2a)操作頁面可知,點擊該系統中的記賬模塊,將配送費用類數據輸入到上述財務系統中,統計每種費用的總數據,得到的結果如圖2b)所示。月初時,打開該系統的業務往來模塊,點擊月末處理按鍵,結轉上月的物流配送成本,將導出的表格上傳到成本估算系統中[13]。基于回歸差分移動平均方法,根據線性時間序列對配送成本進行預測估計。通過多次差分計算處理,將動態變化的時間序列轉換成平穩的序列。設置一個參數為[ω],將其當成差分次數,利用[ω],[p],[q]構建估計模型,并對轉換后的平穩序列進行建模,然后將其替換為原有序列[14]。以[ω],[p],[q]為計算參數的估計模型,其預測表達式如下所示:
式中:[y]表示物流配送成本估計值;[φm]表示費用數據之間存在的[m]個規則;[εp]表示特征參數[p]下的模型;[γq]表示特征參數[q]下的模型;[εq]表示在特征參數[q]下的隨機誤差。
上述計算過程中,要保證時間序列的穩定性。當數據序列存在波動性特征時,要對其進行差分處理,根據自回歸系數以及偏回歸系數定階所要處理的目標數據序列。至此,根據以往月份或年度的成本數據,利用數據挖掘技術估計出此階段的物流配送成本[15]。
2? 仿真實驗
搭建一個仿真實驗平臺,利用該平臺檢測數據挖掘技術所估計出的物流配送成本,為了令實驗結果更加直觀,將該估計方法與傳統估計方法相比較,分析兩種成本估計方法下,所研究的數據挖掘技術較傳統方法而言,其具有大量物流配送數據的處理能力。
2.1? 實驗準備
此次實驗通過搭建Hadoop實驗云平臺,利用某一大型物流企業財務管理部門所記錄的從2005—2015年的395 GB配送費用相關數據,按照年份分別預測當年的運輸成本。仿真實驗環境如圖3所示。
圖3中設備1為仿真實驗計算機,設備2為專用服務器,設備3為數據實時變動液晶顯示屏幕,設備4為網絡穩定路由。此次實驗選擇兩臺型號、配置相同的計算機展開實驗,該計算機CPU為3.4 GHz,8 GB內存,500 GB硬盤空間,選用高速計算網絡和千兆儲存網絡,打開無線路由連接計算機。該計算機的操作系統為Ubuntu 18.04,Java執行環境為jdk?7u21?linux?i586,登錄仿真實驗軟件Matlab R2016a,試運行該軟件程序。軟件運行流暢無誤,運行Hadoop平臺,運行的指令編碼如圖4所示。
保證該平臺在單機模式、偽分布式模式以及完全分布式模式下正常運作。設置數據集群共有26個節點,其中,2個管理節點,1個I/O節點,23個計算節點,指定node01~node23,當其中發現可變化的成本數據時,及時進行修改,修改路徑設置為192.168.0.201。準備完畢后,針對選取的實驗對象開始實驗。