劉春英 黃玉文 于繼江

1、緒論
近年來,信息技術越來越廣泛地應用于現代物流企業的各種物流環節中,物流企業在運輸、儲存、搬運、流通加工、配送等物流業務運行和實施過程中產生與物流調度相關的海量數據[1,2]。海量物流調度數據多以時間序列的形式存在,能夠對物流調度正在發生的和未來狀況進行描述,是處于動態變化中的數據。對海量動態物流調度數據中隱含深層次信息進行挖掘,從而獲取到商品移動過程的情況和其表現出來的移動趨勢信息,用這些信息可以對物流調度進行優化,最終實現降低物流調度成本,故對物流調度數據挖掘的研究越來越多的引起物流企業的重視[3]。目前對物流調度數據挖掘的相關研究,多是探討與分析針對靜態數據源的傳統數據挖掘技術在物流調度數據分析中的應用,難以處理異構數據源、動態數據源和分散數據源,存在著數據處理瓶頸;目前研究構建的海量數據挖掘模型,難以處理海量動態增長的數據,無法滿足海量數據挖掘對計算能力的需求,很難從海量流動數據中發現可理解和有用的知識[4]。大數據時代必須創新數據挖掘理論與方法,將數據挖掘技術應用于分析物流調度數據,研究和探索適應物流企業處理大規模、實時化、動態性物流調度數據的方法和模式,能夠有效配置物流資源和輔助物流決策,提高物流企業運行速度和執行效率,促進物流運作的智能化發展進程,這已成為物流企業十分關注和重視的問題。當面對的挖掘任務涉及不同類型的代價時,現有數據挖掘方法并不能滿足挖掘要求,代價敏感數據挖掘考慮不同類型數據代價,挖掘的目的在于使得所采取的行為代價最小或產生最優決策行為,對海量動態物流調度數據進行代價敏感數據挖掘,有助于提高物流企業的目標針對性和傳輸效率,降低物流運輸的成本和總投資成本,能夠極大地提高物流企業的經濟效益,具有非常重要的應用價值和實際意義。
2.動態代價敏感的海量物流調度數據挖掘模型
為了有效的對海量物流調度數據進行挖掘,本課題設置如圖1 所示的挖掘模型,從數據抽取、數據預處理、數據挖掘和模式評估四個步驟研究動態代價敏感的海量物流調度數據挖掘,具體研究模型如下:
2.1海量動態物流調度數據的抽取
針對海量物流調度數據的海量性,首先利用代價敏感對海量物流數據進行并行抽取。本文首先利用云計算平臺對海量數據流進行劃分用于并行學習,從海量物流數據中抽取和車輛調度相關的車輛信息、貨物信息、道路交通信息、裝卸數據、配送數據等海量物流調度數據。然后,針對物流調度數據的動態性特點,利用基于增量式學習的代價敏感抽取技術對海量物流調度數據進行抽取。最后,從異構多數據源中抽取和物流調度相關的歷史數據和當前數據。
2.2海量動態物流調度數據的預處理
針對海量物流調度數據含有缺失數據、不確定數據、冗余數據和噪聲數據等,對海量物流調度數據的數據清洗。利用代價敏感數據數據清洗模型對海量物流調度數據進行預處理。首先,把海量動態物流調度數據進行分類,針對連續型數據和離散性數據采用不同的數據預處理技術。然后,對海量物流調度數據維度較高的數據,結合代價敏感學習思想,對海量物流調度數據的代價敏感進行降維。最后,獲取含有較少噪聲并且維度低的海量物流調度數據。
2.3 海量物流調度數據的動態代價敏感挖掘模型
綜合考慮車輛行駛路徑、顧客對貨物的時間要求、調用車輛花費費用和貨物的庫存費用等各種代價因素,結合動態代價敏感學習思想、并行技術和集成技術,本文提出面向海量物流調度數據的基于增量式學習的代價敏感并行挖掘模型,該挖掘模型能夠對配車方案、行車路線和貨物組合等物流調度方案提供有效的決策支持。物流調度數據挖掘模型的自適應性,不斷對挖掘模型更新力求適應動態海量物流調度數據的變化,選擇綜合代價最小的調度方案作為最優調度方案,最大化服務顧客的同時降低物流企業調度成本,提高運輸資源的利用率。
本文采用分布式并行數據處理方法來挖掘與分析海量物流調度數據,能夠有效處理和利用分布在各節點的數據和計算設備,能夠對多模塊、多源、多格式、多結構的數據進行存儲和挖掘,實現實時高效的動態海量物流數據代價敏感挖掘。
2.4挖掘模式評估和交互服務
首先,深入物流調度數據挖掘的不同層次中,結合代價敏感學習思想,對海量物流調度數據的不同處理階段的模式進行性能評估。挖掘模式評估利用全新的數據對挖掘結果進行檢測和評價,如果不滿足要求,就要利用動態數據收集調整及處理重新挖掘,從而將用戶感興趣的知識進行挖掘。然后,構建海量物流調度數據的動態代價敏感挖掘交互服務,允許用戶通過交互服務功能模塊定制物流調度數據挖掘對象、物流調度數據挖掘任務、物流調度數據挖掘方法,并將數據挖掘結果以可視化的形式提交給用戶。
3 動態代價敏感的海量物流調度數據挖掘模型的設計
3.1 海量物流調度數據計算環境層的設計
海量物流調度數據計算環境層屬于物流信息分析模型的基礎,本設計選擇分布式計算環境,其主要包括分布式編程環境、分布式文件系統和分布式系統管理等。分布式計算平臺利用分布式存儲數據,利用冗余存儲的方式使數據備份,并且通過分布式數據處理還動態海量物流調度數據挖掘算法,自主分配物流調度數據計算資源,實現動態數據的海量物流調度數據挖掘計算,有效調用動態海量物流調度數據挖掘算法,從而使其能夠為服務提供海量物流調度環境。
3.2海量物流調度數據采集層和預處理的設計
海量物流調度數據采集層的主要目的就是實現物流調度數據收集,包括歷史數據、當前數據和后續數據。海量物流調度數據采集層的收集的既要實現歷史數據和當前數據的轉移、集成;又要利用變動物流調度數據捕捉技術收集數據,從而能夠實現海量物流調度數據的全面、快速及精準收集和預處理[5]。
3.3 代價敏感海量動態物流調度數據挖掘算法
實現代價敏感海量動態物流調度數據挖掘,通過代價敏感海量動態物流調度數據挖掘算法進行,創建并行代價敏感數據挖掘算法庫,無論是代價敏感挖掘算法或者是的深度學習的挖掘算法,都能夠實現優化升級和擴充。
代價敏感海量動態物流調度數據挖掘的步驟為:
1)利用代價敏感的FP-Tree算法實現物流調度數據頻繁項集挖掘,在 Hadoop 計算平臺中進行分布式運算的時候上傳到分布式文件系統中;
2)用戶能夠重寫動態代價敏感函數對頻繁項挖掘算法進行改寫,利用HDFD 存儲的物流調度數據流劃分成為多個不相交數據分塊,之后將數據分塊對執行挖掘操作 Datanode 中發送,在接收到指令之后挖掘頻繁項集,從而得出局部頻繁項集;
3)集合 Datanode 中的局部頻繁項集,從而得到全局候選頻繁項集。對物流調度數據流進行遍歷,得到最終的頻繁項集。
4.結論
物流調度為我國經濟的主要組成部分,也是實現經濟發展轉變和提高競爭力的基礎。目前的物流調度數據日益呈現出信息量大、數據類型復雜、數據異構性、地理分布廣、高度動態性、時效性等特點,而現有研究所提出的相關模型存不足,本文就將物流調度信息作為基礎,在物流信息分析過程中融合動態數據挖掘技術,提出了動態代價敏感的海量物流調度數據挖掘智能挖掘,使物流調度智能化程度及信息化效率得到提高,實現企業物流使用范圍的擴展,以此使物流信息分析優勢朝著現實核心競爭力進行轉變。
參考文獻
[1]Weihua Liu,Qian Wang,Qiaomei Mao,Shuqing Wang,Donglei Zhu.A scheduling model of logistics service supply chain based on the mass customization service and uncertainty of FLSP’s operation time.Transportation Research Part E:Logistics and Transportation Review,2015,83:189-215.
[2]孫玉硯,楊紅,劉卓華,皇甫偉.基于無線傳感器網絡的智能物流跟蹤系統.計算機研究與發展,2011,48:343-39.
[3]張玉峰,曾奕棠.基于動態數據挖掘的物流信息分析模型研究.情報科學,2016,34(1):15-19.
[4]趙強利,蔣艷凰,盧宇彤.具有回憶和遺忘機制的數據流挖掘模型與算法.軟件學報,2015,26(10):2567-2580.
[5]馬百皓.基于動態數據挖掘的物流信息分析模型設計分析.電子設計工程,2019,27(3):16-25.
基金項目:本論文受菏澤學院科研基金科技計劃項目(編號:XY16KJ01)支持,在此表示感謝。
作者簡介:劉春英,女,山東成武縣人,副教授,研究方向:數據挖掘,計算機教育。