伍信怡 汪璐 史富存



摘 要:交通是國民經濟發展的晴雨表,三峽通航的統計數據能夠較為準確地反映長江航運經濟形勢,反映重慶、四川等上游地區沿江經濟的發展水平,其所呈現的貨運物流信息已成為我們實施交通強國戰略、編制區域發展規劃、精準科學施策的重要依據,為交通主管機構、通航管理部門開展規劃研究、實施通航管理和各級領導進行管理決策提供了重要數據參考。本文利用三峽通航現階段主要貨種近五年來每月的貨運量、裝載船舶尺度、平均待閘時間、過閘頻次等方面因素作為研究對象,運用K-means聚類分析方法對其進行聚類模型構建,結合相關因素產生新的具有三峽通航特色的17個貨物分類結果。
關鍵詞:貨物分類;三峽;K-means聚類分析
中圖分類號: [U693+.8]? ? ? ? 文獻標識碼:A? ? ? ? ? ? 文章編號:1006—7973(2021)06-0089-03
1 引言
近年來,國家對長江黃金水道和長江經濟帶建設推進力度不斷加大,長江航運實現了跨越式發展。2011年,兩壩船閘雙雙突破億噸后,三峽樞紐“瓶頸”效應凸顯,三峽通航貨物通過量的增長已趨于平緩。因此,三峽通航統計工作對貨運情況的分析應由粗轉細,由細轉精。即:由“對量的統計分析”向“運輸結構分析”“對運輸規律性的分析”轉變,關注重點由“各大類貨物通過情況”向“各細類貨物流向信息”“規律特征”轉變。
原有貨物分類標準對三峽通航數據統計工作的有效開展發揮了積極的作用,為過壩貨物的統計分析打下了堅實的基礎。然而,隨著時代的發展進步,原有標準在實際應用中難以適應三峽通航事業發展的需要,例如有些船載貨物無法準確歸類、單級貨種分類的方式較為粗糙,與現代三峽通航管理不相適應、貨物分類標準無法與其它運輸體系有效對接。
目前,三峽通航管理部門統計工作中,將普通貨物分為22個大類,其中有明目的為21類,危險品貨物分2級管理。
2 K-means聚類分析
K-means 算法由于其本身的聚類效果好、思想簡單、聚類速度快的優點得到了廣泛的應用。K-means是一種非譜系聚類法,它把樣品聚集成K個類的集合。同時它也是一種無監督學習,一般用歐式距離作為衡量數據對象間相似度的指標,相似度與數據對象間的距離成反比,相似度越大,距離越小。算法需要預先指定初始聚類數目k以及k個初始聚類中心,根據數據對象與聚類中心之間的相似度,不斷更新聚類中心的位置,不斷降低類簇的誤差平方和,當SSE不再變化或目標函數收斂時,得到最終結果。
設樣本依次是,聚類的簇數K,最大迭代次數N,聚類步驟大致如下:
(1)從樣本中隨機選擇k個樣本作為初始的k個質心向量:;
(2)計算樣本和各個質心向量的距離:,將mindij放入對應的類別λi,便形成新的類別Cj;
(3)對Cj中所有樣本點重新計算新的質心,直到所有k個質心向量不發生變化,形成分類結果C={C1,C2,...Ck}。
3 實證分析
為建立健全逐級細化的三峽通航過閘貨物分類體系,把更多的過閘貨物詳細的歸入新的分類體系之中,使貨物分類統計工作能更為深入、細致,實現規范化、精細化管理。本文利用三峽船閘近五年每月主要貨物的貨運量、裝載船舶尺度、平均待閘時間、過閘頻次等方面屬性作為研究對象進行K-means聚類分析,數據部分結構展示如下:
由于危險品的特殊性,會將其運用不同分類方法,故不將該類列入研究范圍類。結合相關貨物的理化性質、實際用途和裝載方式等,欲將k設定為17類,每個變量之間計量單位與量程不一致,將所有數據標準化后再進行聚類分析。
運用SPSS來構建K-means聚類模型,構建結果如下:
初始聚類中心結果如圖1,可以看出距離聚類中心較近的是第六和第十七類,較遠的是第三類。
對初始聚類中心進行迭代,得到最終的聚類中心距離。
最終聚類如下,由表2可見,相同數字被歸為一類,例如糧棉、食用油、畜禽漁三類經過聚類被分為一類,可以將其列入農林牧漁產品這一大類;商品車屬于交通運輸設備小類,而交通運輸設備屬于機械設備、電器這一大類。由此可見,將商品車與機械、設備、電器歸為一類是合理的,雜貨與其它普貨涉及的貨物并非主要運輸貨物,故將兩者合為一類,命名為其它未記名貨物。
結合樹狀圖可以直觀看出4(非金屬礦石),19(集裝箱),3(金屬礦石)被分為一個大類,均屬礦石類,但由于礦石種類過多,因此為提高分類的精確性,人為將其劃分為兩類。
結合具體模型結果,將最終分類成果歸納總結如下:
原分類中,糧棉中糧食種類繁多,為提高統計精確性,將糧棉具體拆分為糧食類與農林牧漁業產品下屬的棉花類。
通過過壩詳細物流統計結果,精確地反映長江貨運的流向規律。新的貨物分類體系,在滿足國家、行業標準的同時,能夠與公路、鐵路等管理部門的規定具有一定的統一性,為三峽樞紐綜合運輸體系內的物流數據分析打下基礎,同時通過建立詳細的貨物分類統計,使三峽通航數據統計分析工作能更加適應時代的發展,更好地反映沿江經濟發展的情況,為長江航運高質量發展貢獻力量。
本文僅將貨物分為17個大類,而每個大類之下具體的中類以及詳細的小類劃分后續還要進一步的研究。
參考文獻:
[1] 章永來,周耀鑒.聚類算法綜述[J].計算機應用,2019,39(07):1869-1882.
[2] 楊俊闖,趙超.K-Means聚類算法研究綜述[J].計算機工程與應用,2019,55(23):7-14+63.
[3] 彭敏,黃佳佳,朱佳暉等.基于頻繁項集的海量短文本聚類與主題抽取[J].計算機研究與發展,2015,52(09):1941-1953.
[4] 朱文俊,王毅,羅敏等.面向海量用戶用電特性感知的分布式聚類算法[J].電力系統自動化,2016,40(12):21-27.
[5] 國家統計局編.《統計用產品分類目錄》.出版社:中國統計出版社ISBN:9787503759499.出版時間: 2010-06-01.
[6] 《運輸貨物分類和代碼》.中華人民共和國交通行業標準JT/T19-001.