宋 云
(中國鐵路北京局集團有限公司 統計和節能環保所,北京 100860)
統計數據分析是發揮統計工作咨詢、監督等功能的主要手段,是為決策者提供數據支持和決策依據的重要方法。2015年,中國鐵路總公司規劃了208個物流基地,其中一級33個、二級175個[1],近年來逐步建成開通。對鐵路統計分析工作而言,鐵路物流基地統計分析屬于新興業態,傳統以生產管理為核心的鐵路貨場的數據采集分析方法,難以滿足效率效益導向型鐵路物流基地數據分析的需求。為準確把握鐵路物流基地的建設運營情況,在全面、準確地采集鐵路物流基地運營統計數據基礎上,需要選用科學、合理的方法系統地分析統計數據,對于充分發揮統計工作對鐵路物流基地業務運營的支撐作用,具有重要的理論價值和實際意義。
鐵路物流基地統計數據采集方法是指根據研究目的和要求,主要針對調查對象、調查單位的原始資料開展搜集登記工作的采集方法。按照統計數據的來源,可以分為鐵路內部統計數據采集法和入駐企業統計數據采集法。
(1)統計報表采集法。統計報表采集法是鐵路內部統計數據采集的主要采集方法之一,目前多項鐵路物流統計數據都是采用統計報表的方法進行提報和采集的,多按照中國鐵路總公司、鐵路局集團公司和各專業運輸公司的相關規定,明確統計報表的內容、表式和時間程序等信息,自上而下統一布置、自下而上逐級上報。目前鐵路內部的統計通常采用定期統計報表制度,用于采集企業業務運營中的各類數據,為企業管理部門和相關政府部門管理決策提供重要的數據資料。例如,與機車、貨車和運輸過程統計相關的統計信息,其統計報表可以采用《鐵路機車統計規則》(鐵總計統[2016] 261號)、《鐵路貨車統計規則》(鐵總計統[2017] 195號)和《鐵路貨物運輸統計規則》(鐵總計統[2017] 121號)中的已有統計報表。對于既有的鐵路運輸相關統計規則或統計管理辦法中尚未涉及,需要新增的統計報表,應充分遵循統計報表設計規則,在完成設計和初步試用后,納入相關統計規則,形成固定的統計模式,在鐵路物流基地的運營統計中實施應用。
(2)信息系統采集法。信息系統采集法是除了統計報表采集法外,在現代企業管理中的另一種重要的數據采集方法[2]。當前我國鐵路經營管理中,涉及到眾多的管理信息系統,主要包括:貨運電子商務系統、貨票系統、貨運站系統、集裝箱管理系統、零散快運貨物作業平臺、現車系統、十八點統計分析系統、接取送達物流系統等。通過既有的鐵路生產管理信息系統,可以提取得到各項所需的鐵路物流基地運營統計數據信息。與此同時,為進一步完善鐵路物流基地運營統計信息采集和業務運營管理,還可以根據實際需要建立相對獨立的鐵路物流基地管理信息系統。利用該系統,可以采集鐵路物流基地運營中產生的各類統計數據,如鐵路物流業務規模統計數據、物流經營效益統計數據、物流基礎設施設備統計數據、物流從業人員統計數據、物流服務質量及社會貢獻統計數據等。對于來自既有鐵路生產管理信息系統的統計數據與來自鐵路物流基地自身管理信息系統的統計數據,可以通過建立的數據傳輸通道和規定的數據處理規則,進行信息處理整合,形成完善的鐵路物流基地業務運營基礎數據庫,為后續的業務評價和決策支持提供原始數據資料。
(3)專門調查采集法。專門調查采集法是數據統計工作中,對于統計報表采集法和信息系統采集法的一種重要補充。針對運營管理中需要解決的突出問題,在需要相關統計數據支撐時,即可采用專門調查采集法,對目標調查對象進行專門調查,由專業的數據統計調查人員,實地赴調查對象所在地,進行相關數據的采集。例如,為全面了解和掌握當前我國鐵路物流基地的規劃、建設和運營狀況,中國鐵路總公司在2018年3月和2018年10月,分別組織專門的調查人員2次赴各鐵路局集團公司的典型鐵路物流基地進行專門調查。通過調查,采集到了全路各級別鐵路物流基地的建設運營數據,為鐵路物流基地運營評價和發展戰略調整奠定了良好基礎。
鐵路物流基地與傳統鐵路貨場的顯著區別之一表現在其具有更好的市場開放性,除服務于鐵路運輸企業自身以外,其向社會物流企業、生產企業、商貿企業等社會企業開放,積極引導社會企業入駐基地,形成鐵路基礎設施與社會企業設施的融合發展。在對鐵路物流基地入駐企業信息的統計過程中,可能涉及到入駐企業商業信息保密等因素,導致信息統計不全或難以實現。因此,在入駐企業統計數據采集中,主要有以下方法。
(1)基于物流基地監控方案的入駐企業數據采集法。鐵路物流基地監控方案是確保鐵路物流基地安全運營的基礎和保障。通過對鐵路物流基地內部及周邊進行視頻監控,包括周邊道路監控、物流基地出入口監控、內部道路監控、停車場監控、作業區監控和辦公區監控等,可以獲得入駐企業物流車輛、人員的生產情況,進而獲得入駐企業在鐵路物流基地經營的相關統計數據。
(2)基于合作協議的入駐企業數據提報法。入駐企業與鐵路物流基地是長期合作、利益共贏的合作伙伴,為進一步改善物流基地服務狀況,提升服務水平,鐵路物流基地可以同入駐企業簽訂戰略合作協議,在協議允許范圍內,要求鐵路物流基地入駐企業提報一定的在該基地運營的生產信息,如在該基地到發的業務量、收入等。采用基于合作協議的入駐企業數據提報方法,可以獲得更為詳盡、準確的鐵路物流基地入駐企業統計數據。
(3)基于第三方調查的入駐企業數據采集法。基于第三方調查的入駐企業數據采集法,主要應用于對鐵路物流基地入駐企業滿意度的調查,可以通過引入專業的第三方數據調查及咨詢機構,利用其專業的數據采集及評價技術,對入駐企業的滿意度進行調查,分析調查結果,提出鐵路物流基地改進服務內容及提升業務水平的建議和意見。
由于鐵路物流基地統計數據的采集渠道多樣,因而不同統計主體或統計人員在進行原始記錄生成整理的時候,難免產生多個記錄表征同一統計對象的情況,此類數據被稱為重復記錄。消除重復記錄可以針對2個數據集或者一個合并后的數據集,檢測出標識同一個鐵路物流基地的重復記錄,即匹配過程。檢測重復記錄的算法主要有:遞歸的字段匹配算法、基本的字段匹配算法、編輯距離、Smith-Waterman算法、Cosine相似度函數等。
異常數據是指由于人工記錄失誤、信息系統錯誤或者統計報表錯誤等原因,而產生的與實際數據不符的異常值,也就是有利于數據聚類以外的離群點數據。異常數據的處理通常是基于統計分析算法及數據挖掘技術,采用聚類算法獲得數據聚類,再從中剔除偏離數據聚類的離點。同時,還存在一類異常數據,就是在統計過程中不符合統計標準的數據,如在就業崗位數量統計中統計數據出現的小數。
鐵路物流基地數據統計時,很難避免出現數據缺失,產生的原因可能有人因疏失或系統錯誤。處理缺失數據的方法主要有:刪除整條數據記錄、進行二次統計或采用擬合方法填補缺失數據和不予處理等。由于不能放棄對于某個鐵路物流基地運營情況的評價,因而刪除整條數據記錄的方式,在進行鐵路物流基地運營評價中不可行。不處理的方式則會導致鐵路物流基地運營評價模型在計算中因個別數據確實出現運算錯誤,影響評價結果。因此,在遇到缺失數據時,應采用進行二次統計或數據擬合的方法,對缺失的統計數據項進行補充完善,形成完整的統計數據記錄。
鐵路物流基地基礎數據處理工作從總體上可以分為4個主要環節:數據采集、數據審核、數據預處理和統計數據分析[3]。在鐵路物流基地基礎數據統計過程中,需要各個部門、各個單位,環環相扣。基于信息技術的鐵路物流基地基礎數據處理流程如圖1所示。

圖1 鐵路物流基地基礎數據處理流程Fig.1 Basic data processing flow for railway logistics parks
(1)數據采集。數據采集是鐵路物流基地統計的開始,也是進行鐵路物流基地統計及評價分析工作的基礎。通過合理設計數據采集方法,得到完善的鐵路物流基地統計基礎數據,是保證鐵路物流基地運營評價結果科學性的根本保證。
(2)數據審核。數據審核是進一步確保統計數據質量的方法和手段,通過完整性審核、準確性審核和規范性審核,能夠彌補統計數據采集工作中出現的不足,作為提升統計數據質量的第2道保障。
(3)數據預處理。數據預處理是統計數據分析動作的前期準備,在完成數據采集及審核工作后,采用科學手段對數據中的噪聲數據進行清理和校正,進一步提升數據統計分析及評價結果的科學性。
(4)統計數據分析。統計數據分析通過運用一系列科學的數量分析方案和經濟理論知識對已經加工整理過的鐵路物流基地統計數據及其他信息加以分析和研究,以概括出各項統計數據之間或其他統計信息之間的本質聯系,從而反映出各種經營現象和管理工作之間的聯系,以達到最終指導經營,為管理層決策提供數據支撐和理論依據的目的[4]。
鐵路物流基地統計數據分析是進行鐵路物流基地統計的重要目的之一,通過對統計獲得的基礎數據進行分析,可以發現統計數據中存在的數學規律,反映鐵路物流基地的運營情況。K-means聚類算法是一種解決大數據聚類問題的方法,其特征是能夠很好地解決超大規模數據集與高維數據集的聚類。結合鐵路物流基地統計字段較多、數據規模巨大的特征,基于K-means聚類算法對鐵路物流基地統計數據分析方法進行研究,并結合實際算例進行驗證。
K-means聚類算法是一種迭代求解的聚類分析算法,其應用步驟如下。首先隨即選取K個評價對象作為模型的初始聚類中心,然后依次計算每個對象與各聚類中心之間的空間距離,依據每個對象與各個聚類中心之間的距離,將所有對象分配給距離其最近的聚類中心[5]。每個聚類中心及分配給其的聚類對象分別代表一個聚類。當全部聚類對象都被分配完畢后,表示一次計算結束,每個聚類的聚類中心會根據聚類中分配的現有對象被重新計算。重復迭代此過程,直至滿足某個終止條件為止,完成聚類計算。聚類終止條件既可以是無聚類中心或最小數目的聚類中心再發生變化,無對象或最小數目對象被重新分配給不同的聚類,也可以是聚類誤差的平方和局部最小等。研究選取聚類誤差的平方和局部最小作為終止聚類算法的計算條件[6]。實際操作中,可以應用SPSS數據分析軟件,使用軟件嵌套的K-means聚類算法對統計數據進行自動化聚類分析,獲得聚類分析結果。K-means聚類算法在鐵路物流基地統計數據分析中的應用流程如圖2所示。
基于對全路鐵路物流基地運營統計數據的統計調查結果,選取28個鐵路物流基地的統計數據作為案例分析對象,對統計數據分析方法的可行性和有效性進行驗證。

圖2 K-means 聚類算法在鐵路物流基地統計數據分析中的應用流程Fig.2 Application flow of K-means clustering algorithm in statistical data analysis of railway logistics parks
由于當前鐵路物流基地數據采集的手段還較為傳統,以人工填報統計報表方式為主,采集運營管理數據的效率低下[7-8]。因此,在鐵路物流基地調查的數據采集過程中,在統計數據采集質量和效率方面,都存在一定的問題。通過統計表報采集到的鐵路物流基地運營管理數據,在數據的規范性、完整性、科學性等方面,均存在不足。在此采用二次統計和數據擬合等方式填補空缺數據,并對數據噪音進行清理,以有效提升鐵路物流基地運營評價的科學性及合理性。經調查統計及數據預處理,整理得到28個鐵路物流基地的統計數據如表1所示。
對表1中數值進行歸一化處理,采用SPSS軟件對28個統計對象進行K-means聚類分析,聚類結果顯示,統計對象被分為4類,其中,第一類包含10個對象,第二類包含11個對象,第三類包含6個對象,第四類包含1個對象。進一步分析各聚類的數據特征,可以判斷其中第二類屬于運營狀況最好的聚類,第一類運營狀況較好,第三類運營狀況適中,第四類運營狀況欠佳。總體看來,運營狀況良好的鐵路物流基地占比39.3%,運營狀況較好的鐵路物流基地占比35.6%,鐵路物流基地的整體運營狀況較為理想。
結合鐵路物流基地的實際運營情況來看,大部分一級鐵路物流基地為新規劃建設的鐵路物流基地,其投入運營時間較短,尚處于市場開拓期,在經營業績方面還存在很好的發展空間,可以通過進一步開拓市場和優化調整經營策略,實現更大程度的業績提升。部分二級、三級鐵路物流基地,是由既有鐵路貨場轉型升級改造而來,具有很好的市場基礎,此類鐵路物流基地應繼續積極發揮既有優勢,規避發展中可能存在的劣勢,優化運營管理策略,促進業績提升。
鐵路物流基地統計數據分析的最終目標,是為鐵路物流基地規劃建設和運營管理優化調整提供決策依據,以實現全面提升鐵路物流基地運營水平和經營效益的目的。通過優化鐵路物流基地統計數據、統計分析方法,可以獲得更為科學合理的數據分析結果,用以指導鐵路物流基地的經營實際,以取得更好的運營效果。在總結梳理鐵路物流基地運營策略優化過程中存在共性問題和通用經驗的基礎上,獲得可推廣、可應用的鐵路物流基地運營策略優化建議,以推動統計工作對業務運營指導作用的發揮,可以為實現鐵路物流基地高質量發展提供有力的數據支持。