劉江濤



摘要:針對共享單車風靡各大城市,給人們帶來了出行方便,但也帶來亂停放、廢棄車輛占道堆積的城市治理難題。因此,我們組決定以共享單車為基礎,借助云計算和大數據平臺,進一步對大數據經濟模式下共享單車使用情況進行分析,利用Python軟件,運用K-Means聚類算法和建立PERT網絡圖計算安置單車數量。讓共享單車成為我們生活出行便利工具,達到實時路況分析,出行道路最優化設計。
關鍵詞:數據挖掘;K-means聚類算法;PERT網絡圖
0.??? 引言
近年來,我國的共享經濟行業蓬勃發展,正成為推動國民經濟快速和可持續增長的巨大引擎。其中,共享單車更是風靡各大城市,但也帶來亂停放、廢棄車輛占道堆積的城市治理難題,且安置十分不規律在管理上浪費大量資金[1]。但是,共享單車的用戶數量卻年年上升,必將面臨更加嚴重的管理問題,如何安置共享單車流動大數據下停放點設置與投放數量成為目前迫在眉睫的問題[2][3]。因此,K-Means聚類算法和建立PERT網絡圖應用研究共享單車流動大數據下停放點設置與投放數量是十分具有意義的[4]。
1.??? 數據的獲取與處理
1.1? 數據的獲取
本文的數據來源于天池平臺數據實驗室,由3 月12日到6 月18日的共享單車在線運行數據中抽取的用戶使用數據構成。原始的數據集共10231條共享單車用戶操作記錄,包括起始位置,騎行時間、路線,終止位置等信息,涉及到5432個用戶和8916個行駛路線,用戶數據經過脫敏且真實可靠。
1.2? 數據的處理
在對數據的清洗過程中,發現存在只有點擊行為且點擊次數很多的用戶,推測為爬蟲用戶,屬于噪聲數據,予以剔除,具體為點擊次數大于200且無移動,支付行為。清洗后的數據集包括9843個用戶的操作記錄。
2.??? 基于K-means聚類算法構建共享單車區塊
2.1? 研究思路
基于哈啰單車在線運行數據中抽取的用戶行為數據樣本,結合業務邏輯從海量樣本數據集中提取量化指標,運用Python數據挖掘軟件、K-Means聚類分析數據挖掘方法進行多次聚類分析,采用wss方法得出各個方面最佳的聚類數K,實現哈啰單車的區間劃分。
2.2? 哈啰用戶位置特征提取
基于大量數據提取所有用戶的經度(CLi)和緯度(PAi)的位置數據。
2.3? 模型原理
對于多維數據集,K-means聚類算法確定K個中心點,將每個數據點分配到離它最近的中心點,將數據集劃分為K個類簇,分配原則為使數據點到其指定的聚類中心的的平方的總和即
最小,然后重新計算每類中的點到該類中心點距離的平均值,繼續分配每個數據到它最近的中心點直到所有數據點不再被分配或是達到最大的迭代次數。
2.4? 采用wss方法獲取K值圖
以和 作為聚類指標,基于K-means聚類分析過程,采用wss方法獲取最佳K值,運用R軟件作出組內平方誤差和——拐點圖。
從圖1 看出,當K值大于等于4 時,隨著K值的增大,類中總的平方值對聚類數量的曲線趨于平緩,說明K值越大,其簇內差異(Inertia)指標是越來越小的。即當K值為樣本量時,Inertia指標是可以取到0,這并不代表模型的效果越來越好了。
2.5? 輪廓系數獲取最佳值K
樣本與其自身所在的簇中的其他樣本的相似度a,等于樣本與同一簇中所有其他點之間的平均離;樣本與其他簇中的樣本的相似度b,等于樣本與下一個最近的簇中的所有點之間的平均距離。根據聚類的要求”簇內差異小,簇外差異大“,我們希望b永遠大于a,并且大得越多越好。
樣本的輪廓系數計算為:
很容易理解輪廓系數范圍是(-1,1),其中值越接近1 表示樣本與自己所在的簇中的樣本很相似,并且與其他簇中的樣本不相似,當樣本點與簇外的樣本更相似的時候,輪廓系數就為負。當輪廓系數為0 時,則代表兩個簇中的樣本相似度一致,兩個簇本應該是一個簇。可以總結為輪廓系數越接近于1 越好,負數則表示聚類效果非常差。如果一個簇中的大多數樣本具有比較高的輪廓系數,則簇會有較高的總輪廓系數,則整個數據集的平均輪廓系數越高,則聚類是合適的。如果許多樣本點具有低輪廓系數甚至負值,則聚類是不合適的,聚類的超參數K可能設定得太大或者太小。運用Python軟件進行K-means聚類分析,得出聚類結果表1 運用Python軟件進行K-means聚類分析,得出聚類結果表1。
從表1 可以看出,隨著K的增大,指標一直在不斷的變小,總組內平方誤差和在一直減小,但是輪廓系數也在一直減小,即在增加K值時,通過總組內平方誤差和是無法判斷K的取值。在通過輪廓系數的下降率與總組內平方誤差和的下降率的比較,選擇K=4 時,是聚類質心的最佳值。
2.5? K取值分析
從圖2 可以看出,數據集被分為4 簇,即全體用戶被分為4 類。
根據選取的地理位置進行共享單車區塊聚類分析,得到結果表2。
從表2 可以看出,共享單車區塊被分為4 類。可以從圖表中很容易看出,共享單車的使用群體大多是大學生一類的年輕人,且在地理位置上有明顯的優勢,大學基本都集群在同一區域,且大學生活動較為頻繁,在每個聚類的質心設置共享單車區塊利于管理和維護。
3. 基于建立PERT網絡圖計算安置單車數量
3.1 研究思路
基于共享單車區塊提取海量哈啰用戶行為數據即每個周期時刻每個共享單車區塊中哈啰單車的流出量和流進量。利用PERT網絡圖計算安置單車數量。
3.2 模型原理
3.2.1 結點(事件):圖中的圓,表示每個周期流入結點的共享單車數量,流出節點的共享單車數量。3.2.2周期時段:選取共享單車騎行時間為周期時間,則對于每個用戶而言每個安置點的數量是動態平衡的。
3.3 模型建立和求解
建立4×4的四階矩陣,矩陣每一行表示周期時段每個安置點流出到其他安置點的數量。對于數量矩陣舉行PERT網絡迭代,直到矩陣不再發生變化,迭代結束,實行共享單車流動的動態平衡。
3.4 迭代后矩陣及安置點哈啰單車數量
運用lingo軟件對矩陣進行迭代,得到穩定后的矩陣1。
由矩陣1 可知,安徽財經大學東校區西門安置點應該安排79輛共享單車,龍湖春天西街應該安排55輛共享單車,蚌埠學院(北側)應該安排40輛共享單車,安徽科技學院應該安排56輛共享單車。
4. 結語
本文基于大量的哈啰單車在線運行數據,將哈啰用戶區塊化,共享單車區塊化的設置管理和維護。采用數據挖掘和大數據分析方法,運用K-Means聚類算法對共享單車區塊化分類,以便更好的應用PERT網絡圖,從而計算每個區塊化的節點流出共享單車數量,對于每個節點在一個周期內的流出量進行PERT網絡圖算法迭代計算出動態平衡時,每個節點的流出量和流入量。從而得到每個節點最佳的安放共享單車的數量。
參考文獻:
[1] 張健.基于分布式的共享單車定位算法的研究[D].南京郵電大學,2019.
[2] 劉思嘉,杜雅楠,伍金銘,丁亭亭.移動互聯背景下共享單車運營管理研究[J].市場周刊,2019(11):145-146.
[3] 付亞金.共享單車運營與管理中的政府責任研究[D].南昌大學,2019.
[4] 劉文欽.基于DEA方法的共享單車投放區域綜合效率研究[D].上海外國語大學,2019.
作者簡介:
劉江濤(1998——)男,漢族,安徽銅陵人,安徽財經大學統計與應用數學學院,2017級本科生,信息與計算機科學專業
本文屬安徽財經大學大學生創新訓練項目《基于城市共享單車流動大數據下停放點設置與投放數量研究——以蚌埠市為例》(編號:201910378039)階段性研究成果,指導老師:朱家明。
本論文屬于安徽財經大學大學生創新訓練項目項目,項目編號:201910378039,指導老師:朱家明。