
摘要 探討地鐵中的數據挖掘技術,可以提高數據挖掘技術的質量與效果,從而為地鐵工程工作的推進奠定良好的基礎?;诖?,文章從智能決策分析系統的系統架構、系統運行方式等方面,分析了地鐵自動售檢票系統在地鐵工程中的應用。在此基礎上,提出客流分析預測系統過程、建立客流分析模型兩方面來加強數據挖掘技術的應用策略,希望能給相關人員一些借鑒。
關鍵詞 數據信息資源挖掘;地鐵;自動售檢票系統;聚集式計算;可視化技術
中圖分類號 TP311.13 文獻標識碼 A 文章編號 2096-8949(2022)12-0050-03
收稿日期:2022-04-15
作者簡介:彭瓊芳(1982—),女,本科,高級工程師,研究方向:電氣工程及自動化。
0 引言
科學的進步,社會的發展,促使信息時代的到來。在當前,人們可以在短時間內獲得大量的信息,這些信息毫無規律,并且相對模糊,相關人員很難找到目標信息促進自身的工作有效開展。而數據挖掘技術的應用,則可以改變這種情況。將數據挖掘技術應用到工作中,使用者就能夠在相對較短的時間內,從海量的信息中,經過科學地篩查與歸類,最終找出目標信息及其傳播規律。
1 數據挖掘技術
1.1 產生的背景
隨著計算機技術的飛速發展,數據庫被普遍地應用于很多領域,產生了大量數據庫。這些數據庫可以為管理者帶來統一、全局的視角,但是數據的豐富也使得人們缺乏有效方法來識別一些隱藏的、對決策有益的信息,而傳統查詢方法和報表工具也根本無法滿足信息數據挖掘的需要。因此需要一套技術來管理這些冗雜的數據,從中選擇并挖掘出有用的信息,由此就形成了數據挖掘技術[1],如圖1。
另一方面,數據挖掘技術是數據倉庫技術逐步發展和完善的成果,但并不是任何信息挖掘的技術都可以歸類到數據挖掘技術。比如,信息檢索技術也能夠利用數據庫的管理系統來檢索個別記錄,又或者利用互聯網的檢索功能來找到特殊的頁面,這些都不屬于數據挖掘技術。
1.2 概述
以數據庫、數理統計學、人工智能、可視化研究等為基石,算法的設計工作需要這些來描述和解釋數據分析。算法的設計工作主要包括錄入、產出和數據處理。數據庫是數據挖掘的計算入口,計算產出是挖掘數據信息知識的模型,而算法處理的流程則是設計具體工作的方式。
1.3 分類
數據挖掘可以按不同的方式分為不同的類別。
以數據庫的視角來定義數據挖掘的3個基本技術方面,分別為數據信息挖掘視角、數據挖掘對象、數據分析信息挖掘方式。數據信息挖掘視角是將數據挖掘對象細分為若干個信息庫或數據源,如關聯、面對的對象、空間環境、時態、文本庫、多媒體、歷史等相關領域方面的數據庫和萬維網等[2]。
而數據分析信息挖掘方式則可粗分為數據分析方式、機器學習方法、神經網絡方式和數據庫方法。數據分析方式可劃分為回歸式數據分析、判別分析方式等。機器學習方式可劃分為遺傳算法等。神經網絡方式可劃分為前向神經網絡、自組織神經網絡等。數據庫方法則主要為多維的數據挖掘方式等。
1.4 作用
數據挖掘過程是指自動提取并利用各種數據表中隱藏的有價值信息的過程,消息的類型可分為規律、法則、定義和模型等。管理人員通過這一技術,能剖析當前數據信息、歷史數據信息及二者之間的關聯,并從中找到隱藏的模型和關系,以便于預見未來可能出現的重大事件。這一過程也是人們探索認知系統的過程,是一個涉及方面非常廣泛的新興交叉性學科,主要應用于數據庫、大數據計算、新一代人工智能和信息可視化與并行計算等領域。
1.5 常見技術形式
數據分析挖掘中掌握專業知識的重要技能是機器學習和數理分析計算,目前研究數據挖掘的重點聚集于計算基礎理論與應用方面。機器學習作為另一種深入研究人工智慧的分支方法,被稱作歸納與推理;采用關聯分析法,也可以從關系數據庫中獲取相關聯系。而挖掘關聯則是指根據系統查找各種事件,以找出符合條件概率比較高的模式;資源數據分析挖掘以人工神經元網絡使用最為普遍,計算方法是采用模擬個人神經系統,不斷地訓練和掌握相應的數據集合,在每個待分析數據的集合里,出現可估計和分析的建模。決策方法是一個預測模型,呈樹型構造,非終端節點顯示屬性,葉節點則顯示不同類型;遺傳算法則是一種基于優化生物學發展理論研究的技術,基礎觀念是“適者生存”。遺傳算法可進行多種類型、并行處理大量數據分析[3];聚合后發現,整個數據庫都能夠分為不同集群,群和集群之間存在明顯區別,同一個群的數據信息也盡量接近。聚類分析方法只是其他如特征和類型等預處理的第一步,算法在新生成的簇上等待數據處理。與分類方法不同的地方是在開始聚合之前,人們不清楚如何將數據信息分門別類,也不清楚如何按照變量分類。在聚合后,熟悉業務的人有多種方式理解分群的含義。大多數情形第一次聚合后所獲得的分群信息對業務沒有直接價值,需要通過刪減和添加變數,來修正數據信息分群所采用的多種方法。如此,在重復多次以后,就會得出一個非常理想的結論。聚合方法主要分為兩類,即神經網絡方法和統計分析方法。K-均值和自組織的神經網絡方式在聚合計算中應用更為普遍。
2 地鐵自動售檢票系統
2.1 智能決策分析系統的系統架構
由于現有自動售檢票系統都自建內部網絡,在管理上屬于私有內網范圍。目前自動售檢票系統的數據庫中一般存儲60天歷史數據,但出于行業需要和安全方面的要求,可首先采取增加備用策略,把自動售檢票系統的數據庫數據備份到備用數據庫服務器,之后再提取歷史數據到本信息系統業務數據庫,同時再向其他的輔助管理系統導入新數據,從而構成了該信息系統的全部服務統計信息。所以,在大數據分析集成處理過程中,必須本著安全性第一、兼顧成本的原則,通過防火墻實現隔離,以確保自動售檢票系統與該信息系統業務數據庫的安全性。
2.2 系統運行方式
每天自動售檢票系統處于空閑時,一般在凌晨2點之后,分析系統應用服務器開啟中間件,將自動售檢票系統數據備份到備用數據庫服務器,并采用編程方法實現了自動售檢票系統數據庫的實時備用以及到備用數據庫服務器的增量備用方法,同時實現錄入歷史數據信息和為本系統業務數據庫進行直接抽取歷史數據信息的要求,并將成果保存到數據分析管理系統服務器上。
用戶帳號安全方案:通過不同的員工帳號、角色等定義,分別獲得對應的授權,以確保系統用戶帳號與系統數據的安全。
在辦公網的分析系統服務器上,以實時方式存取資產數據庫信息,對數據采用拉(PULL)的方法,只讀取所需要的資料數量,以增加管理系統的反應時間。
分析系統客戶端的接入方式使用了純B/S模型,以滿足地鐵辦公室OA與分析管理系統的兼容,支撐最大規模的并發性使用。
備份功能:用SQL2000編程腳本,可以定時實現自動售檢票系統與備份服務器的2臺數據庫同步,所有決策支持系統的數據信息都來自備份服務器數據庫。而針對備份數據庫服務器與本管理系統業務數據庫之間的備份問題,可以使用光盤塔為備份設備,利用數據庫中的自動備份功能自動完成,將來也能夠利用索引管理系統還原需要的數據信息。
2.3 相關客流的數據
按站點計算每日的出入站客流信息,分時間(輸入起止時間和間隔時間)計算每日各站點的進出站客流和實時客流信息,按周計算各時間段的實時客流、進出站客流信息,以及多種檢索條件下的客流信息。
(1)根據輸入的卡號、日期查詢進出站記錄。
(2)統計每臺設備的分時段進出站客流。
(3)統計每天在各個站點單程票的銷售、進站、出站情況。
(4)統計每月通卡會員的乘車人次和總額。
(5)計算每天在用地鐵專屬卡的張數,并占所有可用地鐵專屬卡片的比例。
(6)數據備份功能,將全年的每日交易數據都儲存到同一個數據庫中。
(7)運營日報中的相關數據統計。
(8)特殊交易查詢:查找超出所提供的許可區域的特殊交易的有關設備信息。
(9)按照某市地下鐵路專用卡的卡號查看此卡的有關出站信息內容以及剩余次數。
(10)地鐵專用卡到期的提示。
(11)退款申請查詢:對某一設備在某一時段的交易信息查詢。
(12)員工考勤:票務中心可查看、打印每張卡片的進、出站等相關信息(員工卡的卡號、可變賦值金額和數量),可查看和打印當班的操作員的所有操作數據,如初始化數量、編碼數量、賦值金額之和數量、注銷數量。
2.4 系統數據管理
數據分析抽取:將企業數據從自動售檢票系統數據庫備份到企業智能決策與支持分析管理系統、企業備份數據庫服務器,再按照實際服務需求,提取相關數據分析到本管理系統服務信息庫中。然后從擴展視角出發,保留端口,直接從外部大數據系統庫提取所要求的數據分析。
信息系統備份:將通過智能決策支持分析系統備份數據庫服務器中的服務數據信息,并且將該管理系統用抽取數據分析信息自動備份到光盤塔等備份設施。
備份與恢復:根據企業運營需求,通過索引從光盤塔等備份設施中將數據恢復至企業智能決策與支持的分析管理系統,備份數據庫服務器供本系統業務數據庫管理之用。
應用管理:實現本管理系統的使用者登錄、注銷、角色分派、密碼與授權管理等功能,將使用數據分析整合于對業務管理系統客流的數據分析[4]。
3 數據挖掘技術的應用
互聯網的高速發展將為用戶帶來許多新信息服務,而互聯網因內涵豐富、功能強大以及使用簡便,在所有獲取信息的服務方法中尤為突出,成為了數據挖掘發展的重點方向。又由于當前互聯網信息服務的主要趨勢是單向與被動信息服務的模式,使網絡應用挖掘信息服務更符合性能要求,提高了互聯網與應用之間的互動性,使互聯網與應用能真正地相互融合。
與以前的使用方法和被操作方式完全不同,通過運用數據挖掘技術,使互聯網針對應用需要進行更針對性的、更主動的信息服務,并能形成具有個性化信息服務特點的體系,而根據對不同用戶信息服務提供不同需要的滿足方法,進行信息服務特點就有所不同。構建的個性化信息服務體系也更加依賴于挖掘應用信息服務的需要。
以某市地鐵客票業務為例,大資料數據挖掘技術在客運數據分析中發揮最快捷的功能。客運數據分析預測體系流程由數據分析源形成、建立數據分析集市形成;而客流分析模型的構建過程由大樣本數據分析、對BP神經網絡的數據處理兩部分形成。
3.1 客流分析預測系統過程
3.1.1 數據源構成
因客票管理系統的資料數據庫與恢復業務所使用SYBASE產品,而資料倉儲的制作所使用Microsoft公司產品的SQLSerner2000,因此面臨著轉換為異相數據源的問題。在技術上采用了數據庫對接技術,把所需要的基礎表導入到了SQLServer中。
3.1.2 構建數據信息集市
數據挖掘技術對于中小型公司的運用,更偏向于在不影響信息體系上先構建中小型數據集市。首先將相應的數據分析提取至小型數據集市中,再將其中的各個關系表格數據分析提取至大型數據集市中,最后再將數據集市中各個表格的數據分析提取至特定關系表格中,并在此基礎上利用零LAP技術工具來構建多維分析的模型立方體,從而通過建立的數據分析挖掘來進行高鐵客流數據分析與預報[5]。
3.2 建立客流分析模型
因為在前期就已設置了大量數據集市,人們就可以據此抽取出相應的數量來完成數據分析挖掘。在大量數據集市中,有各大車站、區間和線路中的售票數量、貨物總收入、旅客票價總收入、乘客上車的數量,以及各種類型的統計運量信息,通過BP神經網絡進行信息處理。
數據變換也是一種預處理數據分析的關鍵部分。數據變換就是將大量數據信息內容加以轉化,并使之更適合于數據分析挖掘類型,也就是說將特征向量的統計信息內容按百分比加以壓縮,進而將其落入到某個較小的特定區域。所采用的技術是歸一化處理。在此網絡模式的運算中,將輸入樣本和檢驗樣品中的所有數據信息,都統一加以量化為0~1之間的實數。
4 結語
綜上所述,數據挖掘技術在地鐵中的應用優勢是相當明顯的,因此相關地鐵工作單位要加強對數據挖掘技術的應用,以便為地鐵的相關工作開展創造有利的條件。隨著大數據的發展,城市軌道交通中的大數據研究是地鐵管理升級的需要,也是滿足乘客多種需求的必然要求。通過數據挖掘技術,深入探究城市軌道交通信息系統的運維和數據規律,指導運營實踐和規劃,對提升城市軌道交通的運營管理水平具有重要的理論和現實意義。
參考文獻
[1]王露. 數據挖掘技術在智能交通系統中的應用[J]. 工程技術, 2015(23): 215.
[2]陳靖. 數據挖掘技術在智能交通信息處理中的研究與應用[J]. 電腦知識與技術, 2018(25): 7-8.
[3]陸化普, 周錢, 周永華, 等. 數據挖掘技術在智能交通系統綜合信息平臺中的應用[J]. ITS通訊, 2004(1)79-84.
[4]周健. 無線網絡技術在智能交通系統中的應用分析[J]. 數碼世界, 2017(12): 538.
[5]李萬欣, 李玉. 大數據技術在智能交通系統中的應用研究[J]. 科學與財富, 2019(33): 324.