馮健文
(韓山師范學院教務處,潮州 521041)
附帶射頻識別(RFID)技術的移動對象應用,如身份證、通行卡、消費卡、手環、電子手表等已廣泛應用于社會各領域,從移動對象RFID時 空 軌 跡(RFID spatio-temporal trajectories,RFID-STR)數據中挖掘移動對象的移動模式與規律,具有重要的社會和應用價值。
某次RFID-STR數據代表移動對象的一次業務應用,如上班打卡考勤。從業務點關聯的角度看,RFID-STR 數據分為兩類:一是多點軌跡(MRFID-STR),軌跡中各業務點明顯屬于某個業務流程,數據格式和語義一致,例如安裝GPS 設備的出租車、公交車、物流等;另一類是單點軌跡(SRFID-STR),軌跡中只包含單個業務點數據,不同的軌跡間沒有明顯的關聯和約束,且可能存在數據格式和語義異構,即無業務流程特征。
當前對于單點軌跡的研究多屬于單個業務點的特征分析。復旦大學從一卡通共享數據庫中查詢統計大學生消費水平,為貧困生認定和困難補助發放提供依據。大連醫科大學以時間為序把一卡通消費記錄整合成為每個人在校園內不同場所的消費信息,使用SPSS 分析學生的消費占比,結果反映學生的消費特征和性別對消費的影響。蘇州大學用SQL Server 2005 BI工具的ID3 決策樹算法和OLAP 聯機分析處理技術對學生消費情況、熱水消費情況以及商戶營業狀況分析用于改進業務管理。哈爾濱工程大學采用支持向量機對校園卡消費流水進行分類,利用關聯規則發現學生校園卡的消費模式。西北大學采用Apriori 算法挖掘貧困生數據特征支持貧困生評定工作。
上述研究屬于局部優化分析,即以一個業務點或一類業務點為分析對象,并結合用戶的信息進行分析,結果只對某個或某類業務點有意義,并沒有考慮業務點的關聯影響。而軌跡間隱含的全局性信息對管理決策部門有著重大價值。例如食堂可分析學生消費特征,加上學生其他業務點活動特征,可幫助食堂優化供應菜單和時間。因此,研究把單點軌跡數據轉化為具有業務流程關聯的多點軌跡數據,對全局分析宏觀管理決策支持有重要意義。
過程發現(process discovery)技術可從信息系統日志數據中發現用戶的業務活動過程模型,并結合其他信息發現潛在的有價值知識。本文基于過程發現技術研究RFID 數據軌跡預處理技術,提出RFID-STR數據類型定義,重點介紹數據軌跡分段方法和生成框架,解決無業務流程特征軌跡數據分析問題,為軌跡數據知識挖掘提供高質量數據。
RFID-STR 原始數據為={ p|i= 1,},其中軌跡點p=(R,B,X,t)為四元組,分別代表RFID 標簽、業務點、屬性信息、時間戳。業務點包含業務點的地理空間信息、業務類型等。屬性信息包含交易金額、經手人、交易內容等。
RFID-STR 原始數據來源于多個RFID 業務應用,存在數據格式、語義等差異,在挖掘前必須進行校準,以得到規范統一的軌跡數據。把原始數據轉化為校準軌跡數據,一般包括數據清洗、軌跡分段、路網匹配的校準軌跡數據預處理流程。
RFID-STR 校準軌跡通常包括巨量詳細記錄,例如電子飯卡應用,用戶點餐明細對于只關注業務點類型的挖掘無意義,就需要壓縮處理以減少數據量、提高處理效率。常用基于路網和基于軌跡的壓縮方法。
RFID-STR 數據軌跡只有賦予業務應用和用戶行為理解,才有挖掘價值,在數據庫軌跡上加上語義就產生了RFID-STR知識。
校準軌跡是產生軌跡知識的基礎,其中軌跡分段是校準軌跡數據生成的關鍵方法,本文引入過程發現的思想建立基于時間閥值的軌跡分段方法。RFID 軌跡分段目標實際上是要得到在一個時間區間的軌跡點集合。因此尋找分段點就是通過時間閥值參數來劃分軌跡點集合。
首先把經過清洗的軌跡數據映射到業務應用中,業務應用活動關聯RFID 業務點,業務應用活動可以由具備業務流程聯系的多個業務點構成,如快遞物流;也可能是無業務流程特征的多個業務點構成,如學生校園RFID 應用。活動的執行事件是RFID 標簽在業務點的一次操作行為,即軌跡點P。同個RFID 標簽在時間區間的軌跡點形成了一個業務過程,即軌跡點序列P…P。基于過程發現的軌跡分段方法是從軌跡數據中尋找同個RFID 標簽的軌跡點序列集合,集合中任意兩個軌跡點的時間戳距離滿足時間閥值的要求。采用過程發現的方法可以發現用戶在某個時間段的行為軌跡,尤其是能處理無業務流程特征的多個業務點類型數據。
RFID-STR 數據軌跡生成的目標是輸入原始軌跡數據,經過校準軌跡、數據庫軌跡處理,輸出語義軌跡作為軌跡特征知識挖掘的數據源。
①從分布式環境中抽取RFID-STR原始軌跡數據;②經過數據清洗后,采用基于時間閥值的過程發現技術進行軌跡分段,并通過路網匹配方法關聯軌跡與業務點地理位置信息,得到校準軌跡;③根據業務點類型進行軌跡壓縮得到數據庫軌跡,提高數據價值密度和存取效率;最后根據行為理解方法建立不同主題的語義軌跡數據。

圖1 RFID-STR數據軌跡生成框架
以某高校一卡通系統RFID 數據為實例闡述RFID-STR 數據軌跡生成過程。該校在校生約2萬人,分為四個校區,一卡通應用主要涉及38個業務點,覆蓋了校園內教學、學習和生活設施。各業務點業務特征如表1所示,業務數據分布在6個原始軌跡數據庫,全部為單點軌跡數據。

表1 一卡通系統業務點特征
選取時間范圍為2012—2014年數據,經過數據清洗、軌跡分段和路網匹配得到校準軌跡。數據量變化如表2所示。

表2 校準軌跡生成數據量變化(單位:條)
(1)數據清洗。原始軌跡數據約2875萬條,經過字段不一致、去除重復等數據清洗后為2849 萬條,再次對數據合并處理得到1264 萬條,典型數據合并例子是把2小時內同個用戶在同個食堂的消費數據合并為一條消費總數,減少無意義的數據冗余,提高處理效率。
(2)軌跡分段。采取以時間閥值參數方法,得到某用戶在一個時間區間的軌跡點集合,即把多個單點軌跡集合轉換為有時間關聯的多點軌跡集合,為后續發現用戶潛在模式打下基礎。例如以1 天24 小時為時間閥值參數,經過軌跡分段后,得到用戶活動軌跡640萬條。
(3)路網匹配。把業務點與地理信息結合,得到具有地理特征的用戶活動圖。例如把校區匹配表1的業務點,可得到用戶校區活動軌跡。
進一步對校準軌跡進行數據壓縮和主題分類,可得到不同主題數據集市模型。
(1)數據壓縮。把重復的用戶活動軌跡進行壓縮,得到代表活動軌跡5萬條,大大提高了分析效率,當然代價是丟失了軌跡頻度。
(2)主題分類。根據應用主題建立數據集,例如“消費特征主題”數據集包含了有消費數據的軌跡,屬性信息至少包括用戶標識、業務點、發生時間、消費額,以及維度明細數據包括用戶信息、活動信息、時間信息、消費額信息。
在數據庫軌跡基礎上,結合RFID 移動對象用戶行為可理解性和管理層管理應用需要,進行目的性的軌跡處理,可得到有價值的語義軌跡。
例如,對“消費特征主題”數據集的軌跡進行分析,了解學生校內消費行為模式。設時間閥值參數為1 天,得到存在學生1 天消費相關數據庫軌跡。以消費額區間分析,可知學生消費金額特征,如圖2 所示。學生平均日均消費7.95元,大部分學生日均消費集中在5—30元。

圖2 學生消費金額特征
進一步,要了解學生的超市消費特征。選取第二校區的超市業務點H,設置消費時間區間,其分時消費特征如表3所示。

表3 業務點H分時消費特征
可發現學生常在19:00—24:00 到超市消費。再分析與H 關聯的前后活動業務點軌跡,發現學生喜歡在食堂C、D和圖書館B 之后到超市H消費。因此,可給H 點標上“晚上消費頻繁”的語義標簽,此外從安全角度還可標上“晚上注意周邊擁擠”的標簽。上述語義分析對于學校后勤和學生管理部門,要注意控制校內物價水平;對保衛部門,要在晚上注意監控業務點周邊的交通擁擠情況,尤其是從圖書館到超市的道路;對業務點H,要提高晚上的供應質量和數量,同時也要分析消費額少的時間段情況,另外0:00—3:00還有消費額,是不符合學校管理規定的,所以業務點H要進行整改。
在人工智能時代,物聯網應用產生海量數據,挖掘知識輔助管理部門決策已成為常態。本文通過研究附帶RFID 標簽物體的軌跡數據生成方法,把單點軌跡轉為具有關聯特征的多點軌跡,并根據應用需求,生成有價值的語義軌跡,對下一步提取用戶行為特征知識,研究移動趨勢、移動行為、異常行為和移動對象之間的聯系等特征有重要作用。