王超
(1.南京郵電大學信息化建設與管理辦公室,江蘇南京 210023;2.南京郵電大學智慧校園研究中心,江蘇南京 210023)
信息追溯廣泛應用于食品安全和生產經營[1-2],特別的,信息追溯可以在流調中搞明白在過去一定的時間段,重點人群的行動軌跡、遇到的人和發生的事[3-4]。有別于食品追溯[5]等,將獲知某人在過去一段時間內的行為軌跡定義為行為追溯。行為追溯數據獲取的難點有以下兩方面:一方面,一般情況下每個人完整的行為軌跡只有他自己知道,并且隨著時間的推移,記憶會逐漸模糊,長期不梳理會導致數據丟失或錯誤。另一方面,存儲在個人穿戴設備的行為軌跡信息也可能是部分的(如僅有位置信息沒有動作信息)、間斷的(有時未穿戴設備)、分散且難以集中獲取(多設備信息不互通也不能開放查詢)的等。在高校場景中對在校師生進行行為追溯雖然人員名單相對固定,但是數據采集設備多種多樣,人員管理分散,數據處理的專業水平參差不齊,具有一定的挑戰。
數據是行為追溯的基礎,為了提高追溯的準確性,需要從多個維度統計數據。過去,這些數據往往分散在不同的系統,然后分別導出表格,通過U盤、郵件、即時通信軟件等形式發給專人匯總進而進行查詢、分析和匯報。存在問題如下:一是數據實效性差,某一個環節不能及時發送數據會導致整體工作延期;二是數據安全性弱,數據文件在互聯網環節中常常不加密轉發,有時直接發在群里,對無關人員暴露,導致數據泄露;三是數據準確性不能保證,在處理數據的時候可能出現復制粘貼導致的數據缺失、重復、公式用錯等問題;四是數據質量不穩定,在表格填寫時,大小寫、空格、表格類型不一致都會給后期數據處理帶來不便。高校數據中臺作為智慧校園的重要組成部分,解決了數據分散、數據質量、數據安全等問題,有效支撐上層應用的建設。依托數據中臺的行為追溯,不僅可以支撐流調場景,還可以繪制師生畫像,高效地輔助學校精準決策。
本文介紹基于數據中臺的行為追溯系統設計與應用。首先,闡述行為追溯系統的基本原理和功能;然后,探究如何基于數據中臺構建行為追溯系統,并詳細介紹其設計流程、技術架構和實現方式;最后,將通過實際案例,闡述行為追溯系統在高校中的應用與價值,并對未來的發展方向做出展望。
行為追溯系統是一種能夠記錄參與者活動并提供分析反饋的軟件系統。其基本原理是從不同來源收集數據,將數據存儲到數據庫中,然后分析了解用戶行為和事件的關系。行為追溯系統可以拆分為數據輸入、存儲、流轉、處理、展示等幾個環節,如圖1所示,接下來將從具體環節入手進行設計。

圖1 行為追溯系統組成部分
數據輸入是整個系統最關鍵的環節,數據是一切的基礎。要做到數據輸入的自動化、智能化,讓使用者能夠方便快捷地錄入和管理數據。首先分析需要哪些數據,然后考慮數據輸入的形式。行為追溯的基本要素是人物和事件,區域內出現的人和事都是系統的關注對象。在高校場景中,首先需要統計一張完整的人員基本信息表,應至少包含學工號、姓名、性別、身份證號、手機號、學院等字段,不僅需要包括在冊的人員數據,臨時訪客更應重點關注。其次,事件信息包括門禁出入、刷卡消費、任教上課、監控抓拍等。把以上信息通過自動化手段或人工輸入的形式錄入到行為追溯系統,減輕重復性工作量,為工作帶來便利。
已經接入數據中臺的數據可以直接對接使用,以適宜的頻率定時同步,不能自動對接的數據,在行為追溯系統中設置錄入模塊,單條或者以文件模板的形式,由相應的管理員和負責人錄入并建立審核機制。
數據存儲時應優先保證多副本以不間斷提供高可用服務,最好定期備份在異地。系統應記錄數據的錄入時間、錄入人、修改時間、修改人等關鍵信息,記錄完整的數據修改日志,對數據存儲進行全流程監控防止數據丟失和篡改等。從中臺同步的數據應當優先在數據源中進行修改然后在行為追溯系統中進行同步,行為追溯系統中特有的數據也可同步至數據中臺供其他系統調用,此時數據中臺可承擔一部分數據備份的作用。
對于私有化存儲所在的服務器需要配置好網絡準入規則、定期修改密碼、接入安全設備管理。對于身份證號、位置信息和手機號等敏感數據進行加密存儲。縮小運維人員范圍、簽訂數據保密協議、建立健全數據庫審計,非必要不直接操作數據庫修改數據。隨著數據量的不斷增加,還要優化物理硬件和數據庫參數,保證數據查詢和存儲的效率。
數據流轉時要兼顧便捷性和安全性,為防止多個數據源造成數據口徑不一致,各單位都要統一在行為追溯系統取數據。建立非必要不下載的觀念,簡單的統計工作可以直接在系統內完成,如果下載,系統自動為文件加密,密碼在系統中經過多重的身份校驗后提取。
支持在系統中對數據集合創建快照然后生成分享鏈接,鏈接的查看權限可以指定到人或群組。分享鏈接設置有效期后自動失效,對于某些字段可以創建脫敏規則。在保證數據安全的情況下,極大提高數據流轉的效率和靈活性。
數據處理主要包括以下幾點:一是數據自動統計,預置一些常用的處理規則,并能夠自定義規則處理數據(SQL);二是數據匹配,批量數據匹配補全,類似于辦公軟件中的VLOOKUP公式;三是數據篩選,滿足多種條件如相等、不相等、包含、不包含。對于上述的數據處理工作可以編寫腳本并定時執行,然后自動發送郵件提醒結果。對于重要指標配置通知告警,及時關注數據變化。數據處理的主旨是讓數據管理員從重復的數據勞動中解放出來,讓重復性的操作自動化。
數據展示使用數據大屏展示一些關鍵指標,為決策提供數據支撐,要求能手動配置指標項和拖拽位置大小,定制展示主題顏色,更重要的是能授權哪些人看哪些大屏。基于數據中臺的數據展示可以展示數據的動態變化,對于展示的指標可以點擊下轉到詳細信息。
系統采用主流的SpringBoot編寫后端,React編寫前端,Postgres數據庫存儲結構化數據,結合手工行為追溯描述系統實現,模塊間數據流向如圖2所示。

圖2 行為追溯系統中數據流向示意圖(虛線表示可選的流向)
手工錄入通常以天為單位,管理員向各個數據提供者索要數據,然后整合到一張大表中。數據輸入基本依賴文件互傳和表格軟件內復制粘貼來實現。通常的做法是,首先按日期創建文件夾,然后把數據文件移入文件夾然后改名,以備查備份;接著準備一個新表格,將獲取的數據文件中的數據內容以無格式形式粘貼進來,進行手動去空格、去重、大小寫轉換等處理。數據采集的過程往往費時費力:一是,各數據提供者不能及時提供數據需要反復提醒催促;二是,數據提供者不夠細心、水平有限,不能按模板提供數據、格式混亂。并且,數據的輸入整理是重復性工作,有時也會出現疏漏造成數據不準。
行為追溯系統的數據錄入模塊需要解決上述問題,提供以下功能:
1)在線收集功能。對預先定義的群組內成員發放問卷快捷收集,保證數據收集輸入工作平穩、快捷、有序。
2)自動提醒功能。提前預設每天要收集的項目,分配好責任人、聯系方式、時間節點和通知規則,責任人需要在規定時間內按照要求上傳收集到的信息,否則會收到提醒信息。
3)自動檢測功能。對于責任人上傳文件的字段內容進行自動檢測,提醒上傳者哪些地方數據可能有異常,按照提示自行修改。
4)自動清洗功能。在錄入數據時進行校驗和清洗,如去空格、手機號格式校驗、身份證格式校驗、身份證最后一位X自動轉大寫等。導入數據時某些字段缺失的,如僅有身份證號,在系統中自動按人員基本信息表進行匹配補全。匹配不上且存在手機號的,電話溝通確認身份再由相關管理員補錄。實在不能確認身份的,則進行特殊標記,由相關責任人督辦查人。
5)單條錄入和批量導入功能。單條輸入時允許自動聯想和自動補全;多條導入時應準備好導入模板,提供導入預覽和導入確認環節。
6)移動端適配。數據輸入適配各種形式的網頁端,界面應當清晰明了,提供移動端適配方便隨時隨地錄入。
手工階段通常將各文件存儲在本地電腦,或將文件存儲在加密的云空間中,便于后續的分享。行為追溯系統為解決上述問題將數據集中存儲在高可用部署的結構化數據庫中,每天進行定時備份。
手工階段的數據流轉通常依賴即時通信軟件建群,在群內共享數據。要求每個人只能看到與自己相關的數據,但是群內共享導致數據的無關暴露,文件下載后還會存在本地有數據泄露的風險。此外,因為即時通信軟件本身的不嚴肅性,用戶可能會將群內軟件隨意分享給他人,毫無監控手段。進階的,可以使用遠程辦公軟件,建立加密團隊,為每個人每個文件夾設置操作權限,文件下載后只有自己的賬號能夠打開,方便快捷,極大地提高了安全性。
行為追溯系統的數據流轉模塊需要解決上述問題,也要提供遠程辦公軟件類似的功能,首先系統是限制白名單訪問的,對每一份數據建立權限控制模型,限制數據查看、編輯、移動、下載等行為。此外,行為追溯系統是私有化本地部署,數據不上云更加安全。
手工階段往往要處理多張表格,按照一定的規則整合起來,進行一系列公式、篩選最終得到需要的數據,然后進行決策。
行為追溯系統將重復操作組合成腳本,能夠一鍵運行和定時執行,配合數據展示模塊讓使用者對數據有宏觀和微觀的理解,強有力地支撐各項決策。
手工階段的數據展示包括定制化大屏或通用的數據展示大屏,前者只是單純的數據展示,后者能與數據聯動在頁面中數據下鉆。但是數據是分散的,數據展示前要先進行數據導入。
行為追溯系統天然地將所有數據整合起來,接入數據中臺,數據一旦變化能很快地刷新展示,通過自定義大屏展示內容,給大屏配置操作權限,使用起來靈活方便。
行為追溯系統使用范圍廣泛,可以支撐流調或繪制師生畫像。
1)流調。當行為追溯系統接入了門禁出入、刷卡消費、任教上課、監控抓拍、核酸明細等數據后,首先能夠根據重點人員名單查人員軌跡,然后根據軌跡中的重要地點和時間查附近時空出現的人員,滿足流調的一般場景。
2)師生畫像。行為追溯系統可以繪制每位師生的時空軌跡,統計出某人經常出入的場所,比如某個人經常出入圖書館,可以簡單判斷他是一個愛學習的人。此外,除了時空信息還可以記錄如消費種類和金額、借閱書籍詳情、逗留時間等進行進一步研究。
行為追溯系統的核心是數據的錄入、存儲、流轉、處理、展示,在這個數據為王的信息時代,只要收集到數據,在合法合規的前提下,更多的應用場景等待挖掘。
為解決行為追溯過程中的困難和不便,設計了基于數據中臺的行為追溯系統,針對數據的輸入、存儲、流轉、處理、展示等方面進行建設性優化,有效地簡化行為追溯復雜度,讓管理者從重復工作中解放出來,讓結果更加真實可信,給未來決策提供強有力的保證。本系統充分經過充分論證,能為其他領域設計行為追溯系統提供參考借鑒。