



摘要:現有身份識別系統一般利用與目標身份密切關聯的數據進行分析和處理,這種方法雖然具有識別準確度高的優點,但其數據獲取成本和算力成本普遍較高,不利于實現輕量化部署。文章提出一種基于弱相關數據的海員身份識別系統,通過分析海員生理數據與海洋氣象數據的關聯,建立弱相關數據與海員身份的映射關系,從而實現身份自動識別。由于系統使用弱相關數據且無須引入人工智能和大數據分析,因而具有低成本和易部署等優點。
關鍵詞:數據分析;身份識別;弱相關數據;用戶分析
中圖分類號:TP311 文獻標識碼:A
文章編號:1009-3044(2025)09-0005-04 開放科學(資源服務) 標識碼(OSID) :
0 引言
在數據分析領域,除了對已知目標進行數據收集和分析之外,對未知目標進行數據收集和處理同樣也是數據分析工作的重要組成部分。在某些應用場景中,為了獲取既定對象或目標的相關信息,首先需要對目標或對象的身份信息進行識別,即從海量人群中鎖定目標或者對象。因此,目標身份識別是整個數據分析和處理周期的首要環節。在實際應用中,目標身份識別是數據分析和處理周期中的重要環節,如商業領域廣泛應用的用戶數據挖掘、用戶消費行為分析等。當前,基于人工智能和大數據分析技術的用戶信息分析已被廣泛應用于電子商務[1]、電力[2]、網絡視頻[3]、網絡社交[4]等各個行業。特別是在電子商務領域,平臺App獲取大量的用戶消費或者行為數據,并利用大數據分析對用戶的職業信息進行預測或判別,進而向用戶精準推送符合其職業特點的商品信息。目標身份信息包括職業信息、性別、年齡、身份證號碼、手機號碼等與目標密切相關的各類信息。目標身份識別已成為當前和未來互聯網產業領域的重要研究方向。各類數據實時更新、總量龐大,在處理海量多源異構數據方面,人工智能具有先天優勢,其憑借強大的數據分析優勢,極大提升了數據收集、分析及生成新數據的能力,從而改變數據分析范式[5-6]。從某種意義上說,智能數據分析已成為各領域的重要發展趨勢之一[6-14]。然而,基于人工智能和大數據分析的目標身份識別系統存在著數據獲取成本高、存儲成本高、算力成本高以及系統研發和更新升級成本高等問題,限制了其廣泛應用。
本文以海員為例,提出一種基于弱相關數據的身份識別系統。利用人體健康狀態預測技術[15],建立生理數據和氣象數據之間的關聯,通過閾值判別實現人員身份自動識別。與基于人工智能和大數據分析實現的同類系統相比,該系統所需數據獲取難度更低,同時,對存儲和算力要求也更低,可實現輕量化部署。
1 弱相關數據
根據數據與目標的關聯度大小,可將數據分為強相關數據和弱相關數據。圖1所示為根據關聯度建立的數據模型,其中,數據分析目標處于中心位置,數據通過屬性與目標建立關聯。屬性與數據之間具有強弱兩種關聯度,虛線代表弱關聯,實線代表強關聯。大部分數據分析系統都采用強相關數據進行分析處理,生成信息產品,如股票量化分析系統、消費者行為分析系統等。相對而言,弱相關數據表面上與分析目標并無直接或者顯性關聯,如氣象數據相對于犯罪行為,運動軌跡相對于商品等,都呈現出弱關聯特性。但本質上而言,只要建立起弱相關數據與分析目標(或者屬性) 之間的映射,便可實現目標分析的功能。
眾所周知,互聯網中存在著海量的視頻、圖像、文字等數據,這些數據往往被數據分析系統(App) 采集,并用于用戶喜好分析,得到用戶的年齡階層、職業和興趣愛好等相關信息。隨著技術的不斷發展和數據獲取成本的不斷提高,越來越多看似無關的數據也開始被技術愛好者所重視,但這些數據與目標之間一般只存在著弱關聯關系,難以被發現且有效利用。
2 基于弱相關數據的海員身份識別系統
系統主要利用兩種弱相關數據,即海員的心率數據和海洋天氣數據,實現對海員身份自動識別。一般而言,心率數據和天氣數據與目標身份之間并無直接關聯,因此,這兩種數據屬于弱相關數據的范疇。但進一步分析,海員工作具有一定的環境特殊性,這種特殊性必然在選定的數據集上顯現出一定的規律性。大量調查表明,海員與陸地工作人員在生理指標上具有一定差異。因此,只要建立起海洋天氣數據、海員心率數據與海員屬性的深層次關聯,就能實現對海員的身份識別。
2.1 系統概述
系統主要包含數據采集、識別模塊和識別數據管理三個部分,部署在服務器端,其前臺客戶端主要用于跟用戶、服務器端交互,并進行數據顯示,這里不作詳細描述。如圖2所示,系統待處理的數據為心率數據和氣象數據。氣象數據為氣溫數據,可從公開的氣象服務網站讀取。心率數據一般通過運動手環獲取。識別模塊對上述兩類數據進行處理,并通過特定的識別算法生成最終的識別結果。最后,識別結果被存入本地數據庫中,如圖2所示。系統還提供識別模式和訓練模式兩種工作模式,當開關設置為ON時,系統將處于識別模式。反之,當開關設置為OFF時,系統將處于訓練模式。在識別模式下,系統對監測人員的心率數據和氣象數據進行關聯分析,實現對監測人員的身份判別。在訓練模式下,系統除了運行識別算法以外,還會將識別結果和樣本人員真實身份進行比對,并適時進行系統參數修正,以提高系統的識別準確率。
2.2 數據獲取
本系統只需采集每日最低氣溫、最高氣溫與實時氣溫等常規數據,因此,可通過氣象服務網站提供的API接口獲取。心率數據則可通過運動手環進行采集,一般通過手環服務商提供的后臺接口進行讀取。系統選取心率數據和氣象數據作為數據來源,主要考慮以下兩個原因:一是海員常年在海上作業,其某些生理指標必然不同于陸地工作人員,而心率數據作為人體最重要的生理指標之一,能夠全面反映個體的健康水平及患病風險。同時,心率數據也是眾多生理指標中最容易獲取的指標,這種采集便利性既降低了數據獲取成本,又能節省算力資源。二是海員的生理狀態與海洋氣象密切相關,海洋氣象的變換必然引起海員生理指標的波動,這種波動反映到海員的心率指標上,具有一定的規律性。
系統采集到原始的氣象數據和心率數據后,還將對其進行預處理,生成識別模塊所需的元數據。圖3描述了心率數據采集與預處理的基本流程。運動手環實時采集心率數據,并將其存儲在運營商后臺數據庫中,本系統的前端負責從該數據庫中讀取心率數據,并傳回本地數據庫。目前,部分手環運營商為開發者開放了手環數據的讀取接口,如華為手環。本地數據庫用于存儲從手環獲取的原始心率數據 fH (x),其中,x代表時間??紤]到不同的應用場景對識別精度的要求不一樣,因此,識別模塊對元數據的需求也不同。一般而言,為了提高識別精度,識別模塊需要不同時間顆粒度的心率數據,如實時心率和日平均心率。在預處理過程中,需要對原始心率數據fH (x) 進行尺度變換,最終得到不同顆粒度的心率元數據fH (t),以滿足不同用戶群體的差異化需求。本文提供一種預處理的實現方式,當獲取到的原始數據fH (x)為監測對象某日某時的實時數據時,預處理模塊首先從fH (x) 中提取出當日的最大值和最小值,并存儲到數據庫。然后,預處理模塊根據fH (x) 計算當日的心率平均值,并將此值作為某天的平均心率值賦給以天為單位的元數據 fH (t)。以此類推,系統還可以根據不同應用需求,生成5天、7天、15天和1個月等不同時間顆粒度的心率元數據fH (t)。
圖4描述的是氣象數據采集與預處理基本流程。系統通過氣象服務網站開放的API接口,從氣象網站獲取公開的每日氣溫數據,并將其作為原始氣象數據存入本地數據庫中。然后,與心率數據的預處理類似,系統將對其進行均值化處理和尺度變換,生成不同時間尺度的氣象元數據函數fT (t),如實時氣溫、日平均氣溫、周平均氣溫等。