



摘要:現(xiàn)有身份識別系統(tǒng)一般利用與目標身份密切關(guān)聯(lián)的數(shù)據(jù)進行分析和處理,這種方法雖然具有識別準確度高的優(yōu)點,但其數(shù)據(jù)獲取成本和算力成本普遍較高,不利于實現(xiàn)輕量化部署。文章提出一種基于弱相關(guān)數(shù)據(jù)的海員身份識別系統(tǒng),通過分析海員生理數(shù)據(jù)與海洋氣象數(shù)據(jù)的關(guān)聯(lián),建立弱相關(guān)數(shù)據(jù)與海員身份的映射關(guān)系,從而實現(xiàn)身份自動識別。由于系統(tǒng)使用弱相關(guān)數(shù)據(jù)且無須引入人工智能和大數(shù)據(jù)分析,因而具有低成本和易部署等優(yōu)點。
關(guān)鍵詞:數(shù)據(jù)分析;身份識別;弱相關(guān)數(shù)據(jù);用戶分析
中圖分類號:TP311 文獻標識碼:A
文章編號:1009-3044(2025)09-0005-04 開放科學(xué)(資源服務(wù)) 標識碼(OSID) :
0 引言
在數(shù)據(jù)分析領(lǐng)域,除了對已知目標進行數(shù)據(jù)收集和分析之外,對未知目標進行數(shù)據(jù)收集和處理同樣也是數(shù)據(jù)分析工作的重要組成部分。在某些應(yīng)用場景中,為了獲取既定對象或目標的相關(guān)信息,首先需要對目標或?qū)ο蟮纳矸菪畔⑦M行識別,即從海量人群中鎖定目標或者對象。因此,目標身份識別是整個數(shù)據(jù)分析和處理周期的首要環(huán)節(jié)。在實際應(yīng)用中,目標身份識別是數(shù)據(jù)分析和處理周期中的重要環(huán)節(jié),如商業(yè)領(lǐng)域廣泛應(yīng)用的用戶數(shù)據(jù)挖掘、用戶消費行為分析等。當前,基于人工智能和大數(shù)據(jù)分析技術(shù)的用戶信息分析已被廣泛應(yīng)用于電子商務(wù)[1]、電力[2]、網(wǎng)絡(luò)視頻[3]、網(wǎng)絡(luò)社交[4]等各個行業(yè)。特別是在電子商務(wù)領(lǐng)域,平臺App獲取大量的用戶消費或者行為數(shù)據(jù),并利用大數(shù)據(jù)分析對用戶的職業(yè)信息進行預(yù)測或判別,進而向用戶精準推送符合其職業(yè)特點的商品信息。目標身份信息包括職業(yè)信息、性別、年齡、身份證號碼、手機號碼等與目標密切相關(guān)的各類信息。目標身份識別已成為當前和未來互聯(lián)網(wǎng)產(chǎn)業(yè)領(lǐng)域的重要研究方向。各類數(shù)據(jù)實時更新、總量龐大,在處理海量多源異構(gòu)數(shù)據(jù)方面,人工智能具有先天優(yōu)勢,其憑借強大的數(shù)據(jù)分析優(yōu)勢,極大提升了數(shù)據(jù)收集、分析及生成新數(shù)據(jù)的能力,從而改變數(shù)據(jù)分析范式[5-6]。從某種意義上說,智能數(shù)據(jù)分析已成為各領(lǐng)域的重要發(fā)展趨勢之一[6-14]。然而,基于人工智能和大數(shù)據(jù)分析的目標身份識別系統(tǒng)存在著數(shù)據(jù)獲取成本高、存儲成本高、算力成本高以及系統(tǒng)研發(fā)和更新升級成本高等問題,限制了其廣泛應(yīng)用。
本文以海員為例,提出一種基于弱相關(guān)數(shù)據(jù)的身份識別系統(tǒng)。利用人體健康狀態(tài)預(yù)測技術(shù)[15],建立生理數(shù)據(jù)和氣象數(shù)據(jù)之間的關(guān)聯(lián),通過閾值判別實現(xiàn)人員身份自動識別。與基于人工智能和大數(shù)據(jù)分析實現(xiàn)的同類系統(tǒng)相比,該系統(tǒng)所需數(shù)據(jù)獲取難度更低,同時,對存儲和算力要求也更低,可實現(xiàn)輕量化部署。
1 弱相關(guān)數(shù)據(jù)
根據(jù)數(shù)據(jù)與目標的關(guān)聯(lián)度大小,可將數(shù)據(jù)分為強相關(guān)數(shù)據(jù)和弱相關(guān)數(shù)據(jù)。圖1所示為根據(jù)關(guān)聯(lián)度建立的數(shù)據(jù)模型,其中,數(shù)據(jù)分析目標處于中心位置,數(shù)據(jù)通過屬性與目標建立關(guān)聯(lián)。屬性與數(shù)據(jù)之間具有強弱兩種關(guān)聯(lián)度,虛線代表弱關(guān)聯(lián),實線代表強關(guān)聯(lián)。大部分數(shù)據(jù)分析系統(tǒng)都采用強相關(guān)數(shù)據(jù)進行分析處理,生成信息產(chǎn)品,如股票量化分析系統(tǒng)、消費者行為分析系統(tǒng)等。相對而言,弱相關(guān)數(shù)據(jù)表面上與分析目標并無直接或者顯性關(guān)聯(lián),如氣象數(shù)據(jù)相對于犯罪行為,運動軌跡相對于商品等,都呈現(xiàn)出弱關(guān)聯(lián)特性。但本質(zhì)上而言,只要建立起弱相關(guān)數(shù)據(jù)與分析目標(或者屬性) 之間的映射,便可實現(xiàn)目標分析的功能。
眾所周知,互聯(lián)網(wǎng)中存在著海量的視頻、圖像、文字等數(shù)據(jù),這些數(shù)據(jù)往往被數(shù)據(jù)分析系統(tǒng)(App) 采集,并用于用戶喜好分析,得到用戶的年齡階層、職業(yè)和興趣愛好等相關(guān)信息。隨著技術(shù)的不斷發(fā)展和數(shù)據(jù)獲取成本的不斷提高,越來越多看似無關(guān)的數(shù)據(jù)也開始被技術(shù)愛好者所重視,但這些數(shù)據(jù)與目標之間一般只存在著弱關(guān)聯(lián)關(guān)系,難以被發(fā)現(xiàn)且有效利用。
2 基于弱相關(guān)數(shù)據(jù)的海員身份識別系統(tǒng)
系統(tǒng)主要利用兩種弱相關(guān)數(shù)據(jù),即海員的心率數(shù)據(jù)和海洋天氣數(shù)據(jù),實現(xiàn)對海員身份自動識別。一般而言,心率數(shù)據(jù)和天氣數(shù)據(jù)與目標身份之間并無直接關(guān)聯(lián),因此,這兩種數(shù)據(jù)屬于弱相關(guān)數(shù)據(jù)的范疇。但進一步分析,海員工作具有一定的環(huán)境特殊性,這種特殊性必然在選定的數(shù)據(jù)集上顯現(xiàn)出一定的規(guī)律性。大量調(diào)查表明,海員與陸地工作人員在生理指標上具有一定差異。因此,只要建立起海洋天氣數(shù)據(jù)、海員心率數(shù)據(jù)與海員屬性的深層次關(guān)聯(lián),就能實現(xiàn)對海員的身份識別。
2.1 系統(tǒng)概述
系統(tǒng)主要包含數(shù)據(jù)采集、識別模塊和識別數(shù)據(jù)管理三個部分,部署在服務(wù)器端,其前臺客戶端主要用于跟用戶、服務(wù)器端交互,并進行數(shù)據(jù)顯示,這里不作詳細描述。如圖2所示,系統(tǒng)待處理的數(shù)據(jù)為心率數(shù)據(jù)和氣象數(shù)據(jù)。氣象數(shù)據(jù)為氣溫數(shù)據(jù),可從公開的氣象服務(wù)網(wǎng)站讀取。心率數(shù)據(jù)一般通過運動手環(huán)獲取。識別模塊對上述兩類數(shù)據(jù)進行處理,并通過特定的識別算法生成最終的識別結(jié)果。最后,識別結(jié)果被存入本地數(shù)據(jù)庫中,如圖2所示。系統(tǒng)還提供識別模式和訓(xùn)練模式兩種工作模式,當開關(guān)設(shè)置為ON時,系統(tǒng)將處于識別模式。反之,當開關(guān)設(shè)置為OFF時,系統(tǒng)將處于訓(xùn)練模式。在識別模式下,系統(tǒng)對監(jiān)測人員的心率數(shù)據(jù)和氣象數(shù)據(jù)進行關(guān)聯(lián)分析,實現(xiàn)對監(jiān)測人員的身份判別。在訓(xùn)練模式下,系統(tǒng)除了運行識別算法以外,還會將識別結(jié)果和樣本人員真實身份進行比對,并適時進行系統(tǒng)參數(shù)修正,以提高系統(tǒng)的識別準確率。
2.2 數(shù)據(jù)獲取
本系統(tǒng)只需采集每日最低氣溫、最高氣溫與實時氣溫等常規(guī)數(shù)據(jù),因此,可通過氣象服務(wù)網(wǎng)站提供的API接口獲取。心率數(shù)據(jù)則可通過運動手環(huán)進行采集,一般通過手環(huán)服務(wù)商提供的后臺接口進行讀取。系統(tǒng)選取心率數(shù)據(jù)和氣象數(shù)據(jù)作為數(shù)據(jù)來源,主要考慮以下兩個原因:一是海員常年在海上作業(yè),其某些生理指標必然不同于陸地工作人員,而心率數(shù)據(jù)作為人體最重要的生理指標之一,能夠全面反映個體的健康水平及患病風(fēng)險。同時,心率數(shù)據(jù)也是眾多生理指標中最容易獲取的指標,這種采集便利性既降低了數(shù)據(jù)獲取成本,又能節(jié)省算力資源。二是海員的生理狀態(tài)與海洋氣象密切相關(guān),海洋氣象的變換必然引起海員生理指標的波動,這種波動反映到海員的心率指標上,具有一定的規(guī)律性。
系統(tǒng)采集到原始的氣象數(shù)據(jù)和心率數(shù)據(jù)后,還將對其進行預(yù)處理,生成識別模塊所需的元數(shù)據(jù)。圖3描述了心率數(shù)據(jù)采集與預(yù)處理的基本流程。運動手環(huán)實時采集心率數(shù)據(jù),并將其存儲在運營商后臺數(shù)據(jù)庫中,本系統(tǒng)的前端負責從該數(shù)據(jù)庫中讀取心率數(shù)據(jù),并傳回本地數(shù)據(jù)庫。目前,部分手環(huán)運營商為開發(fā)者開放了手環(huán)數(shù)據(jù)的讀取接口,如華為手環(huán)。本地數(shù)據(jù)庫用于存儲從手環(huán)獲取的原始心率數(shù)據(jù) fH (x),其中,x代表時間。考慮到不同的應(yīng)用場景對識別精度的要求不一樣,因此,識別模塊對元數(shù)據(jù)的需求也不同。一般而言,為了提高識別精度,識別模塊需要不同時間顆粒度的心率數(shù)據(jù),如實時心率和日平均心率。在預(yù)處理過程中,需要對原始心率數(shù)據(jù)fH (x) 進行尺度變換,最終得到不同顆粒度的心率元數(shù)據(jù)fH (t),以滿足不同用戶群體的差異化需求。本文提供一種預(yù)處理的實現(xiàn)方式,當獲取到的原始數(shù)據(jù)fH (x)為監(jiān)測對象某日某時的實時數(shù)據(jù)時,預(yù)處理模塊首先從fH (x) 中提取出當日的最大值和最小值,并存儲到數(shù)據(jù)庫。然后,預(yù)處理模塊根據(jù)fH (x) 計算當日的心率平均值,并將此值作為某天的平均心率值賦給以天為單位的元數(shù)據(jù) fH (t)。以此類推,系統(tǒng)還可以根據(jù)不同應(yīng)用需求,生成5天、7天、15天和1個月等不同時間顆粒度的心率元數(shù)據(jù)fH (t)。
圖4描述的是氣象數(shù)據(jù)采集與預(yù)處理基本流程。系統(tǒng)通過氣象服務(wù)網(wǎng)站開放的API接口,從氣象網(wǎng)站獲取公開的每日氣溫數(shù)據(jù),并將其作為原始氣象數(shù)據(jù)存入本地數(shù)據(jù)庫中。然后,與心率數(shù)據(jù)的預(yù)處理類似,系統(tǒng)將對其進行均值化處理和尺度變換,生成不同時間尺度的氣象元數(shù)據(jù)函數(shù)fT (t),如實時氣溫、日平均氣溫、周平均氣溫等。