李建勛 馬美玲 郭建華 嚴峻



摘 要:針對符合一定數據模式或規律的虛假數據識別問題,提出一種基于隨機性分析的虛假趨勢時間序列判別方法。該方法在分析時間序列組成的基礎上,首先探索虛假趨勢時間序列的簡單偽造和復雜偽造方式,并將其分解為虛假趨勢和虛假隨機兩部分;然后通過基函數逼近進行時間序列虛假趨勢部分的提取,采用隨機性理論開展虛假隨機部分的分析;最終借助單比特頻數和塊內頻數對虛假隨機部分是否具備隨機性進行檢測,為具有一定趨勢特征的虛假時間序列的判別提供了一個解決方案。實驗結果表明:該方法能夠有效地分解虛假時間序列和提取虛假趨勢部分,實現簡單偽造數據和復雜偽造數據的判別,支持對通過觀測手段或者檢測設備所獲取的數值型數據的真偽分析,進一步提高了虛假數據可判別范圍,平均判別正確率可達74.7%。
關鍵詞:虛假數據;時間序列;趨勢性;隨機性分析;基函數
中圖分類號:TP399
文獻標志碼:A
Abstract:? Focusing on the detection problem of false data that conform to a certain pattern or rule, a false trend time series detection method? based on randomness analysis was proposed. Based on the analysis of time series composition, firstly the simple forgery method and complex forgery method of false trend time series were explored, and decomposed into two parts: false trendness and false randomness. Then the false trend of time series was extracted by the approximation of base function, the false random of time series was analyzed with the randomness theory. Finally, monobit frequency and frequency within a block were adopted to test whether the false random part has randomness, which established a detection method of false time series with a certain trend feature. The simulation results show that proposed method can decompose the false time series and extract the false trend part effectively, meanwhile realize thedetectionof simple and complex forged data. It also supports the authenticity analysis for the numerical data obtained by means of observation or monitoring equipment, which improves the discrimination range of false data with average detection accuracy of 74.7%.Key words:? false data; time series; trend; randomness analysis; base function
0 引言
虛假數據是為了達到一種預期目標而人工偽造的帶有一定虛假價值的數據,它的存在嚴重影響了數據分析結果,并給數據處理、信息安全、資源利用、控制決策等工作帶來了巨大威脅。隨著大數據時代的到來,信息資源的利用頻率急劇增長,虛假數據分析作為改善數據質量、提高管控能力、增強安全性、提升數據價值的關鍵環節愈來愈被人們所重視,眾多學者更是從網絡服務、控制系統、多媒體信息等視角開展了虛假數據識別的研究。在網絡服務方面,已有大量文獻探討了虛假評論、虛假消息、虛假賬戶等問題,典型的有:王琢等[1]基于評論圖的虛假評論人檢測方法,李雨橋等[2]利用社交圖譜的虛假評論識別方法,以及Xiao等[3]的在線社會網絡虛假賬戶檢測方法。考慮到無法通過先驗知識有效識別虛假評論,任亞峰等[4]采用狄利克雷過程混合模型和多核學習算法提高了真假數據的分類能力。段大高等[5]還提出了一種決策樹方案,提高了微博虛假消息檢測的準確率。針對虛假新聞,Shu等[6]開展了在線媒體大數據的分析工作,并利用數據挖掘構建了社會媒體中虛假新聞的檢測方案。另外,Singh等[7]還利用機器學習方法實現了在線社會網絡虛假資料的識別。此類研究分別從特征設計、模型方法、數據集、評級指標等方面,良好地解決了虛假評論文本、虛假評論發布者及虛假評論群組的分析與辨別問題[8]。在控制系統方面,相關研究主要是針對傳感器網絡和電力系統中的攻擊性虛假數據的檢測與處理,如李素君等[9]提出的傳感器中魯棒性虛假數據識別與過濾方案,曹燕華等[10]基于信任管理的虛假數據檢測方案。考慮到協作偽造的檢測難度,劉志雄等[11]提出了一種基于雙重認證和位置關系校驗的虛假數據過濾策略。聚焦于電力系統的穩定性,Ashok等[12]則給出了電力系統中虛假生物特征的檢測方法。另外,Khalaf等[13]還面向自動控制系統建立了基于卡爾曼濾波器的虛假數據注入檢測算法。在多媒體信息方面,針對于空間軌跡信息處理,楊斌等[14]探索了基于聚類思想的虛假軌跡分析方法。在圖像信息上,Vigneshwaran等[15]則給出了一種基于支持向量機(Support Vector Machine,SVM)的虛假圖像檢測體系。另外,操文成[16]面向語音數據,設計了一種以峰度統計矩陣為基礎的語音音調篡改盲檢測算法。除此而外,Galbally等[17-18]研究了應用于虹膜、指紋等虛假生物特征的檢測方法,給出了面向服務系統安全的虛假數據判別方案。
綜上所述,經過多年的研究,人們已經充分認識了虛假數據的產生機理,并從數據模型、數據應用、數據安全等視角分析了虛假數據特征,建立了多種類、多場景的虛假數據判別方案。然而,此類研究的重點是探索特定應用環境、安全需求和處理目標的虛假數據識別、過濾、分析等問題,缺乏對符合一定數據模式或規律的虛假數據的研究,僅有部分學者采用數理統計、語義模型、特征提取、變換域分析等開展了部分研究工作,對于通過觀測手段或者檢測設備所獲取的數值型數據的討論則更為匱乏。此類數據通常表現為具有一般性的趨勢性時間序列,為了有效甄別其真偽,本文在虛假趨勢時間序列的虛假趨勢和虛假隨機分解的基礎上,利用隨機性檢測,構建了一個虛假趨勢時間序列的判別方法,支撐了相關數據偽造行為的甄別以及數據質量的提升。
1 虛假趨勢時間序列分析
時間序列是按照時間順序記錄的社會經濟、自然現象的數量指標,其數值隨時間發展變化,起伏不定,具備某種趨勢。通常時間序列可表示為x*t(t=0,1,…,n),并由長期趨勢量d*、季節變動量s*、周期變動量c*、隨機變動量r*四個部分構成,亦即x*t= f(d*t,s*t,c*t,r*t),t=0,1,…,n,并可分解為x*t=d*t+s*t+c*t+r*t。當被測對象依時間變化呈現某種上升或下降態勢,且沒有明顯的季節波動、周期變動時,時間序列簡化為一種趨勢時間序列x*t=d*t+r*t,此時可構造一個合適的函數曲線反映這種變化趨勢。虛假趨勢時間序列則是指為了到達商業欺詐、掩蓋事實等目的,由不誠信者在已知歷史數據資料基礎上偽造的趨勢時間序列,以實現惡意的利益訴求。虛假趨勢時間序列類似趨勢時間序列,也包含長期趨勢量和隨機變動量兩部分,但這兩部分中至少一部分是虛假的。對虛假趨勢時間序列進行分析,就是探索該虛假序列的長期趨勢量和隨機變動量的構建動機和方法,以便通過相應檢測手段予以甄別。
虛假趨勢時間序列并不是觀測得到的真實數據,而通常由偽造者按照某一企圖而構建。為了便于區分不同偽造能力,此處將偽造者分為簡單偽造者和復雜偽造者兩類。其中,簡單偽造者大多對照歷史數據憑借個人經驗以及預期目標估計出一系列虛假數值xt。受限于人工的編制效率和構造能力,一般來說序列xt僅部分含有虛假隨機成分rt,因此主要體現為對虛假趨勢時間序列中隨機變動量的一種簡單偽造。而復雜偽造者則運用程序算法按照預期目標構造一個虛假趨勢dt,然后再按照隨機生成規則構造虛假隨機rt,并將其疊加到dt上,因此體現為對虛假趨勢時間序列中長期趨勢量和隨機變動量兩部分的復雜偽造。如圖1所示,依照來自美國加州米克斯灣(Meeks Bay;經緯度-120.11,39.05;編號:10336645)水質數據庫的水溫真實序列圖1(a),手工給出偽造目標趨勢的關鍵點位并進行樣條插值獲得一個虛假趨勢圖1(b),然后將均勻分布的隨機數據疊加到該虛假趨勢上,最后為了增強虛假數據的逼真性,對圖1(c)手工調整獲得最終偽造序列如圖1(d)。
無論是簡單偽造者還是復雜偽造者,其目標均是按照惡意預期構造一個xt=dt+rt來虛假表示真值x*t。然而由于真值通常未知或被隱藏,故而只能通過構成虛假趨勢時間序列xt的虛假趨勢dt和虛假隨機rt兩部分加以分析:
1)虛假趨勢。虛假趨勢dt是虛假趨勢時間序列中的長期趨勢量部分。它是由偽造者參考歷史數據、背景信息、經驗估算、推演分析等,按照預期目標建立且類似于真實的序列。通常在未知d*t的情況下難以辨別真偽,而只有在虛假序列出現違背常理、突發跳躍等時可通過M-K等突變檢測加以判別,或者在特定滑動窗口下通過與歷史數據之間的相似性分析來加以初判,因此采用虛假趨勢甄別序列的真偽并不具有代表性。
2)虛假隨機。虛假隨機rt是虛假趨勢時間序列中的隨機變動量部分。通常,自然的數據序列受到觀測手段、周邊環境等多種因素影響勢必帶有以誤差為主要特征的隨機信息,它也體現為被測數據量受到各種偶然因素影響而呈現出方向不定、時起時伏、時大時小的變動。簡單偽造者往往通過簡單推理計算、數值估計形成帶有部分虛假隨機特性的虛假趨勢時間序列xt,由于其隨機變動量部分偽造方法過于簡單,難以滿足自然的隨機特征,故可以通過隨機性檢測來判別真偽。而對于復雜偽造者而言,雖然可以通過各種算法構造出滿足隨機規律的rt,但將其疊加到dt后就必然導致了數據量的改變,原本的趨勢性受到rt的影響在部分時刻將無法保證預期目標,或呈現出不符合偽造者意圖的起伏變化,因此需要對疊加后的序列進行手工調整,然而這種調整卻往往會打破序列的隨機性,故而可以通過分析該部分的隨機性檢測來判別趨勢時間序列的真偽。
2 趨勢時間序列的趨勢抽取
考慮到虛假趨勢難以識別,而虛假隨機又融合在虛假趨勢內形成虛假序列,可見判別虛假趨勢時間序列的首要工作便是從假定存在虛假數據的xt=dt+rt中,剔除趨勢性部分dt。如果從數據觀測角度來看,趨勢時間序列由具有趨勢變化的真值部分和誤差部分構成,而真值和誤差恰好分別對應序列的趨勢部分和隨機部分。因此對于虛假序列來說,一個可行的抽取方案是探尋能夠表征xt趨勢的逼近函數ψ(t),讓ψ(t)最大限度地符合虛假趨勢數據dt,而剩余的誤差部分xt-ψ(t)則作為序列中的隨機量。為了增強逼近效果、減少時間t自然增長對數據分析的干擾,首先采用Min-Max標準化方法(t-tmin)/(tmax-tmin)將t標準化至區間[0,1],而xt的標號t保持不變,然后給定線性無關基函數集合Θ=span{ψ0(t),ψ1(t),…,ψm(t)},對于虛假趨勢時間序列xt若獲得一個由基函數和待定系數b^0,b^1,…,b^m所構成的線性組合(t)=b^0ψ0(t)+b^1ψ1(t)+…+b^mψm(t),使得(t)滿足∑nt=0((t)-xt)2=minx(t)∈Θ∑nt=0(x(t)-xt)2,則稱(t)為曲線簇Θ上序列xt的最佳趨勢。此處,待定系數b^0,b^1,…,b^m可通過多元函數J(b0,b1,…,bm)=∑nt=0(x(t)-xt)2的最小值求得。令b^=(b^0,b^1,…,b^m)T,=(x0,x1,…,xn)T,按照極值必要條件J(b0,b1,…,bm)bi=0(i=0,1,…,m),則可以得到:
3 虛假隨機數據的真偽判別
真實序列的隨機部分是隨著偶然因素影響而改變的隨機過程,或者在測量、觀察過程中因某些不可控制因素影響而造成的變化,具備明顯的隨機特征。虛假隨機則是由人工編制結合程序算法構造,不完全具有隨機特征。另外,考慮到對于一個隨機事件可以探討其可能出現的概率來反映該事件發生可能性大小,因此要檢測趨勢時間序列的真偽,則只需要檢查序列的隨機部分是否符合隨機性要求。此處,借助隨機性檢測最為常用的單比特頻數檢測和塊內頻數檢測作為虛假趨勢時間序列的判別方案。通過單比特頻數檢測確保隨機部分rt中0、1比特的數量大致相同,通過塊內頻數檢測確保將隨機部分rt分組長度為k的子序列中1所占的比例接近于整體的1/2。頻數測試是隨機性分析的基礎方法,應首先進行。
4 實驗與分析
為了驗證本文方法的有效性和實用性,使用來自USGS(U.S. Geological Survey)[19] 美國加州2016年10月9日至2018年10月9日的水質數據作為參考開展分析。選擇該區域內3108個測站中信息資源豐富的513個測站,從中提取測站名、測站編號、測站地理位置等基本信息,以及與水質相關的水溫、電導率、 pH值、硝酸鹽、總磷、鐵、懸浮物、渾濁度、溶解氧、氯化物、輸沙量、葉綠素等12項觀測量,共計66081條數據記錄,數據采集時間間隔為24h。為了避免人為因素導致的分析誤差,虛假數據依靠實測數據進行編制。編制時,采用簡單偽造和復雜偽造兩種方案,即模擬簡單偽造者和復雜偽造者兩種來構建虛假趨勢時間序列。其中:簡單偽造根據歷史數據資料、預期目標、個人經驗直接編制出每個時刻的數據值;而復雜偽造則首先給出符合預期目標的關鍵數據點位,繪制出趨勢曲線,然后通過計算機模擬產生幅度在10%歷史數據最大值范圍內的隨機數據,并將其疊加到趨勢曲線上,最后手動調整各數據點位使之呈現出逼真于歷史數據的曲線過程。為了便于描述,本文將通過簡單偽造和復雜偽造兩種方案構建的虛假趨勢時間序列分別簡稱為簡單偽造序列和復雜偽造序列,在其上開展實驗如下。
1)以加州波特維爾測站(Porterville,經緯度:-118.65,36.05,編號:11203580)的電導率數據為基礎,在2018年4月25日— 9月20日之間產生n=149個數據點,形成復雜偽造序列。該時間段實測數據如圖2(a)所示,偽造數據預期目標與實測數據相同,即虛假序列的趨勢沿用實測序列,偽造隨機部分使用計算機產生10%幅度內的均勻分布隨機數,將該隨機部分疊加到趨勢部分并進行人工調整后得到虛假序列如圖2(b)所示。令基函數表示為Θ=span{1,t,t2,…,t149},采用式(1)
進行虛假趨勢提取得到待定系數{b^0,b^1,…,b^149}如表1所示(未給出的b^i值為0),繪制虛假趨勢部分曲線如圖2(c)所示,與圖2(b)比較可見其有效地表征了原本數據的趨勢部分,剔除虛假趨勢后得到虛假隨機部分如圖2(d)所示。觀察曲線可知該部分并無趨勢規則,似乎符合一定隨機特征,其隨機部分處于[-5.266,5.964]范圍內,均值為5.290×10-5。令k=20,α=0.1,得到h=7,根據式(3)、(4)求得V1=1.7204, p1-value=0.085,V2=2.600, p2-value=0.081,可見p1-value和p2-value均小于α=0.1,因此未通過測試,故而判斷為虛假數據,這說明本文方法能夠有效識別虛假趨勢時間序列。
2)依照美國加利福尼亞州區域的513個水質測站數據,簡單偽造序列500組,復雜偽造序列1000組。
分別對每組數據采用本文方法進行測試,獲得結果如表2所示。判斷簡單偽造序列的正確率為81.8%,而對于復雜偽造序列而言則為71.2%。綜合兩種序列其整體判斷正確率為74.7%。由此可見,本文方法在判斷人工根據預期目標構造的趨勢時間序列時具有相對更高的準確率,而對復雜偽造序列判斷正確率較弱,這是復雜偽造者為了增強序列的隨機性而使用了模擬算法生成一定分布隨機數據的緣故。
5 結語
虛假數據的檢測與分析一直在改善數據質量、提高系統能力、保障信息安全等方面占據重要地位,并隨著大數據技術的不斷發展和數據資源使用頻率的增加,成為了信息技術領域的研究熱點。為了實現對具有一定趨勢性特征的虛假時間序列的判別,本文在探討虛假趨勢時間序列構成的基礎上,給出了一個采用基函數逼近的虛假序列分解方案,將其劃分為虛假趨勢和虛假隨機兩部分,并采用隨機性分析對虛假隨機部分加以檢測,形成了虛假趨勢時間序列的判別方法。實驗結果表明,該方法能夠有效地檢測出簡單偽造序列和復雜偽造序列,判別正確率分別為81.8%和71.2%。考慮到復雜偽造序列往往和歷史數據之間關系密切,因此下一步的工作任務主要是嘗試增加相似性分析,進一步提高虛假趨勢提取精度,進而提升判別正確率。
參考文獻(References)
[1] 王琢, 李準, 徐野, 等. 基于評論圖的虛假產品評論人的檢測[J]. 計算機科學, 2014, 41(10): 295-299, 305. (WANG Z, LI Z, XU Y, et al. Detecting product review spammers based on review graphs[J]. Computer Science, 2014, 41(10): 295-299, 305.)
[2] 李雨橋, 符紅光. 基于社交圖譜模型的虛假評論識別[J]. 計算機應用, 2014, 34(S2): 151-153. (LI Y Q, FU H G. Fake comments recognition based on social network graph model[J]. Journal of Computer Applications, 2014, 34(S2): 151-153.)
[3] XIAO C, FREEMAN D M, HWA T. Detecting clusters of fake accounts in online social networks[C]// Proceedings of the 8th ACM Workshop on Artificial Intelligence and Security. New York: ACM, 2015: 91-101.
[4] 任亞峰, 姬東鴻, 張紅斌, 等. 基于PU學習算法的虛假評論識別研究[J]. 計算機研究與發展, 2015, 52(3): 639-648. (REN Y F, JI D H, ZHANG H B, et al. Deceptive reviews detection based on positive and unlabeled learning[J]. Journal of Computer Research and Development, 2015, 52(3): 639-648.)
[5] 段大高, 蓋新新, 韓忠明, 等. 基于梯度提升決策樹的微博虛假消息檢測[J]. 計算機應用, 2018, 38(2): 410-414. (DUAN D G, GAI X X, HAN Z M, et al. Micro-blog misinformation detection based on gradient boost decision tree[J]. Journal of Computer Applications, 2018, 38(2): 410-414.)
[6] SHU K, SLIVA A, WANG S, et al. Fake news detection on social media: a data mining perspective[J]. ACM SIGKDD Explorations Newsletter, 2017, 19(1): 22-36.
[7] SINGH N, SHARMA T, THAKRAL A, et al. Detection of fake profile in online social networks using machine learning[C]// Proceedings of the 2018 International Conference on Advances in Computing and Communication Engineering. Piscataway: IEEE, 2018: 231-234.
[8] 李璐旸, 秦兵, 劉挺. 虛假評論檢測研究綜述[J]. 計算機學報, 2018, 41(4): 946-968. (LI L Y, QIN B, LIU T. Survey on fake review detection research[J]. Chinese Journal of Computers, 2018, 41(4): 946-968.)
[9] 李素君, 周波清, 羊四清. 傳感器網絡中魯棒性虛假數據過濾方案[J]. 計算機工程與應用, 2012, 48(35): 67-70, 232. (LI S J, ZHOU B Q, YANG S Q. Robust filtering false data scheme in sensor networks[J]. Computer Engineering and Applications, 2012, 48(35): 67-70, 232.)
[10] 曹燕華, 章志明, 余敏. 基于信任管理機制的無線傳感器網絡虛假數據過濾方案[J]. 計算機應用, 2014, 34(6): 1567-1572. (CAO Y H, ZHANG Z M, YU M. False data filtering scheme based on trust management mechanism in wireless sensor networks[J]. Journal of Computer Applications, 2014, 34(6): 1567-1572.)
[11] 劉志雄, 黎梨苗. 傳感器網絡中一種基于雙重認證的虛假數據過濾方案[J]. 小型微型計算機系統, 2018, 39(6): 1276-1280. (LIU Z X, LI L M. Dual authentication based false report filtering in sensor networks[J]. Journal of Chinese Computer Systems, 2018, 39(6): 1276-1280.)
[12] ASHOK A, GOVINDARASU M, AJJARAPU V. Online detection of stealthy false data injection attacks in power system state estimation[J]. IEEE Transactions on Smart Grid, 2018, 9(3): 1636-1646.
[13] KHALAF M, YOUSSEF A, EL-SAADANY E. Detection of false data injection in automatic generation control systems using Kalman filter[C]// Proceedings of the 2007 IEEE Electrical Power and Energy Conference. Piscataway: IEEE, 2017: 1-6.
[14] 楊斌, 陸余良, 楊國正, 等. 一種基于聚類的路徑偽造檢測方法[J]. 計算機科學, 2014, 41(8): 158-163. (YANG B, LU Y L, YANG G Z, et al, Path forging detection approach based on aggregation[J]. Computer Science, 2014, 41(8): 158-163.)
[15] VIGNESHWARAN S, SURESH M, MEENAKUMARI R. An SVM based statistical image quality assessment for fake biometric detection[J]. International Journal for Trends in Engineering & Technology, 2015, 4(1): 5-12.
[16] 操文成. 語音偽造盲檢測技術研究[D]. 成都: 西南交通大學, 2017: 1-38. (CAO W C. Research on blind speech forgery detection technology[D]. Chengdu: Southwest Jiaotong University, 2017: 1-38.)
[17] GALBALLY J, MARCEL S, FIERREZ J. Image quality assessment for fake biometric detection: application to iris, fingerprint, and face recognition[J]. IEEE Transactions on Image Processing, 2014, 23(2): 710-724.
[18] KULKARNI N A, SANKPAL L J. Efficient approach determination for fake biometric detection[C]// Proceedings of the 2017 International Conference on Computing, Communication, Control and Automation. Piscataway: IEEE, 2017: 1-4.
[19] USGS water data support team. USGS water data for the nation help [EB/OL]. [2018-10-9]. https://www.usgs.gov/ products/ data-and-tools/ real-time-dat.