陳昊
摘要:當前我國科學技術研究力度正在不斷加大,其中數據發(fā)掘技術也得到了更加廣闊的發(fā)展空間,在保證書數據結果精準的同時,還要保證隱私安全。本文將從數據挖掘技術發(fā)展概述出發(fā),分析其中信息數據預處理、關聯規(guī)則技術、互聯網行為預測、聚類分析、網絡行為分類等技術,給數據的高效處理提供理論幫助。
關鍵詞:隱私保護;數據挖掘;信息技術
引言:面向隱私保護的數據挖掘技術衍生出來的根本原因是由于網絡活動行為多樣性使得數據運行環(huán)境更加復雜,政府、企業(yè)想要實現運營決策時的大量數據分析就必然需要挖掘出對應原始數據,此類數據中往往會涵蓋很多私密性較強的內容,因此需要融合隱私保護理念,此類技術涉及到多種算法,需要逐一分析。
一、數據挖掘技術發(fā)展概述
新形勢下的數據挖掘技術通常被稱作“數據采礦”,應用時的根本原理就是利用某種或多種制定計算方法,在龐大網絡數據庫中檢索出目標信息,且檢索范圍包括很多很多隱藏數據。技術人員在研究此類算法時,首先從統(tǒng)計學角度來實現對數據信息的模擬檢驗以及預計估計,保證數據庫中隱藏的信息咨詢的蹤跡能被查詢,實現隱藏的數據信息進行檢驗、分類。然后運用當前較為成熟的人工智能識別系統(tǒng)以及網絡計算機自動化學習的聯合計算方法,對已有數據樣本采取模擬、分析、優(yōu)化,最終掌握目標資料。數據采礦技術已經隨著時代發(fā)展進程的加快變得越來越全面,應用也更加深入。從個人隱私保護以及信息泄露角度來看,在進行數據挖掘的同時,信息安全也承受著巨大的風險,因此當前一種將隱私保護定義為基本理念的數據挖掘技術正在推出。
二、面向隱私保護的數據挖掘技術分析
(一)信息數據預處理
當前我國研究的信息數據預處理技術主要是利用Apriori技術原理,構建出一種面向隱私保護的數據預處理方法,該方法能夠進一步解決數據源頭不信任挖掘請求問題。其功能性、綜合型都有了更加全面的設計,當前數據采礦技術的預處理功能涉及到:信息集成、數據整合、痕跡清除、數據處理流程簡化以及數據精煉。預處理的概念源自與“概念樹”中的精煉數據法、知識發(fā)現、統(tǒng)計分析等屬性篩選以及遺傳計算手段。其處理方式與傳統(tǒng)模式的區(qū)別在于:傳統(tǒng)數據管理體制中的數據預處理操作無法做到對不精確信息采取整合、清理、轉換等處理,數據質量得不到保障。而當前這種面向與隱私保護領域的數據預處理可以做到將高精準度的信息或準確信息進一步轉化為模糊化數據后再進行識別、處理、整合。
(二)關聯規(guī)則技術
在運行面向隱私保護的關聯規(guī)則算法時,傳統(tǒng)形式中的apriori算法無法實現直接應用。因此想要在大數據時代中提高處理效率,技術人員還需要對相關內容進行優(yōu)化。實際上Apriori算法運行環(huán)節(jié)較多,且內容復雜,需要借助并融合剪枝算法的優(yōu)勢。同時還可以把離散和連續(xù)等多種類型的數據設計理念應用在關聯規(guī)則算法構建中,從離散化方法、統(tǒng)計學方法等角度去展開關聯規(guī)則技術的研究。
(三)互聯網行為預測
經濟社會的發(fā)展推動著計算機信息技術的日漸成熟,新形勢下人類生活已經可以實現在虛擬化的網絡環(huán)境進行各種類型的數據交流活動,所以這也造成了網絡大環(huán)境下的數據行為變得更加復雜,因此相關學者與技術人員近幾年一直在致力于研究出能夠給廣大網絡用戶提供針對性服務的數據挖掘技術。神經網絡具有良好的自我學習、模仿的能力,所以一些不確定系統(tǒng)的預測技術都可以應用在神經網絡模型建立當中。將樣本分為訓練樣本和測試樣本,對訓練樣本采取進一步處理,并以此數據為基礎尋找類別屬性和普通屬性之間的關聯,然后用這種關聯來預測其他樣本的類別屬性。傳統(tǒng)神經行為預測算法在執(zhí)行過程中,受到技術限制必然會從一定程度上導致用戶隱私信息的外泄,而采用安全多方互聯網行為預測計算能夠有效降低神經網絡學習時用戶隱私信息發(fā)生泄露的風險。
(四)聚類分析算法技術
這種基于隱私保護理念而研究出來的數據挖掘技術能夠實現對聚類算法的完善化執(zhí)行,分析算法思想、關鍵技術的優(yōu)缺點,對當前已有的聚類算法類型進行分類與調整,從正確率和運行效率兩方面對一些典型的聚類算法進行模擬實驗,并對得到的基于劃分的模糊聚類算法采取進一步的綜述和評價。目前模糊聚類數據發(fā)掘算法得到各行業(yè)廣泛應用的根本原因主要是它對數據的比例變化具有穩(wěn)定性。
(五)網絡行為類型分層
用戶行為在當前網絡環(huán)境中紛繁多樣,每個個體所表現出的屬性以及特點均有很大差別,因此在進行數據挖掘時也需要以此為基礎設計出不同類型的技術來進行對數據的操作。為了保證挖掘精度較好,且實現隱私保護,對用戶行為分類前就要按照一定規(guī)則設計挖掘流程,在其中要深入考慮到隱私保護的具體化、算法、適應情況、執(zhí)行效率等多方面因素。從傳統(tǒng)的應用情況我們可以發(fā)現基于隱私保護的挖掘技術存在很多疏漏:1.傳統(tǒng)算法無法實現對原始真實數據的私密保護,用戶個人隱私得不到有效保障,仍有一定程度上的隱私信息泄露風險;2.傳統(tǒng)算法對原始數據有著較嚴格的概率分布需求,所以運行時會出現計算難度較大、執(zhí)行效率較差、負載情況不平均等情況;3.某些傳統(tǒng)算法對環(huán)境適用性較低,在特定環(huán)境中運算效率較低;因此目前我國研究人員對基于隱私保護的分類挖掘算法進行完善時,重點針對以下幾個方面:1.確保算法精度提高,并簡化運算復雜度的基礎上,盡快加強對隱私保護的全面化;2.加強算法對環(huán)境的適用效果,完成在全體環(huán)境中的數據采礦處理。
結論:綜上所述,當前我國信息化建設力度持續(xù)加大,各行各業(yè)對于網絡依賴性也在不斷加強,雖然便捷的網絡技術給人們的生產生活提供了更加便捷的服務,但是虛擬性也會衍生出較大的安全風險,想要保證社會、國家發(fā)展的穩(wěn)定性,就需要積極對網絡信息進行監(jiān)控、管理,數據挖掘技術也因此被研究出來。為了減少挖掘過程中的出現的信息泄露,就需要不斷研究出更加適用隱私保護的數據挖掘算法。