摘要:科技的進步帶動了互聯網行業的發展,信息化、數據化也逐漸走進了人們的視野,數據挖掘的容錯技術的重要性得到了關注。本文對大數據的數據挖掘中容錯技術進行探究,從數據挖掘的意義展開,提出了其容錯技術的具體應用措施,旨在拓展技術研究范圍,提升工作效率,從而為關注這一話題的人們提供參考。
關鍵詞:大數據時代;數據挖掘;容錯技術
中圖分類號:TP311 ? 文獻標識碼:A ? ? 文章編號:1007-9416(2020)06-0000-00
0引言
大數據時代改變了人們的生活方式,豐富了人們的精神生活。數據挖掘技術能夠將用戶的數據進行統計,整合用戶信息,將信息數據轉向網絡化的方向。其中,數據容錯技術可以實現規劃系統數據、調整運行方向的目的,進而將數據更好地規劃整合。因此,有必要對大數據的數據挖掘中容錯技術展開探討。
1 數據挖掘的意義
大數據是指數據含量大、數量多的數據信息,起初由金融、通訊及生物學等領域廣泛傳播,隨著時間的發展被各領域所廣泛地接受運用。大數據的信息數量多,無法被正常的軟件工具所處理,因此,需要相關的技術手段對其進行彌補。大數據具有增長快、樣式多的特點,有利于數據信息的高效化處理。隨著計算機網絡的運行發展,計算機的數據量也得到了一定程度上空間的拓寬與增加,進而形成空間大數據,將數據的儲存及運算融為一體。
數據挖掘是一種新的技術,最早提出于上個世紀。數據挖掘又叫做數據勘探,能夠將繁雜的數據進行整合分析,進而提取出相應有價值的數據信息。一般而言,數據挖掘技術多用于商業領域,通過對商業數據的分析及整合實現商業利益的最大化,進而將數據進行簡化處理,提高商業發展的效率。
2 數據挖掘技術特征
2.1流行性高
數據挖掘技術具有較大的流動性,其信息處理的方式較為靈活,能更好地實現數據信息的分析及整合,進而提升數據挖掘的工作效率。在大數據發展的背景下,較大的數據信息量,也為數據挖掘提出了技術上的難題,促進數據挖掘的轉型與發展。相對比于傳統的數據運行模式,數據挖掘能夠實現數據整理手段的現代化,提升數據信息的工作效率。
2.2種類多
數據種類的增加有利于對相關數據信息的整合,人們在使用現代化信息技術時,數據信息的種類隨之增加。數據挖掘過程中,互聯網信息與智慧設備的聯通,也產生了大量的數據,豐富了數據信息,完善了數據整理體系。
2.3處理數據量大,價值度低
隨著人們對新媒體技術使用的增加,數據信息也在不斷地增長,進而增加數據挖掘的信息,形成其處理數據量大的特點。同時,數據信息總量的提升還增大了數據庫的基數和密度,將其信息庫的總值擴至最高,這就會導致數據信息中有價值的信息被降低,由此增加數據信息處理的難度,增大數據挖掘的工作量。
3 大數據的數據挖掘中容錯技術的應用措施
3.1數據挖掘及處理
數據挖掘容錯技術指數據系統運行過程中產生錯誤時,系統的算法能維護其正常運轉,避免系統死機的情況,進而減少系統的內在差錯,將其對系統的影響降至最低。容錯技術能保障信息系統數據的完好性,對數據信息進行備份,減少相關信息的損失。例如,在航天、醫療、金融等行業領域中,其系統失誤會造成不可估量的后果,而容錯技術的運用,則會為相關的數據系統提供保障,維護數據信息的完整性[1]。
數據容錯多會采用Python技術為根本運行依據,保障信息系統的運行。Python技術具有開源共享、函數式編程等特點,能將數據信息庫進行整合及規范化處理。其中,Python包含jieba庫、json庫及numpy庫等15萬個第三方數據庫,進而對于數據信息進行高效的處理。在進行數據挖掘時,Python技術能將數據進行清洗、探索及將其模型參數化處理,形成一系列數據環節的流程化實施。流程化的項目操作與實施有利于數據信息運行的高效化,多種信息能同時運行,將數據信息規范性整理,進而提升其數據儲藏量及數據運算的速度。容錯技術中Python技術的運用提高了計算機數據整理運行的效率,實現傳統計算機數據管理技術向現代化的方向轉變。
使用Python技術進行數據挖掘時,要先將其自身已有的數據進行處理,將其中無效化數據做出預判及分析,處理掉影響數據運算結果的臟數據,保障數據運行的基礎效率。只有保障數據信息運行的準確性,才能實現數據系統的正確運算。數據預存中,多包含缺失值處理、異常處理等對于數據丟失預防處理的方法。其中,數據信息的異常處理是其運行的關鍵。例如,數據運行時,將采集數據由88誤錄為880,進行數據異常處理時,計算機系統會根據算法及圖表進行核算,以此發現異常并進行改進,從而將數據進行修正,保證數據信息的準確性[2]。
3.2異常處理
數據的異常是指計算機程序運行的過程中存在著一些不正常的現象,數據采集及分析帶來的失誤及問題等,嚴重的甚至會造成系統數據的崩潰和數據丟失,進而造成無法預計的損失。在此基礎上,數據容錯技術利用對數據異常處理的手法進行分析,實現異常情況的分級化處理,對相關的損失及誤差做出預判并加以解決。
Python系統能將數據異常信息進行規劃整合,形成數據信息異常信息庫,當數據信息系統出現其信息庫中的異常情況時,系統就會做出相應的提示并給出解決信息。Python的運行中要將其運行代碼做出合理化預判,通過對于運行代碼的試運行尋找相應的問題,進而將數據系統進行規范化處理,降低信息系統數據漏洞帶來的危害。Try…expect語句的使用為Python系統的運行提供了根本的保障,是數據異常處理的基本信息結構形式,其運行主要通過try字句中的代碼來進行數據信息的分析,同時通過expect信息進行異常的捕捉,二者間相互配合,共同完成數據異常處理的檢測。
進行數據容錯異常處理時,還需將數據信息系統中出現的數據庫進行詞頻統計,對于數據系統出現的詞條進行歸檔及檢索處理。大數據中數據庫具有信息量大的特點,因而需將數據信息進行關鍵詞的分類形成詞頻,來將數據庫進行整合。
4結論
綜上所述,大數據的數據挖掘中容錯技術的使用有利于完善數據信息,進而實現數據信息的綜合處理。其中,數據信息容錯技術可以通過數據挖掘及處理來進行數據的整合,同時通過對于數據的異常處理實現容錯技術的發展。由此保障計算機系統運行的安全性,提升數據系統的可靠性。
參考文獻
[1]謝盛嘉.大數據時代背景下數據挖掘技術的應用研究[J].計算機產品與流通,2020(5):128.
[2]張紅軍,王豫鑫,楊萬里.基于大數據的數據挖掘中容錯技術研究[J].電腦知識與技術,2020,16(9):16-18.
收稿日期:2020-04-16
作者簡介:賀穎(1982—),女,四川遂寧人,本科,講師,研究方向:計算機應用。