關于大數據的數據挖掘中容錯技術探究

2020-07-22 09:57:27賀穎

數字技術與應用 2020年6期

摘要：科技的進步帶動了互聯網行業的發展，信息化、數據化也逐漸走進了人們的視野，數據挖掘的容錯技術的重要性得到了關注。本文對大數據的數據挖掘中容錯技術進行探究，從數據挖掘的意義展開，提出了其容錯技術的具體應用措施，旨在拓展技術研究范圍，提升工作效率，從而為關注這一話題的人們提供參考。

關鍵詞：大數據時代;數據挖掘;容錯技術

中圖分類號：TP311 ? 文獻標識碼：A ? ? 文章編號：1007-9416（2020）06-0000-00

0引言

大數據時代改變了人們的生活方式，豐富了人們的精神生活。數據挖掘技術能夠將用戶的數據進行統計，整合用戶信息，將信息數據轉向網絡化的方向。其中，數據容錯技術可以實現規劃系統數據、調整運行方向的目的，進而將數據更好地規劃整合。因此，有必要對大數據的數據挖掘中容錯技術展開探討。

1 數據挖掘的意義

大數據是指數據含量大、數量多的數據信息，起初由金融、通訊及生物學等領域廣泛傳播，隨著時間的發展被各領域所廣泛地接受運用。大數據的信息數量多，無法被正常的軟件工具所處理，因此，需要相關的技術手段對其進行彌補。大數據具有增長快、樣式多的特點，有利于數據信息的高效化處理。隨著計算機網絡的運行發展，計算機的數據量也得到了一定程度上空間的拓寬與增加，進而形成空間大數據，將數據的儲存及運算融為一體。

數據挖掘是一種新的技術，最早提出于上個世紀。數據挖掘又叫做數據勘探，能夠將繁雜的數據進行整合分析，進而提取出相應有價值的數據信息。一般而言，數據挖掘技術多用于商業領域，通過對商業數據的分析及整合實現商業利益的最大化，進而將數據進行簡化處理，提高商業發展的效率。

2 數據挖掘技術特征

2.1流行性高

數據挖掘技術具有較大的流動性，其信息處理的方式較為靈活，能更好地實現數據信息的分析及整合，進而提升數據挖掘的工作效率。在大數據發展的背景下，較大的數據信息量，也為數據挖掘提出了技術上的難題，促進數據挖掘的轉型與發展。相對比于傳統的數據運行模式，數據挖掘能夠實現數據整理手段的現代化，提升數據信息的工作效率。

2.2種類多

數據種類的增加有利于對相關數據信息的整合，人們在使用現代化信息技術時，數據信息的種類隨之增加。數據挖掘過程中，互聯網信息與智慧設備的聯通，也產生了大量的數據，豐富了數據信息，完善了數據整理體系。

2.3處理數據量大，價值度低

隨著人們對新媒體技術使用的增加，數據信息也在不斷地增長，進而增加數據挖掘的信息，形成其處理數據量大的特點。同時，數據信息總量的提升還增大了數據庫的基數和密度，將其信息庫的總值擴至最高，這就會導致數據信息中有價值的信息被降低，由此增加數據信息處理的難度，增大數據挖掘的工作量。

3 大數據的數據挖掘中容錯技術的應用措施

3.1數據挖掘及處理

數據挖掘容錯技術指數據系統運行過程中產生錯誤時，系統的算法能維護其正常運轉，避免系統死機的情況，進而減少系統的內在差錯，將其對系統的影響降至最低。容錯技術能保障信息系統數據的完好性，對數據信息進行備份，減少相關信息的損失。例如，在航天、醫療、金融等行業領域中，其系統失誤會造成不可估量的后果，而容錯技術的運用，則會為相關的數據系統提供保障，維護數據信息的完整性[1]。

數據容錯多會采用Python技術為根本運行依據，保障信息系統的運行。Python技術具有開源共享、函數式編程等特點，能將數據信息庫進行整合及規范化處理。其中，Python包含jieba庫、json庫及numpy庫等15萬個第三方數據庫，進而對于數據信息進行高效的處理。在進行數據挖掘時，Python技術能將數據進行清洗、探索及將其模型參數化處理，形成一系列數據環節的流程化實施。流程化的項目操作與實施有利于數據信息運行的高效化，多種信息能同時運行，將數據信息規范性整理，進而提升其數據儲藏量及數據運算的速度。容錯技術中Python技術的運用提高了計算機數據整理運行的效率，實現傳統計算機數據管理技術向現代化的方向轉變。

使用Python技術進行數據挖掘時，要先將其自身已有的數據進行處理，將其中無效化數據做出預判及分析，處理掉影響數據運算結果的臟數據，保障數據運行的基礎效率。只有保障數據信息運行的準確性，才能實現數據系統的正確運算。數據預存中，多包含缺失值處理、異常處理等對于數據丟失預防處理的方法。其中，數據信息的異常處理是其運行的關鍵。例如，數據運行時，將采集數據由88誤錄為880，進行數據異常處理時，計算機系統會根據算法及圖表進行核算，以此發現異常并進行改進，從而將數據進行修正，保證數據信息的準確性[2]。

3.2異常處理

數據的異常是指計算機程序運行的過程中存在著一些不正常的現象，數據采集及分析帶來的失誤及問題等，嚴重的甚至會造成系統數據的崩潰和數據丟失，進而造成無法預計的損失。在此基礎上，數據容錯技術利用對數據異常處理的手法進行分析，實現異常情況的分級化處理，對相關的損失及誤差做出預判并加以解決。

Python系統能將數據異常信息進行規劃整合，形成數據信息異常信息庫，當數據信息系統出現其信息庫中的異常情況時，系統就會做出相應的提示并給出解決信息。Python的運行中要將其運行代碼做出合理化預判，通過對于運行代碼的試運行尋找相應的問題，進而將數據系統進行規范化處理，降低信息系統數據漏洞帶來的危害。Try…expect語句的使用為Python系統的運行提供了根本的保障，是數據異常處理的基本信息結構形式，其運行主要通過try字句中的代碼來進行數據信息的分析，同時通過expect信息進行異常的捕捉，二者間相互配合，共同完成數據異常處理的檢測。

進行數據容錯異常處理時，還需將數據信息系統中出現的數據庫進行詞頻統計，對于數據系統出現的詞條進行歸檔及檢索處理。大數據中數據庫具有信息量大的特點，因而需將數據信息進行關鍵詞的分類形成詞頻，來將數據庫進行整合。

4結論

綜上所述，大數據的數據挖掘中容錯技術的使用有利于完善數據信息，進而實現數據信息的綜合處理。其中，數據信息容錯技術可以通過數據挖掘及處理來進行數據的整合，同時通過對于數據的異常處理實現容錯技術的發展。由此保障計算機系統運行的安全性，提升數據系統的可靠性。

參考文獻

[1]謝盛嘉.大數據時代背景下數據挖掘技術的應用研究[J].計算機產品與流通，2020（5）：128.

[2]張紅軍，王豫鑫，楊萬里.基于大數據的數據挖掘中容錯技術研究[J].電腦知識與技術，2020，16（9）：16-18.

收稿日期：2020-04-16

作者簡介：賀穎（1982—），女，四川遂寧人，本科，講師，研究方向：計算機應用。