999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于大數據的數據挖掘中容錯技術研究

2020-05-21 05:54:57張紅軍王豫鑫楊萬里祁永釗李登明
電腦知識與技術 2020年9期
關鍵詞:大數據

張紅軍 王豫鑫 楊萬里 祁永釗 李登明

摘要:隨著互聯網的不斷發展,應用程序、數據正在迅速增長,大規模數據存儲成為大數據技術研究重點,借助數據挖掘技術能更好地為決策者提供信息支撐。容錯技術是大數據處理領域中一個前沿且極具挑戰性的研究課題。該文依據當前的研究現狀和進展,通過對大數據時代數據特征的分析,結合當前技術發展趨勢,運用Python技術設計數據挖掘中代碼容錯技術的改進,并用算法進行實現。測試結果表明,該算法運行良好,系統的健壯性和可靠性大大提高,為大數據和數據挖掘提供理論基礎,為海量數據的安全可靠挖掘提供科學有效的技術支撐。

關鍵詞:大數據;容錯技術;算法;關鍵技術;健壯性

中圖分類號:TP312 文獻標識碼:A

文章編號:1009-3044(2020)09-0016-03

1 背景

隨著互聯網技術的快速發展,大量文字、圖形、視頻、音頻、Web頁面等多種類型復雜的數據信息在信息檢索、社交網絡、物聯網、車載網等諸多新興行業廣為應用,數據規模呈爆炸式增長,數據量成為信息社會增長最快的資源之一。與其同時,數據挖掘近年來也引起信息產業界的極大關注,各行各業的人們迫切需要從大量數據中提取或轉換為有用的信息和知識,并將獲取的知識和信息廣泛應用于各類領域。

由于分布式存儲系統中節點數量寵大,不斷增長的海量數據需要被安全可靠存儲,常常會產生各類意外故障,導致數據節點失效情況頻繁,采用容錯技術可以避免部分存儲節點失效的情況下,數據仍然能夠正常讀取和下載,因此,容錯技術成為大數據挖掘處理中不容忽視的重要技術。

2 數據挖掘

2.1 相關概念

大數據是指在是指在一定時間范圍內無法使用傳統數據庫工具對其進行捕捉、管理、計算、分析和處理的數據集合。大數據具有4V特征:Volume(大容量)、Variety(多樣化)、Velocity(高速性)和Value(價值性)。

數據挖掘是在大數據中通過算法搜索隱藏于其中信息的過程,通常通過在線分析處理、機器學習、專家系統、網絡爬蟲、數據庫、可視化和模式識別等諸多技術來實現。數據挖掘是人工智能(AI)研究的熱點。

基金資助:河南省科技攻關項目(項目編號:182102210208);河南省高等學校重點科研項目(項目編號:18A520013);河南省教育科學十三五規劃一般課題(項目編號:2018 -JKGHYB-0407);河南省高等學校青年骨干教師培養計劃(項目編號:2018GGJS196);河南省教師教育課程改革研究項目(項目編號:2019-JSJYZD-041);國家級大學生創新創業訓練計劃項目 (項目編號:201913504001)

作者簡介:張紅軍(1979-),男,河南平輿縣人,副教授,碩士,主要研究方向為大數據技術;王豫鑫(1998-),男,本科生;楊萬里(1998-),男,本科生;祁永釗(1998-),男,本科生;李登明(1998-)男,本科生。

容錯技術是在系統在運行時,異常錯誤被激活的狀態下,系統因其算法的健壯性,依舊能正常運行而不會出現崩潰死機等意外,其基本思想是使系統內潛在的差錯對可靠性的影響縮小控制到最低程度。在一些應用場景,如航空航天、交通實時監控、金融服務、醫療救援等特定行業,一次系統錯誤的發生會帶來無法估計的損失和后果,在這些系統的關鍵設計中采用容錯技術,從而確保運行中突發的計算機錯誤不會導致整個系統的崩潰。

2.2 Python技術下的數據挖掘

作為一種面向對象的解釋型計算機編程語言,PYthon以其開源共享、函數式編程、語潔簡潔清晰、擁有功能強大的標準庫和擴展庫、計算生態等諸多特點一直位居各大編程語言網站排行榜前列。

Python擁有15萬個第三方擴展庫,其中jieba庫、Json庫、Requests庫、Scrapy庫、numpy庫使得數據挖掘變得簡單快捷高效。對于數據挖掘來講,Python對數據清洗、數據探索、建立寬表、變量篩選、建模、模型參數優化、模型輸出、模型投產等等一系列環節均有成熟的“包”進行支持,而在建模環節,除了對傳統時序、Logistic、決策樹等算法的支持,Python對于數據的處理速度均極大的超過了MySQL數據庫。在實際的挖掘項目中,在面臨著需要計算幾千甚至上萬特征值的情況下,通過Python將可以從代碼量和運算速度兩方面極大提高寬表制作效率,甚至完成傳統SQL數據庫難以完成的工作。

2.3 Python技術下的數據預處理

在進行數據挖掘之前,首先要做的一步是對已有數據進行預處理。數據預處理指的是對數據進行初步處理,把臟數據(即影響結果準確率的數據)處理掉,否則很容易影響最終的結果。如果連初始數據都是不正確的,那么就無法保證最后的結果的正確性。只有對數據進行預處理,保證其準確性,才能保證最后結果的正確性。常見的數據預處理方法包括缺失值處理、異常值處理和數據集成。其中異常值產生的原因往往是數據在采集時發生了錯誤,如在采集數字66時發生了錯誤,誤將其采集成660。在處理異常值之前,需要先發現這些異常值數據,往往可以借助畫圖的方法來發現這些異常值數據。在對異常值數據處理完成之后,原始數據才會趨于正確,才能保證最終結果的準確性。

3 Python在數據挖掘中異常容錯處理

3.1異常處理

異常(Exception)指程序運行過程中出現的非正常現象,如數據采集錯誤、數據分析錯誤、處理的文件不存在、網絡傳輸錯誤等。如果這些錯誤得不到正確的處理將會導致數據挖掘系統崩潰并終止運行,合理地使用異常處理結構可以使得系統更加健壯,具有更高的容錯性。由于異常情況總是不可避免,因此要求數據挖掘系統除了具備基本功能之外,還應具備預見并處理可能發生各種異常的功能,使軟件具有較強的容錯能力。

3.2 Python中常見標準異常處理

PYthon系統定義了一系列可能發生的異常類型,這些預定義的異常類型稱為標準異常,當程序運行過程中發生標準異常時系統會顯示相應的提示信息。常見的標準異常如表1所示。

3.3 異常捕捉與處理

Python提供多種異常處理機制的基本原理是:首先嘗試運行代碼,如果沒有問題就正常執行,如果發生錯誤就采用容錯機制嘗試去捕捉和處理。

3.3.1使用try...except語句

這是異常處理結構中最基本的結構形式,其中try子句中的代碼塊包含可能會引發異常的語句,而except子句則用來捕捉相應的異常。

例如數據采集代碼

Numl=eval(input(”input first number”))

Num2=eval(input(”input second number”))

當采集的數據為非數值類型,程序面臨崩潰。

可改進為以下代碼來實現代碼容錯

Try:

Numl=eval(input(”input first number”))

Num2=eval(input(”input second number”))

Except:

Print(”輸入非數字,請重新輸入!”)

3.3.2使用try...except...else語句

如果try中的代碼出現異常并且被except語句捕捉則執行相應的異常處理代碼,如果try中的代沒有引導異常,則執行else塊的代碼。

例如數據采集代碼

While True:

x=input(”input first number”)

Try:

x=int(x)

Except Exception as e:

Print(”error”1

Else:

Print(”You must input{0)”.format(x》

Break

3.3.3 使用try...excepL..finally語句

無論try中的代碼是否發生異常,finallv子句中的代碼總會得到執行。

例如下面代碼,如果try子句的異常沒有被except語句捕捉和處理,或者except子句或else子句中的代碼出現異常,無論是否發生異常,finally子句中的代碼總能被執行。

Def div(a,b):

Try:

Print(a/b)

Except ZeroDivisionError:

Print(”The second argument canno be 0”)

finally:

Print(”一1”1

4 Python數據分析中代碼容錯設計與實現

4.1 詞頻統計

在對網絡信息進行自動檢索和歸檔時,很多時候需要對給定的已采集的大量原始數據,統計其中多次出現的關鍵字,進行概要分析原始數據,或依關鍵字進行搜索,這種對關鍵字進行統計的方法叫詞頻分析。

4.2 jieba庫的使用

jieba庫是一款優秀的Pyhon第三方中文分詞庫,主要提供分詞功能,可以輔助自定義分詞詞典。jieba庫支持精確模式、全模式和搜索引擎模式三種分詞模式。精確模式將語句最精確的切分,不存在冗余數據,適合做文本分析。全模式將語句中所有可能是詞的詞語都切分出來,速度快,但是存在冗余數據。搜索引擎模式在精確模式的基礎上,對長詞再次進行切分。

jieba是一個第三方庫,需要在本地機電腦上進行安裝。在聯網狀態下,在命令提示符下輸入pip install jieba進行安裝,安裝完成后會提示安裝成功。

4.3 算法實現

本算法以英文《Hamlet》(《哈姆雷特》)為例,統計其英文詞頻,算法分三個步驟:第一步,分解并提取英文文章的單詞;第二步,對每個單詞進行計數;第三步,對單詞的統計值從高到低進行排序,輸出前20個高頻詞語。在算法分析過程中,引入代碼容錯機制來避免因數據采集錯誤導致系統崩潰。

def get_text0:

txt= open(”hamlet.txt”,”r”,encoding= 'UTF_8,).read0

try:

txt= txt.lower()

for ch in…#$%&0++,一./=;<=>?@【\\]^-‘m~':

txt= txt.replace(ch,””)

return txt

except IOError:

print(”Error:沒有找到文件或讀取文件失敗”)

else:

print(”內容讀取成功”)

txt.close()

file_txt= get_text0

words= file_txt.split0

counts={)

for word in words:

if len(word)==1:

conbnue

else:

counts[word]= counts.get(word,0)+l

items= list(counts.items0)

items.sort(key=lambda x: x[ll, reverse=True)

fori in range(5):

word,count= items[i]

print(”{0:<5卜>(1:>5".format(word,count)

4. 4算法測試

經測試算法運行良好,無異常,算法健壯性和可靠性大大提高。

5 結束語

大數據時代的到來,為各行各業帶來了機遇與挑戰。人們在從海量數據中挖掘自己有用信息的同時,數據的安全性和可靠性也逐漸成為社會關注的重點內容,計算機系統的可靠性研究對提高整個系統運行起到關鍵作用。本文通過圍繞大數據技術、數據挖掘技術、容錯技術和Python技術多方面展開討論,結合算法代碼詳細分析了具體容錯方法,通過算法優化分析,最終實現大大提高了計算機可靠性,從而保障計算機系統運行過程的安全性,以期為進一步研究計算機容錯提供參考借鑒。

參考文獻:

[1]李鑫,孫蓉,劉景偉.分布式存儲系統中容錯技術綜述[Jl.無線電通信技術,2019,45(5): 463-475.

[2]吳慶民.大數據環境下數據容錯技術研究與實現[D].北京:中國科學院大學,2016.

[3]楊娜,劉靖.面向云應用系統的容錯即服務優化提供方法[Jl.軟件學報,2019,30(4): 1191-1202.

[4]吳必造.基于Linux的智能家居控制終端系統的設計與實現[Dl.成都:電子科技大學,2013.

[5]孫黎,蘇宇,張弛,等,分布式存儲系統中的糾刪碼容錯方法研究[J].計算機工程,2019,45(11): 74-80.

[6]劉新宇,李浪,肖斌斌.基于屬性代理重加密技術與可容錯機制相結合的數據檢索方案[Jl.計算機科學,2018,45(7):162-166, 196.

[7]張志敏,吳軍,嚴明玉.面向網絡的快速容錯恢復技術[Jl.計算機工程與設計,201 8,39(9): 2701-2706.

[8]謝建洲.計算機系統容錯技術研究[Jl.電腦知識與技術,2016.12(6): 250-252.

[9]雷利香.計算機系統容錯技術分析及研究[Jl.電子世界,2019(13): 177-178.

[10]陸陽,王強,張本宏,等.計算機系統容錯技術研究[J].計算機工程,2010,36(13): 230-235.

【通聯編輯:謝媛媛】

猜你喜歡
大數據
基于在線教育的大數據研究
中國市場(2016年36期)2016-10-19 04:41:16
“互聯網+”農產品物流業的大數據策略研究
中國市場(2016年36期)2016-10-19 03:31:48
基于大數據的小微電商授信評估研究
中國市場(2016年35期)2016-10-19 01:30:59
大數據時代新聞的新變化探究
商(2016年27期)2016-10-17 06:26:00
淺談大數據在出版業的應用
今傳媒(2016年9期)2016-10-15 23:35:12
“互聯網+”對傳統圖書出版的影響和推動作用
今傳媒(2016年9期)2016-10-15 22:09:11
大數據環境下基于移動客戶端的傳統媒體轉型思路
新聞世界(2016年10期)2016-10-11 20:13:53
基于大數據背景下的智慧城市建設研究
科技視界(2016年20期)2016-09-29 10:53:22
數據+輿情:南方報業創新轉型提高服務能力的探索
中國記者(2016年6期)2016-08-26 12:36:20
主站蜘蛛池模板: www.youjizz.com久久| 亚洲无码91视频| 成年免费在线观看| 国产成人AV男人的天堂| 丝袜美女被出水视频一区| 亚洲人成网站色7777| 久久不卡国产精品无码| 国产在线视频福利资源站| 欧美日韩中文国产| 久久婷婷五月综合色一区二区| 人妻丰满熟妇AV无码区| 动漫精品中文字幕无码| a欧美在线| 91色在线观看| 国内精品视频在线| 国产黑丝视频在线观看| 乱码国产乱码精品精在线播放| 四虎影视无码永久免费观看| 夜夜操国产| 夜色爽爽影院18禁妓女影院| 欧洲欧美人成免费全部视频| 国产91无码福利在线| 美女被狂躁www在线观看| 中文字幕在线看| 毛片一级在线| 欧美专区在线观看| 伊人色综合久久天天| 欧美区日韩区| 欧美国产中文| 日韩不卡免费视频| 中文字幕伦视频| 91年精品国产福利线观看久久| 2020久久国产综合精品swag| 亚洲天堂网在线播放| 久久久久亚洲精品无码网站| 青草国产在线视频| 亚洲高清中文字幕| 久久99热这里只有精品免费看| 国产福利不卡视频| 国产SUV精品一区二区6| 免费一级α片在线观看| 亚洲动漫h| 久久国产精品无码hdav| 99精品影院| 91亚洲精品国产自在现线| 老司机久久精品视频| 99久久精品免费看国产电影| 中文字幕乱码二三区免费| 精品色综合| 成人av手机在线观看| 日韩经典精品无码一区二区| 国产亚洲精品自在线| 国产AV无码专区亚洲精品网站| 国产欧美日韩免费| 日韩激情成人| 在线99视频| 国产精品永久免费嫩草研究院| 蜜臀AVWWW国产天堂| 久久久精品无码一区二区三区| 丝袜国产一区| 成·人免费午夜无码视频在线观看| 亚洲人成人无码www| 97视频免费在线观看| 亚洲色中色| 男人的天堂久久精品激情| 亚洲最大情网站在线观看| 女人18毛片水真多国产| 无码日韩人妻精品久久蜜桃| 中文字幕伦视频| 国产啪在线| 亚洲国产理论片在线播放| 2021国产乱人伦在线播放| 亚洲人成影视在线观看| 2020久久国产综合精品swag| 日韩午夜片| 2018日日摸夜夜添狠狠躁| 2020精品极品国产色在线观看| 国产精品人成在线播放| 亚洲乱码视频| 国产日韩欧美成人| a天堂视频在线| 男女精品视频|