999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

數據挖掘中的數據預處理

2022-04-29 22:13:30許輝
電腦知識與技術 2022年4期
關鍵詞:數據挖掘

摘要:該文講述的是如何從現有的數據中獲取新的知識,但是現有的數據中會存在不集中、雜亂,甚至還不完整數據。雖然使用數據挖掘機模型進行微調和開發還會出現一些雜音,但仍然可以從中獲取到有用的數據,保證數據的質量。主要數據挖掘流程:獲取數據、清洗數據、探索數據、建模數據、轉換數據。

關鍵詞:數據挖掘;數據預處理;獲取數據;清洗數據;探索數據;建模數據

中圖分類號:TP311? ? ? ? 文獻標識碼:A

文章編號:1009-3044(2022)04-0027-02

1 數據挖掘

1.1數據挖掘模型的介紹

數據挖掘是獲取知識的經過,數據挖掘模型是從種種數據源來獲取所需要的數據,然后再將這些數據轉換成知識,把這些知識再提供給所需要的區域。數據挖掘的流程是從需求的開始到需求的滿足,意思就是將所挖掘的數據的精華知識以數據源形式發送到人們的手中。

1.2提前處理數據

提前處理數據的目的是使數據能夠更加容易地進行挖掘處理。提取數據的質量對數據挖掘模型可能會產生很大的影響,比如應景設置了數據和特點能夠獲取的最大上限,但是數據挖掘模型也只是近似于上限。如果提升對各種數據的提前處理技術,那么不論是數據的要求、質量還是預測目標的相關性都會得到很大的提高,而且可以使模型能夠得到更好的優化[1]。

1.3通常數據的缺陷

從現實生活中獲取的數據格式往往是不正確的,這樣就會引起數據庫出現各種各樣的問題,所以這就需要我們研究對各種數據的預處理技術,現在的數據預處理技術還不是很完善,但是解決一些小問題和提升一些技能還是可以的。

1.4數據縮減技術

數據挖掘模型如果輸入量較多,它們就會有較多的維度和巨大的數量,這樣會使數據挖掘模型傳送數據的時候會遇到前所未見的困難。這時候我們就要通過數據縮減技術來進行維度縮減或者對數據進行縮減采樣和選擇這些技術來減少以上帶來的問題[2]。

2 數據挖掘的過程

2.1數據挖掘的流程

數據挖掘的流程就是把需要挖掘數據的任務中所有數據集中一起。盡管它們的大多數據都存在數據庫或者其他存放數據的數據源中。為了讓人們更加明白,更加容易理解我們使用模型把里面的數據挖掘出來展示給人們。數據挖掘的主要流程是獲取數據、數據清理、數據探索、數據建模,知識可視化(如圖1所示)。這個流程在現實世界中不是一次性的過程,而是長久性的任務[3]。因為清理數據和數據建模必須進行不斷地測試和改進,獲取的數據必須適應不同類型的數據源。數據的可視化和解釋也必須不斷地改變,不斷地調整,從而滿足人們的需求。

2.2數據的獲取

獲取數據挖掘的基本做法就是獲取所需要的數據。因為所需要的數據中本身就有自己所需要的知識數據資源。大多數據來源就是從數據庫和數據倉庫中獲取的,也可以使用語言來查詢結構化數據,數據倉庫就是用來組織數據,理解和利用數據而形成的,它們一般和運營數據庫是分離的系統,為的是讓后續分析工作更容易一些,而且大多數的數據都很重要,這樣也不會容易丟失。可以將獲取到的數據存放到一個文件夾中,以便后續的過程中用到它。它們可以一起存儲到數據庫和數據倉庫中,為以后數據挖掘任務做備用。有一組有起點和有終點的有序數據我們稱它數據流的概念,數據流的概念比收集數據更重要。數據流可以很好地開發在線運行的模型和算法,數據收獲的不再是數據集,而是實際輸入源[4]。

3 數據的清洗

3.1數據清理的步驟

數據清理和數據的預處理都屬于數據清洗,把數據再進行一遍審查和校驗一遍。目的就是把重復的、錯誤的信息刪除掉,提供一樣的數據。

3.2發布清理技術

有時在科學研究所得到的數據格式不準確,有一些問題影響模型的誤差結果,比如說,離群值會使數值分布但實際上失真值影響聚類算法。如果不處理問題將無法通過模型來解析數據。為了解決這個問題科學研究所發布了數據清洗技術來處理失真值的處理和離群值的檢測[5]。

3.3缺失值的處理

缺失值是數據集中一種常見的不完整的一種典型。這些缺失值不能用來做比較、分類和算數。所以,必須要推算數據挖掘模型之前處理掉這些缺失值。缺失值的處理辦法很簡單,就是把整個樣本刪掉。如果缺失值有的數據不能忽略或者缺失值的屬性的比例不同,我們可以減少數據集的數量,刪掉沒有利用價值的信息。還可以利用其他方法來填補缺失值。比如可以通過得數值來表示缺失、統計信息、預測屬性值和分配所有的可能值。用數據集來補充缺失值是最好的技術了,忽視缺失值的樣本來分配所有可能值表現得技術也不錯,根據數據集的不同要求,缺失值技術也大有不同。大部分的數據都需要數據挖掘任務來進行實驗,來進行檢測。

3.4異常值的檢測

和大部分的樣本數據巨大差距的數據樣本就是離群值,雖然這種離群值出現的概率很小,但它不一定會出錯,一半的錯誤異常值是通過錯誤的測量和錯誤的記錄組成的,所以它不會帶來很大的影響。雖然有些模型會對異常值出現沖突,但是在數據處理工作中仍然需要使異常值來測試。離群值檢查算法是最常見的算法之一,在一般的情況下分布是未知的,正態分布就是最好的替代,可以從它的平均值和誤差來估算馬氏距離是兩個樣本的中間和標度的距離無關我們可以利用馬氏距離來和每個樣本的平均值來確定異常值。

平均值和誤差來估算方式:

4 數據的轉換

4.1 數據轉換的優勢

不同屬性的數據表示不同的形式,有的數據分類,有的是不分類的。對于分類的數據值被稱作標稱值;對于不分類的數據可以根據不同的統計特征來算平均值和誤差。但是,不是所有的數值都可以通過模型的需求。數據之間的差別還會對模型的工作帶來麻煩,數據轉換可以使數據挖掘機讓算法更容易成功。

4.2數字化

分類自然界中用得最多的數據,比如計算組之間的熵,它就可以在分類數據上完成,但是還是有一半的數據不適合用于分類數據,因此就將分類數據編碼數據,采用編碼數據來進行數據,比如一鍵編碼、順序編碼、定制編碼來編輯這些數據,它也不會在設計上花費很多的精力。

4.3歸一化

不同的屬性用的單位制也不同,它們的平均值就會有差距也會有誤差,但是數值上的差距會比更重要,而它沒有屬性這種數值會對某些數據制造麻煩,比如KNN:大一些的數值會影響距離的比較,這就要考慮模型的屬性是傾向大一些的數值。除此之外,神經元網絡模型就對梯度優化就產生了不好的影響,被迫使用較小的學習率,為了解決這些問題還發布了很多標準化的方法比如Min-max規范化(1)、Z分數歸一化(2),還有十進制縮放規范化(3)等,在各種情況下有不同的屬性有相同和相似的單位,比如數據預處理的RGB彩色成像就沒必要進入標準化。如果不能對單位系統保證,還是建議進行數據挖掘模型來進行標準化。

4.4數值變換

其他數據的屬性也可以在數據集上變換,通過轉換得到的數據和其他數據挖掘出最優的數據擬合(比如神經網絡)可能這些都不重要。可是,對于簡單的參數較少的數據模型(比如線性回歸),轉換后的是數據就很好地幫助模型獲取更優的數據,它們之間的屬性轉換關系對科學發現和對機器的控制是必不可缺的。

5數據的建模

數據建模通常在挖掘任務當中會將數據分為訓練集和測試集,再從中獲取新的數據集上對數據模型的正確性進行評分。數據模型中包括超參數,比如KNN模型K的選擇就創建了驗證集并獲取了最好的超參數集。大多數的數據挖掘模型都是要定損失含義的。一般,數據挖掘模型質量是優損失函數值就低,它都有特殊的功能,比如凸度,它就比梯度算法得到的結果就好。經過訓練得到的參數在進行模型訓練步驟來調整參數,使它的訓練數據損失更低。數據挖掘模型的復雜性也各個都不相同:簡單的模型僅有少量的參考數,少量的參考數會將訓練的步驟降低,復雜的數據挖掘模型數據有上百萬個參考數,要是訓練它們需要巨大的數據集,但是復雜并不是代表它?們更好,應該根據數據挖掘模型任務來評測目標,數據集的大小,數據的類型等來確定模型,有的是時候一個數據集可以運行多個不同的數據模型,并且還能找到最適合數據挖掘模型。

6結束語

數據挖掘技術是從數據集中發現更多的信息,從中獲取自己所需要的數據資料。相對于以前的傳統數據分析方法,有了數據挖掘技術不但可以采集海量的信息,還可以提高學習方法。從獲取數字、到清洗數據、再到探索數據、再到建模數據、再到挖掘知識可視化這幾個步驟缺一不可,因此每個基礎方法都需要學習。

參考文獻:

[1] 解二虎.數據挖掘中數據預處理關鍵技術研究[J].科技通報,2013,29(12):211-213.

[2]張治斌,劉威.淺析數據挖掘中的數據預處理技術[J].數字技術與應用,2017(10):216-217.

[3] 董師倢.數據挖掘中的數據預處理技術[J].信息與電腦,2016(19):144-145.

[4] 梁婷.券商經紀業務發展現狀及轉型淺析[J].當代經濟,2020(5):35-37.

[5] 趙陽,江雅文.金融科技賦能證券經營機構財富管理轉型研究[J].金融縱橫,2019(10):36-45.

收稿日期:2021-08-18

作者簡介:許輝(1979—),女,江蘇鎮江人,副教授,工程碩士,研究方向:軟件技術。

猜你喜歡
數據挖掘
基于數據挖掘的船舶通信網絡流量異常識別方法
探討人工智能與數據挖掘發展趨勢
數據挖掘技術在打擊倒賣OBU逃費中的應用淺析
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
數據挖掘技術在中醫診療數據分析中的應用
一種基于Hadoop的大數據挖掘云服務及應用
數據挖掘在高校圖書館中的應用
數據挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
基于GPGPU的離散數據挖掘研究
利用數據挖掘技術實現LIS數據共享的開發實踐
主站蜘蛛池模板: 美女无遮挡被啪啪到高潮免费| 日本a级免费| 国产视频资源在线观看| 中文字幕在线看视频一区二区三区| 国产人妖视频一区在线观看| 国产视频大全| 欧美伦理一区| 中文字幕无码av专区久久| 在线观看欧美国产| 亚洲精品成人片在线观看| 人妻无码一区二区视频| 久久成人18免费| 欧美有码在线观看| 免费在线看黄网址| 国语少妇高潮| 国产综合无码一区二区色蜜蜜| 国产办公室秘书无码精品| 在线免费无码视频| 国产人成在线观看| 欧美全免费aaaaaa特黄在线| 国产免费人成视频网| 园内精品自拍视频在线播放| 国产亚洲欧美在线中文bt天堂 | 欧美国产日产一区二区| 亚洲AV无码精品无码久久蜜桃| 色丁丁毛片在线观看| 欧美午夜理伦三级在线观看| 久久久精品无码一二三区| 欧洲精品视频在线观看| 中文无码日韩精品| 欧美日韩激情在线| 亚洲欧洲日韩综合色天使| 91九色国产在线| 99久久精品美女高潮喷水| 女人18一级毛片免费观看| 九九热精品免费视频| 综合色天天| 五月天婷婷网亚洲综合在线| 亚洲色欲色欲www网| 国产剧情一区二区| 91在线精品免费免费播放| 欧美一区二区福利视频| 国产综合另类小说色区色噜噜| 日韩成人在线网站| 免费毛片视频| 日本高清有码人妻| 亚洲a级在线观看| 亚洲午夜18| 日本欧美一二三区色视频| 国产国产人在线成免费视频狼人色| 国产69精品久久久久孕妇大杂乱 | 久久99精品久久久大学生| 国产在线视频自拍| 亚洲色图欧美在线| 免费av一区二区三区在线| 欲色天天综合网| 国产成人综合久久精品尤物| 国产麻豆福利av在线播放| 九九久久精品国产av片囯产区| 69国产精品视频免费| 18黑白丝水手服自慰喷水网站| 少妇精品在线| 亚洲日本中文字幕乱码中文| 性喷潮久久久久久久久| 少妇被粗大的猛烈进出免费视频| 狠狠色狠狠综合久久| 国产成人啪视频一区二区三区| 毛片卡一卡二| 亚洲国产AV无码综合原创| 国模粉嫩小泬视频在线观看| 免费在线成人网| 国产在线精品美女观看| 91色在线视频| 99精品高清在线播放| 欧美一级爱操视频| 国产十八禁在线观看免费| 免费一看一级毛片| 亚洲综合激情另类专区| 亚洲国产系列| 国产精品自在拍首页视频8| 亚洲三级影院| 精品免费在线视频|