999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

數(shù)據(jù)挖掘中數(shù)據(jù)預處理方法研究

2018-11-13 23:14:18王爽天津師范大學天津300387
新生代 2018年16期
關鍵詞:數(shù)據(jù)挖掘方法

王爽 天津師范大學 天津 300387

引言

數(shù)據(jù)挖掘把人們對數(shù)據(jù)的應用從低層次的簡單查詢,提升到從數(shù)據(jù)中挖掘知識,提供決策支持服務.大數(shù)據(jù)的出現(xiàn)在為人們提供研究樣本的同時,又由于數(shù)據(jù)質量的參差不齊,為數(shù)據(jù)挖掘帶來了一定阻礙.以致于,數(shù)據(jù)挖掘之前的數(shù)據(jù)預處理顯得尤為重要.目前對數(shù)據(jù)挖掘的研究主要集中于挖掘技術、挖掘算法、挖掘語言等.而事實上數(shù)據(jù)挖掘對所處理的數(shù)據(jù)有嚴格的質量要求.在數(shù)據(jù)挖掘過程中數(shù)據(jù)預處理至關重要.根據(jù)統(tǒng)計,在一個完整的數(shù)據(jù)挖掘過程中,數(shù)據(jù)預處理要花費60%左右的時間,而后的挖掘工作僅總工作量的10%左右.數(shù)據(jù)預處理主要包括數(shù)據(jù)清理、集成、轉換和歸納.數(shù)據(jù)清理是處理數(shù)據(jù)中的遺漏和清洗臟數(shù)據(jù).數(shù)據(jù)集成將多數(shù)據(jù)源中的數(shù)據(jù)進行合并處理,解決語義模糊性并整合成一致的數(shù)據(jù)存儲.數(shù)據(jù)歸約將辨別出需要挖掘的數(shù)據(jù)集合,縮小處理范圍.

1 數(shù)據(jù)清洗

1.1 缺失值處理

因為無法獲取或遺漏等原因造成某屬性值不存在,會導致在建模時丟失有用信息,空值數(shù)據(jù)也會使建模過程造成不可靠的輸出. 缺失值處理的有三種方法:直接使用含有缺失值的特征;刪除含有缺失值的特征,該方法在包含缺失值的屬性含有大量缺失值而僅僅包含極少量有效值時是有效的;缺失值補全.常見的缺失值補全方法包括均值插補、同類均值插補、建模預測、高維映射、多重插補、極大似然估計、壓縮感知和矩陣補全.目前最常用的方法是使用最可能的值填充缺失值,比如可以用回歸、貝葉斯形式化方法工具或判定樹歸納等確定缺失值.這類方法依靠現(xiàn)有的數(shù)據(jù)信息來推測缺失值,使缺失值有更大的機會保持與其他屬性之間的聯(lián)系.

1.2 異常值處理

異常值是數(shù)據(jù)集中偏離大部分數(shù)據(jù)的數(shù)據(jù).從數(shù)據(jù)值上表現(xiàn)為:數(shù)據(jù)集中與平均值的偏差超過兩倍標準差的數(shù)據(jù),其中與平均值的偏差超過三倍標準差的數(shù)據(jù),稱為高度異常的異常值.異常值處理可以分為以下幾種:第一種,直接刪除異常值,這個方法的優(yōu)點是簡單易行.但缺點是在數(shù)據(jù)里少的情況下刪除會造成樣本量不足,直接刪除的記錄很可能會改變變量的原有分布,從而造成統(tǒng)計變量的原有分布,從而造成統(tǒng)計模型而不夠穩(wěn)定.第二種,暫且保留并,待結合整體模型綜合分析.第三種,均值或其他統(tǒng)計量取代.缺點是針對利用均值進行建模的模型,用均值替代,客服丟失樣本的缺陷.但缺點是,利用均值替代方法丟失了樣本分布和特征.第四種,將其視為缺失值,利用統(tǒng)計模型填補.該方法可以利用現(xiàn)有變量的信息,對異常值增補.

2 數(shù)據(jù)集成

數(shù)據(jù)集成是將來自多個數(shù)據(jù)源的數(shù)據(jù)合并在一起,形成一致的數(shù)據(jù)存儲,如將不同數(shù)據(jù)庫中的數(shù)據(jù)集成到一個數(shù)據(jù)倉庫中存儲.數(shù)據(jù)集成主要涉及冗余處理、模式集成和沖突數(shù)據(jù)檢測和處理.

(1)冗余處理:數(shù)據(jù)集成往往導致數(shù)據(jù)冗余,如同一屬性多次出現(xiàn)、同一屬性命名不一致等,對于屬性間冗余可以用相關分析檢測到,然后刪除;

(2)模式集成:涉及實體識別,即如何將不同信息源中的實體匹配來進行模式集成.通常借助于數(shù)據(jù)庫或數(shù)據(jù)倉庫的元數(shù)據(jù)進行模式識別;

(3)數(shù)據(jù)值沖突的檢測與處理:數(shù)據(jù)集成時將一個數(shù)據(jù)庫的屬性與另一個匹配時,要考慮數(shù)據(jù)的結構,用來保證原系統(tǒng)中的屬性函數(shù)依賴和參照約束與目標系統(tǒng)中的匹配.

3 數(shù)據(jù)轉換

數(shù)據(jù)轉換是為了更高效率地數(shù)據(jù)挖掘,盡可能篩選更多具備實用價值的數(shù)據(jù),一般情況,數(shù)據(jù)預處理中的轉換技術采用平滑聚集、數(shù)據(jù)概化、語言修改等方式將數(shù)據(jù)轉換成適用于數(shù)據(jù)挖掘的形式.數(shù)據(jù)預處理轉換技術能夠完成各類數(shù)據(jù)的轉換,不同格式、類型的數(shù)據(jù)均能有效地轉換成通用形式.

4 數(shù)據(jù)歸約

數(shù)據(jù)歸約技術可以用來得到數(shù)據(jù)集的歸約表示,它小得多,但是保持原始數(shù)據(jù)的完整性.也就是說,在歸約后的數(shù)據(jù)集上挖掘更有效果,仍然產生相同或幾乎形同的分析結果.數(shù)據(jù)歸約包括維歸約、數(shù)量歸約和數(shù)據(jù)壓縮.

(1) 維歸約:減少所考慮的隨機變量或屬性的個數(shù).維歸約方法包括小波變換和主成分分析,他們把原始數(shù)據(jù)變換或投影到較小的空間.屬性子集選擇是一種維歸約方法,其中不相關、弱相關或冗余的屬性或維被檢測和刪除.

(2)數(shù)量歸約:用替代的、較小的數(shù)據(jù)表示形式替換原始數(shù)據(jù).

(3)數(shù)據(jù)壓縮:使用變換,以便得到原始數(shù)據(jù)的歸約或"壓縮"表示.如果原始數(shù)據(jù)可以從壓縮后的數(shù)據(jù)重構,而不損失信息,則該數(shù)據(jù)歸約稱為無損的.反之,稱之為有損的.維歸約和數(shù)量歸約也可以視為某種形式的數(shù)據(jù)壓縮.

5 結語

在數(shù)據(jù)挖掘中,由于不同的數(shù)據(jù)源與數(shù)據(jù)挖掘目標,會有選擇的使用數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)轉換、數(shù)據(jù)歸約等預處理方法和技術.使用方式沒有先后順序,某一種預處理方法可循環(huán)多次使用,也有可能不需要使用.但數(shù)據(jù)預處理的方法和技術還不夠成熟,還需更進一步深入研究.

猜你喜歡
數(shù)據(jù)挖掘方法
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
學習方法
基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
數(shù)據(jù)挖掘技術在中醫(yī)診療數(shù)據(jù)分析中的應用
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
一種基于Hadoop的大數(shù)據(jù)挖掘云服務及應用
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
數(shù)據(jù)挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
主站蜘蛛池模板: 欧美成人一级| 久久精品国产在热久久2019| 国产菊爆视频在线观看| 久久77777| 亚洲人成网站18禁动漫无码| 黄色成年视频| 国产精品成人一区二区| 亚洲精选高清无码| 国产制服丝袜91在线| 青草视频在线观看国产| 一级黄色欧美| 无码免费的亚洲视频| 日韩精品一区二区三区中文无码| 国产乱人免费视频| 97久久精品人人| 美女免费黄网站| 在线观看免费黄色网址| 午夜久久影院| 91精品综合| 日本不卡免费高清视频| 亚洲综合香蕉| 欧美爱爱网| 青青草91视频| 毛片网站在线播放| 欧美一区中文字幕| 91在线视频福利| 国产系列在线| 五月婷婷伊人网| 97视频免费看| 亚州AV秘 一区二区三区| 亚洲乱码精品久久久久..| 亚洲va在线观看| 91热爆在线| 日本免费一区视频| 亚洲中文字幕在线观看| 国产男女免费视频| 日韩高清欧美| 成人免费一区二区三区| 无码中文字幕精品推荐| 毛片a级毛片免费观看免下载| 亚洲欧美不卡| 久久国产成人精品国产成人亚洲 | 国产sm重味一区二区三区| 在线精品亚洲一区二区古装| 久久a级片| 欧美天堂久久| 99热这里只有精品久久免费| 亚洲一欧洲中文字幕在线| 中文字幕66页| 喷潮白浆直流在线播放| 丝袜久久剧情精品国产| 青青草原偷拍视频| 2021国产精品自拍| 五月天在线网站| 久综合日韩| 亚洲黄色激情网站| 欧美午夜理伦三级在线观看 | 女人18一级毛片免费观看| 亚洲天堂在线免费| 亚洲精品第五页| 久久综合伊人77777| 亚洲精品无码av中文字幕| 国产国拍精品视频免费看| 97一区二区在线播放| 国产午夜看片| 国产特级毛片| 亚洲最大在线观看| 国产日韩欧美在线播放| 欧美、日韩、国产综合一区| 中文国产成人精品久久| 久久人搡人人玩人妻精品| 免费A级毛片无码无遮挡| 亚洲第一成年免费网站| 午夜啪啪网| 亚洲国产日韩在线观看| 福利片91| 国产无套粉嫩白浆| 亚洲成人精品| 高清大学生毛片一级| 国产麻豆精品在线观看| 伊人成人在线视频| 国产微拍一区|