999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大數據背景下數據預處理方法研究運用

2021-04-04 08:35:36唐成龍唐海春吳澤鋒
信息記錄材料 2021年9期
關鍵詞:數據挖掘

唐成龍,諶 頏,唐海春,吳澤鋒

(1廣州理工學院 廣東 廣州 510540)

(2廣州科技貿易職業學院 廣東 廣州 511442)

1 引言

在經濟快速發展的背景下,各類新進技術相繼興起應用,以云計算、大數據為代表應用頻次最高,其內部蘊含的價值不可估測。現下海量數據高效處理,對目前技術應用提出新的要求,為進一步高效、及時獲取數據信息中有效信息,需選取高速分析處理技術,對數據進行系統性分析優化升級。數據預處理工作是數據分析、挖掘前重要準備工作,選取科學處理方式,是保證最終數據質量及有效性舉措。有必要分析加大數據預處理方式研究,提高數據預處理水平。

2 大數據背景下數據預處理價值分析

現下數據信息爆發式增長,為快速從海量數據中提取有價值信息,應選取有效技術措施,做好數據預處理工作,增強數據有效性。數據預處理作為數據挖掘與知識發現過程核心環節之一,加強數據預處理價值體現在以下幾方面:(1)海量原始數據中通常包含以下特征:①不完整。屬性值或僅包含聚離數據;②含噪音。數據內部含有錯誤或存在偏離預期分散數值;③不一致。數據記錄規范性和邏輯性與其他數據未實現統一化,缺乏一定科學性。由于上述問題存在,人們使用數據過程中對其具有完整性、時效性及可靠性要求,所以需加強數據預處理,保證達成上述目標,為人們提供良好的服務。(2)由于數據采集規模較大,數據預處理通常需耗損大量時間,高質量決策依附于可靠度較高的數據,從實際中獲取數據大多結構不一致、完整性不足等,無法實現直接利用目標。因此,需加強數據預處理,提高數據自身質量,為后續決策的正確性奠定良好基礎。

3 大數據背景下數據預處理方法

由于數據種類及組織模式呈現為多元化,內部關聯性較為復雜,且數據質量不盡相同,造成數據解讀、分析多個環節中存在部分不足。因此,數據預處理作為數據分析、挖掘的重要準備工作,通過應用數據預處理措施,初期將海量數據中與最終挖掘、決策相關性較低的數據去除,為挖掘算法提供可靠性較高的數據信息。數據挖掘前提條件是應保證數據可靠性,去除其中“臟數據”,主要包含缺失數據、不確定數據等,對其進行預處理的方法,主要包含以下幾方面。

3.1 數據清洗

采取高效的技術措施檢測原始數據質量,判定其是否存在錯誤、不一致等,選取各類清洗處理技術,將數據進行清洗,提高數據可靠性。數據清洗技術內容較多,若想獲取良好的數據清洗成效,應首先明確“臟數據”種類及形成因素,將其進行處理,轉變為所需數據。隨著信息業和商業高速發展,進一步促進數據清洗技術的良好發展。

3.1.1 重復數據的清洗

為從本質層面保證數據分析、挖掘速度和精準度,需將原始數據中疊加重復數據進行去除,以免對數據分析最終結果造成干擾。初期數據中存在兩個或超過兩個實例,則將其視為重復數據。為高效、及時確定數據重復,一般選取的措施為逐一將每一個實例進行比較,確定與其相吻合的實例。為掌握實例中數據自身屬性,可通過統計學進行檢測,按照不同數值型屬性均值和標準方差值,布設相應的屬性區間,并與上述數據一一對應,辨識數據集合中重復記錄,及時將重復數據去除。針對上述疊加數據通常選用相似度計算,以其作為去除準則,判定數據相似度是否滿足要求。將兩條記錄相似度進行比較,其數值超出一定限值,則判定兩條記錄吻合,反之兩者屬于不同實體[1]。

3.1.2 缺失數據清洗

完善缺失數據作為數據清洗過程中面臨的又一瓶頸,實際數據采集過程中,因人為操作不當致使信息可靠性喪失等,造成數據內容缺乏一定的完整性,會對抽取模式精準性和導出標準造成一定干擾。錯誤數據挖掘模型應用于決策端口時,會造成結果與決策偏離正確軌道,造成嚴重損失。針對缺失數據清洗,其選取方式包含兩方面:一方面,忽略缺失數據。原始數據收集、整理過程中,受多方面因素影響,造成部分數據屬性不完善,為避免其對整個數據群造成影響,需選取忽略刪除方式去除。數據整體規模較小,且完整性數據較少條件下,一般選用該方式進行數據清洗,此種方式應用效率較高。若數據集合規模較大,一經刪除部分記錄之后,造成后續數據規模縮小,構建模型典型性和適用性無法凸顯,可靠性降低。此外,刪除缺失數據過程中,可能將原有有價值數據去除,進而對后續數據挖掘、模型構建造成干擾,最終挖掘成果可靠性不佳,易對最終決策有所干擾。另一方面,基于填充技術缺失值插補算法。上述刪除法應用過程中存在一定局限性,所以被應用選擇頻次較低。為填充原始數據缺失內容,可選取最接近缺失值替代,保證數據挖掘質量及可靠性。填充方法存留原有潛在價值數據,構建最終模擬更具可靠性,為決策提供高質量信息數據。

3.1.3 噪聲數據處理

數據正式挖掘之前,通常將數據設定為理想狀態,但現實生活中收集、整理數據過程中,受多重因素干擾,會產生一定的噪音數據,即“離群點”。由于噪聲數據偏離正確數據范圍內,難以保證最終數據分析、挖掘成果,影響其后續挖掘結果準確性。一般常用消除噪聲數據方式包含兩種:(1)分箱法。將預處理數據分散至不同箱子中,以周圍實際平滑噪聲數據為基準,將其劃分為兩種類型。依照平均數值進行平滑,提取平均數值,并將其作為整個箱子中數據代表值;按照中位數平滑,與上述方式相同;根據箱邊界平滑,定義箱邊界是箱中最大和最小數值。(2)噪聲過濾。選用聚類方法對離群點進行分析、過濾。噪聲過濾中,常用算法主要包含EF算法、IPF算法[2]。

3.2 數據集成與變換

數據集成過程作為一項復雜性工作,主要將多文件或數據庫中數據進行整合匯總處理,從本質層面消除語義的模糊性。數據變換主要是對原有數據進行分析,掌握其特點規律,選取維變換或轉化方式,減少數據中有效量數目。數據變換將數據轉化為吻合數據挖掘需求各種形式,依照實際應用數據挖掘算法,確定使用數據轉換具體方式。通常數據轉換方式較多,應依照數據屬性實際狀況,選取科學、合理數據處理措施,如函數變換、數據規范化等,規范化有助于數據實現合理劃分類別,以及避免對度量單位依賴性。

3.3 數據歸納

數據歸納主要是對發現任務和數據自身解讀層面,探尋數據中表達特征,以此實現縮減數據模型,進而保證數據原有形貌同時最大限度簡化數據量,保證大數據挖掘更具高效性。數據規約包含兩種方式,即維規約、數量規約。數據規約過程中包含關鍵技術如下:(1)高維數據降維處理。數據規約過程中重點內容是高效減少數據數量,提取其特性核心目的在于其是否可準確展示相關問題屬性,且將多余屬性去除,保證其學習高效性增強。(2)實例歸納。現階段使用頻次較高的減少數據方式為實例規約方式,實現數據減少目標同時,保證數據處理質量。應用自動生成實例方法,進而降低數據宏觀整體規模,其包含技術較多,如實例選擇、實例生成等。實例選擇主要是生成一個最小數據集,將噪聲數據等多余數據去除,獨立之后進行數據挖掘算法;實例生成主要是構建多種實際案例,涉及相關算法包含LVQ。(3)離散化技術。數據離散化之前,需估測離散型數據整體規模,隨后將其數據按照一定順序排列,明確多個分裂點將數據劃分為多個區間。將處于同一區域內全部連續性數據,選取統一性方式匹配值相同離散型數據上。按照分裂點認定方式不同,離散化主要劃分為兩種方式,即自頂向下、自底向上。(4)不平衡學習。利用機器進行學習形成數據模型過程中,針對不同種類數據集成上形成良好的差異。其中,多數標準分類學習算法會傾向于實例,對少數實例予以忽視。數據預處理相關技術可有效避免類型分布不均衡狀況,核心方式包含兩種,即欠采樣方法、過度采樣方法,前者是抽樣創建初期數據子集作為數據挖掘,建議將大多實例去除;后者實際抽樣過程中復制大量相同實例[3]。

4 反思與建議

多數方法可在數據清理和規約中應用,且兩者在整合數據預處理過程中更為重要,特別是整個數據規約流程。原有應用統計學對數據進行處理時,基于概率論下,以設計試驗方法最終獲取相關數據,從而保證數據吻合相關形成模型。數據挖掘面臨的是大規模數據,數量、變量數較大,數據間關系較為復雜,兩者存在目標相同,選取推導掌握整體數據規律,是統計學實施核心方式,數據挖掘更強調對整體規律分析。由上述分析獲知,掌握兩者間存在差異性,具體應用過程中,掌握數據挖掘中數據特征,綜合應用多學科知識,高效融合統計學方法。

針對未來數據預處理方式改善建議如下:首先,注重數據預處理應與專業知識與知識應用融合,且應始終貫穿于數據預處理各環節中。其次,原始數據源獲取是數據預處理重要節點,需嚴控其預處理各環節質量,保證數據處理高效性及可靠性。最后,應積極推行倡導對數據預處理實現循環模式[4]。

5 結語

大數據時代背景下,各類先進技術應用于多個領域行業中,有助于推動數據預處理方法提升和擴展。數據預處理是數據挖掘基礎保證,通過高質量數據預處理工作,將其中多余數據、錯誤數據等去除,及時填充缺失數據,實現必需數據集成匯總,保證數據質量可靠性,為決策提供完整、高效數據。

猜你喜歡
數據挖掘
基于數據挖掘的船舶通信網絡流量異常識別方法
探討人工智能與數據挖掘發展趨勢
數據挖掘技術在打擊倒賣OBU逃費中的應用淺析
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
數據挖掘技術在中醫診療數據分析中的應用
一種基于Hadoop的大數據挖掘云服務及應用
數據挖掘在高校圖書館中的應用
數據挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
基于GPGPU的離散數據挖掘研究
利用數據挖掘技術實現LIS數據共享的開發實踐
主站蜘蛛池模板: 亚洲精品午夜无码电影网| 四虎精品国产AV二区| 精品国产成人国产在线| 2021最新国产精品网站| 久久国产成人精品国产成人亚洲 | 中文字幕佐山爱一区二区免费| 91国语视频| 97se综合| 免费人欧美成又黄又爽的视频| 免费A∨中文乱码专区| 亚洲欧美一级一级a| 欧美精品v| 亚洲精品日产精品乱码不卡| 91福利一区二区三区| 被公侵犯人妻少妇一区二区三区| 精品一區二區久久久久久久網站| 激情视频综合网| 日韩在线2020专区| 亚洲人成在线免费观看| 国产一级精品毛片基地| 一级黄色片网| 熟妇丰满人妻| 欧美一区精品| 亚洲日韩AV无码精品| 国产精品第一区在线观看| 欧美人在线一区二区三区| 亚洲AV无码一区二区三区牲色| 91精品国产麻豆国产自产在线| 欧洲免费精品视频在线| 91麻豆国产视频| 国产精品久久自在自线观看| 欧美在线综合视频| 丁香婷婷激情综合激情| 国产swag在线观看| 国产jizz| 三上悠亚精品二区在线观看| 中国国产A一级毛片| 99成人在线观看| 熟妇丰满人妻av无码区| 毛片免费网址| 无码区日韩专区免费系列| 亚洲成av人无码综合在线观看 | 国产产在线精品亚洲aavv| 五月天婷婷网亚洲综合在线| 国产香蕉在线视频| 欧美日韩福利| 中文字幕乱码二三区免费| 亚洲综合激情另类专区| 亚洲 成人国产| 五月天综合网亚洲综合天堂网| 日韩天堂网| 制服丝袜一区二区三区在线| 欧洲av毛片| 日韩在线1| 免费观看男人免费桶女人视频| 丁香婷婷在线视频| 国产九九精品视频| 婷婷成人综合| 国产91透明丝袜美腿在线| 精品免费在线视频| 中国黄色一级视频| 在线视频亚洲色图| 中文字幕欧美成人免费| 亚洲性色永久网址| 在线观看国产精品一区| 国产凹凸一区在线观看视频| 亚洲人成人无码www| a免费毛片在线播放| 天天色天天综合| 在线免费看片a| 亚洲无码视频喷水| 免费观看成人久久网免费观看| 性色在线视频精品| 色屁屁一区二区三区视频国产| 女人18毛片水真多国产| 无码日韩人妻精品久久蜜桃| 日韩av高清无码一区二区三区| 久久久久久久久18禁秘| 国产综合欧美| 亚洲成a人片77777在线播放| 国产一区二区三区免费观看 | 国产综合精品日本亚洲777|