999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

數(shù)據(jù)預處理技術在異構數(shù)據(jù)中的應用

2020-07-10 15:51:50羅長銀陳學斌宋尚文
軟件 2020年5期
關鍵詞:模型

羅長銀,陳學斌*,宋尚文,劉 洋

(1. 華北理工大學理學院,唐山 06300;2. 河北省數(shù)據(jù)科學與應用重點實驗室,唐山 06300;3. 唐山市數(shù)據(jù)科學實驗室,唐山 06300)

0 引言

隨著大數(shù)據(jù)時代的到來,隱藏在大數(shù)據(jù)下面的價值信息成為人們對數(shù)據(jù)進行操作的源動力。根據(jù)實際的需求中,可以總結為三個方面:要全體不要抽樣;要效率以及各方準確度良好不要絕對的精確,要相關不要因果[1]。近年來,數(shù)據(jù)儲量從原來4.4ZB到現(xiàn)在的 44ZB,海量數(shù)據(jù)使得人們在處理問題時也將面臨巨大的挑戰(zhàn),但同時也必須要面臨更加復雜的數(shù)據(jù)環(huán)境。數(shù)據(jù)預處理作為數(shù)據(jù)挖掘、數(shù)據(jù)分析、數(shù)據(jù)安全等研究前的重要一環(huán),對數(shù)據(jù)進行合理有效的預處理操作可以使得數(shù)據(jù)在存貯、計算等方面都會減少相應的復雜度,文獻[2]對醫(yī)院日志文件中的數(shù)據(jù)進行過濾及填充,使模型的準確度得到提升。文獻[4]通過構建規(guī)則庫和樣本庫,達到相應的數(shù)據(jù)預處理方法進行自動化的數(shù)據(jù)預處理,可以提升模型的準確度,但沒有考慮數(shù)據(jù)的安全性與有效性,本文主要從數(shù)據(jù)清洗、數(shù)據(jù)歸約兩部分對數(shù)據(jù)進行處理,使其能夠在安全的前提下,實現(xiàn)對數(shù)據(jù)的高效利用。

1 相關定義

大數(shù)據(jù)的環(huán)境下,使得數(shù)據(jù)預處理成為數(shù)據(jù)挖掘等技術發(fā)展的不可或缺的一環(huán),數(shù)據(jù)預處理技術包括數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)規(guī)約、數(shù)據(jù)變換四個部分[3],其中數(shù)據(jù)清洗包括重復數(shù)據(jù)的清洗[5]、缺失值的填充[6]、以及對一些異常值的處理[7],本文只針對數(shù)據(jù)清洗和數(shù)據(jù)規(guī)約對數(shù)據(jù)做了相應的預處理,經(jīng)實驗對比,經(jīng)過處理后的數(shù)據(jù)既能滿足數(shù)據(jù)挖掘的需求,同時也降低了復雜度和成本。

數(shù)據(jù)清洗[8-10]是完成格式的標準化、對空缺值進行處理、清除重復的數(shù)據(jù)以及對異常數(shù)據(jù)進行錯誤糾正和清除等操作。

數(shù)據(jù)規(guī)約[11-14]:數(shù)據(jù)規(guī)約是針對原始數(shù)據(jù)集中地屬性和記錄,實現(xiàn)有效的數(shù)據(jù)采集和對應的屬性選擇,盡可能的降低數(shù)據(jù)規(guī)模,可以在有效的解決問題的同時減少時間復雜度與空間復雜度,可以通過聚類、屬性約簡、以及數(shù)據(jù)欠采樣以及將冗余特征值刪除等方式,在最大限度地保證數(shù)據(jù)的原有特征的基礎上,實現(xiàn)對數(shù)據(jù)量的有效精簡。數(shù)據(jù)規(guī)約是在保證原有數(shù)據(jù)的完整性和有效性的基礎上,在數(shù)據(jù)庫以及數(shù)據(jù)表中提取出特征性的數(shù)據(jù)集合的基礎上進行的。

Jaccardx相似系數(shù)[15]:用于比較有限樣本集之間的相似性與差異性。Jaccard系數(shù)值越大,樣本相似度越高,用Jaccard(A,B)表示。與Jaccard系數(shù)相關的指標叫做Jaccard距離,用于描述集合之間的不相似度。Jaccard距離越大,樣本相似度越低,用

數(shù)據(jù)約簡[16]:數(shù)據(jù)約簡包括兩個方面:基于特征選擇約簡和基于實例選擇約簡。基于特征選擇的數(shù)據(jù)約簡是指在所有特征中選擇某些重要的、有代表性的特征,去除對處理結果小甚至無影響的特征,已達到提取主要特征的目的。如主成分分析法等。基于實例選擇的數(shù)據(jù)約簡是從原始數(shù)據(jù)集中選擇具有代表性的實例,去除冗余的和相似性較大的數(shù)據(jù),得到相對較小的約簡數(shù)據(jù)集,已達到減少數(shù)據(jù)量和改變數(shù)據(jù)分布的目的。如基于樣本距離等數(shù)據(jù)約簡方法。

牛頓插值法[17]:每增加一個點,不會導致之前的重新計算,只需要算和新增點有關的即可,牛頓插值法為:

馬氏距離[18]:表示數(shù)據(jù)的協(xié)方差距離,與歐氏距離不同的是它考慮到各種特性之間的聯(lián)系,并且是尺度無關的,即獨立于測量尺度。對于一個均值為

協(xié)方差矩陣為∑ 的多變量矢量:

其馬氏距離為:

2 數(shù)據(jù)清洗

因其數(shù)據(jù)量的增加使得數(shù)據(jù)冗余、錯誤等情況的發(fā)生也在不斷的增加,利用各種清洗技術,得到其“有效”的數(shù)據(jù)集合。本文的數(shù)據(jù)清洗技術將從重復數(shù)據(jù)的處理與填充缺失值以及在處理異常值三個方面對數(shù)據(jù)進行合理操作,使得數(shù)據(jù)在滿足基本安全的情況下能夠使得減少數(shù)據(jù)量增大所帶來的復雜度。

2.1 重復數(shù)據(jù)的清洗

為了提升數(shù)據(jù)挖掘的速度和準確度,去除數(shù)據(jù)中的重復記錄是很有必要的。常見的數(shù)據(jù)類型為數(shù)值型數(shù)據(jù)以及字符型數(shù)據(jù)和符號型數(shù)據(jù),對于數(shù)值型數(shù)據(jù),我們采用Jaccard系數(shù)來度量數(shù)值型數(shù)據(jù)的相似性,Jaccard系數(shù)定義如(1)所示:

其中,X,Y均為每一個數(shù)值型數(shù)據(jù)所構成的集合。當Jaccardt>時可以說兩個數(shù)值型數(shù)據(jù)的相似程度高,當Jaccardt≤時,說明二者數(shù)據(jù)的相似程度比較低。

對于字符型數(shù)據(jù)來說,利用文獻[2]中其改進的字段匹配算法對字符型數(shù)據(jù)計算其分詞匹配度與權值匹配度,本文對其分詞匹配度的計算方法進行改進,提出了相對匹配度(R ppd- )的算法,如下公式所示:

K為兩個字符串的相同的字數(shù),當A中的字符匹配B中的字符時,則分母為B字符串中的字符的個數(shù),即為|B|,當B中的字符匹配A中的字符時,則分母為|A|字符串中的字符的個數(shù),即為|A|。當相對匹配度的值大于0.8時,則說明,字符串A相對字符串B來說,為高度的相似,這時需要對兩個數(shù)據(jù)進行仔細的比對,看是否為重復數(shù)據(jù),當此字符串完全相同時,還需進一步的比對此樣本的其他屬性信息,例如:名字可能存在相同,生日不同的情況,但如果生日也相同,此概率相對較小,即使最終結果為不同,也可能損失了時間以及效率復雜度。

2.2 缺失值數(shù)據(jù)

在數(shù)據(jù)集中,缺失值是經(jīng)常出現(xiàn)的,對于不同的樣本來說,可能缺失的是一個屬性值數(shù)據(jù),也可能缺失的是一個樣本中的多個屬性值數(shù)據(jù),本文只對缺失值少于4個以下的數(shù)據(jù)缺失值進行補充,對于同一樣本中缺失的屬性值數(shù)據(jù)在2個(含2個)以下時,采用拉普拉斯分布中的數(shù)值來填充缺失值,在不會對原始數(shù)據(jù)產(chǎn)生大的影響的同時,添加此缺失值,也對數(shù)據(jù)提供了一定的安全性,對于同一樣本中缺失的屬性值數(shù)據(jù)大于4個的,將對其采用傳統(tǒng)的方法,對其刪除此樣本,同時也可以減少數(shù)據(jù)量,減少計算復雜度。

對于缺失的屬性值的數(shù)據(jù)來說,本文采用牛頓插值法來填充缺失的數(shù)據(jù)值,可用均方誤差來檢驗填充數(shù)值的誤差,公式為:

2.3 去除異常值

對于任何的數(shù)據(jù)集來說,異常值的數(shù)據(jù)沒有太多的研究價值,故必須去除數(shù)據(jù)集中所存在的孤立點,本文基于馬式距離的公式來計算數(shù)據(jù)集中的某一點與其他各個點之間的距離,并計算其協(xié)方差矩陣,根據(jù)協(xié)方差矩陣來判定那些數(shù)據(jù)導致協(xié)方差矢量變大,將協(xié)方差矩陣中數(shù)值較大的值所對應的數(shù)據(jù)刪除即可,公式如下所示:

3 數(shù)據(jù)規(guī)約

對于目前的數(shù)據(jù)存儲量來說,在保證原有數(shù)據(jù)的完整性與有效性的基礎上,采用聚類以及將冗余屬性刪除等形式,將降低數(shù)據(jù)規(guī)模,以此達到精簡數(shù)據(jù)量的目的。本文采用數(shù)據(jù)約簡的方法,在減少數(shù)據(jù)庫中數(shù)據(jù)表的同時減少冗余的屬性。

數(shù)據(jù)約簡包括樣例約簡和屬性約簡,對于樣例約簡,本文采用文獻[19]中的數(shù)據(jù)欠采樣的方法,基本思想為:先對數(shù)據(jù)集進行聚類,得到聚類簇集合Q = { Q1, Q2,… ,Qn},然后根據(jù)聚類后的不平衡比例系數(shù)確定采樣倍率 N,并對每個聚類簇進行數(shù)據(jù)抽樣,最后得到欠采樣后的數(shù)據(jù)集,欠采樣倍率N的計算方法如下:

其中,i表示將連續(xù)值的數(shù)據(jù)離散成n個,m表示為在某個區(qū)間范圍內(nèi)對數(shù)據(jù)集聚成的個數(shù)。而屬性約簡的方法為:通過計算各個屬性之間的距離,將距離較遠的屬性去除,在計算其對整個數(shù)據(jù)集的影響,如果影響較小或無影響,則可以刪除此屬性,可以達到減少數(shù)據(jù)量的目的,采用主成分分析法(PCA)[20]來實現(xiàn)對屬性的約簡,主要思想:先將原始數(shù)據(jù)集按列組成n行m列矩陣X,將μ的每一行進行進行零均值化,即減去這一行的均值,再求特征值及對應的特征向量,將特征向量按對應特征值的大小從上到下排成矩陣,取前k行組成矩陣P,Y PX= 即為降維到k維后的數(shù)據(jù)。

4 實驗分析

4.1 實驗參數(shù)設置

本文在數(shù)據(jù)預處理階段是基于 python語言和pycharm集成軟件開發(fā)實現(xiàn)。實驗硬件環(huán)境為:Inter(R) Core i5-4200M CPU 2.50 GHz處理器,內(nèi)存8 G;操作系統(tǒng)為windows 10.在實驗數(shù)據(jù)方面,采用從 https://archive.ics.uci.edu/ml/index.php下載的數(shù)據(jù)集。

4.2 實驗數(shù)據(jù)分析

實驗的數(shù)據(jù)采取隨機破壞20%的數(shù)據(jù)作為初始原始數(shù)據(jù)集,其數(shù)據(jù)變化如圖1所示,數(shù)據(jù)的不斷變化反映數(shù)據(jù)集的多樣性,同時也可驗證本文所采取的對數(shù)據(jù)預處理階段的泛化能力。

實驗分為四部分,第一部分為:從UCI上下載相應的數(shù)據(jù)集,并隨機對下載的數(shù)據(jù)集破壞100次且每次破壞20%表示多樣數(shù)據(jù)對本文所采取的數(shù)據(jù)預處理階段對模型的影響,第二部分為:將破壞的數(shù)據(jù)進行填充處理,針對缺失值為2個以下的,因牛頓插值法在增減節(jié)點數(shù)目時,只需增減相應節(jié)點處的計算量的優(yōu)點,將缺失值在2至4個時,采用牛頓插值法,可以在減少計算量的同時準確度得到提升。第三部分為:去掉重復數(shù)值型數(shù)據(jù)時,將任意兩個樣本中多個屬性的相似度均超過閾值,則這兩個樣本重復,將其刪除(采取Jaccard系數(shù)作為數(shù)值型屬性的比對,Rppd作為字符型屬性比對),第四部分為:從樣本約簡和屬性約簡兩方面對數(shù)據(jù)規(guī)模進行簡化的同時還能提升模型精度,進而避免過擬合問題,其每個階段的數(shù)據(jù)所建立模型的準確度如表1所示。

圖1 隨機變化的數(shù)據(jù)集Fig.1 Randomly changing dataset

為驗證本文所采取的數(shù)據(jù)預處理對模型的影響,對完整數(shù)據(jù)集隨機破壞100次且每次的比例為20%作為原始數(shù)據(jù)集,同時使用 CART分類樹、支持向量機、線性分類器三種作為檢驗模型,圖2表示三種模型在100次隨機數(shù)據(jù)集上的變化情況,將模型在破壞100次的數(shù)據(jù)上得分的平均值作為模型的準確度,則在原始數(shù)據(jù)集上CART分類樹的準確度為 92.51%,支持向量機的得分為 50.88%,線性分類器的準確度為54.55%。

圖2 3種檢驗模型在原始數(shù)據(jù)集上的變化圖Fig.2 The changes of the three test models on the original data set

填充缺失值是數(shù)據(jù)清洗中重要的部分,本文對缺失值少于2個的情況,將每個屬性采用拉圖拉斯分布進行填充,對于缺失值在2至4個的情況,采用牛頓插值法同樣的對每個屬性進行填充,圖3表示的是三種檢驗模型100次在缺失值填充后的數(shù)據(jù)集上的變化圖。在缺失值填充后的數(shù)據(jù)集上,CART分類樹的準確度為95.24%,支持向量機的準確度為94.7%,線性分類器的準確度為 98.44%,與原始原始的結果相比較,三種模型在缺失值填充后的數(shù)據(jù)集上的準確度得到大幅上漲,其中線性分類器與支持向量機均上漲約43.82%,CART分類樹上漲2.73%。

圖3 三種檢驗模型在缺失值填充后的數(shù)據(jù)集上的變化圖Fig.3 The change chart of the three test models on the data set after the missing value is filled

去除重復數(shù)據(jù)能降低模型的復雜度,本文對于數(shù)值型數(shù)據(jù)采用 Jaccard系數(shù)作為任意兩個樣本的比對,對于字符型數(shù)據(jù)采用 Rppd系數(shù)作為任意兩個樣本的比對,只有當數(shù)據(jù)集中多個屬性值的對比系數(shù)均大于閾值方可作為重復數(shù)據(jù)處理,圖4為三種檢驗模型100次在去除重復數(shù)據(jù)后的數(shù)據(jù)集上的變化圖。CART分類樹的準確度為95.45%,支持向量機的準確度為 94.74%,線性分類器的準確度為98.61%,與填充缺失值后的數(shù)據(jù)集相比較,三種模型的準確度均上漲。

圖4 三種檢驗模型在去除重復數(shù)據(jù)后的數(shù)據(jù)集上的變化圖Fig.4 The change chart of the three test models on the data set after removing duplicate data

數(shù)據(jù)規(guī)約可降低模型過擬合的可能,本文分別從樣例約簡和屬性約簡兩方面減少數(shù)據(jù)規(guī)模的同時保證模型的準確度,其結果如圖5所示。CART分類樹的準確度為 97.42%,支持向量機的準確度為99.69%,線性分類器的準確度為99.98%,與去除重復數(shù)據(jù)后的數(shù)據(jù)相比較,三種模型的準確度再次上漲,且三種模型的準確度均在97%以上。

圖5 三種檢驗模型在數(shù)據(jù)規(guī)約處理后的數(shù)據(jù)集上的變化圖Fig.5 The changes of the three test models on the data set after data reduction processing

圖6 表示數(shù)據(jù)清洗、數(shù)據(jù)規(guī)約兩方面的數(shù)據(jù)預處理技術對CART分類器的影響,得到原始數(shù)據(jù)集上 CART分類器準確度為 92.51%,缺失值填充后CART分類器準確度為92.54%,去除重復值后CART分類器準確度為 95.45%,聚類數(shù)據(jù)處理后數(shù)據(jù)集CART分類器準確度為97.43%,可以得出數(shù)據(jù)預處理技術可以提升CART分類器的準確度。

圖6 CART分類樹在數(shù)據(jù)預處理各階段的變化圖Fig.6 CART classification tree at various stages of data preprocessing

圖7 表示數(shù)據(jù)清洗、數(shù)據(jù)規(guī)約兩方面的數(shù)據(jù)預處理技術對支持向量機的影響,得到原始數(shù)據(jù)集上支持向量機準確度為50.89%,缺失值填充后支持向量機準確度為 94.7%,去除重復值后支持向量機準確度為94.74%,聚類數(shù)據(jù)處理后數(shù)據(jù)集支持向量機準確度為99.69%,可以得出數(shù)據(jù)預處理技術可以大幅度提升支持向量機的準確度。

圖7 支持向量機在數(shù)據(jù)預處理各階段的變化圖Fig.7 Support vector machine changes at various stages of data preprocessing

圖8 表示數(shù)據(jù)清洗、數(shù)據(jù)規(guī)約兩方面的數(shù)據(jù)預處理技術對線性分類器的影響,得到原始數(shù)據(jù)集上線性分類器準確度為54.55%,缺失值填充后線性分類器準確度為98.44%,去除重復值后線性分類器準確度為98.61%,聚類數(shù)據(jù)處理后數(shù)據(jù)集線性分類器準確度為99.98%,可以得出數(shù)據(jù)預處理技術可以提升線性分類器的準確度。

圖8 線性分類器在數(shù)據(jù)預處理各階段的變化圖Fig.8 The change graph of the linear classifier at each stage of data preprocessing

4.3 實驗方法分析

本文采用方差[18]來表示模型的穩(wěn)定性,其中方差公式為:

其中n代表次數(shù),m代表100次的平均值,公式為:

經(jīng)計算結果如表2所示。

由上表可知,三種驗證模型在數(shù)據(jù)預處理各階段的均值均在上升,由此可說明本文說采取的數(shù)據(jù)預處理技術將會提升模型的準確度,且三種模型在數(shù)據(jù)預處理各階段的方差均在0.4%以下,說明本文所采取的數(shù)據(jù)預處理技術的穩(wěn)定性較好,符合要求。

表2 數(shù)據(jù)預處理結果比較表Tab.2 Comparison table of data preprocessing results

4.4 實驗小結

本文從數(shù)據(jù)清洗和數(shù)據(jù)規(guī)約兩方面對數(shù)據(jù)預處理技術進行處理,首先將完整數(shù)據(jù)集隨機破壞20%作為本文的原始數(shù)據(jù)集,反映數(shù)據(jù)多樣性對模型的影響,然后對原始數(shù)據(jù)集填充缺失值,對于缺失兩個以下的采取拉普拉斯分布對每個屬性進行填充,對于缺失2至4個的情況采用牛頓插值法填充,可以得模型的準確度上升,尤其是支持向量機和線性分類器,漲幅均超過40%,然后模型在去除重復值的數(shù)據(jù)上進行訓練,得其準確度再次上升,再對數(shù)據(jù)進行樣例約簡和屬性約簡,從而在避免過擬合的同時也能提高模型的準確度,經(jīng)三種驗證模型的得分均超過97%,可說明本文所采取的數(shù)據(jù)預處理的措施是真實有效的。

5 結論

本文針對數(shù)據(jù)清洗和數(shù)據(jù)規(guī)約兩方面對數(shù)據(jù)預處理技術進行處理,原始數(shù)據(jù)集經(jīng)過填充缺失值、去除重復值、樣例約簡和屬性約簡四步預處理后,三種驗證模型的準確度都得到大幅提升,同時其各階段模型模型的得分均在0.4%以下,說明模型的穩(wěn)定性較好,所采取的數(shù)據(jù)預處理的措施是真實有效的。與傳統(tǒng)的數(shù)據(jù)預處理技術相比,主要有2點改進:第一點是沒有考慮數(shù)據(jù)預處理階段數(shù)據(jù)集成、數(shù)據(jù)變換對模型的影響,第二點是未能考慮異構數(shù)據(jù)對模型的影響。實驗表明,本文所采取的數(shù)據(jù)預處理技術會大幅提升模型的準確度。未來將添加數(shù)據(jù)集成、數(shù)據(jù)變換兩方面的數(shù)據(jù)預處理技術來驗證數(shù)據(jù)對模型的影響。

猜你喜歡
模型
一半模型
一種去中心化的域名服務本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數(shù)模型及應用
p150Glued在帕金森病模型中的表達及分布
函數(shù)模型及應用
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 国产精品高清国产三级囯产AV| 99久久无色码中文字幕| 国产成人精品免费av| 9999在线视频| 欧美日韩资源| 亚洲国产日韩一区| 色九九视频| vvvv98国产成人综合青青| 老司机久久精品视频| 99视频国产精品| 麻豆精品久久久久久久99蜜桃| 一区二区三区国产精品视频| 免费99精品国产自在现线| 99久久精品免费视频| 亚洲午夜18| 麻豆国产原创视频在线播放| 亚洲福利一区二区三区| 少妇精品网站| 操操操综合网| 国产99在线观看| 天堂在线www网亚洲| 日本中文字幕久久网站| 日本精品中文字幕在线不卡| 欧美中文字幕一区二区三区| 香蕉久久国产超碰青草| 亚洲色偷偷偷鲁综合| 色综合天天操| 秋霞午夜国产精品成人片| 高清无码不卡视频| 亚洲va视频| 亚洲av无码人妻| 特级做a爰片毛片免费69| 国产乱人伦AV在线A| 精品91在线| 亚洲欧美一区二区三区麻豆| 2020最新国产精品视频| 日韩精品成人在线| 又爽又大又光又色的午夜视频| 国产99免费视频| 毛片免费视频| 日日拍夜夜操| 在线观看国产精品日本不卡网| 亚洲视频在线网| 中文字幕人成乱码熟女免费| jizz国产在线| 亚洲成综合人影院在院播放| 五月婷婷欧美| 亚洲伦理一区二区| 成人国产精品一级毛片天堂 | 凹凸国产分类在线观看| 国产日韩精品欧美一区喷| 精品福利国产| 亚洲色偷偷偷鲁综合| www.狠狠| 色有码无码视频| 亚洲人成亚洲精品| 国产成人一区在线播放| 欧美成人在线免费| 国产尹人香蕉综合在线电影 | 国产91蝌蚪窝| 国产主播一区二区三区| 美女视频黄频a免费高清不卡| 欧美a级完整在线观看| 亚洲三级成人| 亚洲精品成人7777在线观看| 欧美亚洲一二三区| 欧美精品伊人久久| 亚洲无线观看| 中文无码毛片又爽又刺激| 三级毛片在线播放| 国产 日韩 欧美 第二页| 亚洲视频影院| 亚洲一本大道在线| 99999久久久久久亚洲| 中文字幕在线观| 久久久久亚洲av成人网人人软件| 免费一级大毛片a一观看不卡| 69国产精品视频免费| 亚洲国产成人麻豆精品| 婷婷色在线视频| 日本久久网站| 8090午夜无码专区|