999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于智能分類算法的數(shù)據(jù)質(zhì)量檢測(cè)

2018-08-23 00:38:06
關(guān)鍵詞:分類數(shù)據(jù)庫(kù)檢測(cè)

(廣東警官學(xué)院 網(wǎng)絡(luò)信息中心,廣東 廣州 510230)

為了進(jìn)行大數(shù)據(jù)分析,存儲(chǔ)的數(shù)據(jù)首先要是有效的。計(jì)算機(jī)的普及帶動(dòng)了各行各業(yè)信息化的飛速發(fā)展,這也使得電子數(shù)據(jù)變得非常普遍,特別是隨著當(dāng)今大數(shù)據(jù)和人工智能的迅速崛起,大到國(guó)家層面、小至個(gè)人用戶,都越來(lái)越關(guān)心數(shù)據(jù)存儲(chǔ)問(wèn)題。隨著數(shù)據(jù)量的不斷增大,數(shù)據(jù)所包含的經(jīng)緯信息也越來(lái)越復(fù)雜,導(dǎo)致了系統(tǒng)之間的信息孤立現(xiàn)象越來(lái)越明顯,在一定程度上影響了數(shù)據(jù)的有效利用[1]。

面對(duì)復(fù)雜的信息流,數(shù)據(jù)很多時(shí)候是不完整的,甚至本身就是有質(zhì)量問(wèn)題的,因此,想要得到更加有價(jià)值的信息,提高數(shù)據(jù)源的可用性和多樣性,數(shù)據(jù)中心和業(yè)務(wù)系統(tǒng)的數(shù)據(jù)質(zhì)量就成為了非常重要的因素,數(shù)據(jù)檢測(cè)環(huán)節(jié)變得不可忽視?;诖?,本文中通過(guò)智能分類算法構(gòu)建數(shù)據(jù)質(zhì)量檢測(cè)方法,對(duì)進(jìn)入數(shù)據(jù)中心的數(shù)據(jù)進(jìn)行檢測(cè)分析及規(guī)劃后期的數(shù)據(jù)處理問(wèn)題[2]。

1 檢測(cè)模型設(shè)計(jì)

建立數(shù)據(jù)質(zhì)量檢測(cè)方法模型的主要思路是,通過(guò)提取數(shù)據(jù)特征值,對(duì)數(shù)據(jù)進(jìn)行歸類,從而對(duì)數(shù)據(jù)進(jìn)行處理。圖1中給出了改進(jìn)后的數(shù)據(jù)質(zhì)量檢測(cè)模型,包括特征值提取、智能分類和后續(xù)流程的設(shè)計(jì)[3]。

圖1 數(shù)據(jù)質(zhì)量檢測(cè)模型

數(shù)據(jù)質(zhì)量檢測(cè)模型包含數(shù)據(jù)采集、數(shù)據(jù)清洗、數(shù)據(jù)特征的定義、數(shù)據(jù)分類算法和數(shù)據(jù)的分析及處理。

數(shù)據(jù)采集是指建設(shè)程序接口,從不同的業(yè)務(wù)系統(tǒng)中將分散的業(yè)務(wù)數(shù)據(jù)引流到數(shù)據(jù)中心來(lái)集中存儲(chǔ),形成業(yè)務(wù)大數(shù)據(jù)。

數(shù)據(jù)清洗是針對(duì)引流到數(shù)據(jù)中心的各個(gè)模塊數(shù)據(jù)存儲(chǔ)前的預(yù)操作,通過(guò)編制篩選算法及人工干預(yù),去除掉臟數(shù)據(jù)和不需要的數(shù)據(jù)。

數(shù)據(jù)特征的定義也即提取特征值,是對(duì)數(shù)據(jù)采集與清洗之后深入了解數(shù)據(jù)的屬性,掌握關(guān)鍵數(shù)據(jù)的含義、來(lái)源、存儲(chǔ)方式[4]。

基于智能分類算法的數(shù)據(jù)檢測(cè)是指根據(jù)事先制定的算法對(duì)數(shù)據(jù)的檢測(cè)和分類。

數(shù)據(jù)的分析及處理是對(duì)分類后的數(shù)據(jù)的進(jìn)一步處理,包括對(duì)數(shù)據(jù)準(zhǔn)確性、一致性以及完整性進(jìn)行評(píng)估,由數(shù)據(jù)管理人員對(duì)數(shù)據(jù)進(jìn)行更正、修復(fù),滿足用戶需求[5]。

2 基于智能算法的數(shù)據(jù)檢測(cè)

2.1 數(shù)據(jù)源管理

數(shù)據(jù)源信息結(jié)構(gòu)如表1所示。該表的作用是處理數(shù)據(jù)源信息并保存相關(guān)的信息,以便于用戶查閱和分類算法的調(diào)用。由于數(shù)據(jù)具有多重信息且需要被存儲(chǔ)起來(lái),而數(shù)據(jù)庫(kù)的信息基本由此來(lái)提供,因此,用戶在操作時(shí)可以方便地獲取數(shù)據(jù)源的基本信息[6]。在該信息結(jié)構(gòu)表中,PROPERTY_NAME指的是每一種元數(shù)據(jù)屬性,由上述分析可知,每一種數(shù)據(jù)源的PROPERTY_NAME會(huì)有多個(gè),其對(duì)應(yīng)的成員信息如下:

表1 數(shù)據(jù)源信息結(jié)構(gòu)表

public class PropertyName initialize{

private String ip;//數(shù)據(jù)庫(kù)連接的ip地址;

private String pmt;//數(shù)據(jù)庫(kù)連接的端口信息;

private String dbName;//連接的數(shù)據(jù)庫(kù)名稱;

private String sch;//連接的模式名稱;

private String dri;//數(shù)據(jù)庫(kù)驅(qū)動(dòng)信息;

private String usename;//登錄數(shù)據(jù)庫(kù)的用戶名;

private String psw;//登錄數(shù)據(jù)庫(kù)的密碼;

private String initPolSize;//數(shù)據(jù)庫(kù)初始化連接數(shù);

private String minPolSize;//數(shù)據(jù)庫(kù)最小連接數(shù);

private String maxPolSize;//數(shù)據(jù)庫(kù)最大連接數(shù);

private String waitConTime;//連接等待時(shí)間;

private String parClass;//解析類;

private String testSql;//測(cè)試數(shù)據(jù)庫(kù)鏈接的SQL語(yǔ)句

}

2.2 數(shù)據(jù)特征值定義

本文中通過(guò)數(shù)據(jù)庫(kù)、數(shù)據(jù)表和業(yè)務(wù)場(chǎng)景描述這3個(gè)緯度來(lái)對(duì)數(shù)據(jù)質(zhì)量的特點(diǎn)進(jìn)行詳細(xì)表述,并舉例分析。

數(shù)據(jù)庫(kù):收集各個(gè)業(yè)務(wù)系統(tǒng)的所有數(shù)據(jù)庫(kù)及數(shù)據(jù)庫(kù)的用途信息。在程序中定義2列,即數(shù)據(jù)庫(kù)名和數(shù)據(jù)庫(kù)描述。

數(shù)據(jù)表:收集各個(gè)數(shù)據(jù)庫(kù)的所有業(yè)務(wù)表及其用途信息,在程序中也相應(yīng)的定義3列,即數(shù)據(jù)表名、數(shù)據(jù)表描述和主要字段信息。

業(yè)務(wù)場(chǎng)景:對(duì)關(guān)系數(shù)據(jù)庫(kù)和數(shù)據(jù)而言,通過(guò)數(shù)據(jù)庫(kù)名及備注及具體業(yè)務(wù)表的表名和備注,還不能完整的模擬數(shù)據(jù)的分類屬性,因此需要進(jìn)一步定義數(shù)據(jù)的場(chǎng)景信息來(lái)描述數(shù)據(jù)的完整性信息。

本文中將參照數(shù)據(jù)庫(kù)、數(shù)據(jù)庫(kù)表、業(yè)務(wù)場(chǎng)景的各類信息提取特征值,構(gòu)造15維度的特征向量,然后對(duì)數(shù)據(jù)通過(guò)式(1)進(jìn)行特征值標(biāo)準(zhǔn)化操作。

(1)

式中:x、y分別為特征向量X和被標(biāo)準(zhǔn)化后的特征向量Y的元素;xmax、xmin為特征向量X的最大值和最小值;ymax、ymin為被標(biāo)準(zhǔn)化后的特征向量Y最大值和最小值。

2.2.1 相對(duì)率

經(jīng)過(guò)對(duì)特征值的演算變換,對(duì)于提取的數(shù)據(jù)特征值通過(guò)式(2)計(jì)算數(shù)據(jù)的相對(duì)率,

(2)

式中:Ps為功率;f指對(duì)該數(shù)據(jù)進(jìn)行快速傅里葉變換。

2.2.2 相對(duì)比率

計(jì)算數(shù)據(jù)在整個(gè)使用周期中的相對(duì)比率非常重要。相對(duì)比率采用式(3)進(jìn)行計(jì)算,

(3)

式中:Pr指比率;i、j分別代表數(shù)據(jù)使用周期的開(kāi)始與結(jié)束。

2.2.3 平均比率

計(jì)算數(shù)據(jù)在使用周期內(nèi)的平均比率Sf為

(4)

2.3 數(shù)據(jù)檢測(cè)的智能分類算法

數(shù)據(jù)質(zhì)量檢測(cè)可通過(guò)不同算法實(shí)現(xiàn),以便更好地去發(fā)現(xiàn)數(shù)據(jù)中存在的錯(cuò)誤、紕漏等相關(guān)問(wèn)題。目前有很多不同的檢測(cè)模式可以對(duì)數(shù)據(jù)進(jìn)行檢測(cè),一種是數(shù)據(jù)挖掘的利用統(tǒng)計(jì)學(xué)方法進(jìn)行檢測(cè),另一種則是設(shè)計(jì)質(zhì)量約束規(guī)則對(duì)數(shù)據(jù)進(jìn)行檢測(cè)。數(shù)據(jù)挖掘方法屬于自動(dòng)化操作,雖然目前計(jì)算機(jī)對(duì)于數(shù)據(jù)中包含的專業(yè)術(shù)語(yǔ)、場(chǎng)景信息等相關(guān)數(shù)據(jù)還存在很多無(wú)法理解并模擬的瓶頸問(wèn)題,導(dǎo)致其檢測(cè)范圍有一定的局限性,必須根據(jù)具體問(wèn)題來(lái)調(diào)整分類特征值和支持向量機(jī)(SVM)算法的核函數(shù),但是人工智能技術(shù)是大勢(shì)所趨,這并不影響該方法的普及,為此本文中選擇第1種方法進(jìn)行實(shí)驗(yàn)。

對(duì)于數(shù)據(jù)中心來(lái)說(shuō),數(shù)據(jù)量十分龐大,數(shù)據(jù)質(zhì)量規(guī)則也很復(fù)雜,要想將這些規(guī)則進(jìn)行有效的組織和存儲(chǔ)是非常困難的。綜合已有文獻(xiàn)及人工智能技術(shù)的發(fā)展趨勢(shì),采用智能分類算法是較為可行的途徑,數(shù)據(jù)檢測(cè)的智能分類算法流程如圖2所示。

圖2 智能分類算法流程圖

該算法將模糊SVM算法擴(kuò)展到多核模糊SVM算法,以獲得較好的執(zhí)行效果,但是,這些基于核的數(shù)據(jù)分類算法最關(guān)鍵的步驟是盡可能地組合和選擇最好的核函數(shù),而這一步通常受到數(shù)據(jù)先驗(yàn)知識(shí)和期望挖掘模式的嚴(yán)重影響,目前尚未找到尋找最優(yōu)核的特定方法[7]。選擇合適的核函數(shù)是核算法成功的關(guān)鍵,而從一個(gè)預(yù)定義的組中選擇一個(gè)單一核函數(shù)是不足以代表數(shù)據(jù)檢測(cè)數(shù)據(jù)中一個(gè)樣本具有2個(gè)或多個(gè)類別的特性的。于是,近年來(lái)流行采用多核學(xué)習(xí)方法來(lái)替代固定的單核并取得較好的效果,應(yīng)用范圍也很廣。

本文中將多核學(xué)習(xí)應(yīng)用到模糊SVM中,并提出基于多核的模糊SVM算法,它能夠?qū)ふ易顑?yōu)隸屬度并可同時(shí)優(yōu)化一組核函數(shù)組合的非負(fù)的權(quán)值數(shù)組。文中還將在數(shù)據(jù)檢測(cè)分類過(guò)程中嵌入特征權(quán)重計(jì)算,選擇不同的數(shù)據(jù)特征以產(chǎn)生不同的相似度量(由不同核函數(shù)一一對(duì)應(yīng)的)。多核模糊SVM算法容易執(zhí)行,對(duì)于數(shù)據(jù)類間存在明顯重疊的特性具有較好的分類效果。本文中根據(jù)文獻(xiàn)報(bào)道的傳統(tǒng)SVM算法,派生出多核模糊SVM算法,之后將討論實(shí)驗(yàn)結(jié)果,并進(jìn)行總結(jié)。

核函數(shù)通常用于解決無(wú)效特征及相似度量問(wèn)題。樣本特性實(shí)效主要有2個(gè)方面原因:一是數(shù)據(jù)關(guān)系呈現(xiàn)非線性關(guān)系,通過(guò)核函數(shù)能把相似的數(shù)據(jù)定義到一個(gè)更為合適的空間,從而獲得更好的模型;另一方面,選取的特征向量未必能夠真實(shí)反映數(shù)據(jù)的固有特性,由此計(jì)算得到的相似度并不能反映數(shù)據(jù)之間真正的相似度。

構(gòu)建多核函數(shù)集合有多種途徑,根據(jù)上面所提及的2個(gè)問(wèn)題,通常采用2種方法來(lái)構(gòu)建。第1種方法:給定一組代表樣本特性的數(shù)據(jù)向量,可以在Hilbert空間內(nèi)采用一些可再生的核函數(shù)進(jìn)行多核構(gòu)建。例如,可以通過(guò)不同的核函數(shù)將樣本數(shù)據(jù)映射到不同的非線性空間并在這些空間下進(jìn)行數(shù)據(jù)相似度的計(jì)算。第2種方法:給定一組原始樣本數(shù)據(jù),可以提取不同類型的特征向量。例如,給定一組衛(wèi)星圖像集合,可以提取到顏色、紋理等不同類型的特征。在組合數(shù)據(jù)實(shí)驗(yàn)中,為了便于分析,可采取每一維作為一個(gè)特征,這樣可以直觀解釋實(shí)驗(yàn)結(jié)果。

對(duì)核的選擇原則一般是采用那些已經(jīng)被證明是有效的核(特征)。比如,rbf核已被證明對(duì)許多分類問(wèn)題有效,而poly核是一種流行的、有效特征識(shí)別的映射,被應(yīng)用于圖像識(shí)別當(dāng)中。一般地,核(特征)選擇越多,執(zhí)行效果會(huì)越好,但是執(zhí)行效果同樣要受到計(jì)算資源和算法對(duì)不良核的敏感性等因素的限制。

一般來(lái)說(shuō),SVM算法決策樹(shù)只能對(duì)應(yīng)于某一組特定的函數(shù)集合,而不能是混合的函數(shù)集合。

數(shù)據(jù)檢測(cè)中,組合多核函數(shù)的模糊SVM算法,其決策樹(shù)和算法調(diào)整為

(5)

(6)

引理1 Mercer核的非負(fù)線性組合仍為Mercer核。

以定理2為理論邏輯基礎(chǔ),可以利用現(xiàn)有常用poly、rbf、erbf核函數(shù)構(gòu)造新的模糊多核核函數(shù),使其能夠適用于數(shù)據(jù)樣本集的訓(xùn)練學(xué)習(xí)[7]。

多核模糊SVM算法數(shù)據(jù)分類檢測(cè)步驟如下:

1)將特征矩陣?yán)锏臄?shù)據(jù)進(jìn)行歸一化處理。

2)按照式(5)建立分類數(shù)據(jù)的模糊集。

3)根據(jù)式(5)、(6)確定數(shù)據(jù)樣本點(diǎn)模糊隸屬度。

4)選擇不同的核函數(shù)進(jìn)行組合。

5)根據(jù)SVM算法的決策樹(shù),運(yùn)用數(shù)據(jù)對(duì)多核模糊SVM算法進(jìn)行訓(xùn)練,然后進(jìn)行樣本測(cè)試。在xml文件中,采用定義的規(guī)則來(lái)標(biāo)記每一條數(shù)據(jù)的檢測(cè)情況,對(duì)于關(guān)系數(shù)據(jù)庫(kù)來(lái)說(shuō),它是一個(gè)表名或視圖名;對(duì)于多維數(shù)據(jù)庫(kù)來(lái)說(shuō),它可能是一個(gè)數(shù)據(jù)立方體名。

3 系統(tǒng)實(shí)現(xiàn)與分析

3.1 數(shù)據(jù)矩陣構(gòu)造

實(shí)驗(yàn)采用c均值聚類和密度法相結(jié)合的雙隸屬法來(lái)確定分類樣本的隸屬度。根據(jù)樣本點(diǎn)到類中心的距離,實(shí)驗(yàn)分別采用不同的計(jì)算方法,以設(shè)計(jì)智能分類算法的分類器邏輯。

第1種:類中心附近的樣本點(diǎn)的計(jì)算,

(7)

式中:yi∈{-1, 1},yi=-1是負(fù)類,yi=1是正類;γ>0,為可調(diào)參數(shù);R+為正有理數(shù),R-為負(fù)有理數(shù);D為樣本函數(shù),0+表示從大于0的一側(cè)趨于0,0-表示從小于0的一側(cè)趨于0。

第2種:遠(yuǎn)離類中心的樣本點(diǎn)的計(jì)算,

(8)

式中: 0<η≤1,θ>0,為可調(diào)參數(shù);ρ+為樣本點(diǎn)的同類點(diǎn)密度,ρ-為樣本點(diǎn)的異類點(diǎn)密度。

3.2 數(shù)據(jù)檢測(cè)結(jié)果與系統(tǒng)測(cè)試

平均準(zhǔn)確率定義為識(shí)別正確的樣本數(shù)目與總樣本數(shù)目的比值。數(shù)據(jù)檢測(cè)準(zhǔn)確率MSSRR計(jì)算公式為

(9)

式中:Ci為各子類正確分類數(shù)目;Etot為樣本總數(shù)。

本文中使用到的樣本均搜集自真實(shí)數(shù)據(jù)中心應(yīng)用環(huán)境,其中正確數(shù)據(jù)1 500個(gè),錯(cuò)誤數(shù)據(jù)1 500個(gè)。

根據(jù)訓(xùn)練數(shù)據(jù)集得到的用于測(cè)試的智能分類算法,經(jīng)過(guò)訓(xùn)練,算法中l(wèi)inear、poly、rbf、erbf等4個(gè)核函數(shù)的權(quán)值及參數(shù)值列于表2。分類結(jié)果與Kappa系數(shù)列于表3。

表2 采用數(shù)據(jù)集訓(xùn)練得到的分類算法參數(shù)

表3 分類結(jié)果與Kappa系數(shù)

經(jīng)過(guò)對(duì)多核模糊SVM算法進(jìn)行訓(xùn)練和測(cè)試,試驗(yàn)平均分類準(zhǔn)確率可以達(dá)到82.09%。

以下將對(duì)設(shè)計(jì)的數(shù)據(jù)質(zhì)量檢測(cè)系統(tǒng)進(jìn)行測(cè)試,驗(yàn)證是否滿足預(yù)定目標(biāo)。本文中的智能分類算法的模擬測(cè)試系統(tǒng)是基于B/S結(jié)構(gòu)而開(kāi)發(fā)的,采用HTTP/HTML的協(xié)議訪問(wèn)方式,同時(shí)采用Load Runner工具對(duì)該系統(tǒng)進(jìn)行大用戶量負(fù)載模擬測(cè)試。 為了對(duì)模擬算法系統(tǒng)進(jìn)行清晰的實(shí)驗(yàn)分析,本文中的測(cè)試選擇單一任務(wù)作為測(cè)試對(duì)象,即設(shè)計(jì)一個(gè)獨(dú)立場(chǎng)景,驗(yàn)證不同訪問(wèn)方式下系統(tǒng)的表現(xiàn)。 表4所示為設(shè)計(jì)的獨(dú)立場(chǎng)景的實(shí)驗(yàn)情況。

表4 獨(dú)立場(chǎng)景

在單一場(chǎng)景中,對(duì)于順序執(zhí)行測(cè)試,算法運(yùn)行全部成功,平均響應(yīng)時(shí)間為218 s;對(duì)于并發(fā)執(zhí)行測(cè)試,算法同樣全部運(yùn)行成功,平均響應(yīng)時(shí)間是319 s。

4 結(jié)語(yǔ)

本文中雖然對(duì)數(shù)據(jù)檢測(cè)的一些問(wèn)題進(jìn)行了研究,但是,針對(duì)業(yè)務(wù)數(shù)據(jù)量龐大及數(shù)據(jù)來(lái)源豐富的情況,在處理這些數(shù)據(jù)時(shí)需要綜合考慮多方面的因素,才能制定不同的檢測(cè)算法細(xì)節(jié)。此外,對(duì)于不同的數(shù)據(jù)中心,具體業(yè)務(wù)情況不同,其數(shù)據(jù)的特點(diǎn)又會(huì)有很大不同,因此需要更加充分地運(yùn)用統(tǒng)計(jì)工具,結(jié)合數(shù)據(jù)挖掘的理論,有效提高數(shù)據(jù)識(shí)別的效率,以滿足人工智能趨勢(shì)下數(shù)據(jù)檢測(cè)和大數(shù)據(jù)管理的需求。

猜你喜歡
分類數(shù)據(jù)庫(kù)檢測(cè)
“不等式”檢測(cè)題
“一元一次不等式”檢測(cè)題
“一元一次不等式組”檢測(cè)題
分類算一算
分類討論求坐標(biāo)
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
數(shù)據(jù)庫(kù)
數(shù)據(jù)庫(kù)
小波變換在PCB缺陷檢測(cè)中的應(yīng)用
主站蜘蛛池模板: 国产无码高清视频不卡| 久久综合九色综合97网| 亚洲成人一区二区三区| 青青草a国产免费观看| 凹凸精品免费精品视频| 一本一本大道香蕉久在线播放| 精品91在线| 伊人大杳蕉中文无码| 国产熟女一级毛片| 在线精品自拍| 午夜视频在线观看区二区| 日韩AV手机在线观看蜜芽| 无码高清专区| 午夜国产精品视频| 亚洲国产成人精品一二区| 亚洲成人在线免费| 91原创视频在线| 久久成人免费| 亚洲区第一页| 国产精品微拍| 国产成人a毛片在线| 国产91av在线| 久久国产高清视频| 国产第三区| 99er这里只有精品| 国产精品成人啪精品视频| 午夜成人在线视频| 色丁丁毛片在线观看| 2021国产乱人伦在线播放| 朝桐光一区二区| 2020精品极品国产色在线观看| 在线不卡免费视频| 国产精品嫩草影院av | 国产永久免费视频m3u8| 中文字幕av一区二区三区欲色| 国产拍揄自揄精品视频网站| 四虎精品免费久久| 久久久精品国产SM调教网站| 麻豆a级片| 国产原创第一页在线观看| 99精品影院| 国产亚洲精| 自拍亚洲欧美精品| 一级在线毛片| 国产成人一区| 国内精品视频在线| 亚洲最大在线观看| 国产精品视频导航| 国产三级a| 日韩毛片在线播放| 亚洲男人的天堂在线观看| AⅤ色综合久久天堂AV色综合| 40岁成熟女人牲交片免费| 韩国v欧美v亚洲v日本v| 国产精品福利一区二区久久| 久久青草视频| 在线视频亚洲色图| 久无码久无码av无码| 精品视频第一页| 国产福利小视频高清在线观看| 亚洲黄网视频| 丰满人妻一区二区三区视频| 国产欧美日韩视频怡春院| 亚洲天堂区| 欧美亚洲另类在线观看| 国产丝袜无码精品| a级毛片在线免费| 亚洲久悠悠色悠在线播放| 97久久精品人人| 午夜激情福利视频| 久久黄色视频影| 美女被操黄色视频网站| 国产欧美日韩另类精彩视频| 久久婷婷人人澡人人爱91| A级毛片高清免费视频就| 国产一二视频| 91系列在线观看| 在线综合亚洲欧美网站| av一区二区无码在线| 国产91精选在线观看| 欧美日韩午夜| 国产精品天干天干在线观看|