程雅瓊



摘要:在對(duì)高維光譜數(shù)據(jù)集中的離群數(shù)據(jù)進(jìn)行分類和挖掘時(shí),由于傳統(tǒng)基于逆k近鄰計(jì)數(shù)的挖掘方法在應(yīng)用中極易受到宇宙背景噪聲、光線衰弱等因素影響,使得成功挖掘出的離群數(shù)據(jù)點(diǎn)數(shù)量少,最終會(huì)嚴(yán)重影響挖掘精度。針對(duì)這一問(wèn)題,在引入雙區(qū)塊鏈結(jié)構(gòu)的基礎(chǔ)上,開(kāi)展高維光譜離群數(shù)據(jù)挖掘方法設(shè)計(jì)研究。通過(guò)基于雙區(qū)塊鏈結(jié)構(gòu)的高維光譜數(shù)據(jù)獲取、高維光譜數(shù)據(jù)離群點(diǎn)檢測(cè)、基于離群分?jǐn)?shù)的三元組挖掘樣本選擇和高維光譜離群數(shù)據(jù)分離,提出一種全新的挖掘方法。通過(guò)實(shí)驗(yàn)證明,新的挖掘方法可有效解決上述問(wèn)題,促進(jìn)挖掘精度的不斷提升。
關(guān)鍵詞:雙區(qū)塊鏈結(jié)構(gòu);離群數(shù)據(jù);高維光譜;數(shù)據(jù)挖掘
中圖分類號(hào):TP18? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2022)15-0017-02
當(dāng)前科學(xué)技術(shù)的快速發(fā)展也在一定程度上促進(jìn)了天文領(lǐng)域的發(fā)展,同時(shí)也使得天文數(shù)據(jù)呈現(xiàn)出爆炸式的增長(zhǎng)趨勢(shì)。目前世界上光譜獲取率最高的望遠(yuǎn)鏡是LAMOST望遠(yuǎn)鏡,在夜晚觀測(cè)條件下能夠獲取到數(shù)萬(wàn)條的光譜,能夠?yàn)樘煳念I(lǐng)域的相關(guān)研究提供更加可靠的依據(jù)和素材,對(duì)于促進(jìn)天文領(lǐng)域的完善和快速發(fā)展而言都有著十分重要的意義。針對(duì)高維光譜的分類是從上千維的光譜數(shù)據(jù)當(dāng)中,選擇或提取能夠?qū)崿F(xiàn)更精準(zhǔn)識(shí)別的特征,并將各個(gè)特征匯總構(gòu)建一個(gè)特征空間[1]。同時(shí),在對(duì)高維光譜進(jìn)行分類的過(guò)程中,光譜數(shù)據(jù)集當(dāng)中通常會(huì)存在一部分離群分布的數(shù)據(jù),由于其特征與已知的天體特征區(qū)別較大,因此常常被劃分為一類未知的光譜數(shù)據(jù)類別。這些離群數(shù)據(jù)在高維數(shù)據(jù)集當(dāng)中存在的主要原因,是由于宇宙背景噪聲、光線衰弱等因素對(duì)光譜數(shù)據(jù)造成了嚴(yán)重的污染,進(jìn)而使得這一部分?jǐn)?shù)據(jù)無(wú)法實(shí)現(xiàn)準(zhǔn)確識(shí)別[2]。針對(duì)這一問(wèn)題,該領(lǐng)域研究人員對(duì)其進(jìn)行了不斷探索,并逐步提出多種對(duì)高維光譜離群數(shù)據(jù)進(jìn)行分類識(shí)別的挖掘方法。但由于針對(duì)這一問(wèn)題的研究起步較晚,因此目前大部分挖掘方法在實(shí)際應(yīng)用中都存在訓(xùn)練時(shí)間長(zhǎng)、識(shí)別精度低的問(wèn)題。因此,針對(duì)上述論述,本文在引入雙區(qū)塊鏈結(jié)構(gòu)的基礎(chǔ)上,開(kāi)展對(duì)高維光譜離群數(shù)據(jù)挖掘方法的設(shè)計(jì)研究。
1 基于雙區(qū)塊鏈結(jié)構(gòu)的高維光譜離群數(shù)據(jù)挖掘方法設(shè)計(jì)
1.1 基于雙區(qū)塊鏈結(jié)構(gòu)的高維光譜數(shù)據(jù)獲取
在高維光譜數(shù)據(jù)集中,由于數(shù)據(jù)量巨大,因此為了確保后續(xù)挖掘的效率和精度,在挖掘前需要從不同的文件當(dāng)中獲取待挖掘的數(shù)據(jù),并在完成對(duì)數(shù)據(jù)的提取后,針對(duì)其不同維度進(jìn)行預(yù)處理。預(yù)處理的內(nèi)容主要包括對(duì)數(shù)據(jù)的標(biāo)準(zhǔn)化處理和對(duì)其主成分的降維分析處理。針對(duì)占用空間較大,并且分布在不同文件中的高維光譜數(shù)據(jù),采用直接讀取文件的方式會(huì)消耗大量的時(shí)間,因此針對(duì)這一問(wèn)題,本文將原始數(shù)據(jù)根據(jù)高維光譜數(shù)據(jù)ID存入MySQL數(shù)據(jù)庫(kù)當(dāng)中,并在后續(xù)挖掘的過(guò)程中,隨機(jī)抽取少部分?jǐn)?shù)據(jù),并將其存入到h5文件當(dāng)中,將其視為訓(xùn)練集和測(cè)試集,以此提高對(duì)高維光譜離散數(shù)據(jù)挖掘的效率[3]。同時(shí),在后期完成挖掘后,也可通過(guò)這一操作,采用隨機(jī)數(shù)獲取表格ID的方式,使用MySQL數(shù)據(jù)庫(kù)當(dāng)中的數(shù)據(jù),進(jìn)一步提高數(shù)據(jù)的利用價(jià)值。通過(guò)上述操作獲取到的高維光譜數(shù)據(jù)可以實(shí)現(xiàn)由于序號(hào)造成數(shù)據(jù)片面化的問(wèn)題,進(jìn)而使整個(gè)數(shù)據(jù)集的特性得到更充分地發(fā)揮[4]。在完成對(duì)高維光譜數(shù)據(jù)的獲取后,基于其海量數(shù)據(jù)特點(diǎn),引入雙區(qū)塊鏈結(jié)構(gòu),將獲取到的數(shù)據(jù)進(jìn)行存儲(chǔ)。圖1為基于區(qū)塊鏈結(jié)構(gòu)的高維光譜數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)示意圖。
在圖1所示的存儲(chǔ)結(jié)構(gòu)基礎(chǔ)上,可確保在挖掘過(guò)程中更精準(zhǔn)地獲取需要進(jìn)行挖掘的數(shù)據(jù)集,進(jìn)一步為離群數(shù)據(jù)的挖掘提供依據(jù)。同時(shí),存儲(chǔ)在上述結(jié)構(gòu)當(dāng)中的數(shù)據(jù)集為經(jīng)過(guò)PCA降維處理后的數(shù)據(jù)。在處理的過(guò)程中,可結(jié)合協(xié)方差矩陣對(duì)其進(jìn)行降維,協(xié)方差矩陣表達(dá)式為:
[cov(X,Y)=i=1n(Xi-X)(Yi-Y)n-1]? ? ? ? ? ? ? ? ? ?(1)
公式(1)中,[cov(X,Y)]表示為兩個(gè)高維隨機(jī)變量度量結(jié)果;[X]和[Y]表示為均值;[Xi]和[Yi]表示為某組數(shù)據(jù)i當(dāng)中的數(shù)據(jù)。根據(jù)上述公式(1)完成對(duì)所有高維光譜數(shù)據(jù)的PCA降維處理[5]。協(xié)方差矩陣的實(shí)質(zhì)是實(shí)現(xiàn)對(duì)兩個(gè)隨機(jī)變量關(guān)系的度量統(tǒng)計(jì),通過(guò)協(xié)方差矩陣計(jì)算后,數(shù)據(jù)集當(dāng)中存在的高維光譜數(shù)據(jù)能夠?qū)崿F(xiàn)降維處理,從而為后續(xù)挖掘提供便利條件。
1.2 高維光譜數(shù)據(jù)離群點(diǎn)檢測(cè)
根據(jù)上述論述內(nèi)容,在完成對(duì)基于雙區(qū)塊鏈結(jié)構(gòu)的高維光譜數(shù)據(jù)獲取后,并實(shí)現(xiàn)對(duì)數(shù)據(jù)的PCA降維處理,需要對(duì)數(shù)據(jù)集當(dāng)中所有離群點(diǎn)進(jìn)行檢測(cè)。通過(guò)隨機(jī)選擇某一數(shù)據(jù)集當(dāng)中的子集,選擇某一數(shù)據(jù)點(diǎn)到數(shù)據(jù)子集之間最近的三個(gè)點(diǎn),并計(jì)算求解得出其平均數(shù)值,通過(guò)不斷重復(fù)上述操作,最終得到該組數(shù)據(jù)的離群分?jǐn)?shù),其表達(dá)式為:
[χ=rm]? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?(2)
公式(2)中,[χ]表示為某一組數(shù)據(jù)的離群分?jǐn)?shù);[r]表示為某一數(shù)據(jù)點(diǎn)到數(shù)據(jù)子集之間最近的三個(gè)點(diǎn),并計(jì)算求解得出其平均數(shù)值;[m]表示為重復(fù)操作次數(shù)。在這一數(shù)據(jù)的基礎(chǔ)上,引入正態(tài)分布,對(duì)數(shù)據(jù)點(diǎn)到隨機(jī)子集之間的距離進(jìn)行分析,并將與該數(shù)據(jù)中心距離較遠(yuǎn)的兩側(cè)數(shù)據(jù)作為離群值[6]。具體而言,在進(jìn)行離群點(diǎn)檢測(cè)的過(guò)程中,其流程可大致分為以下四個(gè)步驟:第一步,隨機(jī)選擇高維光譜數(shù)據(jù)集當(dāng)中的抽取數(shù)據(jù)子集;第二步,計(jì)算待挖掘的數(shù)據(jù)到該數(shù)據(jù)子集之間的歐氏距離;第三步,計(jì)算求解多個(gè)點(diǎn)之間歐氏距離的平均值,并按照公式(2)完成對(duì)離群分?jǐn)?shù)的計(jì)算;第四步,設(shè)置閾值,并按照如下公式,找出相應(yīng)數(shù)據(jù)點(diǎn):
[r>μ+ασ]? ? ? ? ? ? ? ? ? ? ? ? ? ? ? (3)127CF405-BA7B-47CF-A338-3B3B5F1F764A
公式(3)中,[μ]表示為均值;[σ]表示為常數(shù)。若檢測(cè)點(diǎn)相關(guān)參數(shù)代入到上述公式(3)中成立,則說(shuō)明該檢測(cè)點(diǎn)為離群點(diǎn);若檢測(cè)點(diǎn)相關(guān)參數(shù)代入到上述公式(3)不成立,則說(shuō)明該檢測(cè)點(diǎn)不是離群點(diǎn)。按照上述四個(gè)步驟,完成對(duì)高維光譜離群點(diǎn)的檢測(cè)。
1.3 基于離群分?jǐn)?shù)的三元組挖掘樣本選擇
在完成對(duì)高維光譜數(shù)據(jù)離群點(diǎn)檢測(cè)后,為了能夠進(jìn)一步提高挖掘的精度,引入表示學(xué)習(xí)理論,針對(duì)數(shù)據(jù)集當(dāng)中的所有離群數(shù)據(jù)點(diǎn)進(jìn)行獲取,并結(jié)合上述離去分?jǐn)?shù)的計(jì)算結(jié)果,實(shí)現(xiàn)對(duì)三元組挖掘樣本的選擇,并通過(guò)該樣本完成對(duì)本文挖掘方法的迭代訓(xùn)練[7]。具體而言,在選擇過(guò)程中應(yīng)當(dāng)首先根據(jù)上述公式(2)計(jì)算的結(jié)果,從高維光譜內(nèi)部候選集當(dāng)中抽取多個(gè)需要進(jìn)行查詢的對(duì)象,并以此獲取到訓(xùn)練樣本。假設(shè)需要進(jìn)行挖掘的數(shù)據(jù)對(duì)象被抽樣成為查詢對(duì)象的概率為P,并且這一數(shù)據(jù)的變化與其異常值恰好呈現(xiàn)出反比例變化關(guān)系,根據(jù)上述論述,得出P的表達(dá)式為:
[P=Z-rit=1i(Z-rt)]? ? ? ? ? ? ? ? ? ? ? ? ? ? (4)
公式(4)中,[Z]表示為所有高維光譜數(shù)據(jù)集內(nèi)部異常值的總和;[r]表示為某一待挖掘的數(shù)據(jù)對(duì)象對(duì)應(yīng)的離群值分?jǐn)?shù);[rt]表示為高維光譜數(shù)據(jù)集內(nèi)部候選集合異常值。結(jié)合上述公式,完成對(duì)P值的計(jì)算后,根據(jù)均勻概率從內(nèi)部候選集當(dāng)中選擇出內(nèi)部數(shù)據(jù)的正樣本。最后,再?gòu)漠惓:蜻x集中獲取到離群數(shù)據(jù)的負(fù)樣本,選擇最可能為異常值的數(shù)據(jù)作為負(fù)面實(shí)例的最高概率,通過(guò)給定該數(shù)據(jù)的變化范圍,確定其負(fù)面實(shí)例出現(xiàn)的概率,并將上述得出的所有結(jié)果構(gòu)成一個(gè)完整的三元組樣本,以此為挖掘訓(xùn)練提供可靠的挖掘樣本。
1.4 高維光譜離群數(shù)據(jù)分離
在完成對(duì)樣本的選擇后,通過(guò)不斷迭代訓(xùn)練促進(jìn)挖掘方法的精度提升,在完成挖掘后,還需要對(duì)高維光譜數(shù)據(jù)當(dāng)中已經(jīng)被找出的離群數(shù)據(jù)進(jìn)行分離。引入淺層表示學(xué)習(xí)網(wǎng)絡(luò),采用一層雙向長(zhǎng)短期記憶層和一層全連接層的結(jié)構(gòu),對(duì)上述獲取到的三元組挖掘樣本進(jìn)行大量計(jì)算,并在進(jìn)行預(yù)處理后結(jié)合深度學(xué)習(xí)方法,以此增加時(shí)間開(kāi)銷,并得到精度更高的挖掘結(jié)果。在淺層表示學(xué)習(xí)網(wǎng)絡(luò)當(dāng)中將縮減數(shù)據(jù)集、稀疏度系數(shù)閾值等作為輸入,將最終得到的局部離群數(shù)據(jù)分離結(jié)果作為輸出。在該網(wǎng)絡(luò)結(jié)構(gòu)當(dāng)中,根據(jù)子節(jié)點(diǎn)的數(shù)量和縮減數(shù)據(jù)集的條數(shù),計(jì)算得出各個(gè)子節(jié)點(diǎn)需要進(jìn)行計(jì)算的數(shù)據(jù)子集個(gè)數(shù),即縮減數(shù)據(jù)集條數(shù)/節(jié)點(diǎn)數(shù)目。在主節(jié)點(diǎn)通過(guò)表示學(xué)習(xí)網(wǎng)絡(luò)搜索后,對(duì)其挖掘任務(wù)進(jìn)行編號(hào),并依次完成對(duì)所有子集中數(shù)據(jù)節(jié)點(diǎn)的編號(hào)。按照上述離群點(diǎn)檢測(cè)流程,將所有符合公式(3)的數(shù)據(jù)子集匯總,并輸出,從而實(shí)現(xiàn)對(duì)離群數(shù)據(jù)的分離。
2 對(duì)比實(shí)驗(yàn)
通過(guò)本文上述論述,在明確了基于雙區(qū)塊鏈結(jié)構(gòu)的挖掘方法基本應(yīng)用思路后,為了進(jìn)一步驗(yàn)證這一挖掘方法的應(yīng)用效果。選擇以天文領(lǐng)域當(dāng)中的某一高維光譜數(shù)據(jù)集作為研究對(duì)象,分別利用本文提出的基于雙區(qū)塊鏈結(jié)構(gòu)的挖掘方法和傳統(tǒng)基于逆k近鄰計(jì)數(shù)的挖掘方法對(duì)該數(shù)據(jù)集當(dāng)中的離群數(shù)據(jù)進(jìn)行挖掘和分離。在實(shí)驗(yàn)過(guò)程中,為了確保實(shí)驗(yàn)的客觀性,首先需要對(duì)高維光譜數(shù)據(jù)集進(jìn)行預(yù)處理,實(shí)現(xiàn)對(duì)其歸一化,并通過(guò)PCA實(shí)現(xiàn)對(duì)高維光譜數(shù)據(jù)集的降維處理,以此也能夠進(jìn)一步簡(jiǎn)化實(shí)驗(yàn)過(guò)程。為了方便論述,將本文提出的挖掘方法設(shè)置為實(shí)驗(yàn)組,將傳統(tǒng)基于逆k近鄰計(jì)數(shù)的挖掘方法設(shè)置為對(duì)照組。在本文實(shí)驗(yàn)選擇的數(shù)據(jù)集當(dāng)中,其維數(shù)為50,光譜數(shù)據(jù)集分別含有5263(6M)、36448(42M)、71562(101M)、78596(112M)條。將上述所有數(shù)據(jù)統(tǒng)一存儲(chǔ)在E4546CPU數(shù)據(jù)庫(kù)當(dāng)中,在實(shí)驗(yàn)過(guò)程中使用兩臺(tái)512MB內(nèi)存計(jì)算機(jī)作為子節(jié)點(diǎn),將其中一臺(tái)作為主節(jié)點(diǎn)。在實(shí)驗(yàn)過(guò)程中,設(shè)置高維光譜離群數(shù)據(jù)的稀疏度為-1,將其稀疏因子設(shè)定為0.2,分別設(shè)置一種單機(jī)環(huán)境和一種并行環(huán)境,應(yīng)用兩種挖掘方法對(duì)實(shí)驗(yàn)數(shù)據(jù)集中的離群數(shù)據(jù)進(jìn)行挖掘。對(duì)比實(shí)驗(yàn)組和對(duì)照組挖掘方法通過(guò)挖掘后得到的離群數(shù)據(jù)點(diǎn)個(gè)數(shù),挖掘到離群數(shù)據(jù)點(diǎn)越多,則說(shuō)明該挖掘方法更有效,更能夠?qū)崿F(xiàn)對(duì)高維光譜離群數(shù)據(jù)的準(zhǔn)確識(shí)別;反之,挖掘到的離群數(shù)據(jù)點(diǎn)越少,則說(shuō)明該挖掘方法利用價(jià)值越低,無(wú)法實(shí)現(xiàn)對(duì)高維光譜離群數(shù)據(jù)的準(zhǔn)確識(shí)別。根據(jù)上述論述,記錄實(shí)驗(yàn)組和對(duì)照組兩種挖掘方法的應(yīng)用效果,并繪制成表1。
從表1中得出的實(shí)驗(yàn)結(jié)果可以看出,實(shí)驗(yàn)組在單機(jī)環(huán)境下和并行環(huán)境下挖掘出的離群數(shù)據(jù)點(diǎn)個(gè)數(shù)均明顯多于對(duì)照組挖掘離散數(shù)據(jù)點(diǎn)個(gè)數(shù)。同時(shí),通過(guò)表1中數(shù)據(jù)進(jìn)一步分析得出,對(duì)照組單機(jī)環(huán)境下對(duì)離散數(shù)據(jù)點(diǎn)的挖掘數(shù)量明顯多于并行環(huán)境,其主要原因是并行環(huán)境中復(fù)雜因素較多,由于對(duì)照組挖掘方法沒(méi)有能夠抵抗外界干擾因素影響的能力,因此使得最終實(shí)驗(yàn)結(jié)果不理想,而實(shí)驗(yàn)組并沒(méi)有出現(xiàn)這一問(wèn)題,設(shè)置在對(duì)第一組數(shù)據(jù)和第三組數(shù)據(jù)進(jìn)行挖掘時(shí),并行環(huán)境的挖掘效果優(yōu)于單機(jī)環(huán)境。因此,綜合上述論述能夠證明,本文提出的基于雙區(qū)塊鏈結(jié)構(gòu)的挖掘方法在應(yīng)用到對(duì)真實(shí)高維光譜數(shù)據(jù)集進(jìn)行挖掘時(shí),能夠?qū)崿F(xiàn)對(duì)其中大量離群數(shù)據(jù)點(diǎn)的準(zhǔn)確挖掘,挖掘精度與以往基于逆k近鄰計(jì)數(shù)的挖掘方法相比得到明顯提高。
3 結(jié)束語(yǔ)
針對(duì)高維光譜數(shù)據(jù)集當(dāng)中的離群數(shù)據(jù),實(shí)現(xiàn)對(duì)其充分挖掘,對(duì)于后續(xù)高維光譜數(shù)據(jù)集的使用和天體數(shù)據(jù)分類處理而言,具有十分重要的作用。針對(duì)此,本文在引入雙區(qū)塊鏈結(jié)構(gòu)的基礎(chǔ)上,提出了一種全新的挖掘方法,并結(jié)合實(shí)驗(yàn)驗(yàn)證了該方法的可行性。但由于研究能力有限,在研究過(guò)程中,本文采用的數(shù)據(jù)處理方法在時(shí)間復(fù)雜度上過(guò)高,雖然能夠確保最終挖掘結(jié)果的精度,但挖掘效率仍然有待進(jìn)一步提升。因此,針對(duì)這一問(wèn)題,在后續(xù)的研究當(dāng)中,還將引入多種不同的算法和分類器,對(duì)本文挖掘方法進(jìn)行不斷完善,從而設(shè)計(jì)出一種更加適合用于對(duì)高維光譜中離群數(shù)據(jù)進(jìn)行挖掘的方法,提高高維光譜數(shù)據(jù)的利用價(jià)值。
參考文獻(xiàn):
[1] 唐偉寧,劉穎,于旭,等.基于離群數(shù)據(jù)挖掘的低壓竊電行為辨識(shí)方法研究[J].電子設(shè)計(jì)工程,2021,29(23):56-59,64.
[2] 尚福華,曹茂俊,王才志.基于人工智能技術(shù)的局部離群數(shù)據(jù)挖掘方法[J].吉林大學(xué)學(xué)報(bào)(工學(xué)版),2021,51(2):692-696.
[3] 田文祥.基于離群數(shù)據(jù)挖掘技術(shù)的高校學(xué)生學(xué)業(yè)預(yù)警研究[J].黑龍江科學(xué),2021,12(7):54-56.
[4] 李林睿,常舒予,喬一鳴.基于表示學(xué)習(xí)的高維光譜離群數(shù)據(jù)挖掘[J].電腦知識(shí)與技術(shù),2021,17(22):90-93.
[5] 馬洋,趙旭俊,蘇建花,等.基于核密度估計(jì)的離群數(shù)據(jù)挖掘[J].太原科技大學(xué)學(xué)報(bào),2020,41(6):456-462,469.
[6] 羅念華,陶佳冶,劉俊榮.依賴大數(shù)據(jù)離群數(shù)據(jù)挖掘算法的業(yè)務(wù)系統(tǒng)間權(quán)限異構(gòu)監(jiān)控研究[J].自動(dòng)化與儀器儀表,2019(5):179-182.
[7] 朱云麗,張繼福.基于逆k近鄰計(jì)數(shù)和權(quán)值剪枝的離群數(shù)據(jù)挖掘算法[J].小型微型計(jì)算機(jī)系統(tǒng),2019,40(8):1627-1632.
【通聯(lián)編輯:張薇】127CF405-BA7B-47CF-A338-3B3B5F1F764A