張嵐,張向陽(yáng),王金柯,楊鐵軍,劉騫
(國(guó)網(wǎng)河南省電力公司營(yíng)銷服務(wù)中心(計(jì)量中心),河南鄭州 450000)
數(shù)字檔案分類是一種新型的電子檔案管理與協(xié)調(diào)方案,可以在電子計(jì)算機(jī)系統(tǒng)的作用下,對(duì)檔案文本進(jìn)行收集、保管與共享處理,從而使得客戶端主機(jī)能夠準(zhǔn)確掌握數(shù)據(jù)信息參量在互聯(lián)網(wǎng)體系內(nèi)的傳輸情況[1-2]。然而隨著數(shù)字檔案信息存儲(chǔ)量的增大,會(huì)造成錯(cuò)誤的信息分類行為,還有可能使數(shù)字標(biāo)簽呈現(xiàn)出較為混亂的連接狀態(tài)。基于多層極限學(xué)習(xí)機(jī)的分類算法雖然可以最大程度上保證數(shù)字檔案信息的完整性,但卻很難構(gòu)建復(fù)雜的數(shù)字標(biāo)簽,這也是導(dǎo)致標(biāo)簽測(cè)試集基數(shù)與訓(xùn)練集基數(shù)之間差值水平不能得到有效控制的主要原因[3]。
為解決上述問(wèn)題,針對(duì)基于改進(jìn)支持向量機(jī)的數(shù)字檔案多標(biāo)簽分類算法展開(kāi)研究。支持向量機(jī)是在統(tǒng)計(jì)學(xué)習(xí)理論基礎(chǔ)上具有分類能力與泛化處理能力的執(zhí)行算法。模糊支持向量機(jī)是傳統(tǒng)支持向量機(jī)的優(yōu)化,能夠針對(duì)非線性數(shù)據(jù)進(jìn)行集中處理,不但加強(qiáng)了原有支持向量機(jī)算法的泛化處理能力,還可以最大程度上保證數(shù)據(jù)信息樣本的傳輸完整性,使其對(duì)訓(xùn)練樣本保持較強(qiáng)的敏感性[4]。然而,在樣本數(shù)目較大時(shí),模糊支持向量機(jī)算法的分類速度相對(duì)減慢,這就會(huì)導(dǎo)致噪聲信息大量累積,從而使得主機(jī)失去準(zhǔn)確辨別數(shù)據(jù)信息樣本的能力。改進(jìn)支持向量機(jī)算法在模糊支持向量機(jī)技術(shù)的基礎(chǔ)上,重新約束了樣本信息的存儲(chǔ)形式,并從泛化應(yīng)用、分類處理兩個(gè)角度,確定核心數(shù)據(jù)集合對(duì)關(guān)聯(lián)信息參量的影響能力。
SVM 函數(shù)是基于改進(jìn)支持向量機(jī)理論的機(jī)器學(xué)習(xí)算法,可以在監(jiān)督樣本參量傳輸行為的同時(shí),建立一個(gè)最優(yōu)分類超平面結(jié)構(gòu)。對(duì)于數(shù)字檔案信息樣本而言,在建立分類標(biāo)簽結(jié)構(gòu)時(shí),主機(jī)元件可以根據(jù)SVM 函數(shù)表達(dá)式對(duì)信息參量進(jìn)行分類,一般來(lái)說(shuō),滿足超平面分類規(guī)則的信息數(shù)據(jù)可以被主機(jī)元件直接收錄,而不滿足超平面分類規(guī)則的信息數(shù)據(jù)則會(huì)在SVM 函數(shù)的作用下,進(jìn)行再一次賦值[5-6]。設(shè)a表示數(shù)字檔案信息樣本的初始賦值,sa表示基于系數(shù)a的超平面結(jié)構(gòu)定義向量,f表示待監(jiān)督樣本參量的傳輸系數(shù),d?表示基于改進(jìn)支持向量機(jī)理論的數(shù)字檔案信息樣本特征值,β表示信息樣本賦值參量。聯(lián)立上述物理量,可得SVM 函數(shù)表達(dá)式為:
在對(duì)數(shù)字檔案信息進(jìn)行取樣時(shí),要求系數(shù)d?的取值不能等于自然數(shù)“1”。
標(biāo)簽隸屬度表達(dá)式考慮到了野值點(diǎn)及噪聲點(diǎn)對(duì)數(shù)字分類標(biāo)簽構(gòu)建結(jié)果的影響[7]。噪聲點(diǎn)所處位置表示了干擾性信息對(duì)數(shù)字檔案多標(biāo)簽分類結(jié)果造成的影響,與野值點(diǎn)標(biāo)記位置相比,該類型節(jié)點(diǎn)與中心分類節(jié)點(diǎn)之間的間隔距離更近,但其取值結(jié)果對(duì)于標(biāo)簽測(cè)試集基數(shù)的影響能力卻更強(qiáng)[8]。基于SVM 函數(shù),設(shè)h0表示中心分類節(jié)點(diǎn)標(biāo)記系數(shù),h′表示野值點(diǎn)標(biāo)記系數(shù),h″表示噪聲點(diǎn)標(biāo)記系數(shù),δ表示標(biāo)簽信息定義項(xiàng)指標(biāo),χmin表示數(shù)字檔案標(biāo)簽定義系數(shù)的最小取值結(jié)果,χmax表示最大取值結(jié)果。在上述物理量的支持下,聯(lián)立式(1),可將基于改進(jìn)支持向量機(jī)的標(biāo)簽隸屬度表達(dá)式定義為:
由于數(shù)字檔案信息樣本的實(shí)時(shí)存儲(chǔ)量不可能為零,因此標(biāo)簽隸屬度g的計(jì)算取值也恒大于零。
數(shù)據(jù)信息挖掘深度決定了改進(jìn)支持向量機(jī)算法對(duì)于數(shù)字檔案信息參量的處理能力。在標(biāo)簽隸屬度表達(dá)式保持不變的情況下,挖掘深度指標(biāo)的計(jì)算數(shù)值越大,就表示改進(jìn)支持向量機(jī)算法對(duì)于數(shù)字檔案信息參量的處理能力越強(qiáng)[9-10]。在建立標(biāo)簽向量時(shí),待處理數(shù)字檔案信息樣本同屬于一個(gè)數(shù)據(jù)集合空間,所以挖掘深度指標(biāo)也可用于區(qū)別已存儲(chǔ)的數(shù)字檔案信息參量。規(guī)定j1、j2、…、jn表示n個(gè)隨機(jī)選取的數(shù)字檔案信息樣本度量值,且j1≠j2≠jn的不等式條件恒成立,ε表示數(shù)據(jù)信息參量的挖掘置信度指標(biāo),?表示基于改進(jìn)支持向量機(jī)算法的數(shù)字標(biāo)簽定義系數(shù)。
數(shù)據(jù)信息挖掘深度計(jì)算結(jié)果為:
在改進(jìn)支持向量機(jī)算法認(rèn)知中,挖掘深度指標(biāo)大于零,表示數(shù)字檔案信息樣本之間的關(guān)聯(lián)程度較高。
共享信息量是指數(shù)字檔案信息在單位時(shí)間內(nèi)的傳輸總量,由于改進(jìn)支持向量機(jī)算法可以促進(jìn)數(shù)字檔案信息快速傳輸,所以在設(shè)置多標(biāo)簽分類節(jié)點(diǎn)時(shí),要求共享信息量指標(biāo)的計(jì)算數(shù)值應(yīng)盡可能趨近其極大值取值結(jié)果[11]。在不考慮其他干擾條件的情況下,共享信息量計(jì)算結(jié)果受到數(shù)字檔案信息分類標(biāo)準(zhǔn)、分類區(qū)間個(gè)數(shù)兩個(gè)物理指標(biāo)的直接影響。數(shù)字檔案信息分類標(biāo)準(zhǔn)系數(shù)常表示為l,在改進(jìn)支持向量機(jī)算法的影響下,該項(xiàng)物理指標(biāo)的取值恒屬于[1,+∞)的數(shù)值區(qū)間。分類區(qū)間個(gè)數(shù)常表示為γ,該項(xiàng)指標(biāo)參量的取值越大,表示網(wǎng)絡(luò)主機(jī)對(duì)于數(shù)字檔案信息文本的處理越細(xì)致。聯(lián)立上述物理量,可將共享信息量計(jì)算表達(dá)式定義為:
式中,b表示數(shù)字檔案信息樣本的共享系數(shù),x?表示分類標(biāo)簽節(jié)點(diǎn)處的信息樣本向量特征值,ι表示數(shù)字檔案信息樣本在單一標(biāo)簽集合內(nèi)的迭代次數(shù)。規(guī)定在標(biāo)簽隸屬度條件相同的情況下,網(wǎng)絡(luò)主機(jī)會(huì)優(yōu)先處理量級(jí)水平較高的數(shù)字檔案信息共享文本[12]。
由于數(shù)字檔案分類標(biāo)簽序列是隨機(jī)生成的,不同標(biāo)簽鏈順序會(huì)影響數(shù)字檔案信息的分類結(jié)果,因此,為避免數(shù)據(jù)信息樣本錯(cuò)誤分類行為的出現(xiàn),要求每一個(gè)標(biāo)簽鏈組織都必須具有較強(qiáng)的容錯(cuò)能力[13-14]。容錯(cuò)系數(shù)也叫容錯(cuò)定義參量,決定了標(biāo)簽鏈組織對(duì)于數(shù)字檔案信息的承載能力,在改進(jìn)支持向量機(jī)算法的作用下,該項(xiàng)指標(biāo)參量的計(jì)算取值越大,表示已定義標(biāo)簽鏈組織對(duì)于數(shù)字檔案信息文本的容錯(cuò)能力越強(qiáng)。
容錯(cuò)系數(shù)計(jì)算式如下:
其中,λ表示數(shù)字檔案信息分類系數(shù),c表示標(biāo)簽鏈序列定義項(xiàng)指標(biāo)的初始賦值,μ、ν表示兩個(gè)不相等的數(shù)字檔案信息容錯(cuò)量差值,zμ表示基于系數(shù)μ的分類標(biāo)簽序列長(zhǎng)度值,zν表示基于系數(shù)ν的分類標(biāo)簽序列長(zhǎng)度值。求解容錯(cuò)系數(shù)表達(dá)式時(shí),要求zμ-zν的計(jì)算結(jié)果必須大于零。
相似度指標(biāo)決定了數(shù)字檔案信息樣本之間的相似性水平。對(duì)于網(wǎng)絡(luò)主機(jī)元件而言,其在對(duì)標(biāo)簽節(jié)點(diǎn)進(jìn)行分類時(shí),首先需要根據(jù)數(shù)字檔案信息之間的相似度差異性,經(jīng)已存儲(chǔ)數(shù)據(jù)參量分成多個(gè)數(shù)據(jù)包文件;然后將各個(gè)數(shù)據(jù)包文件依次輸入網(wǎng)絡(luò)主機(jī)元件;最后由網(wǎng)絡(luò)主機(jī)元件求解出多個(gè)不同的分類標(biāo)準(zhǔn)[15-16]。設(shè)?、?表示兩個(gè)不相等的數(shù)字檔案信息樣本區(qū)分向量,u?表示基于向量?的標(biāo)簽節(jié)點(diǎn)分類特征值,u?表示基于向量?的標(biāo)簽節(jié)點(diǎn)分類特征值。在上述物理量的支持下,聯(lián)立式(5),可將數(shù)字檔案信息分類標(biāo)簽節(jié)點(diǎn)的相似度指標(biāo)求解表達(dá)式定義為:
至此,完成對(duì)各項(xiàng)指標(biāo)參量的計(jì)算與處理,在不考慮其他干擾條件的情況下,完成對(duì)基于改進(jìn)支持向量機(jī)的數(shù)字檔案多標(biāo)簽分類算法的設(shè)計(jì)。
實(shí)驗(yàn)分別采用改進(jìn)支持向量機(jī)算法、多層極限學(xué)習(xí)機(jī)算法作為數(shù)字檔案信息文本的語(yǔ)言開(kāi)發(fā)環(huán)境,其中前者作為實(shí)驗(yàn)組、后者作為對(duì)照組,實(shí)驗(yàn)環(huán)境的詳細(xì)信息如表1 所示。

表1 實(shí)驗(yàn)環(huán)境
實(shí)驗(yàn)選擇Emotions、Genbase、Scene、Flags、Yeast、Enron、Birds、Medical 八種數(shù)字檔案信息作為實(shí)驗(yàn)對(duì)象,每種數(shù)字檔案信息所屬標(biāo)簽類型及其標(biāo)簽測(cè)試集基數(shù)的初始取值如表2 所示。

表2 數(shù)字檔案的基本信息
表1 中,Emotions 信息是音樂(lè)領(lǐng)域的數(shù)字檔案標(biāo)簽,Genbase信息與Yeast信息是生物領(lǐng)域的數(shù)字檔案標(biāo)簽,Scene信息與Flags信息是圖像領(lǐng)域的數(shù)字檔案標(biāo)簽,Enron 信息與Medical 信息是文本領(lǐng)域的數(shù)字檔案標(biāo)簽,Birds 信息是音頻領(lǐng)域的數(shù)字檔案標(biāo)簽。
對(duì)于數(shù)字檔案信息而言,標(biāo)簽測(cè)試集基數(shù)(ω)與訓(xùn)練集基數(shù)(ξ)之間的差值(ψ)可以用來(lái)描述信息文本錯(cuò)誤分類行為的出現(xiàn)概率,差值指標(biāo)ψ的計(jì)算式如下:
若ψ≤350 個(gè),表示標(biāo)簽測(cè)試集基數(shù)與訓(xùn)練集基數(shù)之間的差值水平較小,當(dāng)前情況下,數(shù)字檔案信息文本錯(cuò)誤分類行為的出現(xiàn)概率相對(duì)較小;若ψ>350 個(gè),表示標(biāo)簽測(cè)試集基數(shù)與訓(xùn)練集基數(shù)之間的差值水平較大,當(dāng)前情況下,數(shù)字檔案信息文本錯(cuò)誤分類行為的出現(xiàn)概率相對(duì)較大。
圖1 反映了實(shí)驗(yàn)組、對(duì)照組數(shù)字檔案信息訓(xùn)練集基數(shù)(ξ)的實(shí)驗(yàn)數(shù)值。

圖1 訓(xùn)練集基數(shù)
根據(jù)圖1 中訓(xùn)練集基數(shù)(ξ)的記錄數(shù)值,對(duì)差值指標(biāo)(ψ)進(jìn)行計(jì)算,具體計(jì)算結(jié)果如表3 所示。

表3 標(biāo)簽測(cè)試集基數(shù)與訓(xùn)練集基數(shù)的差值
分析表3 可知,在實(shí)驗(yàn)分類方法應(yīng)用下,八種數(shù)字檔案信息的測(cè)試集基數(shù)與訓(xùn)練集基數(shù)差值始終小于350 個(gè);對(duì)照組分類方法應(yīng)用下,八種數(shù)字檔案信息的測(cè)試集基數(shù)與訓(xùn)練集基數(shù)差值均大于350 個(gè)。綜上可知,基于改進(jìn)支持向量機(jī)的多標(biāo)簽分類算法可以有效降低數(shù)字檔案信息標(biāo)簽測(cè)試集基數(shù)與訓(xùn)練集基數(shù)之間的差值,在解決信息錯(cuò)誤分類問(wèn)題方面具有更強(qiáng)的實(shí)際應(yīng)用價(jià)值。
文中提出的數(shù)字檔案多標(biāo)簽分類算法以改進(jìn)支持向量機(jī)理論為基礎(chǔ),對(duì)數(shù)字檔案標(biāo)簽完成深度挖掘,又通過(guò)定義共享信息實(shí)時(shí)傳輸量的方式,推導(dǎo)容錯(cuò)指標(biāo)與相似度指標(biāo)的具體數(shù)值。隨著多標(biāo)簽分類算法的應(yīng)用,數(shù)字檔案信息標(biāo)簽測(cè)試集基數(shù)與訓(xùn)練集基數(shù)之間差值水平過(guò)大的問(wèn)題得到了較好解決,能夠有效避免數(shù)據(jù)信息錯(cuò)誤分類行為的出現(xiàn),符合實(shí)際應(yīng)用需求。