999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于PCA-GA-SVM的n/γ甄別方法研究

2021-06-30 13:45:52宋海聲馬通達麻林召呂柏陽劉鵬浩馬佳寧秦秀波
原子能科學技術 2021年6期
關鍵詞:分類模型

宋海聲,馬通達,,麻林召,呂柏陽,,劉鵬浩,馬佳寧,3,秦秀波,*

(1.西北師范大學 物理與電子工程學院,甘肅 蘭州 730000;2.中國科學院 高能物理研究所 北京市射線成像技術與裝備工程技術研究中心,北京 100049;3.中國科學院大學 核科學與技術學院,北京 100049)

當今,中子探測技術不僅應用在核物理領域,同時還廣泛地應用在違禁品檢測、環境輻射檢測、醫學和深空探測等相關領域,起到不可忽視的重要作用。然而,由于中子與周圍環境的非彈性散射、慢化中子的輻射俘獲等原因,存在中子的場合幾乎都伴隨著一定強度的γ射線本底[1],而中子探測器對γ射線也有一定的靈敏性,所以n/γ的甄別工作具有重要意義。

早期的n/γ甄別傳統方法,如上升時間法[2]、過零時間法[3]、電荷比較法[4]和脈沖梯度法[5]等時域方法,可根據不同粒子發光過程中引起的脈沖差異來區分中子和γ射線,但需要借助專用的電子學設備,成本過高;還有一些基于小波變換[6]、頻域梯度[7]等頻域分析方法,這些方法均可提取特征值完成甄別。近些年,伴隨數字信號處理器(DSP)處理速度的大幅度提高、高速模數轉換器(ADC)的出現及現場可編程門陣列(FPGA)的高速發展,實時大數據量的信號處理技術飛速發展,國內外研究人員開始基于數字化探測技術展開大量的工作。李奎念等[8]用上升時間法、電荷比較法、脈沖梯度分析法和頻域梯度分析法4種傳統數字化甄別方法成功對液閃探測器中的n/γ完成甄別,并對比各自的優勢。黃廣偉等[9]結合CLYC探測器,運用系統聚類法和K-means聚類法完成n/γ的脈沖波形甄別,驗證其算法的可行性。王一鳴等[10]運用支持向量機(SVM)對脈沖堆積條件下的n/γ進行甄別,但由于模型參數選擇和混合噪聲干擾,甄別效果未達到預期。有些國內外學者已提出一些基于機器學習的數字n/γ甄別方法,包括神經網絡法[11]和模糊C均值算法[12],但是這些方法中沒有參數可用來描述單個事件的準確性。本文提出基于SVM[13]的甄別方法,并用遺傳算法(GA)[14]對關鍵參數進行尋優,且利用主成分分析法(PCA)[15]對模型進行降維。

1 實驗平臺和數據處理

1.1 實驗平臺

本工作采用的是具有快速響應時間特性和高探測效率的芪晶體探測器[16]。實驗平臺示意圖如圖1所示,小型中子源252Cf產生的粒子在芪晶體(直徑1英寸,高1英寸的圓柱體)中產生閃爍光子,經電源(CAEN公司,型號為V6533M)電壓為-1 500 V的光電倍增管(型號為XP2020)轉換產生負脈沖信號直接接入放大器(CAEN公司,型號為V974)中對信號進行2倍放大,然后將信號傳輸到16通道14位、轉換速率可達500 MS/s的數字轉換器(CAEN公司,型號為V1730)中,經ADC轉換為數字信號,最后將數字信號通過持續數據傳輸速率高達80 MByte/s的光路橋(CAEN公司,型號為V2718)經光纖全部傳入計算機記錄存儲。

圖1 實驗平臺示意圖Fig.1 Schematic diagram of experimental platform

1.2 數據采集與預處理

根據圖1所搭建的中子探測平臺,采集n/γ混合脈沖信號。本實驗采樣率為500 MS/s,共采集10 000組n/γ混合信號,每組數據采樣點為1 024個(數據長度),為減少運算量方便后續算法處理,選取每組數據中能完整表達信號信息的100個采樣點作為待處理數據。

在信號采集過程中,由于設備溫度影響到電阻元件的工作性能,導致采集的模擬信號在經過ADC轉換時會引入一定的高頻噪聲,且一定頻率下的脈沖幅度也存在差異,將這樣的數據直接送入計算機處理,在算法分類中會產生較多特異點,對最后的n/γ甄別結果的精確度造成影響,因此首先需對原始數據進行算法分類前的預處理。數據預處理分為3個步驟:1) 幅度歸一化,將信號幅度轉化至[0,1]之間,這樣可有效地克服噪聲的干擾,準確識別待判曲線,將幅度差異帶來的影響消除;2) 平滑濾波[17],利用滑動平均濾波消除原始信號中的高頻雜波,保證ADC轉換過程中不會出現高頻失真現象;3) 基線調零,核信號處理中可能存在基線干擾信號(低頻噪聲),利用基線調零操作消除對甄別過程中的不利影響。圖2為預處理后中子和γ射線的對比。

a——原始信號;b——歸一化信號;c——平滑信號;d——基線調零信號圖2 預處理后中子和γ射線的對比Fig.2 Comparison of n/γ signals after pretreatment

2 算法實現

2.1 SVM算法

SVM算法通過核函數將低維空間非線性不可分的訓練集映射到高維特征空間G中,然后尋求構造最優超平面實現數據線性分類。SVM算法能在很廣泛的函數集中構造函數,具有很強的通用性。假設訓練樣本集T={(x1,y1),(x2,y2),…,(xN,yN)},其中xi∈Rn,yi∈{-1,+1},i=1,2,…,N,SVM在特征空間中構造的超平面可表示為:

wTx+b=0

(1)

式中:w為法向量,決定超平面的方向;b為位移量,決定超平面與原點之間的距離;T為維度系數。

若式(1)中超平面滿足約束條件,式(2)則構成最優超平面。

yi(wTxi+b)≥1i=1,2,…,N

(2)

假設訓練數據集不是線性可分的,通常情況是訓練數據集中有些特異點,將這些特異點除去后,剩下大部分的樣本點組成的集合是線性可分的。對每個樣本點引入松弛變量ξi≥0,使函數間隔加上松弛變量大于等于1,式(2)可轉化為式(3)用于求解凸二次規劃問題,目標值的最小函數f(w,b,ξ)為:

s.t.yi(wTxi+b)≥1-ξiξi≥0

i=1,2,…,N

(3)

式中,C為懲罰因子,C>0,可控制對錯分樣本的懲罰程度,一般是由實際的應用問題來決定。C增大對誤分類的懲罰增大,反之C減小則對于誤分類的懲罰減小。

按照最優化理論中凸二次規劃的解法,加入拉格朗日乘法算子構造式(4)求解上述問題,同時尋找建立最優超平面函數,則:

(4)

式中,αi和μi為拉格朗日乘子,αi≥0,μi≥0。引入適當的內積函數K實現非線性變換,目的是將最優平面問題轉化為對偶問題,則式(4)可變為:

0≤ai,aj≤Ci,j=1,…,N(i≠j)

(5)

假設最優解為a*,則最優分類函數f(x)為:

(6)

式(6)等價于將原來的輸入空間的xi和xj的內積變換到新的特征空間用核函數K來代替。核函數將數據映射到一個高維線性空間中,使其在線性空間中線性可分,從而構造出最優超平面,完成數據分類。圖3為SVM在高維空間構造超平面區分的兩種樣本。采用不同的核函數可得到不同的分類效果,本工作選擇的是RBF核函數:

K(x,xi)=exp(-g‖x-xi‖2)

(7)

式中:‖x-xi‖2為2范數距離;g為核函數參數。

圖3 SVM在高維空間構造超平面區分的兩種樣本Fig.3 Two samples distinguished by SVM constructed hyperplane in high-dimensional space

2.2 主成分分析法

由于SVM是在高維空間構造超平面實現2分類,特征維數過高會造成訓練網絡出現過擬合現象使得分類準確性下降,同時建模時間太長浪費大量時間,故本工作利用PCA對特征值進行降維處理,選擇貢獻率大的主元成分作為SVM的輸入向量。

PCA是一種運用線性代數對原始數據進行降維處理的常用方法之一,它可將多個變量轉換為少數幾個不相關的綜合變量,來比較全面地反映整個數據集。通過KL變換對原數據集進行線性分解組合求解得出協方差矩陣的最大k個特征值對應的特征向量,原數據集有n個特征值,在盡量減少對原始數據信息丟失的情況下對數據進行降維處理。在k個特征值中選擇方差最大的p1為第1主成分,若p2的貢獻率較小,不足以代表原來n個特征值代表的信息,則選取p2即第2主成分,若p1和p2兩個主成分的累積貢獻率不能滿足實際需要,繼續選取p3、p4等直到滿足實際需要為止,且p1,p2, …,pn各不相關。因此可構造T個主成分,構造公式為:

(8)

式中:pi為1個行向量,表示第i個基;aj為1個列向量,表示第j個原始數據。從n個原始變量中提取出T個新變量來代替原始數據,其余的n-T個變量對于原始信息的貢獻率較小可被代替,所以選取T個變量作為GA-SVM模型的輸入。

2.3 GA優化SVM

本文所用到的RBF核函數在SVM分類算法中具有良好特性,但該核函數中涉及到未知懲罰因子C和RBF核函數參數g,這兩個參數的取值會直接影響SVM的分類準確率。在向量機實際解決過程中需對這兩個參數值進行預設,傳統SVM往往通過人工經驗取值或交叉驗證的方式來選取參數值,這使得求解過程中不僅效率低還易導致進入局部最優解。GA是一種具有很強通用性的全局優化性能算法,避免尋求最優解過程中陷入局部最小陷阱,可利用這個特點對SVM的懲罰因子C和核函數參數g進行優化,提高SVM的分類精度。

1) 種群初始化、染色的編碼和解碼

因為SVM中懲罰因子C和核函數參數g通常是經驗取值,因此可初始化種群P(t),對SVM算法中的懲罰因子C和核函數參數g分別設定較寬搜索范圍(本工作C、g搜索范圍均為[0.1,100]),將在搜索范圍內可行的懲罰因子C和核函數參數g通過二進制編碼的方式放進初始種群個體染色體中,構成隨機初代種群。

2) 評估種群中個體適應度

對種群中的各染色體進行解碼,得到懲罰因子C和核函數參數g,用部分訓練樣本集訓練SVM模型,用已訓練好的SVM模型計算出訓練樣本集的識別率(RR)。RR在一定程度上體現了SVM訓練模型的分類能力,因此來檢驗每個個體是否達到最優標準,構造出各基因串的適應度、個體適應度來進行表征。

3) 選擇操作

每個個體的適應度計算完成后,依據個體適應度的大小對種群中的所有個體進行排序,然后根據適應度排序來分配每個個體被選中的概率Pm,此方法為比例選擇法:

(9)

4) 交叉操作

交叉算子是自然界基因信息交換的重要手段,通過交叉手段將原代種群的優質基因傳給下一代,組成結構更加完善且優質的新個體。在此交叉過程中,隨機選擇一對染色體(父代)中的幾個基因的起止位置(兩個染色體被選位置相同),然后基因位置進行交換。圖4為父代及原始子代基因序列。

圖4 父代及原始子代基因序列Fig.4 Gene sequence of parent and proto-child

做沖突檢測,對交換的兩組基因建立映射關系,對于4組交叉基因構造1-6-3、2-5、9-4的映射關系,原始子代1中存在兩個基因1,通過映射關系轉變為3,以此類推直到沒有沖突為止,所有沖突的基因最后都經過映射形成新一代無沖突自帶基因,如圖5所示。

圖5 經過交叉操作的后代基因序列Fig.5 Offspring gene sequence after crossover operation

5) 變異操作

變異操作的目的是為了保持群體多樣性,變異概率表示為Pm,若Pm太小可能會導致某些重要信息過早消失,若Pm過大則會將GA的尋優操作變成隨機搜索,本工作Pm取值為0.005~0.05。

6) 迭代

迭代直至得到末代種群中最優個體,通過解碼得到SVM的重要參數懲罰因子C和核函數參數g。

2.4 PCA-GA-SVM模型建立

PCA-GA-SVM分類模型對混合場n/γ的甄別步驟為:1) 首先對混合場采集到的n/γ信號進行預處理(平滑濾波、基線調零、歸一化);2) 用電荷比較法與頻域梯度分析法對預處理后的n/γ信號進行特征值提取,從而進行甄別,選取出經過這兩種甄別算法處理后分類相同的數據,并標識標簽,作為訓練PCA-GA-SVM模型的標準數據集。然后利用PCA對數據集特征矩陣進行數據降維,選擇出累計方差貢獻率高的前n個主成分數組矩陣代替原始矩陣,達到降維的目的,此次操作可避免SVM模型出現過擬合現象且減少建模時間;3) 將降維后的標準數據集分為訓練樣本和測試樣本,用帶有標簽的訓練樣本訓練PCA-GA-SVM模型并利用GA優化SVM懲罰因子C和核函數參數g;4) 選取最佳參數Cbest、gbest作為SVM模型的訓練參數,構建最優SVM模型;5) 使用訓練好的PCA-GA-SVM模型對無標簽測試樣本中的n/γ進行甄別,統計甄別準確率和總運行時間。PCA-GA-SVM模型對混合場中n/γ的甄別流程如圖6所示。

圖6 PCA-GA-SVM模型對混合場中n/γ的甄別流程Fig.6 Flow chart of PCA-GA-SVM model for discrimination of n/γ

3 實驗結果與分析

使用電荷比較法和頻域梯度分析法對經過預處理的10 000組信號進行甄別,兩種甄別算法同時甄別為γ射線的有7 724組,同時甄別為中子的有1 449組,淘汰掉兩種算法甄別后存在誤差的827組數據,將此9 173組數據選取出進行下一步操作。由于SVM算法是將低維空間不可分的數據集上升到高維空間來進行分類,這種升維算法若維數太高則易出現過擬合現象,同時還會浪費大量的時間。每組數據的100個特征采樣點可完整表達信號信息,但直接通過GA-SVM模型進行甄別,維數太高會導致分類不準確,由于這100個特征采樣點存在一定的相關性,所以可通過PCA進行降維處理,將原來的特征向量進行線性組合,重新生成相互獨立且可完整包含原始數據全部信息的新特征向量。對9 173組數據進行主成分分析,抽取1組數據為例,前27個主成分的貢獻率依次為:X={39.56,6.40,4.18,3.20,2.84,2.68,2.19,2.18,2.17,2.13,2.10,2.08,2.07,2.02,1.97,1.91,1.66,1.40,1.13,1.03,0.97,0.84,0.81,0.74,0.67,0.65,0.59}

該組數據前27個主成分累計貢獻率達到90.16%,后73個主成分僅占9.84%,所以前27個主成分包含了1組數據的大部分信息,后73個成分隨著數量的增加,累積貢獻率增加緩慢,可忽略。因此可利用前27個主成分新特征代替原有的100個特征采樣點,進而達到降維的目的。圖7為PCA得分圖二維、三維分布情況,可看出,n/γ信號仍混合,所以下一步需將通過PCA降維的數據輸入到GA-SVM模型內,完成對兩種信號的甄別。

a——二維;b——三維圖7 PCA得分圖Fig.7 PCA score chart

GA-SVM網絡可通過對已知樣本的訓練來對未知樣本進行分類。經過PCA降維處理的n/γ混合場射線共9 173組,選取其中6 000組(5 000組γ射線、1 000組中子)標定標簽作為訓練樣本,3 173組(2 725組γ射線、448組中子)不賦予標簽作為測試樣本來驗證GA-SVM模型的甄別能力。將經過PCA降維處理具有27個主元成分的6 000組訓練集和3 173組測試集作為系統輸入,對應兩個事件的網絡輸出值設置為1和2。然后通過GA迭代尋求最優的懲罰因子C和核函數參數g,將線性不可分數據上升到高維空間構造超平面來分類兩種射線。

本實驗設置最大進化代數為50,種群最大數量為20,懲罰因子C和核函數參數g取值范圍均為[0.1,100],代溝為0.9,編碼長度為20,交叉概率為5,變異概率為0.9。通過遺傳迭代尋優,最后確定最優參數C為74.36,g為92.784,圖8為GA適應度曲線。

圖8 GA適應度曲線Fig.8 GA fittness curve

本實驗甄別芪晶體中混合場的n/γ,因此將γ射線的網絡輸出設置為標簽1,中子的網絡輸出設置為標簽2。實驗中用PCA-GA-SVM對3 173組測試樣本進行甄別,最終甄別結果如圖9所示,其中期望輸出為PCA-GA-SVM模型輸入的標準測試集(2 725組γ射線、448組中子),預測輸出為模型對測試集實際輸出的識別結果,當期望輸出與預測輸出重合時表示模型預測結果正確。實驗結果表明,在2 725組γ射線中有8組被錯誤識別為中子,448組中子中有12組被錯誤識別為γ射線,其他均被正確識別,算數識別精度為99.37%。

圖9 PCA-GA-SVM對n/γ信號甄別結果Fig.9 PCA-GA-SVM discrimination result of n/γ signal

為了評估PCA-GA-SVM模型的甄別能力,用辨別誤差率(DER)定義為由PCA-GA-SVM模型錯誤區分的事件數與測試數據集的事件總數之比。γ射線和中子的DER通過式(10)來計算。

(10)

式中:Nγ和Nn分別為測試樣本中γ射線和中子的數量;Nγ-SVM和Nn-SVM分別為PCA-GA-SVM分類的γ射線和中子事件的數量。通過計算DER來評估PCA-GA-SVM的甄別能力,結果列于表1。由于選取的測試樣本中中子計數較γ計數少,所以計算的中子事件的DER較γ事件大些。由表1可知,PCA-GA-SVM可很好地甄別混合場中的n/γ。

表1 測試樣本的甄別結果Table 1 Discrimination result of test sample

將電荷比較法、頻域梯度分析法、PCA-GA-SVM網絡3種n/γ甄別算法進行對比,將前面尋找到的最優懲罰因子C和核函數參數g(C為74.36,g為92.784)直接賦予PCA-GA-SVM網絡以省略建模時間,對比結果列于表2。3種甄別方法對同樣的3 173組數據(2 725組γ射線、448組中子)進行甄別,結果表明,3種方法均能較好地分開混合場中的n/γ,PCA-GA-SVM辨別誤差率遠小于其他兩種算法,甄別精度優勢明顯。PCA-GA-SVM網絡直接調用Cbest和gbest后甄別用時僅為4.76 s,隨著樣本數的增加,PCA-GA-SVM網絡會在處理時間上逐漸體現出優勢。

表2 3種n/γ甄別方法結果對比Table 2 Result comparison of three n/γ discrimination methods

為更好地驗證PCA和GA對SVM網絡模型的優化效果,分別建立SVM、PCA-SVM、GA-SVM 3種模型,與PCA-GA-SVM比較其甄別時間與算數識別精度,對比模型中傳統SVM的懲罰因子C、核函數參數g采用傳統的交叉驗證法得到。重復實驗10次后,記錄4種模型的甄別時間(含建模時間)和算數識別精度,取平均值作為模型的性能指標,分析比較結果列于表3。由表3可知,PCA-SVM模型經過降維處理后甄別時間比SVM模型縮短了82.59%,甄別準確率提高了3.50%,這說明SVM模型適合處理樣本數量小、維數低的數據集,當需要被分類的數據集是具有多特征大數量的高維數據集時,PCA是一種行之有效的數據降維手段,可大幅縮減模型的建模時間,同時還可小幅度提升分類精度。GA-SVM模型對比傳統SVM模型,甄別準確率提高了8.88%,甄別時間縮短了9.68%,這說明經過GA迭代尋優后的懲罰因子C和核函數參數g比傳統交叉尋優得到的兩個參數對模型的貢獻率更大,指標提升效果明顯。利用PCA降維后的PCA-GA-SVM模型對比傳統SVM模型,甄別準確率提高了12.99%,甄別時間縮短了88.13%,這說明PCA-GA-SVM模型在n/γ甄別工作中具有甄別準確率高、甄別時間短的特點。

表3 4種模型性能指標對比Table 3 Comparison of performance index of four models

4 結論

本文利用PCA、GA、SVM構建了n/γ的甄別模型,為混合場中n/γ甄別工作提供了一種新的方法。結果表明,PCA-GA-SVM通過電荷比較法和頻域梯度分析法選取的訓練樣本訓練后可同時兼顧時域和頻域的特征。PCA-GA-SVM模型對混合場兩種射線甄別,運行10次后平均算數準確率達到99.43%,甄別時間(含建模時間)為269.16 s,與SVM、PCA-SVM、GA-SVM 3種模型相比,PCA和GA對SVM優化效果顯著。另外,在混合脈沖甄別中PCA-GA-SVM的辨別誤差率遠小于電荷比較法和頻域梯度分析法,具有更高的甄別精度。在甄別時間上與其他兩種方法相比相差不大,隨著樣本數量的增多,該模型在處理時間上會逐漸體現出優勢。

猜你喜歡
分類模型
一半模型
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 色综合久久88色综合天天提莫| 色婷婷成人| 久久综合伊人 六十路| jizz在线观看| 国产亚洲日韩av在线| 久久无码av三级| 久久亚洲日本不卡一区二区| 99久久99视频| 91精品啪在线观看国产| 国模视频一区二区| a级毛片网| 99中文字幕亚洲一区二区| 九九热在线视频| 日本在线欧美在线| 97人人模人人爽人人喊小说| 欧美成人午夜视频| 亚洲成人动漫在线观看| 国产成人综合亚洲欧美在| 国产在线一区视频| 亚洲无码日韩一区| 久久人午夜亚洲精品无码区| 婷婷中文在线| 99视频精品在线观看| 99久久国产综合精品女同| 亚洲欧美另类专区| 韩国自拍偷自拍亚洲精品| 国产成人高清精品免费| 日韩 欧美 小说 综合网 另类| 亚洲国产天堂久久九九九| 日韩精品毛片人妻AV不卡| 精品国产免费第一区二区三区日韩| 国产网友愉拍精品| 久久久久无码国产精品不卡| 成人国产精品一级毛片天堂| 亚洲AV无码一区二区三区牲色| 蜜臀AV在线播放| 天天做天天爱夜夜爽毛片毛片| 91极品美女高潮叫床在线观看| 精品国产成人a在线观看| 欧美日韩一区二区三区在线视频| 精品国产网| 69视频国产| 国产日本视频91| 国产综合色在线视频播放线视| 亚洲一级毛片| 欧美色亚洲| 国产一区二区网站| 成年人福利视频| 久久香蕉国产线看观看式| 欧洲精品视频在线观看| 婷婷亚洲最大| 少妇被粗大的猛烈进出免费视频| 操美女免费网站| 亚洲精品片911| 99re在线免费视频| 亚洲欧洲日韩综合色天使| 欧美成人精品欧美一级乱黄| 久久人搡人人玩人妻精品一| 第一页亚洲| 免费A级毛片无码免费视频| 真人高潮娇喘嗯啊在线观看| 国产精品视频第一专区| 一本大道香蕉久中文在线播放| 欧美一区中文字幕| 亚洲欧美一区二区三区图片| 成人毛片在线播放| 幺女国产一级毛片| 中国一级特黄大片在线观看| 强奷白丝美女在线观看| 日韩毛片免费| 一级一级一片免费| 国产真实自在自线免费精品| 中文字幕在线一区二区在线| 色播五月婷婷| 亚洲欧洲自拍拍偷午夜色| 国产高清在线观看91精品| 狠狠色婷婷丁香综合久久韩国| 九九视频在线免费观看| 无码中文字幕精品推荐| 久久精品视频一| 亚洲成a人片7777| 国产精品亚洲а∨天堂免下载|