999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于自歸一化神經網絡的脈沖星候選體選擇*

2020-04-03 08:44:08康志偉劉拓劉勁馬辛陳曉
物理學報 2020年6期
關鍵詞:分類特征模型

康志偉 劉拓 劉勁 馬辛 陳曉

1) (湖南大學信息科學與工程學院, 長沙410082)

2) (武漢科技大學信息科學與工程學院, 武漢430081)

3) (北京航空航天大學儀器科學與光電工程學院, 北京100191)

4) (上海衛星工程研究所, 上海200240)

(2019 年 10 月 17日收到; 2019 年 12 月 19日收到修改稿)

脈沖星候選體選擇是脈沖星搜尋任務中的重要步驟. 為了提高脈沖星候選體選擇的準確率, 提出了一種基于自歸一化神經網絡的候選體選擇方法. 該方法采用自歸一化神經網絡、遺傳算法、合成少數類過采樣這三種技術提升對脈沖星候選體的篩選能力. 利用自歸一化神經網絡的自歸一化性質克服了深層神經網絡訓練中梯度消失和爆炸的問題, 大大加快了訓練速度. 為了消除樣本數據的冗余性, 利用遺傳算法對脈沖星候選體的樣本特征進行選擇, 得到了最優特征子集. 針對數據中真實脈沖星樣本數極少帶來的嚴重類不平衡性,采用合成少數類過采樣技術生成脈沖星候選體樣本, 降低了類不平衡率. 以分類精度為評價指標, 在3個脈沖星候選體數據集上的實驗結果表明, 本文提出的方法能有效提升脈沖星候選體選擇的性能.

1 引言

脈沖星是一種高速自轉的中子星[1], 對其進行觀測研究, 將極大推動星際介質研究[2]、引力波探測[3]、脈沖星導航[4?6]等眾多領域的發展. 自第一顆脈沖星被發現以來[7], 在銀河系、麥哲倫星云、球狀星團中先后發現了2700多顆脈沖星[8], 其中大部分是通過現代射電望遠鏡探測發現的, 例如綠岸北半球脈沖星巡天[9](green bank north celestial cap survey, GBNCC)、Parkes多波束脈沖星巡天[10](parkes multi-beam pulsar survey, PMPS)、高時間分辨率的宇宙脈沖星巡天[11](high time resolution universe survey, HTRU)、低頻射電 (low frequency array, LOFAR)陣列巡天[12](LOFAR tied-array all-sky survey, LOTAAS), 這些都為脈沖星搜索奠定了基礎.

脈沖星搜索首先需要檢測出射電望遠鏡觀測數據中的周期信號, 為便于分析, 一般要對這些具有周期性的觀測數據進行統計描述, 以形成具有一定統計特征的脈沖星候選體[13]. 由于受射頻或噪聲等因素的干擾, 這些候選體中包含著大量的非脈沖星信號, 而脈沖星信號數量卻非常少[14,15]. 為此,需要對脈沖星候選體進行選擇, 精選數據, 最后再利用射電望遠鏡對這些篩選后的數據進行人工分析以確定其是否為真實脈沖星[16]. 提高候選體選擇的準確率能大幅減少候選體數量, 從而極大地減輕后期的人工驗證工作. 因此, 提升候選體選擇性能是搜索新脈沖星的一個關鍵步驟.

早期的脈沖星候選體選擇主要依賴人工識別,但這是一個主觀耗時且易出錯的過程. 一個現代脈沖星巡天項目可以產生數百萬候選體, 僅依靠人工篩選效率極低且不切實際. 因此, 近幾年來, 人們的研究主要集中在機器學習方法上. Eatough等[17]提出了第一種用于解決脈沖星候選體選擇問題的機器學習方法, 該方法將每個候選體簡化為一個由12個數值特征組成的集合, 然后利用一個單隱 層 人 工 神 經 網 絡(artificial neural networks,ANN)從候選體中選擇脈沖星. Bates等[18]將特征增加到22個作為ANN的輸入. Zhu等[19]提出了深度神經網絡圖像模式識別方法—PICS (pulsar image-based classification system). PICS 將支持向量機、人工神經網絡、卷積神經網絡、邏輯回歸等集成結合, 采用圖像模式識別的方法驗證候選體的真實性. Lyon等[20]設計了8個特征應用到高斯-黑林格快速決策樹算法. Mohamed[16]將Lyon等[20]設計的8個特征應用到模糊k近鄰分類器上.Wang等[21]在Zhu等[19]的基礎上改進了PICS算法. 這些基于機器學習的脈沖星候選體選擇方法,有效節省了大量的人工勞動, 幫助研究人員發現了一些新的脈沖星.

如何進一步提升脈沖星候選體選擇的準確率,是機器學習方法有意義的研究點. 考慮到自歸一化神經網絡 (self-normalizing neural networks, SNN)[22]可以實現深層神經網絡, 且通過激活函數“縮放指數線 性 單元(scaled exponential linear units,SELU)”引入了自歸一化屬性, 從而避免了深層網絡在訓練時出現的梯度消失和爆炸問題, 保持網絡的穩定性與收斂性. 本文利用SNN構建深層網絡模型以提高候選體選擇的精確性. 此外, 運用遺傳算法(genetic algorithm, GA)優化候選體的特征子集, 采用合成少數類過采樣技術(synthetic minority over-sampling technique, SMOTE)降低不平衡率, 這些對實現高精確性的候選體選擇方法具有促進作用.

2 自歸一化神經網絡

SNN也是由輸入層、若干隱藏層及輸出層組成, 每層又由多個單一神經元構成, 其中每個神經元代表一種特定的激活函數. SNN的關鍵就是通過激活函數SELU引進自歸一化屬性, 即對具有零均值與單位方差的輸入變量, 通過SELU激活函數后其輸出仍將收斂于零均值和單位方差. 為確保每層激活函數的輸入為零均值與單位方差, 還需進行權重初始化. SELU激活函數與權重初始化是實現SNN自歸一化特性的重點.

2.1 SELU激活函數

SELU激活函數表達式為

圖1 SELU 激活函數Fig. 1. SELU activation function.

2.2 權重初始化

為確保每層激活函數的輸入為零均值與單位方差, 還需進行權重初始化, 對此, 可證明如下:

考慮由一個權重矩陣W連接的兩個連續的網絡層, 下層網絡的輸出是上層網絡的輸入. 假定下層有n個神經元且其輸出變量為用zlow代表其向量形式, 則上層神經元的輸入xup可以表示為

其中w是W的一列向量. SELU確保下層神經元輸出具有零均值和單位方差, 即μ=E(zi,low)≈0,v=Var(zi,low)≈1. 令權重初始化為

其中

所以結合(4)式可得

由此可知, 權重初始化確保了激活函數輸入的歸一化, 是SELU實現自歸一化屬性的一個必要條件.

3 脈沖星候選體選擇方法

脈沖星候選體選擇的目標就是盡可能地挑選出真實脈沖星候選體, 本文采用基于SNN的方法來提高候選體選擇的精確性. SNN可克服梯度消失與爆炸問題以提高訓練速度, 深度神經網絡結構可有效提高識別精度. GA因其自適應性特別適合特征選擇這一多目標優化任務[23], 可用于優化特征子集. 而SMOTE[24]是一種不同于僅通過直接復制少數類樣本的過采樣技術, 因其簡單有效適用于處理非平衡數據集. 因此本文提出了運用GA與SMOTE改進后的SNN模型(GMO_SNN), 圖2為GMO_SNN候選體選擇算法流程圖.

3.1 GA特征選擇算法

GMO_SNN模型利用GA進行特征選擇, 在原始特征空間中搜索最優特征子集. 用于特征選擇的GA可以概括為三部分: 初始化種群、評估適應度、產生新種群.

初始化種群, 設定初始種群大小, 采用二進制進行基因編碼, 長度為L的遺傳個體編碼后對應于一個L維的二進制基因串, 其中為1表示第i個特征包含于所選特征子集中, 否則為 0. 例如: 有6個特征的特征集表示為, 則表示第1個與第4個特征被選中作為特征子集.

圖2 GMO_SNN 候選體選擇算法流程圖Fig. 2. GMO_SNN candidate selection algorithm.

適應度函數的選擇是GA中最關鍵的部分. 在特征選擇問題中, 將LightGBM模型輸出值作為遺傳個體的適應值, 能直接反映不同特征組合對目標值的相關度, 適應值越高說明對應的特征組合越優良, 被選中的概率也越大.

產生新種群包括選擇、交叉、變異, 具體采用輪盤賭算法作為選擇算子, 定長基因段交叉算子,基本位變異操作. 新的種群產生后, 通過適應度函數進行評估, 然后再選擇、交叉、變異, 一直重復此步驟, 當遺傳操作到達設定的最大迭代次數, 算法結束. 對末代種群中適應度值最大的個體進行解碼, 就獲得脈沖星候選體特征的最優子集.

3.2 SMOTE算法

GMO_SNN模型采用SMOTE算法解決脈沖星候選體的類不平衡問題. SMOTE是一種過采樣技術, 其利用K近鄰與線性插值, 在距離較近的兩個真實脈沖星候選體之間按照一定規則插入新的樣本. 算法具體流程如下:

1)對于真實脈沖星候選體中的每一個樣本r,以歐氏距離為標準分別計算它到其他每個真實脈沖星樣本的距離, 得到其K近鄰, 一般K取值為5.

2)在每一個真實脈沖星樣本r的5個近鄰中隨機選取一個樣本, 假設選擇近鄰樣本為.

3.3 GMO_SNN候選體選擇算法

首先采用GA進行特征選擇, 找出可以分離脈沖星與非脈沖星的最優特征子集; 然后使用SMOTE合成新的脈沖星樣本加入到數據集中; 最后將數據集分為訓練集與測試集, 利用訓練集對SNN進行訓練, 訓練完成后將測試集輸入到神經網絡中, 得到基于GMO_SNN模型的脈沖星候選體選擇結果. 具體過程如圖2所示.

4 實驗與結果分析

在3個獨立的脈沖星候選體數據集上進行實驗, 根據6個典型的機器學習評價指標評估GMO_SNN模型性能. 在搭建自歸一化神經網絡時, 多次實驗比較不同參數下的結果, 選擇最優參數以使神經網絡分類效果最佳, 并在相同網絡結構下與傳統ANN進行對比. 另外, 還分別將GMO_SNN與SNN, GA-SNN (GA特征選擇后的SNN模型),MO-SNN (SMOTE解決類不平衡問題后的SNN模型)的候選體選擇結果進行對比, 進一步證明本文方法的有效性.

實驗環境為Python3.6.4, 使用Numpy1.14.0,Pandas0.22.0, Sklearn0.20.1等機器學習庫處理數據, 開發編譯器 Spyder調試算法; 利用 Keras框架, 后端為 Tensorflow-GPU (NVIDIA GeForce GTX 1050)搭建神經網絡.

4.1 數據集與評價指標

3個脈沖星候選體數據集分別為HTRU 1[25],HTRU 2[20], LOTAAS 1[20]. 表1列出了 3個數據集的非脈沖星數、脈沖星數以及總樣本數. 在數據集中, 將脈沖星視為正樣本, 將非脈沖星視為負樣本. 3個數據集中的候選體均采用Bates等[18]提出的22個特征, 這些特征通過Pulsar Feature Lab[20]提供的工具獲取. 表2列出了22個特征的具體描述, 這些特征由脈沖周期P、脈沖寬度W、脈沖輪廓信噪比 (signal-to-noise rate, S/N)、色散量 (dispersion measure, DM)、觀測頻率、觀測時間等處理得到[18].

表1 脈沖星候選體數據集Table 1. Pulsar candidate datasets.

表2 特征描述Table 2. Feature description.

在脈沖星候選體選擇任務中, 使用準確率(Accuracy)、查全率 (Recall)、查準率 (Precision)、假陽率 (false positive rate, FPR)、F1-分數 (F1-score)、G-均值(G-mean)[26]這6個評價指標對算法性能進行評估.

Accuracy表示整體正確分類的比例, 但當測試集中非脈沖星占絕大多數時, 分類器可以通過將所有樣本分類為負樣本來獲得高準確率, 因此對于非平衡數據集僅靠準確率來評價不夠科學全面, 還需要其他評價指標. Recall表示數據集中真實脈沖星候選體被正確分類的比例, 是評估脈沖星候選體選擇模型一個非常重要的指標. 如果將一個真實脈沖星錯誤地歸類為非脈沖星, 可能會漏掉脈沖星的新發現, 因此Recall越高, 分類器遺漏脈沖星的機率就越小. Precision表示被歸類為正樣本中實際為正樣本的比例, Precision和Recall有時候會出現矛盾的情況, F1-score則同時兼顧了這兩者, 定義為Precision和Recall的調和平均, 是評價分類器分類少數類的綜合指標. FPR是非脈沖星被歸類為真實脈沖星的比例, 當候選體選擇完成之后, 會對被分類為真實脈沖星的候選體進行最終驗證, 如果FPR太高, 會帶來許多不必要的工作量. G-mean是正負樣本準確率的比值, 衡量在非平衡數據集下模型的綜合性能.

4.2 參數設置

GA中種群規模為20, 種群最大遺傳次數為10次, 適應度函數中使用的LightGBM模型使用默認參數; 自歸一化網絡結構采用“conic layers”設定隱藏單元數: 即從第一層中給定的隱藏單元數開始, 根據幾何級數將隱藏單元的數目減小到輸出層的大小[22]; 每個數據集使用75%的樣本作為訓練集, 余下作為測試集; 優化算法為“Adam”, 損失函數采用“交叉熵損失函數”. 通過實驗分析, 神經網絡相關參數設置如下.

1)網絡層數: 選擇最佳結果8層.

2)批次大小: 取32最佳.

3)學習速率: 取0.001最佳.

4.3 結果分析

4.3.1 網絡參數的最優選擇

脈沖星候選體選擇更加關注真實脈沖星候選體(即少數類樣本)的分類準確率, 由于F1-score是評價分類器分類少數類的綜合指標, 因此根據3個數據集上的平均F1-score值來確定參數, F1-score值越高, 神經網絡分類效果越好.

1) 網絡層數的最優選擇

深層次的網絡結構通常會獲得更好的分類效果, 但隨著網絡層數的增大, 網絡結構也越復雜.本文分別對隱藏層數為 2, 4, 8, 9的網絡進行實驗,表3列出了不同隱藏層數下的平均F1-score值.由表3可知, 當隱藏層數為8層時效果最佳.

表3 不同隱藏層數下的分類效果Table 3. Classification results with the different hidden layers.

2) 批次大小的最優選擇

為了提高神經網絡的訓練效率, 將訓練樣本分批次輸入. 批次大小會對模型優化程度和訓練速度產生影響. 若批訓練量過小, 會增加網絡訓練時間;如果批訓練過大, 其分類效果會變差. 本文分別對批次大小為 16, 32, 64, 128的模型進行訓練, 表4列出了不同批次大小下的平均F1-score值及運行時間. 由表4可知, 隨著批次減小, F1-score 值在逐步上升, 但運行時間也有明顯的增加. 當批次大小為16時, 其F1-score值對比批次為32時只上升了0.0031, 但其運行時間卻增加了一倍. 因此綜合考慮分類效果與算法運行時間, 本文神經網絡的批次大小取32.

表4 不同批次大小下的分類效果Table 4. Classification results with the different batch size.

3) 學習速率的最優選擇

學習速率是影響網絡性能的一個重要參數. 過大導致損失函數振蕩, 神經網絡無法收斂; 過小會導致收斂速度過慢, 可能會陷入局部最優. 本文分別對學習速率為 0.1, 0.01, 0.001, 0.0001時的模型進行訓練, 表5列出了迭代10次后不同學習速率下的平均F1-score值. 由表5可知, 在相同的迭代次數下, 當學習速率減小時, F1-score值會降低,模型分類效果變差. 當學習速率增大到0.1, 此時算法無法優化, 因此學習速率取值0.001最佳.

表5 不同學習速率的分類效果Table 5. Classification results with the different learning rates.

4.3.2 不同方法的比較

為證明SNN的有效性, 本文對SNN與傳統ANN在HTRU 2數據集上進行對比實驗, 圖3給出了8層神經網絡訓練過程中的損失函數曲線對比圖, 迭代次數為100次. 損失函數是用來衡量模型預測值與真實值的不一致程度, 損失函數越小,模型魯棒性就越好. 由圖3可知SNN模型比傳統ANN具有更低的誤差, 且其收斂速度明顯大于ANN, 證明了SNN在深層網絡中的有效性.

表6分別列出了3個數據集上SNN, GA_SNN,MO_SNN, GMO_SNN的脈沖星候選體選擇結果, 最優結果加粗表示.

利用GA進行特征選擇, 從候選體樣本的22個特征中篩選出8個作為最優特征子集, 數據集縮減率達到 63%. 以 HTRU 1數據集為例, 對比表6中GA_SNN與SNN的選擇結果可知, 利用最優特征子集訓練分類模型, 其結果均表現出不同程度的優化, 其余兩個數據集除少數幾個評價指標外, 也達到了類似的效果. 表明該特征選擇算法可以在壓縮特征空間的同時又不丟失原有信息, 提升模型性能.

圖3 SNN 與 ANN 損失函數的對比Fig. 3. Comparison of the loss function between SNN and ANN.

由表6中SNN與MO_SNN的評價指標可知, 利用 SMOTE 處理類不平衡問題后, Recall值在 HTRU 1與 HTRU 2數據集上分別提高了1.79和 4.44個百分點, 其中 LOTAAS 1數據集上Recall值達到100%, 說明該方法使分類器對非平衡學習問題具有較強的魯棒性, 防止了分類器在訓練時向豐富的非脈沖星類傾斜.

由表6可知, 在3個數據集上, 本文提出的GMO_SNN 模型在 Recall, Precision, F1_score,FPR以及G_mean上均優于其他模型. 例如HTRU 1數據集, 其 Recall值為 95.53, FPR 僅有0.03, 說明該方法既能有效避免脈沖星的遺漏, 又能減少需要人工再次驗證的非脈沖星候選體, 進一步證明了本文方法的有效性.

表6 不同方法在3個數據集上的分類效果Table 6. Classification results with different methods on three datasets.

位于中國貴州省的500米口徑球面射電望遠鏡(five-hundred-meter aperture spherical radio telescope, FAST)是目前世界上最大、最靈敏的射電天文望遠鏡, 其主要科學目標之一就是開展脈沖星的搜尋[27]. FAST采用19波束接收機進行巡天,可產生上億量級的脈沖星候選體[13]. 本文的候選體選擇模型運用機器學習方法提高了篩選速度, 使用單個GPU每秒可以識別約2萬個候選體, 同時得到高精度的選擇結果. 這種速度和效率的提高能促進對FAST巡天產生的脈沖星候選體數據的實時處理, 可減小大數據量帶來的篩選難度.

5 結論

基于自歸一化神經網絡的脈沖星候選體選擇是一種能高準確率識別真實脈沖星的有效方法. 利用GA進行特征選擇, 能在壓縮特征空間的同時又不丟失原有信息, 提升模型性能; 使用SMOTE處理非平衡數據集, 可降低數據集的不平衡率, 提高了分類器對少數類樣本的識別能力; 采用自歸一化神經網絡比傳統人工神經網絡在深層結構中具有更高的準確率以及更快的收斂速度. 在3個脈沖星候選體數據集上的實驗結果表明, 該方法既能有效避免真實脈沖星的遺漏, 又能減少非脈沖星的保留, 從而提高脈沖星搜尋的工作效率.

猜你喜歡
分類特征模型
一半模型
分類算一算
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
抓住特征巧觀察
主站蜘蛛池模板: 伊人色综合久久天天| 黄片在线永久| 成年片色大黄全免费网站久久| 亚洲欧美不卡中文字幕| 精品久久久久成人码免费动漫| 久久黄色一级片| 日韩在线第三页| 狠狠色成人综合首页| 天天色天天操综合网| 日日拍夜夜嗷嗷叫国产| 91九色最新地址| 色悠久久综合| 天天综合亚洲| 精品国产香蕉伊思人在线| 免费在线a视频| 国产在线精品美女观看| 久久精品娱乐亚洲领先| 亚洲国产在一区二区三区| 午夜性爽视频男人的天堂| 亚洲欧美综合精品久久成人网| 这里只有精品国产| 亚洲国产天堂久久综合226114| 久操中文在线| 久久亚洲国产最新网站| 亚洲欧美日韩另类| 国产精品性| 色综合久久久久8天国| 国产69精品久久久久孕妇大杂乱 | 午夜精品区| 福利在线一区| 久久精品国产免费观看频道| 久久狠狠色噜噜狠狠狠狠97视色| 国产凹凸一区在线观看视频| 成人免费黄色小视频| 伊人激情综合网| 国产精品浪潮Av| 亚洲性视频网站| 久久精品丝袜| 亚洲精品亚洲人成在线| 一级毛片免费播放视频| 老汉色老汉首页a亚洲| 亚洲开心婷婷中文字幕| 欧美α片免费观看| 国产一级α片| 亚洲欧美自拍中文| 青青草a国产免费观看| 91国内在线观看| 国产产在线精品亚洲aavv| 午夜性爽视频男人的天堂| 国产精品一区二区久久精品无码| 国产AV无码专区亚洲A∨毛片| 亚洲人成在线精品| 99ri精品视频在线观看播放| 欧美日韩精品一区二区在线线| 国产91小视频| 久久香蕉国产线看观看亚洲片| 国产一级精品毛片基地| 精品成人一区二区三区电影| 制服无码网站| www.91在线播放| 国产在线拍偷自揄拍精品| 91福利片| 亚洲永久色| 成人在线亚洲| 欧美日韩免费| 91午夜福利在线观看| 亚洲成a∧人片在线观看无码| 99在线视频网站| 91久久偷偷做嫩草影院精品| 91麻豆国产视频| 又爽又大又黄a级毛片在线视频| 成人在线不卡视频| 国产 在线视频无码| 日本人又色又爽的视频| 全色黄大色大片免费久久老太| 午夜毛片免费观看视频 | 亚洲日本中文字幕乱码中文| 国产精品网址在线观看你懂的| 中文字幕永久在线观看| 1024你懂的国产精品| 91探花国产综合在线精品| 草草影院国产第一页|