姜 斌, 趙梓良, 王淑婷, 韋紀宇, 曲美霞
山東大學機電與信息工程學院, 山東 威海 264209
隨著天文光譜數據量呈指數級增加, 人工分類方法由于具有效率低、 在低信噪比數據上分類準確率較低等缺陷, 已經無法滿足需要。 目前機器學習算法在天文光譜分類中得到廣泛應用, 并取得了較好的效果。 Navarro等[1]利用人工神經網絡對不同信噪比的光譜數據進行分類, 分類結果對低信噪比的光譜數據也具有高度的可信度; Kheirdastan等[2]使用概率神經網絡作為大質量恒星光譜的自動分類工具, 得到了準確的光譜型分類結果。 此外, 利用熵學習機對恒星光譜數據進行分類, 分類結果也較為準確[3]: Chen等利用受限玻爾茲曼機[4]提高了光譜分類的效率。
光譜降維是準確分類的重要前提。 傳統的降維方法如局部線性嵌入[5]以及線性判別分析[6]已被廣泛應用到光譜降維并取得較好的效果。 自編碼器[7]也已被廣泛應用于數據的降維。
針對傳統的主成分分析(principal component analysis, PCA)在低維空間內出現的交叉問題, 本文研究流形學習方法, 對光譜進行降維。 實驗表明經流形學習算法t-SNE (t-distributed stochastic neighbor embedding)降維后的恒星光譜能夠產生更加明顯的分類邊界, 并很少發生數據的重疊問題, 訓練出的分類器具有更好的效果。
t-SNE[8]是一種基于SNE (隨機鄰接嵌入)的非線性降維算法, 適合將數據降維至2~3維從而利于可視化。 在SNE算法中, 首先構建一個高維對象間的概率分布, 使得類似的數據有更高的概率被選擇, 而差異大的數據被選擇的概率較低?!?br>