







摘 要:為了了解銀河系以及追溯其形成歷史,需要對(duì)分布在銀河系中的大量恒星樣本進(jìn)行準(zhǔn)確的年齡預(yù)測(cè)。通過(guò)LAMOST DR5和Kepler的星震學(xué)數(shù)據(jù)交叉匹配獲得的訓(xùn)練樣本,給出了一個(gè)具有163 105顆恒星年齡參數(shù)的紅團(tuán)簇星星表。使用核主成分分析與隨機(jī)森林相結(jié)合的方法對(duì)多個(gè)恒星參數(shù)與恒星年齡之間的關(guān)系進(jìn)行訓(xùn)練,將樣本分為訓(xùn)練集與測(cè)試集進(jìn)行模型的訓(xùn)練與對(duì)照驗(yàn)證,測(cè)試集顯示所訓(xùn)練的模型對(duì)恒星年齡預(yù)測(cè)的絕對(duì)誤差平均值為0.46 Gyr,相對(duì)誤差平均值為13%。同時(shí),還探究了核主成分分析所使用的主成分個(gè)數(shù)與模型預(yù)測(cè)性能的關(guān)系,結(jié)果發(fā)現(xiàn),當(dāng)主成分達(dá)到4個(gè)時(shí),模型的預(yù)測(cè)性能開(kāi)始趨于穩(wěn)定。
關(guān)鍵詞:恒星參數(shù);恒星年齡;紅團(tuán)簇星;星震學(xué);機(jī)器學(xué)習(xí)
中圖分類(lèi)號(hào):P145.9"" 文獻(xiàn)標(biāo)志碼:A""" 文章編號(hào):1673-5072(2023)02-0195-06
星系是構(gòu)成宇宙的基本單元,銀河系是目前唯一能進(jìn)行詳細(xì)解剖的星系,對(duì)銀河系結(jié)構(gòu)和形成歷史的研究是理解星系的基礎(chǔ)。年齡是研究銀河系目前結(jié)構(gòu)和形成歷史最重要的基本參數(shù)之一。對(duì)銀河系目前結(jié)構(gòu)和形成歷史的描述,需要對(duì)分布在整個(gè)銀河系的大量恒星樣本進(jìn)行準(zhǔn)確的質(zhì)量和年齡估計(jì)[1]。
通過(guò)恒星的光譜,可以得到恒星的視向速度[2]和一些恒星參數(shù)[3]。但是恒星的年齡一般難以通過(guò)直接測(cè)量的方法得到,通常采用觀測(cè)數(shù)據(jù)與恒星演化模型進(jìn)行匹配的方式得到[4-5],例如等年齡線方法,該方法對(duì)于星團(tuán)可以獲得較高精度的年齡,但是對(duì)于場(chǎng)星通常還需要距離、紅化等參數(shù),其獲得的年齡精度較低。也有人發(fā)現(xiàn)碳和氮的豐度與巨星的年齡之間存在一定的聯(lián)系,并嘗試用其來(lái)預(yù)測(cè)巨星的年齡,但是結(jié)果不確定性依然較高[6-8]。星震學(xué)目前是預(yù)測(cè)恒星質(zhì)量和年齡的有效方法,對(duì)單顆恒星進(jìn)行預(yù)測(cè)的精度很高[9-10],但需要高精度長(zhǎng)時(shí)間的測(cè)光觀測(cè),因此目前樣本較少,導(dǎo)致該方法難以廣泛適用。還有人發(fā)現(xiàn)類(lèi)太陽(yáng)恒星的年齡與其表面自轉(zhuǎn)具有相關(guān)性,并用星震學(xué)數(shù)據(jù)對(duì)其進(jìn)行了詳細(xì)研究[11-14]。目前雖然對(duì)恒星年齡進(jìn)行預(yù)測(cè)的方法有很多,但其精度和效率仍有待提高,因此還需要利用大數(shù)據(jù)獲取更多的樣本,嘗試使用更多的方法來(lái)提高恒星年齡預(yù)測(cè)的精度和效率,從而更有效地探索銀河系的動(dòng)力學(xué)演化[15-19]。
機(jī)器學(xué)習(xí)是人工智能的一個(gè)分支,基于機(jī)器學(xué)習(xí)測(cè)定恒星年齡,是利用算法并使用大量的高質(zhì)量數(shù)據(jù)進(jìn)行訓(xùn)練,在訓(xùn)練完成之后會(huì)產(chǎn)生一個(gè)模型,當(dāng)有新數(shù)據(jù)輸入時(shí),可以使用此模型對(duì)新數(shù)據(jù)進(jìn)行預(yù)測(cè)。通過(guò)將機(jī)器學(xué)習(xí)與高質(zhì)量數(shù)據(jù)相結(jié)合,可以揭示出恒星年齡與恒星參數(shù)之間的某種聯(lián)系,并利用這種聯(lián)系對(duì)恒星年齡進(jìn)行預(yù)測(cè)。
本文將機(jī)器學(xué)習(xí)方法與LAMOST大樣本數(shù)據(jù)相結(jié)合來(lái)對(duì)紅團(tuán)簇星的恒星年齡進(jìn)行預(yù)測(cè),在實(shí)驗(yàn)過(guò)程中對(duì)模型進(jìn)行多次的反復(fù)訓(xùn)練,以期找到一個(gè)高精度和高效率兼顧的模型。將樣本劃分為訓(xùn)練集和測(cè)試集,通過(guò)對(duì)測(cè)試集的精度進(jìn)行分析和繪制出大樣本紅團(tuán)簇星在銀河系中的分布,可以對(duì)構(gòu)建模型的正確性進(jìn)行驗(yàn)證。
1 數(shù) 據(jù)
1.1 交叉匹配
Xiang等[20]提供了LAMOST巡天數(shù)據(jù)中8 162 566顆帶有化學(xué)豐度的恒星,其化學(xué)豐度由DD-Payne模型導(dǎo)出。在本實(shí)驗(yàn)中通過(guò)這個(gè)星表來(lái)獲取恒星的化學(xué)豐度。
Ting等[21]篩選出了LAMOST巡天數(shù)據(jù)中的175 202顆紅團(tuán)簇星,并且還通過(guò)恒星光譜獲得了△P和△ν這2個(gè)星震學(xué)參數(shù)[22]。本文通過(guò)這個(gè)星表來(lái)獲取紅團(tuán)簇星樣本,然后通過(guò)新方法測(cè)定年齡。
Pinsonneault等[23]提供了6 676顆恒星的年齡,其年齡使用質(zhì)量、半徑、[Fe/H]和[α/Fe]這4個(gè)參數(shù)從模型中導(dǎo)出,本文用這個(gè)星表中的年齡作為參考年齡來(lái)訓(xùn)練自己的模型。
通過(guò)上述的3個(gè)星表來(lái)進(jìn)行交叉匹配,在刪除掉具有空缺值的樣本之后,一共獲得了1 806顆具有化學(xué)豐度、星震學(xué)參數(shù)以及年齡信息的紅團(tuán)簇星。
1.2 樣本篩選
接下來(lái)對(duì)這批通過(guò)交叉匹配出來(lái)的樣本進(jìn)一步篩選,因?yàn)槿绻苯訉⑦@批樣本用于模型的訓(xùn)練,可能會(huì)產(chǎn)生一些不可預(yù)見(jiàn)的問(wèn)題,例如可能會(huì)存在一些由于測(cè)量誤差等原因而導(dǎo)致的劣質(zhì)樣本,由于自變量與因變量的關(guān)聯(lián)趨勢(shì)與正常的規(guī)律有所偏差而導(dǎo)致樣本污染,從而進(jìn)一步導(dǎo)致機(jī)器學(xué)習(xí)預(yù)測(cè)的精準(zhǔn)度降低。為了剔除可能存在的劣質(zhì)樣本,進(jìn)行以下處理:將交叉匹配得到的這批樣本按照順序進(jìn)行輪流放回抽樣,每次抽出一顆恒星,然后使用隨機(jī)森林(Random Forest)將化學(xué)豐度和星震學(xué)參數(shù)作為輸入?yún)?shù)對(duì)未被抽到的所有恒星進(jìn)行模型訓(xùn)練,接著對(duì)被抽中的恒星進(jìn)行一次年齡預(yù)測(cè),如果其預(yù)測(cè)的絕對(duì)誤差小于3 Gyr并且相對(duì)誤差小于40%,則將其挑選出來(lái)。在經(jīng)過(guò)上述過(guò)程之后一共篩選出了1 384顆紅團(tuán)簇星作為高質(zhì)量訓(xùn)練樣本,如圖1所示。
2 方 法
本文所使用的機(jī)器學(xué)習(xí)方法源于Scikit-learn,簡(jiǎn)稱(chēng)sklearn,是機(jī)器學(xué)習(xí)領(lǐng)域當(dāng)中知名的Python模塊之一。它所包含的機(jī)器學(xué)習(xí)方法可分為六大類(lèi):分類(lèi)、回歸、聚類(lèi)、數(shù)據(jù)降維、模型選擇、數(shù)據(jù)預(yù)處理。
2.1 訓(xùn)練集和測(cè)試集
在正式開(kāi)始對(duì)恒星年齡進(jìn)行預(yù)測(cè)之前,首先將篩選出來(lái)的1 384顆紅團(tuán)簇星分為訓(xùn)練集和測(cè)試集,訓(xùn)練集用于訓(xùn)練模型,測(cè)試集用于對(duì)照驗(yàn)證,由此來(lái)對(duì)模型的預(yù)測(cè)性能進(jìn)行評(píng)估。對(duì)于劃分的方案進(jìn)行過(guò)多種考慮,雖然隨機(jī)取樣不失為一種便捷的方法,但是鑒于其不確定性,為了保證訓(xùn)練集和測(cè)試集各個(gè)參數(shù)的均勻分布,最終決定采用以下的方法來(lái)對(duì)訓(xùn)練集與測(cè)試集進(jìn)行劃分:篩選出來(lái)的樣本中包含恒星年齡和其他19個(gè)恒星參數(shù)(△P、△ν、Teff、logg、[Ba/Fe]、[C/Fe]、[Ca/Fe]、[Co/Fe]、[Cr/Fe]、[Fe/H]、[Mg/Fe]、[Mn/Fe]、[N/Fe]、[Na/Fe]、[Ni/Fe]、[O/Fe]、[Si/Fe]、[Ti/Fe]、[α/Fe]),首先對(duì)第一個(gè)參數(shù)進(jìn)行從小到大的排序,然后將其按照恒星的數(shù)目盡量等分為34個(gè)網(wǎng)格,取出每個(gè)網(wǎng)格中當(dāng)前排序參數(shù)所對(duì)應(yīng)數(shù)值最小的紅團(tuán)簇星,將其加入測(cè)試集。接著再對(duì)下一個(gè)參數(shù)進(jìn)行同樣的操作,直到對(duì)20個(gè)參數(shù)都完成抽樣。所有被抽到的紅團(tuán)簇星作為測(cè)試集,沒(méi)有被抽到的作為訓(xùn)練集。
這種取樣方法可以保證訓(xùn)練集與測(cè)試集樣本數(shù)量盡量均分,更重要的是它保證了訓(xùn)練集和測(cè)試集所有參數(shù)在數(shù)值上分布均勻,這種分配數(shù)據(jù)的方法有利于提高機(jī)器學(xué)習(xí)的精確性。
2.2 訓(xùn)練模型
在劃分完訓(xùn)練集和測(cè)試集后,使用核主成分分析(KPCA)結(jié)合隨機(jī)森林的方法來(lái)訓(xùn)練模型,然后使用訓(xùn)練的模型對(duì)測(cè)試集的恒星年齡進(jìn)行預(yù)測(cè),通過(guò)比較預(yù)測(cè)值與參考值的擬合程度,從眾多模型中挑選出一個(gè)較好的作為最終預(yù)測(cè)模型。
圖2所示為機(jī)器學(xué)習(xí)方法框圖,首先將19個(gè)恒星參數(shù)作為輸入?yún)?shù),為了消除不同恒星參數(shù)之間的量綱差異對(duì)其進(jìn)行標(biāo)準(zhǔn)化,然后再將核主成分分析所導(dǎo)出的主成分作為隨機(jī)森林的輸入?yún)?shù)來(lái)對(duì)恒星年齡進(jìn)行擬合。
核主成分分析所導(dǎo)出的主成分?jǐn)?shù)與模型的預(yù)測(cè)精度之間的關(guān)系如圖3所示:當(dāng)主成分?jǐn)?shù)較少時(shí),訓(xùn)練集和測(cè)試集的平均相對(duì)誤差都隨著主成分?jǐn)?shù)的增加而降低;在當(dāng)主成分?jǐn)?shù)達(dá)到4之后,其平均相對(duì)誤差的值基本上均趨于穩(wěn)定。
圖3中所顯示的測(cè)試集平均相對(duì)誤差最低的點(diǎn)主成分?jǐn)?shù)并不是4,但是考慮到隨機(jī)森林其方法本身具有一定的隨機(jī)性,以及訓(xùn)練模型的時(shí)間成本,最終選擇了測(cè)試集剛開(kāi)始趨于平緩的點(diǎn)(主成分?jǐn)?shù)為4)對(duì)最終預(yù)測(cè)模型進(jìn)行訓(xùn)練。
3 結(jié) 果
首先,針對(duì)于測(cè)試集的預(yù)測(cè)值與原有的星震學(xué)樣本的數(shù)值,對(duì)最終模型的預(yù)測(cè)結(jié)果進(jìn)行分析。圖4展示了對(duì)恒星年齡的預(yù)測(cè)值與原來(lái)的數(shù)值之間的差異,彌散為0.72,其較好的擬合程度對(duì)本文構(gòu)建模型的正確性提供了支撐;圖5顯示了恒星年齡預(yù)測(cè)的絕對(duì)誤差,平均值為0.46 Gyr,中位值為0.25 Gyr,絕對(duì)誤差隨著年齡的增大而逐漸增大,但絕大部分都處于1 Gyr以下;圖6描繪的是相對(duì)誤差的分布,測(cè)試集相對(duì)誤差的平均值為13%,中位值為8%,相對(duì)誤差隨著年齡的增大而減小,而且從右側(cè)的直方圖中可以看出相對(duì)誤差絕大部分都處于20%以下。
其次,將Xiang等[20]的星表與Ting等[21]的星表進(jìn)行交叉匹配,獲得了163 105顆具有化學(xué)豐度和星震學(xué)參數(shù)但是沒(méi)有年齡標(biāo)簽的紅團(tuán)簇星,把經(jīng)過(guò)篩選的1 384顆紅團(tuán)簇星用來(lái)訓(xùn)練最終預(yù)測(cè)模型,然后對(duì)這163 105顆紅團(tuán)簇星進(jìn)行了年齡預(yù)測(cè),并描繪出了它們?cè)阢y河系上的分布,如圖7所示:可以明顯地看出年輕的恒星主要都分布在低銀緯地區(qū),這也比較符合預(yù)期,因?yàn)殂y河系盤(pán)附近是主要的恒星形成區(qū)。
最后,利用隨機(jī)森林對(duì)19個(gè)恒星參數(shù)與恒星年齡之間的相關(guān)性進(jìn)行了探究,結(jié)果如圖8所示:△ν、[Ti/Fe]、[C/Fe]與恒星年齡之間具有較高的相關(guān)性,而關(guān)于相關(guān)性排序的結(jié)果會(huì)在未來(lái)的工作中作進(jìn)一步的探討。
4 結(jié) 論
年齡是研究銀河系結(jié)構(gòu)與演化歷史的基本參數(shù)。本文使用核主成分分析結(jié)合隨機(jī)森林的機(jī)器學(xué)習(xí)方法對(duì)163 105顆紅團(tuán)簇星進(jìn)行了恒星年齡預(yù)測(cè)。在訓(xùn)練模型的過(guò)程中,探究了核主成分分析所導(dǎo)出的主成分?jǐn)?shù)與模型預(yù)測(cè)精度的關(guān)系,發(fā)現(xiàn)當(dāng)主成分?jǐn)?shù)到達(dá)4之后,模型的預(yù)測(cè)性能開(kāi)始趨于穩(wěn)定;測(cè)試集顯示年齡預(yù)測(cè)的彌散為0.72;絕對(duì)誤差的平均值為0.46 Gyr,中位值為0.25 Gyr;相對(duì)誤差的平均值為13%,中位值為8%。之后,繪制了163 105顆紅團(tuán)簇星在銀河系上的分布,發(fā)現(xiàn)年輕的恒星主要分布在低銀緯地區(qū),這與當(dāng)前銀河系結(jié)構(gòu)圖像一致。最后,用隨機(jī)森林探究了19個(gè)恒星參數(shù)與恒星年齡的相關(guān)性,發(fā)現(xiàn)△ν、[Ti/Fe]、[C/Fe]具有較高的相關(guān)性。
這篇文章是針對(duì)大樣本恒星年齡測(cè)定,在技術(shù)與方法論上的一次探索。將來(lái)會(huì)進(jìn)一步改進(jìn)方法如:嘗試對(duì)與恒星質(zhì)量和年齡具有高度相關(guān)性的恒星參數(shù)進(jìn)行提取,探究多種機(jī)器學(xué)習(xí)方法的預(yù)測(cè)性能,以及凸包算法的參與,但不會(huì)使用核主成分分析,因?yàn)榻?jīng)過(guò)核主成分分析之后的數(shù)據(jù)無(wú)法進(jìn)行物理解釋。在之后的工作中還將嘗試更多的機(jī)器學(xué)習(xí)方法來(lái)對(duì)各種類(lèi)型的恒星進(jìn)行測(cè)試,包括恒星類(lèi)型的分類(lèi),恒星參數(shù)的測(cè)定以及恒星質(zhì)量和恒星年齡的預(yù)測(cè)等,期待未來(lái)會(huì)有更多的工作展示。
參考文獻(xiàn):
[1] WANG H F,LIU C,XU Y,et al.Mapping the Milky Way with LAMOST-III.Complicated spatial structure in the outer disc[J].Monthly Notices of the Royal Astronomical Society,2018,478(3):3367-3379.
[2] ZHANG B,LI J,YANG F,et al.Self-consistent stellar radial velocities from LAMOST Medium-resolution Survey DR7[J].The Astrophysical Journal Supplement Series,2021,256(1):14-37.
[3] ZHANG B,LIU C,DENG L C.Deriving the stellar labels of LAMOST spectra with Stellar LAbel Machine (SLAM)[J].The Astrophysical Journal Supplement Series,2020,246(1):9-27.
[4] SODERBLOM D R.The ages of stars[J].Annual Reviews of Astronomy amp; Astrophysics,2010,48(1):581-629.
[5] XIANG M S,LIU X W,SHI J R,et al.Ages and masses of million Galactic disk main sequence turn-off and sub-giant stars from the LAMOST Galactic spectroscopic surveys[J].The Astrophysical Journal Supplement Series,2017,232(1):2-24.
[6] MARTIG M,F(xiàn)OUESNEAU M.,RIX H W,et al.Red giant masses and ages derived from carbon and nitrogen abundances[J].Monthly Notices of the Royal Astronomical Society,2016,456(4):3655-3670.
[7] NESS M,HOGG D W,RIX H W,et al.Spectroscopic determination of masses (and implied ages) for red giants[J].The Astrophysical Journal,2016,823(2):114-136.
[8] ANNA Y Q H,RIX H W,NESS M K,et al.Masses and ages for 230,000 LAMOST giants,via their carbon and nitrogen abundances[J].The Astrophysical Journal,2017,841(1):40-52.
[9] GAI N,BASU S,CHAPLIN W J,et al.An in-depth study of grid-based asteroseismic analysis[J].The Astrophysical Journal,2011,730(2):63-79.
[10]CHAPLIN W J,BASU S,HUBER D,et al.Asteroseismic fundamental properties of solar-type stars observed by the NASA Kepler Mission[J].The Astrophysical Journal Supplement Series,2014,210(1):1-91.
[11]GARCIA R A,CEILLIER T,SALABERT D,et al.Rotation and magnetism of Kepler pulsating solar-like stars.Towards asteroseismically calibrated age-rotation relations[J].Astronomy amp; Astrophysics,2014,572(1):A34-A49.
[12]MCQUILLAN A,MAZEH T,AIGRAIN S.Rotation periods of 34,030 Kepler main-sequence stars:the full autocorrelation sample[J].The Astrophysical Journal Supplement Series,2014,211(2):24-39.
[13]CEILLIER T,VAN SADERS J,GARCIA R A,et al.Rotation periods and seismic ages of KOIs-comparison with stars without detected planets from Kepler observations[J].Monthly Notices of the Royal Astronomical Society,2016,456(1):119-125.
[14]VAN SADERS J L,CEILLIER T,METCALFE T S,et al.Weakened magnetic braking as the origin of anomalously rapid rotation in old field stars[J].Nature,2016,529(7585):181-184.
[15]WANG H F,CARLIN J L,HUANG Y,et al.Mapping the Galactic disk with the LAMOST and Gaia red clump sample.III.A new velocity substructure and time stamps of the Galactic disk asymmetry in the disk between 12 and 15 kpc[J].The Astrophysical Journal,2019,884(2):135-143.
[16]WANG H F,LPEZ-CORREDOIRA M,HUANG Y,et al.Mapping the Galactic disk with the LAMOST and Gaia red clump sample.VI.Evidence for the long-lived nonsteady warp of nongravitational scenarios[J].The Astrophysical Journal,2020,897(2):119-132.
[17]WANG H F,HUANG Y,ZHANG H W,et al.Diagonal ridge pattern of different age populations found in Gaia-DR2 with LAMOST main-sequence turnoff and OB-type stars[J].The Astrophysical Journal,2020,902(1):70-79.
[18]WANG H F,LPEZ-CORREDOIRA M,CARLIN J L,et al.3D asymmetrical motions of the Galactic outer disc with LAMOST K giant stars[J].Monthly Notices of the Royal Astronomical Society,2018,477(3):2858-2866.
[19]WANG H F,LPEZ-CORREDOIRA M,HUANG Y,et al.Mapping the Galactic disc with the LAMOST and Gaia red clump sample:II.3D asymmetrical kinematics of mono-age populations in the disc between 6-14 kpc[J].Monthly Notices of the Royal Astronomical Society,2020,491(2):2104-2118.
[20]XIANG M,TING Y S,RIX H W,et al.Abundance estimates for 16 elements in 6 million stars from LAMOST DR5 low-resolution spectra[J].The Astrophysical Journal Supplement Series,2019,245(2):34-78.
[21]TING Y S,CONROY C,RIX H W,et al.The Payne:self-consistent ab initio fitting of stellar spectra[J].The Astrophysical Journal,2019,879(2):69-91.
[22]TING Y S,HAWKINS K,RIX H W.A large and pristine sample of standard candles across the Milky Way:~100,000 red clump stars with 3% contamination[J].The Astrophysical Journal Letters,2018,858(1):L7-L14.
[23]PINSONNEAULT M H,ELSWORTH Y P,TAYAR J,et al.The second APOKASC catalog:the empirical approach[J].The Astrophysical Journal Supplement Series,2018,239(2):32-61.
Large Sample of Stellar Age DeterminationBased on LAMOST Data and Machine Learning
LI Qi-da,LI Qing,LUO Yang-ping
(College of Physics and Astronomy,China West Normal University,Nanchong Sichuan 637009,China)
Abstract:It is of significant importance to accurately predict the ages of large stellar samples for understanding the Galaxy and tracing its formation history.A catalog of 163 105 red clump giants with stellar age label is provided for the train set obtained by cross-matching the LAMOST DR5 data and asteroseismology data of Kepler.The method,a combination of Kernel Principal Component Analysis (KPCA) and random forest,is adopted to train the relationship between multiple stellar parameters and stellar age.The samples are divided into train set and test set for model training and comparison verification.The test set shows that the mean absolute error of trained model for stellar age prediction is 0.46 Gyr,and the mean relative error is 13%.Meanwhile,the exploration of relationship between the principal components used in KPCA and the prediction performance of the model shows that the prediction performance of the model tends to be stable when the number of principal components has reached 4.
Keywords:stellar parameter;stellar age;red clump giants;asteroseismology;machine learning
西華師范大學(xué)學(xué)報(bào)(自然科學(xué)版)2023年2期