999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

KNN算法在天文數(shù)據(jù)挖掘中的應(yīng)用

2017-11-17 07:22:58山東師范大學附屬中學黃宇龍
電子世界 2017年21期
關(guān)鍵詞:分類特征

山東師范大學附屬中學 黃宇龍

KNN算法在天文數(shù)據(jù)挖掘中的應(yīng)用

山東師范大學附屬中學 黃宇龍

現(xiàn)代技術(shù)的進步使得天文觀測設(shè)備的觀測能力大大提高,天文觀測產(chǎn)生的數(shù)據(jù)變得十分龐大,因此能夠借助計算機對數(shù)據(jù)進行高效率的分析顯得尤為重要.為了解決這個問題,借助數(shù)據(jù)挖掘的技術(shù)對天文數(shù)據(jù)進行分析勢在必行.本文主要論述了利用聚類算法中的KNN算法,通過選擇特定光波段數(shù)據(jù)作為特征,對恒星與類星體進行分類的方法,并探索KNN算法在解決恒星和類星體分類問題的效率以及正確率.

KNN算法;分類;恒星;類星體

1.概要

隨著大型光學望遠鏡的精度和深度不斷提高,其觀測能力大大提高,天文學中與光學波段相關(guān)的數(shù)據(jù)量不斷增大,數(shù)據(jù)復雜程度不斷增加.例如大型綜合巡天望遠鏡在一晚上所觀測得到的數(shù)據(jù)量約為20TB數(shù)據(jù),而最后將會得到大約130PB的數(shù)據(jù).如果由計算機來進行管理、分類這些以PB計的數(shù)據(jù)的工作,則可以快速準確地解決對天文數(shù)據(jù)分析這項繁瑣的任務(wù).隨著計算機科學、統(tǒng)計學與數(shù)學等方面在近幾年的高速發(fā)展,數(shù)據(jù)挖掘逐漸出現(xiàn)在人們眼前,并逐步地被用于從天文數(shù)據(jù)中提取信息、發(fā)現(xiàn)稀有天體和現(xiàn)象.天文數(shù)據(jù)具有海量性、高維性、非線性等特點,所以需要更加高效精準的挖掘和分析算法或工具來應(yīng)對日益增長的需求,關(guān)于天文學中數(shù)據(jù)挖掘應(yīng)用可參見一些綜述文章[1-3].

2.恒星/類星體分類

恒星和類星體的分類是天文學基本分類任務(wù)之一.恒星、類星體都是發(fā)光天體,但它們的光譜等參數(shù)有所不同,他們在不同波段所表現(xiàn)的性質(zhì)不同,需要通過聚類算法將它們各自區(qū)分,這對我們了解恒星和類星體的演化歷史以及發(fā)現(xiàn)特殊天體有著重要的研究價值.尤其在面對海量的天文數(shù)據(jù)時,將天體自動分類變得尤為重要.

對于恒星與類星體,他們在不同光譜波段的表現(xiàn)不同,因此可以將這些參數(shù)作為它們自己的特征來區(qū)分它們.從各類分類算法中,我們挑選KNN算法來解決這個問題,KNN算法可以用于簡單的分類,其算法思路簡單,但計算量較大,適用于樣本容量較大的類域自動分類問題,與本類問題相符合并,本章節(jié)將闡述KNN算法的原理及實現(xiàn),并探究這個算法的效率.

2.1 KNN方法原理

K鄰近(KNN)算法,是一個理論上相對成熟的算法,也是典型的機器學習的算法之一.它基于特征空間中預測樣本周圍距離它最近的樣本類別數(shù)目作為判定依據(jù)來進行分類.其基本思路為:如果一個樣本在特征空間中的K個最相似(即特征空間中最鄰近)的樣本中的大多數(shù)屬于某一個類別,則該樣本也屬于這個類別,而這K個所選定的鄰居樣本,則為已正確分類的樣本.

KNN算法不需要訓練過程,但是需要大量樣本數(shù)據(jù)來確定最合適的K值用于樣本的分類.技術(shù)上K的取值需要針對不同的問題來設(shè)定,但是K值一般都是奇數(shù),為的是每個未知樣本都能夠得出確定的計算結(jié)果.因此在下面的算法應(yīng)用中,本文將分別討論設(shè)定不同的K值時所能獲得的準確率,以提高分類結(jié)果的準確率.

KNN算法中樣本之間,在判定最鄰近樣本的距離時,一般使用的是歐式距離,其他的距離還有Cosine距離等.不同的距離計算方式,其計算復雜程度亦不相同,最終會影響分類算法執(zhí)行的效率.

KNN聚類算法的主要流程包括:數(shù)據(jù)預處理、數(shù)據(jù)準備、特征選擇、聚類、結(jié)果驗證與評價.

2.2 數(shù)據(jù)預處理及數(shù)據(jù)準備

在本文中所采用的數(shù)據(jù)來源于國家天文臺老師提供的望遠鏡巡天得到的數(shù)據(jù),測試所使用的數(shù)據(jù)集大小為3256個樣本,其中類星體樣本數(shù)為1617,恒星樣本數(shù)為1639.在使用數(shù)據(jù)進行分類之前,需要對原始數(shù)據(jù)進行處理,這一步主要是要去除無效數(shù)據(jù),將數(shù)據(jù)特征進行提取,并轉(zhuǎn)換數(shù)據(jù)格式為程序所需要的格式.在選擇數(shù)據(jù)特征時,本文主要考慮恒星與類星體在不同波段的光亮強度不同,因此主要采用了u, g, r,i,z五個可見光波段的數(shù)據(jù)以及亮度r作為特征,應(yīng)用于樣本間距離的計算.為了直觀的展現(xiàn)恒星與類星體在不同顏色的分布,本文繪制了圖2.1來展現(xiàn)顏色特征坐標的三維分布圖,在圖中可以明顯地看出,兩種星體的特征坐標分布各自呈現(xiàn)大體集中、部分分散的狀態(tài).兩種星體在明顯不同的區(qū)域集中,這也是分類的條件.邊緣區(qū)域的分布呈現(xiàn)松散、交替的特點.可以推測,分類錯誤的樣本基本分布在邊緣區(qū)域.

圖2.1 各顏色特征三維分布

2.3 KNN算法應(yīng)用

在數(shù)據(jù)預處理、提取樣本特征之后,便可以使用KNN算法進行分類.首先,我們將整個樣本(包括1617個類星體樣本,1639個恒星樣本)隨機的切分為兩個部分:第一部分用于訓練,第二部分用于測試.為了能夠全面的查看訓練與測試樣本比例對于分類準確率的影響,我們將訓練及測試樣本比例設(shè)為三組,分別是1:1,2:1,5:1.

在運用KNN算法去解決問題時,需要設(shè)定算法對應(yīng)的模型參數(shù)以及輸入?yún)?shù)兩大部分.輸入?yún)?shù)即上一小節(jié)所得到的樣本的特征值;模型參數(shù)對于KNN算法即K的取值以及度量樣本距離的計算方式.樣本距離的計算方式?jīng)Q定了KNN在實際應(yīng)用中的執(zhí)行效率;K值的選擇決定了樣本分類結(jié)果的準確程度.在本實驗中,樣本距離計算方式采用歐式距離,n維空間的計算公式如下:

由于數(shù)據(jù)中u-g,g-r,r-i,i-z這四種顏色特征的取值大多數(shù)小于1,求解平方差后繼續(xù)取根號所得到的結(jié)果小數(shù)位會被裁切,導致精度下降,此外取根號運算也增加了額外的計算負擔,因此本文中的歐氏距離僅作平方差,距離計算方法如下:

對于K值的選擇,我們則分別選取K=3,5,9,13進行KNN算法分類,計算獲取分類準確率.

3.分類結(jié)果及分析

通過實現(xiàn)KNN算法程序,執(zhí)行數(shù)據(jù)樣本的分類,其結(jié)果如下表:

在表中,當訓練/測試樣本數(shù)量比為1:1時,不同的K值對于準確率影響不大,在92%左右;訓練/測試樣本數(shù)量比為2:1時,選取K=5時準確率最高,為93.09%,準確率跟隨K值增大先增大后減小;訓練/測試樣本數(shù)量比為5:1時,K=5時準確率最高,為94.66%,且準確率同樣跟隨K值增大,先增大后減小.

在另一方面,當確定K值選擇后,分類的準確率跟隨訓練/測試數(shù)據(jù)量比的提高而提高,例如K=5時,分類的準確率由92.33%提高至94.66%.

在圖2.2中直觀地顯示了不同的訓練/測試數(shù)據(jù)量比在某一K值下,準確率與訓練/測試數(shù)據(jù)量比的關(guān)系;圖2.3則展示了在確定的訓練/測試數(shù)據(jù)量比下,K值的選定與準確率的關(guān)系.

圖2.2 確定K值下,訓練樣本數(shù)與正確率的關(guān)系圖

圖2.3 確定訓練樣本數(shù),K值與正確率的關(guān)系圖

由上圖可以得出兩個結(jié)論:第一,KNN算法在訓練樣本數(shù)量達到一定的情況下,若增加訓練樣本數(shù),正確率增長不明顯,且趨于穩(wěn)定,但是由于訓練樣本數(shù)量增加,樣本的計算量也會線性的增長,最終導致耗時呈線性增加.第二,確定的訓練/測試數(shù)據(jù)量比下,正確率隨K值變化,先在某一段達到峰值,而后開始下降.算法的耗時會跟隨隨K值增長呈線性增長.當正確率經(jīng)過峰段開始下降時,由于K值的增加,算法所使用的時間也線性增長,導致算法效率下降.峰段的K值由樣本的坐標分布密度決定.

因此,用K近鄰算法進行天體歸類時,若要保證正確率的同時提高效率,則應(yīng)選擇合適的K值、訓練樣本容量.

4.總結(jié)

本文我們主要探索了KNN算法于恒星與類星體分類問題的應(yīng)用以及算法的執(zhí)行效率和正確率.由于現(xiàn)代技術(shù)的進步使得天文觀測設(shè)備的觀測能力大大提高,天文觀測產(chǎn)生的數(shù)據(jù)變得十分龐大.讓計算機來進行管理、分類這些以PB計的數(shù)據(jù)的工作可以使這項繁瑣的任務(wù)快速準確地解決.而恒星、類星體都是發(fā)光天體,但它們的光譜等參數(shù)有所不同,通過這些參數(shù)的特征可以區(qū)分它們.因此我們使用五種不同的顏色作為特征輸入,使用KNN算法解決這個問題.KNN算法在訓練樣本數(shù)量達到一定的情況下,若增加訓練樣本數(shù),正確率增長不明顯,同時算法的耗時也會線性的增長;另一方面,分類的正確率也會隨K值變化,先在某一段達到峰值,而后開始下降,且算法耗時也跟隨K的增加而線性增加.因此,使用KNN算法進行天體歸類時,若要保證正確率的同時提高效率,則應(yīng)同時考慮選擇合適的K值、訓練樣本容量.但總得來說,KNN算法在該問題中能夠很好的區(qū)分恒星與類星體,準確率在90%以上,值得在該問題的研究中推廣.

[1]BALL N M,BRUNNER R J.Data Mining and Machine Learning in Astronomy[J].International Journal ofModern Physics D, 2010,19:1049-1106.

[2]張彥霞,趙永恒.天文學中的數(shù)據(jù)挖掘和知識發(fā)現(xiàn)[J].天文學進展,2002,20(4):312-323.

[3]BORNE K.Scientific Data Mining in Astronomy[OL].ARXIV,2009,arXiv:0911.0505.

猜你喜歡
分類特征
抓住特征巧觀察
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
新型冠狀病毒及其流行病學特征認識
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
抓住特征巧觀察
主站蜘蛛池模板: 久久91精品牛牛| 亚洲成网777777国产精品| 中文无码毛片又爽又刺激| 91丝袜美腿高跟国产极品老师| 91小视频在线| 这里只有精品在线播放| 亚洲人成网址| 久久情精品国产品免费| 一区二区午夜| 久久久久九九精品影院 | 国产成人高清精品免费| 成·人免费午夜无码视频在线观看 | 99久久国产综合精品2020| 日韩毛片免费观看| 亚洲swag精品自拍一区| Jizz国产色系免费| 国产精品第页| 国产精品女在线观看| 91成人免费观看在线观看| 99久久精品国产自免费| 毛片视频网址| 精品视频一区二区三区在线播| 亚洲IV视频免费在线光看| 国内嫩模私拍精品视频| 久久性妇女精品免费| 毛片视频网址| 国产精品网址你懂的| 啪啪国产视频| 国模私拍一区二区| 天堂va亚洲va欧美va国产| 国产精品自拍露脸视频| 人妻21p大胆| 欧美日韩v| 999国产精品| 99视频精品在线观看| 精品国产中文一级毛片在线看 | 夜夜拍夜夜爽| 欧美成人精品一区二区| 国产女主播一区| 国产伦精品一区二区三区视频优播| 国产粉嫩粉嫩的18在线播放91| 国产精品冒白浆免费视频| 在线观看网站国产| 丝袜国产一区| 国产制服丝袜91在线| 人妻中文字幕无码久久一区| 日本不卡在线视频| 午夜欧美在线| 午夜精品国产自在| 欧美色图第一页| 99久久亚洲综合精品TS| 国产精品美女自慰喷水| 欧美国产在线一区| 亚洲人成网站日本片| 亚洲swag精品自拍一区| 日韩无码精品人妻| 特级毛片免费视频| 国产视频一区二区在线观看| 日日噜噜夜夜狠狠视频| 天天干天天色综合网| 国产成人久视频免费| 欧美三级日韩三级| 中文字幕人成人乱码亚洲电影| 亚洲熟女偷拍| 国产高清毛片| 亚洲一区二区三区国产精品 | 五月天综合婷婷| 国产亚洲第一页| www.91在线播放| 国产精品成| 国产在线观看人成激情视频| 国产成人久久综合777777麻豆 | 国产精品内射视频| 亚洲欧美h| 久久精品免费看一| 国产人成在线观看| 亚洲v日韩v欧美在线观看| 一本一道波多野结衣av黑人在线| 97在线免费| 日本精品视频一区二区| 伊人色综合久久天天| 米奇精品一区二区三区|