史巖
(航空工業西安航空計算技術研究所,陜西 西安 710065)
統計學習作為機器學習領域的重要組成部分,一直以來備受研究者關注,在眾多領域中展現出了強大的應用潛力,為解決各種復雜問題提供了有效的工具和方法。本文聚焦統計學習中的一個關鍵專題:K-近鄰算法(K-Nearest Neighbors,KNN)及其在人工神經網絡(Artificial Neural Networks,ANN)和卷積神經網絡(Convolutional Neural Networks,CNN)中的發展與應用。
近3年來,針對KNN、ANN和CNN算法的研究成果不斷涌現,為統計學領域注入了新的活力。這些算法在眾多領域中展現出了卓越的性能和廣泛的應用前景。隨著互聯網技術的快速發展,互聯網金融領域不斷推出創新產品,引發社會各界高度關注。葉瑜琦[1]借鑒機器學習中的KNN和CART(Classlflcation and Regression Tree,分類與回歸樹)算法,通過設計2類求解ML-Weighted模型的算法,解決數據驅動下的電商需求預測與庫存優化的集成決策問題;李學娟[2]以KNN為基礎模型,使用滑動窗口動態提取數據,并以主成分分析作為降維與特征提取方法,進行余額寶收益率數據的組合模型預測;袁晨暉[3]進行基于模糊KNN案例推理的長距離調水工程突發事件應急處置研究,通過與案例庫中的案例進行相似度計算,得到與目前情況最匹配的歷史案例,并提供相應的處置方案及預防措施。在航空航天領域,吳浩然等[4]依據主觀量表評估飛行員工作負荷易受主觀因素干擾的問題,基于時間窗口內的客觀績效和生理數據及KNN算法建立飛行員工作負荷評估模型。精準的短時交通狀態預測是實施有效的交通管控的重要依據,馮小原等[5]采用改進的KNN框架建立短時交通狀態預測模型,提出該預測模型基于深度強化學習的實時動態優化方法。轉靜碰摩是航空發動機轉子系統的一種常見故障,碰摩嚴重時會損壞整個轉子系統,引發嚴重安全事故,陳王瑩[6]基于KNN算法對航空發動機轉靜碰摩故障及碰摩部位進行識別研究。
本文通過系統性綜述,對KNN的理論、應用領域和最新研究成果進行分析。首先,研究KNN的理論基礎,將其與實際應用場景相結合,展現算法在多領域的應用潛力;其次,討論KNN的局限性,特別是在應對高維數據和大規模數據集方面的挑戰時,可為其應用提供更廣泛的可能性;再次,將KNN與ANN和CNN等深度學習方法相結合,拓展傳統KNN的應用領域,提高分類和模式識別的性能;最后,提出對未來研究的展望,強調KNN在大數據、計算能力不斷增強的情況下將繼續發揮更大的作用,并呼吁深入研究可解釋性和魯棒性。本文對KNN、ANN和CNN算法的研究和綜述旨在為未來的研究和創新提供新的思路和方法。這一領域的不斷發展將有望為統計學習帶來新的突破與機遇,為解決實際問題提供更多的可能性。
KNN算法是一種基于實例的學習方法,通過測量數據之間的距離,對新數據進行分類[7],即通過周圍數據的標簽決定新數據的標簽。此外,它是一種基本的監督學習算法,算法原理相對簡單,具有廣泛的適用性,其基本原理如下。
(1)將訓練數據集中的樣本點按特征描述,構建一個特征空間。每個樣本點都包含特征向量及其所屬的類別標簽或目標值。
(2)對于一個待預測或分類的樣本點,KNN算法通過計算該樣本與訓練數據集中其他樣本的相似性進行判斷。常用的相似性度量方法包括歐幾里得距離、曼哈頓距離、余弦相似度等。
(3)根據相似性度量,選取訓練數據集中與待預測樣本最相似的k個樣本,這些樣本被稱為“鄰居”。對于分類問題,根據鄰居的類別標簽,通過多數投票法則決定待預測樣本的類別。
(4)對于回歸問題,可以通過計算鄰居的平均目標值預測待預測樣本的目標值。KNN算法中的一個關鍵參數是k值,它決定了選取多少個鄰居進行預測。選擇合適的k值對于算法的性能至關重要。通常,通過交叉驗證等方法確定最佳的k值。
有目的地查閱文獻、提取相關信息(高頻詞、關鍵詞)、填充框架是文獻綜述中十分重要的一步,文獻檢索具有PICOS(對象-干預-對照-結局-研究設計準則)的指導原則,通過PICOS的幾個維度,把KNN類似的不容易被定位和系統化闡述的概念用標準化的方法表述出來,以指導進一步的工作。PICOS指導原則主要聚焦于研究確定納入什么樣的文獻、排除什么樣的文獻等,以指導本研究篩選中、英文數據庫的相關文獻。
在中文數據庫(中國知識資源總庫,CNKI)中進行檢索,以總庫為檢索范圍,“KNN算法”為關鍵詞,反饋得到2 635篇相關文獻,總體趨勢分析如圖1所示。可見,KNN相關研究量于近年呈現平穩上升趨勢,于2022年回跌,說明KNN算法研究量有所回落,相關算法較成熟。

圖1 中國知識資源總庫KNN檢索文獻的總體時間序列趨勢
KNN在許多領域都有廣泛的應用,主要領域包括模式識別與分類、推薦系統、圖像處理、自然語言處理[8]、醫學診斷、金融風控、遙感反演[9]、網絡安全等。圖2為中國知識資源總庫KNN檢索文獻的主要主題分布情況,與KNN有關的詞條主要聚焦于文本分類、分類算法及定位算法等,說明其在模式識別和分類任務中被廣泛應用。KNN可以根據相似度將數據點分配到不同的類別,從而實現自動分類,如圖像分類、手寫字體識別等。此外,故障分析[10]及其相關研究與應用也是關注熱點。總之,KNN算法以其簡單的原理與應用靈活性成為許多數據分析和模式識別的常用方法之一。
本文綜合中英文數據庫對KNN的研究現狀進行綜述。在英文數據庫(科技文獻數據庫,Web of Science)中,以PICOS原則指導篩選關鍵文獻(結果見表1)。KNN算法的優勢在于簡單易懂,對于數據分布沒有假設限制,適用于多種類型的數據。然而,KNN算法也存在一些限制,如對高維數據和大規模數據集的處理效率較低,對噪聲數據和不平衡數據集的適應性較差,它是一種懶散學習方法,學習速度較慢,類別評分不規格化,可解釋性較弱,在樣本不平衡情況下容易出現混沌問題。為克服KNN算法的局限性,可引入ANN、CNN算法進行拓展。

表1 PICOS指導篩選文獻關鍵詞
隨著計算能力的提高,ANN在深度學習中展現出巨大的潛力。近年來,隨著大規模數據集的涌現,ANN在圖像識別、自然語言處理等領域取得了突破性進展。人工神經網絡模仿了人腦神經元的結構和工作方式,通過多層次的神經元網絡學習數據的復雜特征[11-12]。ANN中的神經元之間存在權重與偏差,主要通過激活函數傳遞信號和計算輸出。ANN的深層結構使其成為深度學習的核心算法,隨著大數據的興起,ANN在自然語言處理、圖像識別、語音識別等領域展現出了強大的性能。例如,在自然語言處理中,ANN被廣泛用于文本分類[13]、情感分析[14]等任務。
KNN、ANN的優點包括簡單、有效、重新訓練的代價較低等。然而,此類算法也存在一些缺點,如類別評分不規格化、可解釋性較弱、計算成本較大。為克服KNN、ANN算法的局限性,需引入CNN算法進行拓展。
CNN能自動從數據中學習特征,不需要人為設計特征,這使其在處理復雜數據結構時更高效;并且通過多層卷積和池化層構建復雜的層次結構,能捕捉數據的不同抽象層次的特征,從而提高模型的性能。CNN還能使用局部連接和權值共享的機制減少參數數量,提高模型的計算效率和泛化能力。此外,卷積操作的并行計算功能利用硬件優勢,可極大地加速訓練過程。總之,通過引入卷積神經網絡算法,可以克服KNN、ANN的算法限制,實現更高效、準確的數據分析和模式識別,尤其在處理大規模和復雜數據時具有顯著優勢。
近年來,研究人員在KNN、ANN和CNN算法領域持續不斷地取得新成果,例如在KNN算法中引入距離加權策略,提高分類精度。在ANN領域,殘差網絡(ResNet)的提出使深層網絡訓練變得更穩定。在CNN算法方面,自注意力機制(self-attention)被引入,提升了圖像語義分析的性能。未來,可以期待這些算法在更多領域的新應用,如自動駕駛、金融分析等。同時,需要進一步研究這些算法的可解釋性和魯棒性,以提高其在實際應用中的可信度和穩定性。
本文對統計學習中的KNN及其深度學習領域的拓展形式(包括ANN和CNN算法)進行介紹與分析。這些算法在數據分析、圖像識別和模式識別等多個領域都具有重要的應用潛力和實際價值。通過對最新研究成果的探討,得出以下結論。
(1)KNN算法在多個領域中都有廣泛的應用,包括但不限于模式識別與分類、推薦系統、圖像處理、自然語言處理、醫學診斷、金融風控、遙感反演、網絡安全等。KNN算法的靈活性和簡單性使其成為數據分析和模式識別問題中常用的工具之一。
(2)KNN算法存在一些局限性,例如對高維數據和大規模數據集的處理效率相對較低,對噪聲數據和不平衡數據集的適應性有待改進。因此,引入人工神經網絡(ANN)和卷積神經網絡(CNN)等拓展算法成為克服KNN算法限制的有效途徑。
(3)近年來,研究人員在KNN、ANN和CNN算法領域取得了顯著的進展。例如,在KNN算法中引入距離加權策略,有助于提高分類精度;在ANN領域,殘差網絡(ResNet)的提出使深層網絡的訓練變得更穩定;在CNN算法中,自注意力機制(Self-Attention)的引入提升了圖像語義分析的性能。這些創新為算法的進一步優化和性能的提升提供了有力支持。
(4)未來,可以期待這些算法在更多領域的廣泛應用,如自動駕駛、金融分析等。同時,需要加強對這些算法的可解釋性和魯棒性研究,以提高其在實際應用中的可信度和穩定性。
綜上所述,本文探討了KNN、ANN和CNN算法及其應用領域,強調它們在數據分析和模式識別中的重要性。這些算法不斷發展和完善,為解決實際問題提供更多可能性,推動統計學習領域的進步。同時也需要繼續深入研究,以克服算法存在的局限性,實現更廣泛的應用。