【摘 要】 隨著計算機技術的發展,機器學習技術廣泛應用于工業界各個領域。傳統計量經濟學與機器學習有著共同的理論基礎和相同的研究方法,同時從研究方式與目的 , 對模型的要求、模型檢驗方式都有著明顯的差異。對于傳統計量經濟學存在諸多不足,例如理論假設過強、樣本不足、模型泛化能力弱等問題,機器學習的范式和方法可以應用于其中,可以有效解決傳統計量經濟學中的問題。
【關鍵詞】 機器學習 計量經濟學 模型泛化
一、引言
機器學習被視為人工智能的子集,是對算法和統計模型的科學研究,計算機系統使用這些算法和統計模型來執行特定任務而無需使用明確的指令,而是依靠模式和推理。機器學習算法基于樣本數據(稱為訓練數據)建立數學模型,以便進行預測或決策,而無需明確程序來執行任務。隨著信息技術的快速發展以及互聯網普及,大數據得以產生,機器學習在諸多領域如醫學、金融、數據分析等發揮著重要的作用。隨著機器學習在各行各業應用的不斷深入,經濟學界也開始廣泛應用機器學習于經濟領域的研究。這方面,國外學者已經取得積極進展,如諾貝爾獎得主薩金特就開設“量化經濟”(QuantEco)項目,運用機器學習方法對傳統經濟學重新演繹。
計量經濟學是以數理經濟學和數理統計學為方法論基礎,對于經濟問題試圖對理論上的數量接近和經驗(實證研究)上的數量接近這兩者進行綜合而產生的經濟學分支。然而,傳統的計量經濟學有著其固有的缺陷,無法對很多現實問題作出令人信服解釋,尤其是在預測方面。而基于現有的樣本數據對測試數據作出準確預測是機器學習基本任務。因此,將機器學習范式和方法運用于計量經濟學中,可以很好地彌補傳統計量經濟學中的不足。
二、機器學習與計量經濟學的異同
某種程度上,機器學習與計量經濟學是“一枚硬幣的兩面”,許多經典的機器學習算法如線性回歸、Logit回歸等線性模型最早開始也是在經濟學研究中運用,并隨著計算機技術的發展逐漸開始在其他領域中應用。線性模型也是機器學習算法的基礎,近年興起的神經網絡也是從線性模型發展而來。最優化是計量經濟學主要研究手段,同時也是機器學習優化模型主要方法,因此兩者研究本質都是最優化問題。從中可以看出,計量經濟學和機器學習有著共同的理論基礎和研究方法。
然而,兩者的“任務”是不同的。傳統計量經濟學主要任務是對經濟理論進行實證分析,對研究者提出理論進行事后檢驗,模型的可解釋性非常重要;機器學習的主要任務是預測,主要解決回歸和分類問題,模型的可解釋性的重要程度并非最高。
三、機器學習能彌補計量經濟學的不足
傳統計量經濟學廣泛應用于主流經濟學的研究,在學術界引起了許多爭議,一方面,很多學者認為這使得“工具主義”在經濟學界泛濫,忽略經濟研究的本質;另一方面,傳統經濟學一直強于解釋而疏于預測,對未來經濟趨勢總是無法作出準確合理預測。傳統計量經濟學的實證結果僅能對已有數據和觀測結果進行檢驗,往往不重視對新樣本的預測,這很容易使得模型過擬合。而機器學習其中一個主要研究方向是解決模型的過擬合問題,以更好地給出合理的預測。谷歌首席經濟學家范里安(Hal Varian)認為,機器學習的范式和可以和計量經濟學無縫銜接,機器學習諸多方法解決傳統經濟學存在的諸多問題。
1. 劃分訓練-測試數據集。傳統計量經濟學主要是通過統計量檢驗模型的擬合好壞,但這種方法有著很大局限,強于解釋而疏于預測,尤其在對未知數據的預測上。算法模型使用訓練集進行擬合,并對訓練集預測,然后再對測試集進行預測,將兩者的結果進行比較。如果訓練集的預測結果與測試集的結果相差很小,則表示模型的泛化能力很好;反之,模型的泛化能力很差。
傳統計量經濟學一般不會劃分數據集來檢驗模型的擬合好壞,無法檢測模型的泛化能力,這使得計量經濟模型無法應用到未知的數據。
2. 正則化。正則化在機器學習中主要用于防止模型的過擬合,提高模型的泛化能力。正則化是為解決過擬合問題而加入的額外信息的過程,而額外信息一般作為懲罰項加入到最優化過程中,以降低模型的復雜度。復雜的模型往往無法很好地擬合訓練數據,但無法擬合未知數據。 損失函數內置正則化技術,以“懲罰”參數過多的模型。“正則化”的意思是要讓預測更加“規范”或更可接受,讓模型更能適應未知的數據。
線性回歸、Logit回歸等線性模型在傳統計量經濟學有著廣泛應用,但在計量經濟學中線性模型有著很強的假設 ,比如同方差、不存在多重共線性等,這些假設在現實中很難實現。這就導致計量經濟模型都存在過擬合現象。通過在計量模型加入懲罰項可以很好解決計量經濟模型中不能滿足假設的情況,可以很好解決模型過擬合情況。
3. 馬氏鏈蒙特卡洛方法。馬爾可夫鏈蒙特卡洛方法(MCMC)是一組用馬氏鏈從隨機分布取樣的算法,之前步驟的作為底本。它從連續隨機變量創建樣本,其概率密度與已知函數成正比。它能有效解決數據分析中樣本不足的問題。在傳統的計量經濟學中,數據樣本的獲取和樣本質量的好壞對實證結果有著重要的影響。現實中,樣本不僅在獲取上存在困難,而且取得的樣本質量上往往參差不齊。因此,MCMC能有效解決計量經濟學中樣本不足的問題。
四、結論與展望
隨著計算機技術的發展和大數據的興起,機器學習與其他學科領域融合會越來越多,而傳統計量經濟學與機器學習有著共同的理論基礎和相同的研究方法。將機器學習的方法和范式運用于計量經濟學中,既可以有效解決傳統計量經濟學強于解釋而疏于預測的不足,還可放寬傳統計量經濟學過于嚴苛的理論假設,讓理論模型更貼近于現實。此外,機器學習更加注重模型的預測能力,而不是模型的可解釋性,因而大大降低了研究者的理論門檻。
【參考文獻】
[1] 高華川.機器學習在經濟學中的應用[J].納稅,2019,13(24):152-153.
[2] 周志華. 《機器學習》[J]. 航空港, 2018(2):94-94.
[3] Chevalier J . Comment on "Artificial Intelligence, Economics, and Industrial Organization"[J]. NBER Chapters, 2018.
作者簡介:朱明(1992),男,漢,湖南省郴州市,學生,碩士,廣東財經大學,產業經濟學