含內生變量的高維部分線性模型特征篩選

2023-01-08 11:29:24陳海燕趙培信

湖南工業大學學報 2023年1期

陳海燕，趙培信,

（1.重慶工商大學數學與統計學院，重慶 400067；2.經濟社會應用統計重慶市重點實驗室，重慶 400067）

0 引言

部分線性模型[1]同時含有參數分量和非參數分量，在對實際問題建模過程中兼具經典參數模型和非參數模型的優點，目前已被廣泛地應用于社會科學、計量經濟學以及生物醫學等領域。另外，隨著現代數據收集技術的不斷發展，研究者們能夠在科學研究的各個領域以較低成本收集到大量的高維數據。這種大數據的統計推斷過程中，往往會遇到超高維情況，即數據的維數遠遠大于樣本量，從而導致經典的統計推斷理論將無法直接應用。

目前關于超高維數據的統計推斷問題，一般是先利用一些變量篩選方法，從大量的數據中篩選出一些重要變量，然后基于所篩選出的重要變量進行統計建模。關于超高維數據下部分線性模型的變量篩選問題，楊宜平等[2]結合樣條方法和Dantzig 或Lasso 進行變量選擇和未知參數估計。賴秋楠等[3]將超高維部分線性模型轉化為高維線性模型，考慮了協變量間的相關性，提出了profile貪婪向前回歸變量篩選方法。楊鑫等[4]基于profile 最小二乘方法和保留正則化方法，提出了新的變量選擇方法。但是這些文獻均是在假定超高維數據為外生協變量的情況下進行討論的。Fan J.Q.[5]、Lin W.[6]等指出，在超高維模型中存在許多可能導致違反外生性假定的因素，例如選擇偏差、測量誤差和遺漏變量等。因此對超高維數據統計建模過程中假定所有變量均為外生協變量是具有限制性且往往是不現實的。在違反外生性假設時，現有的基于邊際特征篩選方法可能會篩選出那些隱藏的重要變量，并產生較多的假陽性重要變量。

目前，關于超高維內生性協變量的重要變量選擇問題研究還不多。針對含內生協變量的超高維線性模型，Fan J.Q.等[5]通過構建懲罰聚焦廣義矩法準則函數，有效實現了降維，并證明了模型存在內生性時，該方法也具有Oracle 性質。Lin W.等[6]提出了一個兩階段正則化框架，通過使用稀疏誘導懲罰函數，將經典的兩階段最小二乘法（two stage least square，2SLS）擴展到高維。Hu Q.Q.等[7]提出了一種新的特征篩選工具來衡量預測變量的邊際效用，然后引入兩階段正則化框架來識別重要的預測變量。但是，對超高維內生性數據下部分線性模型的重要變量選擇問題目前還沒有相關研究。為此，本文在假定部分協變量為內生協變量的情況下，研究超高維部分線性模型的重要變量篩選問題。

具體地，結合工具變量調整技術，本文提出了一種新的重要變量篩選方法。理論上證明了所提出的篩選方法具有排序一致性。這意味著依據效用測度，總是可以大概率地將重要變量排在不重要變量之前，從而保證可以清晰地區分重要變量和不重要變量。

1 基于工具變量調整的重要變量篩選方法

本節中，假定模型中線性部分的維數p遠遠超過樣本量n，且維數p隨著樣本量n呈指數型增長。本文考慮的部分線性模型結構如下：

式中：Xi為p維協變量，且

β為未知參數的p維向量，且

g(·)為未知的非參數函數；

Ui為一維變量；

εi為模型誤差。

式中：Zi為對應的q維的工具變量向量，且

Γ為p×q維的未知參數矩陣，

e為模型誤差，且e=(e1,e2,…,en)，其中ei=(ei1,ei2,…,eip)T，且滿足

綜上所述，考慮模型

滿足如下條件：

假設真參數β是稀疏的，即集合A={j:βj≠0,1≤j≤p}很小，則本文的目標是估計集合A。

經典的兩階段最小二乘（2SLS）[8]和兩階段正則化（two stage regularization，2SR）[6]將協變量替換為它們對工具變量的期望。更具體地說，變量首先在工具變量上回歸，然后響應變量在變量第一階段的預測結果上回歸。然而，因為變量和工具變量的維度隨著樣本量呈指數增長，2SLS 方法和2SR 方法的性能分別面臨眾多工具變量的維度災難和計算成本的問題。因此，需要探索新的方法來獲取集合A。

注意：如果響應變量在工具變量上進行回歸，根據上述模型（3），可以得到如下模型：

式中：α是q×1 維向量，且α=ΓTβ；

ξi為新誤差，且ξi=+εi。

為了找到一個特征篩選工具來估計活躍集A，首先考慮一個例子。在模型（4）中，很容易得到：

另一方面，

結合上面的方程，可以得到：

進一步展開，得到：

式（5）可表示成

通過這些假設，可以得到如下結論：

結合上述分析，可以得到：

2 重要變量篩選迭代算法

根據部分線性模型的剖面估計思想，首先假定β已知，則模型（1）可被看作是一個非參數回歸模型：

對于非參數g(u)可使用局部線性光滑方法構造其估計量，它能減少Nadaraya-Watson 核估計的偏差和Gasser-Müller 估計的方差，并能夠避免核估計的邊界效應，在邊界點和內點有相同的收斂速度。設回歸函數g(u)在u的鄰域內有連續的一階導數，如果Ui在u的一個小鄰域內，可用一個線性函數局部地逼近回歸函數g(Ui)，有：

式中a、b為回歸系數。

因為假定β已知，可通過極小化下式加權最小二乘目標函數求a和b，

式中：Kh(·)=K(·/h)/h，其中K(·)為核函數，h為窗寬，且h＞0。

接下來設計兩階段方法。

式中：pλ(·)為懲罰函數；λ為調和參數，且λ≥0。

值得注意的是，沒有必要對解釋非活躍預測變量的工具變量做出任何條件假設。因此，所有非活躍預測變量都可以使用一個工具變量，即使這個工具變量非常弱，這意味著雖然預測變量X是高維的，但工具變量Z并不需要是高維的。通常情況下，要求工具變量的數量應不小于用于識別的預測變量的數量，但是，系數的識別對篩選目標并不重要。即使系數不確定，仍然可以確定活動回歸量。因此，當工具變量的維度不太高時，可以忽略第1 階段的特征篩選。從理論上講，當工具變量的維數小于樣本量時，可以使用“普通最小二乘法”代替變量選擇過程。

式中，ψn是給定的閾值參數。

值得注意的是，無論模型中是否存在內生協變量，本文所提出的篩選程序都是可行的。

3 理論結果

本節將討論所提出的篩選程序的理論性質。下列條件是為了方便技術證明，盡管它們可能不是最弱的條件。

C1）隨機誤差e的條件。給定為

C2）協變量X的條件。給定為

C3）工具變量Z的條件。

C3-a）存在正常數K1、K2和κ，使得

C3-c）線性條件為

C4）活躍集A和B之間的關系為

接下來，介紹所提出的篩選程序的理論性質，這些理論性質是新篩選方法的主要理論基礎。

定理1在條件C1、C2、C4 下，有如下不等式關系成立：

4 定理證明

定理1的證明基于模型（3）和模型（4），設為真系數，可以得到：

式中：βA由所有的βj，j∈A組成；由所有的∈A組成。

另一方面，如果j∈A，可以得到：

定理2 的證明為了提高可讀性，將證明分為如下兩個主要步驟。

步驟1首先

其中，δt=δ是強調δ取決于τ，

5 結語

針對超高維內生協變量的變量選擇問題，結合內生協變量和工具變量的相關結構，提出了一種新的用于超高維線部分線性工具變量回歸模型的兩階段特征篩選方法，其中內生協變量和工具變量的維數可以隨樣本量呈指數級增長。理論結果表明，該特征篩選方法在排序上具有一致性。

本文只考慮了工具變量的各分量之間相關性較弱的情況。當工具變量的各分量之間存在高度相關性時，可以使用Hu Q.Q.等[12]給出的條件特征篩選程序來處理。然而，在對內生性協變量的工具變量調整過程中，如何事先確定一個工具變量的備選集合，然后從中篩選重要的工具變量，是當前內生性數據統計建模中常遇到的難題之一。另外，值得進一步研究的問題是如何在不事先假定模型結構的前提下，完全基于內生變量與工具變量的相關結構來構造特征篩選方法。這些問題都有待進一步深入研究。