(廣東郵電職業(yè)技術(shù)學(xué)院 廣東 廣州 510630)
最簡單的回歸可以追溯到一元一次方程式,形如y=ax+b這就是回歸的最基本形式,當(dāng)a,b已知的情況下,我們可以根據(jù)x的值代入方程式中得到y(tǒng)的值。顯而易見,這是一種非常簡單的數(shù)學(xué)運算,但是現(xiàn)實情況中,參數(shù)a,b是不知道的。例如:假設(shè)一個便利店,每天的顧客人數(shù)和該商店的營業(yè)額存在這樣的線性關(guān)系,那么我們可以統(tǒng)計n天內(nèi),每天該商店的人數(shù)x和營業(yè)額y。通過統(tǒng)計的樣本可以很容易得到回歸方程式。這是一種理想狀態(tài)下的假設(shè),影響營業(yè)額的因素往往有很多,比如顧客的平均年齡,顧客的性別比例等。所以真實的線性回歸不僅僅是一個變量x,而是多元的。這里的x稱之為特征。




目標(biāo)函數(shù)也就是損失函數(shù)最小化:


邏輯回歸又稱Logistic Gression。對線性回歸主要是用來預(yù)測標(biāo)簽是連續(xù)的場景。然而人們發(fā)現(xiàn)回歸也可以運用于分類場景。比如二分類、給定數(shù)據(jù)集T。


我們需要知道P(yi/xi)。顯然邏輯回歸的目標(biāo)是預(yù)測x發(fā)生條件下。由于線性回歸方程得到值是連續(xù)的,所以在對分類的處理上需要將值映射到{0,1}的狀態(tài)上來。
于是引入了Logistic函數(shù):

圖1 邏輯回歸的階躍函數(shù)
整合以上方程,可以得到回歸模型:
主要選取波士頓房價數(shù)據(jù)特征是一維的,主要是房間數(shù)量,針對數(shù)據(jù)集訓(xùn)練得到線性回歸模型預(yù)測房價。

圖2 線性回歸分析圖
邏輯回歸其實是一個分類問題,在這里同樣采用癌癥數(shù)據(jù),行邏輯回歸分析,得到結(jié)果如下表:

表1 癌癥數(shù)據(jù)的邏輯回歸
通過兩個實驗,我們可以清楚的發(fā)現(xiàn)線性回歸和邏輯回歸的適用場景的區(qū)分,線性回歸主要是處理回歸問題,其預(yù)測結(jié)果是連續(xù)的數(shù)值,而邏輯回歸實質(zhì)是一個分類問題。本文主要講述了兩種回歸的基礎(chǔ)原理和實現(xiàn)。后序?qū)⒄归_邏輯回歸在多分類問題的研究。