楊展銘


【摘 要】 線性回歸引發了作者對數據分析的思考,原來數學與實際生活的聯系如此密切。盡管數學的對象是純由邏輯混亂和創造力產生的,但在生活中到處都可以發現數學模型對我們的影響。在如今的大數據時代下,對數學的學習帶領著我進入一個廣闊而又奇妙的世界。
【關 鍵 詞】 線性回歸;數學;模型;教學
很多人認為數學是一門嚴格的一成不變的課程,任何事情都不能脫離事實。人類的大腦不斷地創造著數學思想和獨立于我們世界的迷人的新世界。某一維中的對象是如何消失在另一維中的,任何兩點之間怎么總能找到一個新的點,數是怎樣運算的,方程是怎樣解出的,坐標如何產生圖像,如何用無窮解題,公式如何生成——所有這些似乎都具有一種奇妙的性質。正是這種奇妙和它對智力的挑戰讓我感受到了數學的趣味,帶領著我去不斷探究它的魅力。
線性回歸模型進行的是輸出值的預測問題,那么如果因變量不是連續變量甚至不是數值呢?我查閱了資料后發現廣義線性模型中還有一種回歸叫作Logistic回歸,logistic回歸(Logistic regression)與線性回歸實際上有很多相同之處,最大的區別就在于他們的因變量不同。logistic回歸分析,主要在流行病學中應用較多,比較常用的情形是探索某疾病的危險因素,根據危險因素預測某疾病發生的概率等等。例如,想探討胃癌發生的危險因素,可以選擇兩組人群,一組是胃癌組,一組是非胃癌組,兩組人群肯定有不同的體征和生活方式等。這里的因變量就是是否胃癌,即“是”或“否”,為兩分類變量,自變量就可以包括很多了,如年齡、性別、飲食習慣、幽門螺桿菌感染等。自變量既可以是連續的,也可以是分類的。通過logistic回歸分析,就可以大致了解到底哪些因素是危險因素。
考慮二分類Logistic回歸,假設輸出標記y屬于0或1,而線性回歸模型產生的預測值是一個實值,需要將它轉化為0或1。在Logistic回歸模型中,使用的轉化函數是sigmoid函數,如下圖所示:
回歸的實質是發生概率除以沒有發生概率再取對數。就是這個不太煩瑣的變換改變了取值區間的矛盾和因變量自變量間的曲線關系。究其原因,是發生和未發生的概率成為了比值 ,這個比值就是一個緩沖,將取值范圍擴大,再進行對數變換,整個因變量改變。不僅如此,這種變換往往使得因變量和自變量之間呈線性關系,這是根據大量實踐而總結。所以,Logistic回歸從根本上解決因變量要不是連續變量怎么辦的問題。還有,Logistic應用廣泛的原因是許多現實問題跟它的模型吻合。例如一件事情是否發生跟其他數值型自變量的關系。Logistic回歸是直接對分類可能性進行建模,無須事先假設數據分布,這樣就避免了假設分布不準確性所帶來的問題。
線性回歸引發了我對數據分析的思考,原來數學與實際生活的聯系如此密切。在如今的大數據時代下,對數學的學習帶領著我進入一個廣闊而又奇妙的世界。
【參考文獻】
[1] 李元章,何春雄. 線性回歸模型應用及判別[M]. 廣州:華南理工大學出版社,2016.
[2] 威廉·巴里. 線性回歸分析基礎[M]. 上海:格致出版社,2011.
[3] 姜阿麗. Logistic回歸模型原理介紹及實例分析[J]. 福建質量管理,2017(8).endprint