高煥堂
1 簡單的回歸觀念
當今主流的AI是機器學習(ML)。這種AI的主要能力之一就是:從復雜的數據里探索潛在的規律。基本的概率和回歸分析觀念,就是AI/機器學習探索規律的基礎技術。例如,有一群二維的數據點,有一條最具有代表性的直線:X*W+B=Y。在統計學上,這條線通稱為:回歸(Regression)線。其中,X[ ]和Y[ ]值是已知的,而W和B是未知的,如圖1。

所謂“回歸分析”就是找尋最棒的W和B值。就得到這條線了。從上圖的Excel畫面里,按下“尋找規律”按鈕,就會進行回歸分析,找出最適合的W和B值,并輸出如圖2。

剛才的回歸分析已經找出最棒的W和B值了,也就是找到最具代表性的回歸曲線了。于是就繪出圖形如圖3。

這一條線就是X*1.3+3.3=Y線性方程式的圖形表示。接下來,就拿圖3里的“test data”來進行預測(Predict)。現在,請按下“Predict”,就拿新數據X來預測出對應的E(Y/X)值,如圖4。

這兩筆資料,就會對映到這回歸線上的兩個點,如圖5。
這就意味著,我們已知X值為:1.5,經由X*1.3+3.3=Y線性方程式來計算出Y值為:5.25。這就是一種預測的方法。

2 邏輯回歸(Logistic Regression)
一樣使用線性回歸:X*W+B=Y。將得出的Y值,經由Sigmoid()函數,可以計算出條件概率P(Y/X)值。這是機器學習的二元分類的標準做法。例如,有7瓶水,其攝氏溫度分別是:[-5,-2,-1,2,3,4,6]。此時人們常常將之區分為兩個類別:水與冰。就把這X值和P(Y/X)值,呈現于Excel上,如圖6。

其數據的意義是:依據人們日常生活中的經驗,第1瓶溫度是-5℃,有95%的概率是屬于“冰”類。再如最后一瓶的溫度是6℃,有95%的概率是屬于“水”類。現在,可以按下“尋找規律”,就進行回歸分析,找出最棒的W和B值,如圖7。
就得到了線性方程式:X*0.689393699-0.071644135=Y。 于是就繪出圖形如圖8。

這條直線就是AI機器學習里,常常聽到的:分類線。只要經有Sigmoid()函數進行轉換,就成為S型的回歸曲線了。接著,按下“Sigmoid圖”,就由Sigmoid()激活函數轉換,將直線轉換成為曲線,并繪出圖形如圖9。

因為Sigmoid()函數能從線性公式計算出來Y值轉換成為P(Y/X)概率值。因此,這條曲線成為上述(Excel里)數據的最佳代表曲線(即回歸線)。這時候,就把7個瓶子區分為兩類了,如圖10。

于是您就可以了解了,AI/機器學習就是,通過這樣來一堆數據進行分門別類,簡稱為:分類(Classification)。 剛才的回歸分析已經找出最棒的W和B值了,然后經由Sigmoid()轉換,而找到最具代表性的回歸曲線。接下來,就能給予新的數據X,如圖11。

現在,按下“Predict”,就會通過這條回歸曲線而計算(預測)出相對應的P(Y/X)條件概率值。如圖12。
其中,先計算:X*W+B=Y,得到了Y值。再將Y值經由sigmoid()函數計算出P(Y/X)值。并且繪出圖形,如圖13。

以上說明了,我們先提供7筆訓練數據(Training Data),按下“尋找規律”來進行訓練(即回歸分析),找出最棒的W和B值。然后,拿5筆新數據來(Test Data)來進行分類,果然完美地分類了。
現在,可以按下“繪圖P(Y=兔/X)”,就會把各P(Y/X)條件概率值繪出于一條數值線(即一維空間),如圖14。

以上的X只含有一個特征值。下一期里,將會說明多個特征值的例子。