999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

邏輯回歸的敏感性分析及在特征選擇中的應用

2022-09-07 04:05:54王凌妍張鑫雨許勝楠王禹力甄志龍通信作者
信息記錄材料 2022年7期
關鍵詞:分類特征方法

王凌妍,張鑫雨,許勝楠,王禹力,甄志龍(通信作者)

(通化師范學院 吉林 通化 134002)

0 引言

邏輯回歸因其可解釋性、模型簡單等特點,在商業、工業等實際任務中有廣泛的應用。雖然帶有“回歸”字樣,但是邏輯回歸是一種帶有參數的二分類模型。比如,判斷郵件是不是垃圾郵件[1-2],判斷交易是否具有欺詐行為[3-4],預測腫瘤是否為惡性腫瘤[5-6],預測學生的學習情況[7-8]等。數據集合中的每個樣本包含若干個特征,在實際應用過程中,有些特征與分類相關,有些特征與分類無關。特征選擇技術是通過評估函數找到相關的特征子集,合適的特征選擇方法可以提高學習系統的性能,降低計算復雜度和增強系統的可解釋性。研究者可以查閱特征選擇的文獻綜述[9-12]。特征選擇方法常分為包裹法、過濾法和嵌入法。包裹法需要特定的分類器,根據指定分類器的準確性作為特征子集評價準則。過濾法則獨立于任何的學習算法,根據合適的評估函數評估特征的優劣。嵌入法將特征選擇與學習算法結合起來,將特征選擇嵌入到學習算法的構造過程中。雖然包裹法的性能較高,但因為組合問題計算開銷很大,而且很容易產生過擬合。嵌入法計算復雜度介于包裹法和過濾法之間,準確率也比較高,但只有一些模型有,如決策樹模型。常用的特征選擇方法有方差選擇法、相關系數法、卡方檢驗法、嶺回歸方法、Lasso回歸方法及決策樹方法等等。本文采用過濾法進行特征選擇,如何構造一個合適的評估函數是過濾法特征選擇的關鍵技術。本文基于敏感性的方式構造評估函數,敏感性分析是構造評估函數常用的一種方法,是針對不確定性的一種分析技術。敏感性[13]分析研究每個特征的微小變化對輸出的影響。本文主要對邏輯回歸模型進行了研究,提出了一種反映敏感性的方法,即對回歸函數的每一個特征變量分別求偏導,通過偏導數值的大小判斷敏感性,以此篩選出重要的特征值。通過研究特征的變化對輸出的影響程度,進而從多個特征中逐一找出對輸出影響較大的敏感性特征。通過特征敏感性判斷輸入特征的優劣,去掉敏感性小的特征,篩選敏感性相對較大的特征作為模型輸入,完成特征選擇的任務,為分類模型提供有用的信息。

1 邏輯回歸

邏輯回歸是一種利用概率思想來解決分類問題的機器學習方法。邏輯回歸的輸入是線性函數,可以看作是邏輯回歸的線性邊界,邏輯回歸的輸出是通過sigmoid函數(圖1)返回屬于某一個類的0-1區間的概率值。邏輯回歸的表達式為:

其中w為參數向量,x為特征向量,w0為偏置。

利用交叉熵定義邏輯回歸的損失函數為:

梯度下降法,得到梯度為:

參數w的更新公式為:

2 敏感性計算

邏輯回歸的判別函數為:

于是對x1求偏導得:

將m代入后得:

同理可得:

最終得到每個特征的敏感性的計算公式為:

這里i表示第i個特征,j表示第j個樣本。

3 實驗

3.1 實驗步驟

步驟1:選用擁有4個特征值的iris鳶尾花數據集進行訓練和預測。

步驟2:將iris鳶尾花數據集劃分:訓練集占60%,測試集占40%,random_state=0。

步驟3:用Lasso回歸和求偏導數兩種方法篩選出敏感性最好的兩個特征值,觀察結論是否一致,若結論一致列出所有組合情況,并將其分別進行訓練和預測,觀察準確率最高的組合方式是否與上述結論一致,若一致說明偏導法判斷敏感性是可行的。

步驟4:最后畫出所有組合方式的二維特征的數據散點圖,更加直觀地展示結果。

3.2 實驗過程

首先系統導入iris鳶尾花數據集,為了消除奇異樣本數據導致的不良影響,引入了標準化StandardScaler進行預處理,標準化后的數據更加可靠,Lasso回歸函數通過將絕對值較小的系數收縮為0,達到了特征值選擇的目的,而上述提出的偏導數方法是通過特征偏導數的大小,判斷出對函數輸出結果影響較大的特征,從而判斷出敏感性大小,即選出了最敏感的特征。我們發現Lasso回歸和偏導數方法結論一致,都為后兩個特征對分類表現好,為了進一步驗證,我們決定將4個特征值的6種組合一一進行訓練和預測,計算出準確率,以此來驗證最好的特征值組合是否與上述結論一致。

3.3 實驗代碼

from sklearn.linear_model import Lasso

from sklearn.preprocessing import StandardScaler

import matplotlib.pyplot as plt

import pandas as pd

from sklearn.datasets import load_iris

from sklearn.tree import DecisionTreeClassifier

d=DecisionTreeClassifier()

iris=load_iris()

x=iris.data

y=iris.target

scaler=StandardScaler()

x_standard=scaler.fit_transform(x)

x=iris.data[ : ,[0:1]]

將此處改成[0,2]、[0,3]、[1,2]、[1,3]、[2,3]分別記錄6種特征組合情況。

y=iris.target

from sklearn.model_selection import train_test_split

xtrain,xtest,ytrain,ytest=train_test_split(x,y,test_size=0.4,random_state=0)

將每兩列特征組合出的數據集進行測試集和訓練集的劃分后,在模型選擇上,我們首先考慮了線性回歸不適用于本次分類實驗中的精度評估,而邏輯回歸模型則主要用于解決二分類問題,在用ovr改造后也可進行,但出現了訓練集和測試集的精度相等的情況,而樸素貝葉斯的三種模型中高斯模型的精度最高,以后兩個特征值為例,精度分別為0.93和0.98,但是決策樹在經過網格搜索確定參數值后,它的精度高達0.95和0.99,為所有模型中最高精度,故最終確定模型為決策樹模型。

決策樹模型算法DecisionTreeClassifier()通常是一個遞歸地選擇最優特征,并根據該特征對訓練數據進行分割,使得對各個子數據集有一個最好的分類的過程。這一過程對應著對特征空間的劃分,也對應著決策樹的構建。

在確定了用決策樹模型進行精度評估后,通過GridSearchCV網格搜索完成DecisionTreeClassifier函數的3個參數的最優解的選擇。gini系數最大為1,最小為0,當基尼系數越趨于0表明越趨于穩定。通過調用best_params_函數找出測試結果得出使用gini基尼系數,最大深度為3,最小葉子結點樹為1值時為最優解。

然后調用train_test_split函數進行數據集的劃分,使訓練集占60%,測試集占40%,random_state=0操作,并調用accuracy_score函數對訓練集與測試集數據進行評分操作。

from sklearn.model_selection import GridSearchCV

parameters={"criterion":['gini','entro py'],"max_depth":[1,3,5,7,9],"min_samples_leaf":[1,3,5,7,9]}

GS=GridSearchCV(d,parameters,cv=10)

GS.fit(xtrain,ytrain)

GS.best_params_

# {‘criterion’: ‘gini’, ‘max_depth’: 3, ‘min_samples_leaf’: 1}

d=DecisionTreeClassifier(criterion=’gini’,m ax_depth=3,min_samples_leaf=1)

d.fit(xtrain,ytrain)

from sklearn.metrics import accuracy_score

accuracy_score(ytest,d.predict(xtest))

結果依次為 #0.68,0.87,0.93,0.87,0.93,0.95

accuracy_score(ytrain,d.predict(xtrain))

結果依次為 #0.84,0.98,0.99,0.98,0.98,0.99

pd_iris=pd.DataFrame(x,columns=['petallength(cm)','petal width(cm)'])

plt.figure(dpi=100)

plt.scatter(pd_iris['petal length(cm)'],pd_iris['petal width(cm)'],c=y)

3.4 實驗結果

將 Sepal.Length、Sepal.Width、Petal.Length、Petal.Width 4個特征分別設為X1、X2、X3、X4,實驗結果見表1。

畫出6種不同特征組合對應的散點圖(1)~(6),見圖2。

由圖可以看出,最后一張圖(6)即后兩個特征X3、X4的組合效果最好,也更加有力地驗證了我們給出的偏導數敏感性判斷方法是可行的。

4 結語

本文提出了一種邏輯回歸的敏感性計算方法,該方法給出了邏輯回歸輸出對輸入的敏感性定義,即輸出對每個輸入特征的偏導數,根據敏感性定義很容易計算出敏感性的值。我們將敏感性的方法應用到特征選擇中,利用敏感性作為評價特征的函數,得到每個特征評價的分值,并選擇相對敏感性值大的特征組成特征子集,作為下一步分類任務的輸入。采用機器學習中常用的iris作為數據集驗證該方法的效果,實驗結果表明邏輯回歸的輸出對輸入特征敏感性分析方法能夠有效地選取分類特征,該敏感性分析方法簡單且可行。下一步工作我們將敏感性分析方法擴展到參數擾動中,利用敏感性研究參數的正則化方法是進一步要研究的內容。

猜你喜歡
分類特征方法
分類算一算
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
抓住特征巧觀察
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 99久久国产综合精品2023| 亚洲三级影院| 亚洲欧美日韩久久精品| 性色一区| 国产在线专区| 欧美一级一级做性视频| a亚洲视频| 91丝袜美腿高跟国产极品老师| 香蕉久久国产超碰青草| 国产sm重味一区二区三区| 国产精品无码在线看| 欧美翘臀一区二区三区| 日韩福利在线观看| 国产成人91精品| 欧美在线精品怡红院| 久久青草免费91观看| 日韩不卡免费视频| 国产精品免费露脸视频| 999精品视频在线| 亚洲成人黄色在线| 亚洲第一成网站| 欧美综合一区二区三区| 免费国产在线精品一区| 国产美女91视频| 国产日韩欧美一区二区三区在线| 精品夜恋影院亚洲欧洲| 老司机久久精品视频| 97视频免费看| 婷婷午夜天| 伊人天堂网| 亚洲中文字幕av无码区| 国产乱人乱偷精品视频a人人澡| 欧美成人一区午夜福利在线| 好久久免费视频高清| 伊大人香蕉久久网欧美| 2024av在线无码中文最新| 亚洲人成网址| 国产99视频免费精品是看6| 狠狠色噜噜狠狠狠狠色综合久| 2021国产v亚洲v天堂无码| 国产91麻豆免费观看| 国产精品19p| 亚洲最大福利网站| 日韩东京热无码人妻| 国产免费看久久久| 国产精品成人久久| 亚洲中文字幕日产无码2021| 日韩美女福利视频| 青青草国产精品久久久久| 波多野结衣在线se| 日韩成人午夜| 黄色在线网| 欧美成人精品一级在线观看| 亚洲av日韩av制服丝袜| 最新国产高清在线| 国产精品久久久久久久久kt| 成人av专区精品无码国产| 亚洲免费黄色网| 91欧洲国产日韩在线人成| 国产毛片久久国产| 成人日韩视频| 红杏AV在线无码| 久久亚洲日本不卡一区二区| 久久精品aⅴ无码中文字幕| 亚洲动漫h| 国产香蕉在线视频| 亚洲精品无码高潮喷水A| 国产全黄a一级毛片| 亚洲中文字幕无码mv| 欧美笫一页| 永久在线精品免费视频观看| 动漫精品中文字幕无码| 好吊妞欧美视频免费| 91久草视频| 欧美精品另类| 国产亚洲精品自在线| 日本精品一在线观看视频| 在线播放真实国产乱子伦| 91精品国产麻豆国产自产在线| 国产a网站| 无码'专区第一页| 国产精品不卡片视频免费观看|