貴州大學大數據與信息工程學院 鄭曉靜 朱 桐
Titanic生存問題常見分類算法對比分析
貴州大學大數據與信息工程學院 鄭曉靜 朱 桐
為了分析Titanic人員生存問題,針對生存與否使用常見的六種二分類模型進行了分析判斷,通過對各模型準確率及效率的分析比較,發現SVM算法在解決此問題時的準確率較高,且計算時間較短。
Titanic生存問題;機器學習;分類算法
泰坦尼克號沉沒事故為和平時期死傷人數最慘重的海難之一,在2224名船員及乘客中,逾1500人喪生。 而決定船上人員存活狀況的條件也由多種因素決定著,此文通過k-近鄰分類算法,邏輯回歸,支持向量機,樸素貝葉斯,決策樹及隨機森林共六種算法分別實現對Titanic人員數據的分類判別,研究其準確率及相對效率。
針對Titanic人員生存判斷問題,此處我們使用kaggle平臺的Titanic人員生存數據集為樣本,通過對船上人員的年齡、性別、座號,船艙等級、親屬關系等信息作為影響因素來使用幾種不同的分類算法進行生存狀況分析。
Titanic人員生存數據共1309組,其中取前891組數據為學習樣本,剩余418組數據為測試樣本。
為消除數據中各指標之間的量綱和取值范圍差異的影響,此處采用離差標準化對原始數據進行線性變換,將數值映射到[0,1]區間,公式如下:

其中max為單維度樣本數據最大值,min為單維度樣本數據最小值。
kNN算法是一種常用的監督學習方法,通過學習樣本的學習后,再用測試樣本分類檢驗,如果測試樣本中一個樣本在特征空間中的k個最相鄰的樣本中的大多數屬于某一個類別,則該樣本也屬于這個類別,并具有這個類別上樣本的特性[1]?!?br>