張超



摘要:為了綜合分析電影數據,本文通過工具SPSS19.0,運用主成分分析方法,對樣本進行數據統計分析,建立了對應的數學模型,希望為電影制作方和影院提供一定的參考。
關鍵詞:主成分分析;數學模型;SPSS
中圖分類號:TP311 文獻標識碼:A
文章編號:1009-3044(201 9)30-0001-02
1概述
隨著涌現出很多優秀并且龐大的電影量,一部電影又包含了眾多的屬性,這些不同的屬性引起的效應大小各異。基于龐大的電影數據,就需要我們用計算機來處理和分析,來減少人工工作量,獲得我們想要的信息。本文使用主成分分析方法,對電影數據進行綜合統計分析,希望可以為電影制片方合理分配資源和影院排片提供一定的參考。
3實驗數據
本文實驗采用了50部電影數據,其來源于豆瓣網站,包含了導演影響指數、明星指數、評分、片長、是否黃金周、影片類型、是否續集、想看人數、制作地區、票房收入共10個屬性。其中影片類型和制作地區數據不能直接使用,必須先轉換為數值類型,本文采用最基本的分類標記,對制作地區中國大陸標記為1,香港標記為2,美國標記為3,印度標記為4。同理對影片類型進行標記。通過這種簡單的數值標記能確保這兩個變量能進人數據分析。
4主成分分析過程
本文使用從豆瓣電影搜集的票房相關數據進行分析,借助數據統計分析工具SPSS19.0對樣本數據進行主成分分析,分析步驟:首先加載數據:文件一打開一數據一選擇本地數據。然后分析數據:分析一降維一因子分析。獲得輸出結果如下表1、2所示:
由表1結果可知,在本例中,成份1、2、3和4的特征值大于1,他們累計貢獻率達到70.21%,還算不錯,所以我們通過主成分分析,可以提取4個主要成份,轉換后的這4個綜合指標可以大致反映原始數據。
使用spss數據分析軟件對電影票房數據進行分析,從中提取出了4個主要成份,從表2可知導演影響指數、評分、片長和想看人數在第一主成份具有較高載荷,明星指數和是否續集在第二主成份具有較高載荷,第三主成份上沒有反映出較高載荷的指標,第四主成份主要反映了是否黃金周這一個指標信息。
用成份矩陣中一個主成分對應的數值,與主成分相對應特征值平方根的商,計算出的數值便是一個主成分中每個指標所對應的系數,便得到4個主成分的數學模型如下:
5結束語
本文通過主成分分析數據分析方法,使用spss軟件分析數據,提取了4個主成分,他們累計貢獻率達到70.21%,轉換后的這4個綜合指標可以大致反映原始數據,并且建立了綜合數學模型,對于電影的綜合評價分析具有一定的參考意義。但由于實驗數據面窄,某些重要的特征屬性無法獲取,這些因素對綜合分析電影數據都有一定的幫助,未來通過搜集更全面的實驗數據進行改進。