毛春梅
(四川工商學院 經濟管理學院,四川 成都 610000)
大數據背景下,數據搜集、整理不像以往一樣困難,數據處理更加簡單、快捷,而且計算機可以在較短時間內處理海量數據,從數據中得到有價值的信息成為公司制勝的法寶。統計學作為一門收集、處理、分析、解釋數據并從數據中得到結論的科學,是經管類各專業的基礎必修課程,必然會引入大數據理念,而大量統計學相關理論和技術將應用于大數據發展的進程中。
統計分析與SPSS 應用課程將統計學理論內容和SPSS 軟件應用相結合,通過本課程的學習,使學生了解和掌握統計設計、統計調查、統計整理和統計分析的基本理論與方法。主要內容包括統計整理、指標描述分析、抽樣推斷分析、時間序列分析、相關分析、假設檢驗等。學生在掌握了統計分析的理論知識的基礎上,運用SPSS 統計軟件進行數據的編輯、描述性統計分析、參數檢驗、非參數檢驗、相關分析與回歸分析等。該課程以實際數據為紐帶說明SPSS 的操作,以應用案例為背景闡述數據分析的思路。
在大數據時代,統計學課程應將培養學生的統計思維、提升學生的統計知識應用能力作為課程教學改革的重點。經管類專業統計學課程的主要目標是培養學生數據處理、分析能力。具體來講,通過對本課程的學習,要求學生系統掌握統計學的一般原理和統計方法,為進行經濟管理和從事社會經濟問題研究提供數量分析方法;其次,能夠運用統計方法與統計分析軟件進行數據收集、處理、分析,達到能夠正確運用統計分析方法解決實際問題的目的。
大數據拓展了統計學的研究領域,利用大數據所帶來的思想方式的變革,挖掘大數據資源蘊藏的社會、商業價值,對改進和完善統計工作,對提升統計工作價值具有重大意義。在大數據時代,不僅任何一種以結構數據度量的數量可以作為統計研究對象,而且不能用數量關系衡量的如文本、圖片、視頻、聲音、動畫、地理位置等半結構或非結構數據都可以作為統計研究的對象。在大數據時代,統計工作面對的數據對象從樣本數據變成了總體數據,統計工作不必采取試驗或抽樣調查的方法,其運行環節得到了簡化。
1.關于調研數據的區別
統計分析中的數據是通過統計調查收集的數據,這個數據包括一手數據也包括二手數據,將數據進行整理以后,可以形成相應的統計表或者統計圖。大數據分析背景下,更常見的是半結構化數據、非結構化數據,甚至是異構數據,可以挖掘出比傳統統計學更有價值的信息。在原始數據的收集上,應該注意將傳統的結構化數據跟大數據相結合。
2.關于數據收集方法的區別
傳統的統計分析數據是通過設計調研方案,明確調研的目的、調研對象、調研內容,采用科學的調研方法,比如普查、重點調查、典型調查、抽樣調查等調查方式搜集原始數據。將數據搜集完后,進行統計整理。大數據是利用軟件先進行數據文件的建立和管理,然后進行數據的預處理,數據的預處理包括定義數據的結構,數據的錄入和編輯,數據的保存,數據的排序,篩選重復個案,變量的計算,數據的選取,數據的計數,數據的分類匯總,數據的分組等。
3.關于數據來源的區別
傳統統計學中的數據無論是直接調查獲取的一手數據還是借用經整理后的二手數據,共同的來源都是實地調查,區別僅僅是調查主體是否為數據需求者。由此很容易對數據進行事前安排、事中控制以及事后核對。如果大部分數據來源于網絡,就無法做到事前安排,也很難做到事中控制,且數據很多時候是發散的,更不可能進行事后核對。大數據是數據的“抽取—轉換—加載”,這就是所謂的數據處理三部曲。該環節需要將來源不同、類型不同的數據如關系數據、平面數據文件等抽取出來,然后進行清潔、轉換、集成,最后加載到數據倉庫或數據集市中,成為聯機分析處理、數據挖掘的基礎。
4.關于量化方式的區別
傳統統計中的數據是結構化的數據,且量化方法日漸成熟。而大數據多為半結構化、非結構化數據,對其進行量化還存在技術瓶頸。目前,將半結構化及非結構化數據進行量化或者轉化為結構化數據是一個非常重要的研究領域。
5.關于分析思維的區別
傳統統計學中的數據分析思路為定性到定量再到定性,而大數據分析思路是從定量到定性。前者主要運用歸納法,這一方法依然是大數據分析的主要方法,后者仍然要通過個體的特征歸納出總體的特征。但對異常值的分析和研究往往更具深意,運用的是演繹法獲取更細小的特征。
統計分析與SPSS應用課程是面向經濟管理類專業的本科生開設的一門專業基礎課。通過學習該課程,學生可以了解搜集、整理資料的過程及方法,能熟練運用SPSS,提高統計應用技能,形成一定的分析問題解決問題的能力。就目前的教學狀況看,針對非統計專業開設統計學及相關課程教學時,應在教學內容、授課方式、教學手段和教材選用等方面進行改革。
課程案例應緊跟時代步伐,貼近時代熱點。采用實時案例分析,更容易增加學生的學習研究興趣。比如近兩年的熱點問題:“為什么高考狀元,最后都很平庸?”“我讀了清北,以后可以進投行嗎?”“為什么學區房那么值錢,但學歷不值錢?””比如,你說吸煙有害健康,勸身邊人戒煙。煙民們常用的借口是這樣的:你看隔壁王大爺,都九十歲了,抽煙抽了一輩子,照樣健健康康的。張二蛋,煙酒不沾,三十歲就歸了西。所以呀,抽煙有害健康,都是騙人的!”“比如,有人跟蹤過每年的高考狀元后來的職業發展路徑,最終發現這些狀元,絕大多數并沒有成為人中龍鳳,國之棟梁,于是他們得出結論:高考狀元最終將走向平庸,高考對篩選人才并沒什么用”。以上的例子,統統犯了小樣本偏差的統計錯誤。換句話說,考察的樣本太少,根本不可能得出可靠的結論。統計推斷,樣本量越大,越可靠。基于小樣本的結論,往往都存在問題。樣本概念是統計分析與SPSS 應用課程中的抽樣推斷的內容。傳統的抽樣分析大多是靜態分析,大數據背景下的樣本概念應多參考靜態數據與動態數據結合分析。比如不少反雞湯人士認為,努力沒什么用,家庭出身決定一切,先天條件決定一切,時代大勢決定一切,同學們認為呢?名校畢業掙錢不多,名校畢業照樣買不起學區房,很多人據此得出結論:名校也沒什么卵用,甚至上大學也沒什么用,照樣買不起房,還不如王小二開個煎餅攤子掙得多。這個案例所犯的錯誤就是統計里的控制變量的問題。什么是控制變量?控制變量的意思是,控制了這個因素,來看其他因素對事物發生的影響。最直觀的表達就是“假設其他條件不變的情況下”,這種假設,就是很典型的一種控制變量的假設。考察單一變量對結果的影響時,一定要保持控制變量的不變且可比。不然這樣比較得出的結論,毫無意義。比如暴飲暴食跟胃痛是什么關系?名校畢業跟賺很多錢是什么關系?兩種關系有何不同?事情的發生,往往都是一個復雜系統里,多因素共同作用的結果,凡事都盡量避免用單因素模型去解釋。這里涉及的實際就是統計分析課程里的多因素分析模型,即相關分析與回歸分析的內容。把統計分析課程中的理論知識點應用到生活實踐中,讓學生能夠運用統計的思維和觀點去分析問題理解問題,這應該是該課程的一個實踐目標。
經典統計分析與SPSS 應用課程內容涵蓋最基本的描述性統計,少量涉及數據分析實踐中必需的推斷統計。在統計調查方法這一章內容里,應突出強調統計調查方案的設計。由于統計調研的對象是復雜經濟體,搜集的數據也涵蓋多個方面。要收集到相對完整準確的數據,就必須對統計調查工作設計一個方案。方案的具體內容可以包括調研目的的確定、調研對象的確定、調研內容的確定、調研方法的確定、調研時間及期限的安排、調研人員的安排等等細節問題。在調研數據的方法選擇上,也應該提醒學生注意結合多種調研方法,不能只單純的讓學生理解有哪些調研方法就可以了。所以,教學上,應避免紙上談兵,可以根據實時熱點給出一些題目,讓學生實踐。在統計整理這部分,學生掌握最多的是給定分組標志,從進行統計分組,繪制直方圖和折線圖、條形圖、餅圖等。但不以應用為導向的學習必然無法根據項目的研究任務和研究目標自主選取恰當的標志,從而挖掘有價值的信息。應給定學生研究課題,讓學生根據課題的主題自行確定具體研究內容,并根據具體內容量化成具體的問題并設計調研問卷搜集數據。在統計分析部分,應重點突出SPSS 軟件的描述統計分析的使用,假設檢驗方法的使用,相關分析回歸分析的使用,讓學生根據軟件操作結果進行統計分析。
要改變傳統的“教師講、學生聽”的授課方式,根據內容設計相應的案例,同時考慮多讓學生動手操作SPSS,提高學生的軟件操作能力,多采用互動教學。盡可能的采用應用型的教材。
基于此,相關單位可從多種教材中博采眾長,汲取精華,適時編寫適用于應用型本科非統計專業使用的教材。此外,在提高學生對新知識的求知欲,保證他們學會經典統計方法的同時,要根據大數據發展的最新形勢,運用恰當的方法搜集、整理、分析數據。
統計分析與SPSS 應用課程考核方式是卷面閉卷考核,主要考察學生的理論知識的掌握情況。對于應用型高校,應側重從實踐角度出發培養學生的SPSS 軟件操作能力,同時能夠利用軟件進行統計分析。期末考核方式可以可由傳統的試卷考試變為撰寫統計分析報告的方式。撰寫統計分析報告,一方面可以考查學生的理論知識的運用情況,尤其是統計指標的計算及分析問題;另一方面,也考查了學生應用SPSS 軟件進行數據操作的能力問題。