白高洪 楊鵬程 島寧
摘要:介紹了SPSS在市場調研中數據錄入的方法,以及對于錄入數據中遇到的問題和麻煩提供了解決的方法,為人們進一步對于SPSS在數據錄入上提供了方法。
關鍵詞:問卷錄入方式;數據錄入;數據驗證
一、認識SPSS軟件
SPSS為IBM公司推出的一系列用于統計學分析運算、數據挖掘、預測分析和決策支持任務的軟件產品及相關服務的總稱。SPSS對于調查問卷數據的錄入和分析,更加準確直觀的看出數據給我們的信息。利用SPSS錄入問卷數據的有很多種不一樣的情況,多選題、單選題、開放性問題、半開放問題等,選用不同的錄入方法的時候要考慮到不同的功能和特點。
二、數據結構設計
在錄入數據之前,首先要在變量視圖中設計調研問卷的數據結構。調研問題的類型可分為開放性問題、半開放性問題、單選題、多選題,在數據結構設計中需要采取不同的方法來處理。
(1)開放性問題的變量設計。
開放性問題是指允許被調研者自己填寫答案,而不提供選擇項。
例如:你的姓名?( )
開放性問題的變量設計只需要設計一個變量來存儲問題的答案,變量的類型根據答案的內容可以設置為字符型、數值型或日期型。變量寬度也根據答案內容來確定,一個漢字為2個字符,一個數字或字母為一個字符。因為變量的內容需要被調研者自行錄入,所以值標簽不需要設置。度量標準一般為名義類型。
(2)半開放問題的變量設計
半開放題指有選項,并且最后一個是開放性的選項,
例如:你的職業是(A、教師,B、學生,C、其他,——)
這一類題目在錄入時可以用兩個變量對其進行定義,在第一個變量中,“其他,——”為選項之一;第二個變量將“其他,——”的具體內容看做一個獨立的開放題,按照開放題的錄入方式進行數據錄入,沒有選擇該選項的數據作為缺失值處理。
(3)單選題的變量設定
單選題的數據錄入只需要設置一個變量,然后將變量的標簽值設置為每一個選項。
例如:你所在的城市是(A.成都、B.重慶、C.昆明)。
這里我們對于選項的編輯上,為了方便我們后期的數據的錄入一般會對數據進行編輯,比如1代表成都,2代表重慶,3代表昆明,這樣就可以錄入到數據視圖里面。單選題的錄入有三種方式,但是為了方便問卷后期的計算,一般我們采用數值代碼+值標簽的形式。
(4)多選題的變量設定
多選題是調查問卷中極為常見的一種問題類型。多選題的答案至少為兩項,選出的結果不同當然這就需要設置多個變量來存儲答案,多選題的變量設定方法有兩種,多重二分法和多重分類法
第一種方法多重二分法適用于不限定最多選項數量的問題。多重二分法是把多選題的每一個選項的選擇是否都進行記錄,所以變量的數量與選項數量相等。如:你有貸款嘛?(A.車貸、B.房貸、C、其它貸款)這時候可以把這個問題拆分成三個問題,你有車貸嗎?(是 否)你有房貸嗎?(是 否)你有其他貸款嗎?(是 否)。然后設置三個變量來存儲調研的答案。
第二種方法多重分類法適用于選項多,但有最多選項數量限制的問題,例如一個有8個選項的多選題,要求最多選兩項。針對這類問題就可以采用多重分類法來設置變量。變量的數量與最多選擇選項數量相等的變量相同,一個變量錄入一個答案即可。若變量數大于選項數,對缺少的選項對應的變量采用空值處理。
三、在數據視圖里面錄入調研獲得的數據
在SPSS錄入變量的時候,對于值標簽的設定是很有必要的。標簽量和值的設定下我們可以更好地去錄入數據,可以減少對于文字的編輯量。還可以采用Excle文件來采集數據,然后復制粘貼到SPSS中,降低錄入數據的難度。
四、設置驗證條件
檢驗錄入數據是否符合業務規則,查找出不合規的數據。首先需要設置變量驗證規則,驗證規則分為單變量驗證規則和多變量交叉驗證規則。單變量驗證規則可以設置錄入數據的值范圍或值列表。例如:年齡數據的錄入范圍可以設定為最大值100,最小值0。多變量交叉驗證規則是用來約束變量之間的關系,例如在多選題的多個變量中,不能出現重復值。
檢查異常值(重復值、空值)對于異常值和極端值,最好的方法通過頻數表來觀察有無異常值,但是這樣過于繁瑣不便于很快的找出是哪一條記錄的問題,最簡單的方法是選擇根據自己的需要選擇變量進行排序,這樣就可以更好的看出哪一條數據出現了問題,也可以快速的對于這條記錄進行修改。
五、數據錄入格式的規則
(1)每一個個案在不同的記錄中出現,即每一個個案的數據應該占據一行。
(2)每一個測量指標/影響因數只能占據一列的位置,即同一個指標的測量數據應當錄入到
同一個變量中去。
六、變量視圖的幾種情況
(1)認識變量視圖
名稱:代表這個變量的代號
類型:數值型:是用0——9的數字和其他的特殊的符號組成的類型。字符型:字符型數據以字符串方式存儲,不能做四則運算,但可以拆分、合并、檢索等操作。日期型:日期型數據用來存儲日期和時間。
測量尺度:統計分析中只有變量的存儲類型是不夠的,很多時候不能說明變量的一些特征,這時候就需要有測量尺度。名義尺度是按照事物的某種屬性對其進行分類或分組,變量的取值僅代表類別差異,不能比較各類大小。有序尺度是對事物之間等級或順序的差別的一種測量,可以比較優劣或排序。定距尺度是對事物類別或次序之間間距的測量。定比尺度是能夠測算兩個測度值之間的比值的一種計量尺度。等距尺度和定比尺度統稱為“標度”。
標簽:可以對變量含義進行詳細說明
值:可以對變量的取值的含義加以說明。
缺失值:用于設定自定義缺失值,主要用于問卷數據
參考文獻
[1]張文彤,鄺春偉著 《SPSS統計分析基礎教程》第2版
[2]方穎《利用SPSS軟件處理臨床治療率》[J]《醫學理論與實踐》2011
作者簡介:白高洪(1996.09-)男,研究方向:數據營銷;楊鵬程(1997.06)男,研究方向:數據營銷;島寧(1978.05-)女,講師,研究方向:數據營銷。