摘 要:文章首先概述了當前網絡調研的現狀,接著引入K均值和基于模型的EM聚類方法來分析網絡調研數據,進而研究了影響網絡調研聚類分析的各種因素,最后通過引入案例進一步解釋同一數據應用兩種方法得到不同分析結果的原因。
關鍵詞:網絡調研 K均值 期望最大化 聚類
中圖分類號:F062.5文獻標識碼:A
文章編號:1004-4914(2008)11-066-02
一、引言
隨著互聯網技術的發展和上網用戶的迅速增加,網絡調研成為企業決策的一種重要工具。
二、網絡調研的現狀
網絡調研是利用互聯網發掘和了解顧客需要、市場機會、競爭對手、行業潮流、分銷渠道等方面的情況。其特點有:及時性,共享性,互動性,成本低,隱匿性好。它是一項富于實踐的研究,國內外開展網絡調研的公司和研究機構為數眾多,大多數是自助式網絡調研平臺,例如,業內最著名的SurveyMonkey是國外一家專業網絡調研公司,它擁有大量的問卷樣本庫,客戶可以根據需要選擇所需樣本庫,設置題型、數據格式和范圍等。類似國內有艾瑞調研網,100調查網等,數據分析大多使用一般統計方法,很少考慮調研數據的特點,難以提供更高級的數據挖掘分析和知識發現等解決方案。
三、網絡調研中應用的聚類方法研究
聚類分析是數據挖掘中一個活躍的研究領域,分析算法分為劃分方法、層次方法、基于密度方法、基于網格方法和基于模型方法。網絡調研常用的方法是K均值方法和基于模型的EM方法。
1.K均值方法。K均值(K-means)是基于原型的聚類技術創建對象的單層劃分,K均值算法以距離值的均值對聚類成員進行分配,通常K均值聚類用于n維連續空間中的對象。K均值的算法表示為:首先從n個數據對象任意選擇k個對象作為初始聚類中心;而對于其它對象,則根據它們與這些聚類中心的相似度(距離),分別將它們分配給與其最相似的(聚類中心所代表的)聚類;然后再計算每個所獲新聚類的聚類中心(該聚類中所有對象的均值);不斷重復這一過程直到標準測度函數開始收斂為止。一般都采用均方差作為標準測度函數。K均值方法被認為是硬聚類(hard clustering),因為每一個對象只能被分配到一個聚類,聚類間不連接,也不相互重疊。
K均值法在網絡調研中可以處理數字數據和文檔數據。聚類目標通常用一個目標函數表示,該函數依賴與點之間或點到聚類中心的臨近型。對于數字數據,可以選用歐幾里德和曼哈頓距離以及切比雪夫距離作為度量聚類質量的目標函數。它的思想是計算每個數據點到最近的聚類中心的度量距離,再計算已選度量的誤差平方和(SE)。如式:1
其中,ci是第i個聚類,x是ci中的點,ci是第i個聚類的均值,distance是度量距離。
對第K個聚類中心對均值Ck求導,令導數等于0,便可以得到SE最小值時的最佳聚類中心。接著重新計算聚類中心,進一步最小化SE。反復此過程直到聚類中心不發生變化,即得到最優聚類。
對于文檔數據則考慮文檔數據的余弦相似性度量。最大化聚類中文檔與聚類中心的相似性,也可以通過對均值Ck求導等于零來證明聚類凝聚度(TC)的最佳聚類中心。
2.基于模型的EM方法。基于模型EM方法使用若干統計分布對數據進行建模,假定有K個分布和m個對象X={x1,…,xm}。設第j個分布的參數為θj,θ={θ1,..,θj}。則prob(xi|θj)是第i個對象來自第j個分布的概率。選取第j個分布產生一個對象的概率由權值wj(1≤j≤k)給定,其中權值(概率)受限于其和為1的約束,即∑jk=1wj=1??紤]到調研的對象是獨立的方式產生,因此,整個對象集的概率是每個個體對象xi概率的乘積,
3式中,每個分布描述一個不同的聚類,使用期望最大化(EM)算法來估計模型參數。EM算法表示為:給定參數值的一個猜測,EM算法計算每個點屬于每個分布的概率,然后使用這些概率,計算參數的新的估計,該迭代繼續到參數的估計不再改變為止。EM算法通過度量某對象的概率來決定該對象屬于哪一個聚類,這種技術被稱為軟聚類(soft clustering),它允許聚類之間重疊,允許模糊的邊界。
基于模型方法的優點在于它可以使用各種類型的分布,提供一種消除與數據相關聯的復雜性方法。但是基于模型方法需要處理和簡化數據,它不能處理具有大量分量的模型,聚類中的數據點過少以及含有噪聲和離群點也不能很好的處理。因此,在網絡問卷分析時使用基于模型的方法需要手工或者計算機處理缺失點和異常點。
四、影響網絡調研聚類分析的因素
網絡調研的聚類分析涉及數學、計算機學、經濟學、營銷學、管理學、統計學等眾多學科,影響它的因素主要有:
1.調研目的與對象的確立。內容簡單的調研往往不需要復雜的分析;而復雜的調研一般需要進行深入的數據分析,因此,調研目的和對象的確立會影響問卷的設置,以及數據分析的任務和復雜度。
2.調研問卷題目的設計。網絡調研題目設計必須具體、表述清楚、重點突出、整體結構好。借助程序可以設置題目間的邏輯性和檢查答案,根據用戶選擇,程序自動判斷所需做答的題目,大大簡化了數據預處理階段的工作量并加強了數據的可靠性。
3.數據庫的選擇和架構。網絡調研必須以數據庫為依托,數據庫設計必須滿足范式要求,所有題目信息和做答情況存放于后臺數據庫中,呈現的問卷則是一個負責與用戶交互的前臺頁面,這樣即使問卷發生改動也不會影響后期數據分析。問卷簡單,投放量小,數據分析時效強時,選擇小型數據庫如Microsoft access。問卷復雜,數據投放量大,數據分析力求準確,需要一定的數據挖掘功能,選擇中大型如Microsoft SQL Server較為合適。
4.數據和數據處理。描述數據對象的屬性可以是定量或定性,數據的類型決定使用何種工具和技術來分析數據。通過計算機程序設計錯誤檢測及選項間的邏輯聯系,限制不符合規范和邏輯的數據向數據庫提交。
5.聚類分析算法和軟件的選用。首先聚類結果要明確就需分離度很好(well-separated)的數據。如果聚類是擴散且互相滲透,那么每種算法結果不同,界定邊界不清。其次,大多數聚類方法分析的僅是簡單的一對一的關系。因為成對的線性比較,減少了表達類型關系的計算量。因此,不同的聚類應該選擇與之適用的方法和軟件。
6.分析人員的專業能力。鑒于聚類分析的跨學科性、復雜性以及結果解釋的困難性,分析人員必須具備豐富的分析經驗和對所分析的實際問題有著深入的了解。
五、案例研究
1.背景介紹。此次調研是為某一網絡調研公司設計的樣本庫,調研對象為涵蓋各年齡段各收入段以及各地區不同行業的中國網民,使用Visual C#.net語言進行開發,選用SQL Server2005為核心數據庫。通過EDM方式投放問卷約為35000份,問卷回饋約3800份,其中注冊用戶約2100多份。
2.數據庫架構。數據庫設計符合第三范式設計模式,設計數據表包括問卷編號表(Questionnaire),問卷類型表(QuestionType),問題表(Question),矩陣列表(RecColumn),矩陣行表(RecRow),邏輯跳轉表(QuestionJump),用戶表(Users)以及問卷回答表(Answers)。
3.程序處理數據的三個階段。C#程序對數據的預處理分三個階段。第一階段通過與前臺Javascript配合,預先設置好題目選項間的邏輯檢查并且屏蔽提交不符合題目要求的數據。第二階段程序自動將異常數據和缺失數據使用0代替。第三階段使用C#中的OLE DB驅動提供的SQL語句可以設置條件查詢數據庫,篩選出符合條件的數據。通過程序三階段處理,可以較好地保證數據質量,為數據分析提供較完美的數據。
4.K均值聚類分析。基于K均值的算法對問卷中的職業和所購買的手機品牌進行分析,C#程序首先預處理沒有手機的人,再導出數據到SAS軟件,使用fastclus K均值方法編程(結果略)。
5.基于模型EM算法聚類分析??梢允褂梦④汚nalysis Service(AS)的EM算法對上例進行聚類分析。聚類分析在AS中是為數據挖掘的一種方法,其步驟如下: (1)建立數據源和挖掘項目。數據源為網絡調研的數據庫,挖掘項目為Analysis Service項目。(2)設計數據源視圖。提交到數據的答案統一記錄在Answers表中,因此,必須在數據庫里建立視圖。(3)創建挖掘結構和EM聚類模型。挖掘結構和模型建立可以使用向導方式也可以使用數據挖掘查詢語言進行建立(DMX)。
聚類分析和預測。聚類分析可以查看數據統計圖、分類關系圖、分類剖面圖、分類特征和分類對比也可以進行聚類模型預測等。
6.兩種方法的結果分析和比較。SAS軟件K均值算法將使用手機品牌的職業人分為5類,用回歸分析法對分類結果描述為:學生傾向于喜歡比較便宜、物美價廉的手機;私營企業管理人員、專業人員和私營企業一般職員喜歡有品牌價值、不是很看重價格的諾基亞、聯想和三星等手機;在各類人群當中相比較而言,學生和私營企業一般職員也會選擇另類的一些其他牌子手機。
而基于模型的EM分析法AS默認選擇分為10類,根據類別密度和緊密聯系度合并為5類。按數量大小從左排列顯示第10個分類比例分布平滑,各種品牌的手機都有人購買,這類被看作普通手機使用者,不太關注品牌。第5類學生和其他人員比例占絕對比例,而手機中三星、摩托、索愛和其他雜牌比例占大多數,這類人群可以解釋為,以學生為主收入有限的群體,喜歡知名的時尚型但價格便宜的手機。第9類說明中下等工薪階級重視品牌也重視價格。AS類關系圖顯示第7,8,4,2,9類關系緊密,說明中上等收入層次和一部分學生可以看作有較高收入的人群,選擇主要為諾基亞品牌價值和質量較好的機型。第6類,進口手機占壓倒性優勢且品牌比例均勻,使用者分布也較均勻,各行業都有忠實者,可以解釋市場上進口手機比國產手機更受歡迎。
K均值分析法聚類明確,聚類之間不相互連接,也不相互重疊,分析效率較高,容易分析,但是可能會導致分類之間缺乏一定的聯系,進而隱藏分類間的潛在關系。EM分類沒有固定的邊界,聚類之間有概率重疊,因此,分析時需要對分析領域有豐富的經驗,同時需要耗費較高的系統資源和時間。就網絡調研的數據特點,使用基于EM模型分析的效果更好。
六、結語
本文以網絡調研為研究對象,研究了與之適用的聚類分析K均值方法與基于模型的EM方法,通過案例,構建了利于數據分析的網絡調研系統,建立了調研數據庫,并使用SAS軟件的K均值方法和SA軟件的基于模型EM方法對調研數據庫中數據進行聚類分析,解釋了兩種方法不同的分析結果。
本文下一步的研究重點是進一步整合各種分析方法,建立一個能夠根據不同題目類型和要求自動應用分析方法的智能調研系統,從而達到真正意義上的智能數據挖掘和知識發現水平。
參考文獻:
1.鐘學云.電子商務時代對網絡調研的研究.經濟管理論壇.中國科技信息,2006(3)
2.鄭宇軍,杜家興.SQL Server2005Visual C#專業開發精解[M].北京:清華大學出版社,2007
(作者單位:上海大學國際工商與管理學院 上海 200444)
(責編:賈偉)