張孟琛
北京航空航天大學 北京學院,北京,100191
數據挖掘技術是國際上信息決策領域的前沿研究方向之一,其通過對海量數據進行深入分析發現并提取其中隱藏的有價值的信息,來滿足人們對搜集數據和信息的需求需要。當前已經有大量數據庫用于政府辦公、商業管理、科研探究、工程開發等多個領域,其中游戲開發產業作為日漸增長的朝陽產業,日新月異的方向變動成了各開發者團隊的關注點,如何處理愈發復雜的數據成了重中之重。
針對互聯網多平臺發行的游戲行業發展特點,數據挖掘技術帶來的營業數據庫信息實時匯總與處理為運營管理提供了極大的方便,也為游戲行業信息化的進一步提升提供了有力的支撐。利用數據挖掘技術對大量玩家受眾信息進行細致深入的分析,使得尋找目標消費者和相關商品推薦成為可能,幫助運營部門創造出更多的經濟與社會價值,制定并實施更加有效的商品銷售策略。同時在游戲發行后,如何使用數據挖掘技術收集并分析玩家反饋,對游戲的優化迭代也有著積極作用。
隨著數據挖掘的重要性的不斷提升,這個詞語與相關技術漸漸走進了人們的視野。這項技術的核心是采用多種統計學、機器學習的數理技術方法,在諸如SPSS等數據挖掘類軟件的操作下從大量隨機的數據中挖掘并分析出有潛在應用場景的、有實用價值的數據模式。操作所得到的數據信息往往能夠反映開發商所需要的訴求,能在不同的數據變量中找出關聯和時序等關系,從而生成一張數據庫中隱藏的關聯網。這類數據信息能幫助企業和商家回答在決策過程中重要的商業問題,比如最有價值的玩家群體是哪些、公司明年的營收前景如何等問題。這些問題促進了數據挖掘技術的發展,以便更高效地去分析收集到的數據集[1]。
隨著數據挖掘技術的進一步發展,數據挖掘為越來越多的游戲運營部門管理者所重視,逐步成為發行管理者研究分析玩家行為特征的工具。其中關聯分析和決策樹作為數據挖掘中兩個重要的研究和分類方法,筆者將在下文中做詳細介紹。
關聯分析可以理解為如果有離散的點之間存在規律性,則將其進行連接以組成線和網,為決策者提供更直觀的指導條件。關聯分析中的關聯規則為兩個項集中的蘊涵表達式,項集與項集之間組合可以產生很多規則,但不是每個規則都有用,因此也需要一些限定條件來幫助我們找到強度高的規則。
決策樹方法可通過逼近離散函數值的方式對數據進行高效處理與分類,主要分為構造和剪枝兩個階段。構造時將離散的數據搭建關聯與時序等關系生成可讀的決策樹,以此對處理后的數據進行統計與分析。從本質上來說,決策樹可通過一系列規則對數據進行統計與分類,在決策者已經明確了各個情況發生的概率后(也即對已有數據進行處理后),來對項目風險進行評估。正如同生活中要做的諸多選擇一樣,決策樹也是通過建立模型來為自身添加根節點與子節點,從而構造所有的情況。在條件過多時還需要對其進行剪枝,避免過擬合與久擬合的訓練現象發生,但要保證損失函數不能過高。利用構建完善的決策樹可以實現更高效更全面的決策行為。
如同游戲開發需要經歷立項、實施和結項三個階段,一個完整的數據挖掘操作也需經過準備數據(準備與處理)、尋找數據規律(統計與關聯)和規律表示(呈現數據挖掘結果)三個階段。在準備數據階段,操作者需要整理源數據集,并從相關的大量數據中選取所需并將其整合處理為可用于數據挖掘的部分,通過多種方式發現其中的關聯或規律,再處理得到完整的數據集,將結果針對結果和目標可視化地展現,以進行評估和總結。
在進行數據挖掘時,首先應確認進行挖掘的目的和期望的關聯規則,以在源目標集中進行數據的準備,通過軟件進行系統的預處理,并把不合法的數據類型進行轉換和統一,就得到了可用于數據挖掘的原始數據集。
在數據的選取階段,操作者需要對目標主體和市場有透徹的理解以及大致的挖掘結果期望,也即在選取之初就對結果有大致的預期,理解挖掘的過程與選擇的參數變量。接著挑選出與模型契合的數據,并根據挖掘需要進行進一步的篩選與預處理。預處理階段即利用軟件對數據進行進一步處理,如統一不同數據的數據類型,或對噪點進行處理等,可以理解為將一個場景內所有離散的點經過插值和處理轉換為一張規則的網狀系統,每一個數值都可以參與到運算,確保所有變量都可以參與到后面的挖掘過程中。
在數據挖掘的最后一步,操作者需要建立一個適合挖掘算法的分析模型,并將所有經過處理的數據進行導入,通過模型以進行挖掘和后續操作,至此即完成了數據準備部分的全部工作。
在模型建立完畢后,此時操作者已經對結果有了大致的預期,接下來就要確定挖掘算法與挖掘后的知識類型。常見的算法有決策樹方法、數據統計方法、關聯規則等[2],文中會對部分算法進行詳細介紹,同時還要進行數據規約,對數據進行降維操作。其基本操作是刪除列、刪除行、刪除列中值的數量;規約完畢后檢查模型未使用過的數據,通過代入開發環境復回過程以檢驗模型是否存在錯誤和紕漏,無誤即可記錄挖掘結果與相關的數據信息。
規律是面向決策者最直觀的結果呈現,需要盡可能完善地對挖掘結果進行統計與展示。因此需要檢查有無與規則相悖的數據、與當前結果無任何關聯的信息等。若規則與預期相差過多,則需再次選擇數據進行準備,重新進行數據挖掘。另外由于數據挖掘是最終要面向用戶的,應該以讓決策者更容易理解的形式將得到的挖掘結果表現出來,根據結果來制定并調整后續的策略,以供用戶所用。
綜上所述,在數據挖掘的三個步驟中,發掘規律的過程是持續迭代和往復的,在保證模型的準確性和合理性上才能得出正確的信息,再在此類信息的基礎上進行決策和更精準的進展策劃,以規劃出最精確合理的戰略。
下面以國內一些已發行的獨立游戲為例進行研究,希望能通過這一實例說明數據挖掘技術在游戲產業的具體應用過程,同時也說明該技術在游戲產業的有效性和實用性。
這個實例研究的目標是幫助獨立游戲行業的策劃者及運營者在立項時準確尋找目標受眾玩家,并以此為基礎幫助項目經理制定切實可行的開發計劃和營銷戰略。
為了準確制定用戶畫像,首先需要對目前市場中大部分同類別同機制游戲的目標受眾群體進行研究,并結合相同機制進行分析預測。以PC端第一人稱視角獨立游戲為例(圖1),選擇國內端游市場的10款PC端第一人稱視角獨立游戲的玩家反饋信息作為數據來源。同時為了盡可能減少因不同平臺發行造成的影響,筆者選擇的10款PC端游的數據均從一個平臺中獲得,并從社區玩家反饋中精心挑選出200位玩家,對其在平臺上的玩家信息與游玩詳情進行了具體的調查統計。主要考察了玩家個人資料數據(年齡、性別、總游戲時長等)、玩家的行為數據(游玩游戲的類型、對調查游戲的游戲時長、游戲方式、支付方式)、玩家的心理或態度數據(玩家對游戲劇情、內購商品定價、活動運營的滿意度)。值得注意的是,筆者基于國內某企業游戲運營課程中的層次分析法進行分析,所選擇的數據均是基于對游戲行業本身全面了解之上的。比如本次數據準備所考察的玩家群體是對游戲本身提供的某些服務的滿意度數據進行整合后挑選的。此外由于玩家滿意度數據無法從個人信息數據庫中得到,因此又通過前往該玩家的游戲社區查看評論這一有效方式對建模數據進行了確認和完善。
對收集的信息進行整理后,筆者對信息中的數據進行了消噪處理,并對數據類型不統一信息的進行了轉換。其中主要是把一些玩家個人信息中的屬性數據轉化為了更加易于處理的整型數字,比如把玩家對各項游戲內容指標的滿意度屬性均轉化為非常不滿意(0)、比較不滿意(1)、一般(2)、比較滿意(3)、非常滿意(4);將玩家的游戲時長數據轉換為10小時以下(0)、10~20小時(1)、20~30小時(2)、30~40小時(3)、40~50小時(4)、50小時以上(5);將玩家的性別數據轉換為男性玩家(0)、女性玩家(1)。
綜合上述多種因素,筆者在眾多數據挖掘技術中選擇了易于理解生成規則的決策樹算法與關聯分析[2],將各選定樣例游戲逐個作為數據集進行處理。接下來就是使用數據挖掘工具Clementine進行挖掘,在對所有模型進行統一處理后,共計挖掘出十余條規則。在這些規則中部分規則是顯而易見的,如一款槍戰射擊類游戲的核心用戶畫像與盈利方式,開發經驗豐富的游戲策劃在進行立項時就已經確定;而部分規則是不可知且具有指導意義的,對策劃及運營在進行立項工作時有很好的參照作用[3]。
比如對于上述十款PC端游的綜合數據,使用Clementine軟件及其他工具,從性別與游戲市場兩個維度挖掘出了如圖1所示的有關玩家進行此品類游戲的相關規律:年齡在18歲以下的男性玩家平均游戲時長接近20小時,而18~28歲之間的男性玩家為主要受眾,平均游戲時長在45小時以上;年齡在28~40歲之間的男性玩家的平均時長在30小時左右;40歲以上的男性玩家平均時長在10小時以內。年齡在18~28歲之間的女性玩家平均游戲時長在10~20小時之間,其他年齡段的女性玩家則很少游玩該品類的游戲。

圖1 第一人稱射擊類游戲玩家受眾分析
上述統計數據表明:對于研發PC端第一人稱視角獨立游戲的開發商而言,在立項選擇目標用戶群體的過程中,應明確主要的受眾是18~28歲之間的男性玩家,而18歲以下以及28~40歲的男性玩家與18~28歲的女性玩家可作為次要受眾,因此,可以通過更多數據挖掘維度對該受眾群體的喜好、支付方式和游玩設備進行分析,針對該用戶群體制定相應的廣告宣傳和營銷策略,并采取有針對性的游戲活動和返利措施以培養其玩家黏性。而對于其他階段潛在的用戶群體,也應推廣一些相應活動提高游戲的普及度,讓這一類別的用戶群體也能夠加入到該游戲的玩家群體之中。
綜上所述,在游戲立項階段對用戶受眾的分析對后續產品研發有重要的指導作用。而在游戲發行后,發行商仍然需要長期持續對玩家的受眾信息和游戲體驗進行數據挖掘,定期分析玩家的反饋與游玩體驗以保持對玩家群體訴求的了解,從而制定正確的經營戰略并設計后續的游戲內容產出。
在游戲立項時,對主流市場的需求調研以及主題確立是奠定一款游戲發展路線的重中之重。中國有一句古話“凡事預則立,不預則廢”。經過上述系統調研,可以明顯看出數據挖掘對玩家用戶畫像定位的幫助,并可根據更加清晰的類別受眾統計來深度挖掘核心消費以及潛在的消費需求,并與業務、市場等部門討論了解最終目標與需求。
在數據挖掘的諸多環節中,筆者認為最重要的就是數據的采集。保證收集的數據質量和范圍都足夠完善,并對數據進行完善的描述及處理。隨著時代的發展和變化,游戲數據的關注方向也在發生著變化,例如十年前的游戲大多關注的是PCU(最大在線人數),而當今則更關注游戲玩家的活躍用戶數[4]。找到正確恰當的數據并對其進行處理,才能得到更好的模型結果。
同時本文中所展示的數據挖掘方法只是在立項初期對用戶畫像確定的一個案例,對于一款正式面向社會的游戲,數據的挖掘還不僅僅體現在初期的需求分析之中,發布后對游戲的維護、減少玩家流失、資源規劃把控等步驟都需要數據挖掘來明確項目的發展方向與查漏補缺,以向玩家達成更好的呈現方式,為運營帶來更多幫助與參考。
本文講述了數據挖掘在游戲行業的具體應用。通過上述實例可以了解到,隨著互聯網技術的不斷普及與科學技術的穩步發展,數據挖掘技術對于游戲產業確立目標受眾群體是十分有用的工具,可以幫助游戲開發商及運營策劃制定切實可行的營銷戰略,這也為所有游戲開發商的游戲發行提供了一個良好的思路[5]。
對于開發商而言,上述方法不僅可以確立自己游戲的受眾群體,還可以根據不同平臺選擇最合適的宣發方式,并通過可視化的數據模型預估玩家喜好,塑造最合適的游戲社區模型,為開發者和使用用戶都創造一個更好的平臺及空間。