999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于自動機器學習的游戲產業簡要分析

2022-09-21 07:55:42周澤先
電腦知識與技術 2022年24期
關鍵詞:游戲用戶模型

周澤先

(吉林大學,吉林長春 130000)

所謂自動化機器學習(AutoML,Automatic machine learning),指的是通過處理已有數據、經過自動調參,針對目標更方便地選擇最優算法,從而省去復雜的工作,極大地促進了機器學習在各個領域的應用。本文旨在通過對電子游戲進行分類和回歸算法,在挖掘電子游戲的用戶評價、媒體評價和市場銷售三者之間聯系的同時,展現不同平臺(EasyDL、Google Cloud、Azure)自動化機器學習的情況。

游戲產業作為當今價值百萬的巨大產業,漸漸成為一股不容小覷的力量。它已經深入人們的生活。根據市場研究機構Newzoo 的報告[1],2021 年游戲產業展現出了驚人的體量,甚至超過了1800億美元,即便在疫情的陰影下,依舊呈現出強勁的發展勢頭。同其他產業一樣,觀眾的偏好是一個影響產品成功的重要因素,而銷量,則是其影響力的重要標志。因此筆者對于游戲產業的分析也圍繞產業和銷量展開。

本文中,筆者準備了三個數據集分別在EasyDL、Google Cloud、Azure三個平臺上進行模型訓練。其中分類訓練使用了兩個數據集。而用于回歸算法的數據集則加入了市場銷售的要素。

1 不同自動機器學習平臺的比較

目前,EasyDL、Google Cloud、Azure 是相對重要的三個自動機器學習平臺。EasyDL 從2019 到2020 年在中國機器學習平臺占據主要份額。而Google Cloud作為國內機器學習市場份額較大且具有自動調參功能的平臺,在國外市場中具有不可或缺的位置。Azure 跟Google Cloud 一樣是基于云處理的機器學習平臺,但與前者運用了完全不同的技術。

EasyDL 采用了遷移學習技術[2],也就是說不重新搭建模型,而是去尋找已有訓練中相似的情況。這樣就大大節約了時間。Azure還用自動混合精度訓練來降低硬件要求。

Azure 平臺上主要應用概率矩陣分解(PMF,Probabilistic Matrix Factorization)和貝葉斯優化技術[3]。實際上是將特征和目標通過矩陣匹配,并用線性組合來描述兩者間的關系。在實驗中發現Azure 對于某些數據集進行回歸,R2 Score 會出現負數,而其他平臺則不會,這或許跟Azure 這種默認線性關系的特點有關。至于貝葉斯優化方法,它在建立概率模型時,參考之前的結果,選出最有可能的超參數,從而大大節省了時間。

Google Cloud AutoML 通過神經網絡搜索模型(NAS,Neural Architecture Search)來探索數據集的特點[4],結合策略梯度加以引導,輔以分布式訓練等方法縮短訓練模型的時間。也就是說,Google Cloud AutoML 不從特征列入手,而從循環神經網絡得出的子網絡開始,這點與Azure 平臺不同。循環神經網絡的特點在于當前結果與之前的結果相關。

2 實驗準備與數據處理

筆者的實驗分別應用分類算法和回歸算法,并根據其算法特點篩選數據。

分類,即根據所給數據,提煉對象的特點,從而使機器能夠判斷新的數據的類別。這里以用戶評分為目標,通過游戲的其他特點來得出一個游戲是否能令用戶滿意。

回歸,指的是通過提煉各個變量之間的聯系并建立模型,從而達到通過所給條件,預測某一特定情形的目的。與分類不同的是,分類得出的結果是一種判斷,即一個對象是什么。而回歸的結果則以真實情況為標準,力求減少模型結果與真實情況的誤差。回歸模型的建立可以幫助預測游戲用戶的滿意程度。在這一過程中,還可以分析游戲評分與各地區銷量、發售平臺和游戲類型的關系。

2.1 分類算法的數據準備

2.1.1 數據來源

對于分類算法,本文準備了兩組數據。分別是評論網站Metacritic上2011年和2019年第八世代游戲機上的電子游戲信息,和2000 年到2021 年所有平臺上電子游戲的信息,記為“數據集1”和“數據集2”。具體包括游戲的基本信息和游戲的整體媒體評分和用戶評分,以及各自正面、負面、中性的打分人數。

兩組數據相比,因為后者時間上范圍更廣,涉及平臺更多,因此數據量更大。另一方面,因為用戶的評論是動態的,所以兩組數據內容上也有所不同。本文設置兩種數據,分別考察數據集不同時的模型情況。

2.1.2 數據預處理和定義特征

首先,為了保證模型準確性,不受其他因素干擾,將原始數據集中的無關信息剔除,最終留下15 個特征。如表1 所示,這些大致可以分為游戲基本信息、媒體評分情況和用戶評分情況三種,分別是:游戲名、發售平臺、開發商、發售日期、游戲類型、游戲分級、玩家數量;媒體評分和好、中、差三種評論數;用戶評分和好、中、差三種評論數。

表1 用于分類的處理后數據集特征列

其次,因為Metacritic 網站上的整體游戲評分從0 到10 不等。為了能使數據符合分類算法離散性的要求,這里將用戶評分這一目標列按其眾數,并結合一般評分習慣劃分為推薦、不推薦、中性三類。筆者注意到,盡管10分制的打分習慣上以5分或6分為分界線,但實際上5分以下的評論,在第一個數據集中只占總評論數的9%,而在第二個數據集占17%。而兩個數據集7.5分均為整體評分的眾數,分別為2858個和1833個。這就說明得到7.5分以上的評分是相對少有的、優秀的作品。因此,這里將7.5分及以上設為“推薦”游戲。由圖1所示,兩組數據的評分集中在6~8分,據此筆者將6分及以下設為“不推薦”。

圖1 數據集1和數據集2的用戶評分比較情況

再次,需要注意的是,原始數據集中存在部分數據缺失,比如某些小眾游戲評論過少因此沒有用戶評分或者媒體評分。由于各大AutoML 平臺均具有數據清洗的功能,且缺失數據占比較小,這里不再進行處理。

2.2 回歸算法的數據準備

2.2.1 數據來源和預處理

對于回歸算法,我們試圖通過電子游戲的媒體評分,結合銷量情況,來預測用戶評分。電子游戲的銷量情況來自網站VGChartz,評分情況來自網站Metacritic。具體來說,銷量分為北美地區、歐洲、日本和其他地區三種情況。而Metacritic 上的數據內容,分類的數據來源部分已經介紹,這里不再贅述。筆者以用戶評分為目標列,具體特征列見表2。

表2 用于回歸算法的數據集3的特征列

時間跨度上,原本筆者打算對2017、2019、2020年的銷量情況進行考察。但在實驗中,筆者發現2019和2020年的實驗結果顯示的關聯性特別弱,EasyDL 平臺的r2 score 分別為0.272 和0.135,而Azure平臺R2 Score小于零(如表3所示),但2017年的數據情況則相對正常。也是說,對于2019和2020年的實驗近乎是無意義實驗。通過對2019和2020的數據集進行分析,筆者發現,兩個數據集中同時具有完整評分情況和銷售情況的電子游戲不超過500個,均不到整體的10%。而2020年符合要求的比2019年更少,這就可以解釋為什么2020年的實驗結果更差。

表3 2019和2020電子游戲評分和銷量數據集實驗結果

因此,筆者決定僅對1976 到2017 的電子游戲媒體評分和銷量情況進行具體考察,記為“數據集3”。同時這也從側面說明,目前的自動機器學習平臺雖然可以接受無監督學習的情況,允許數據集存在部分缺失,但如果要得到較好的實驗結果,仍要求大部分數據集是完整的。從電子游戲市場分析的方面看,近些年部分游戲銷量和評論的缺失,可能說明一個電子游戲的銷售需要數年的積累。或者可以結合獨立游戲和小眾風格越來越多的情況,這些游戲往往缺乏正式的商業的宣傳和媒體的關注。

除此之外,筆者注意到Google Cloud 在回歸算法上對數據要求更嚴格,需要保證目標列不能有缺失。筆者以用戶評分為目標列,因此通過EasyDataTransform來去除原始數據集中用戶評分缺失的列。

2.2.2 模型訓練

在分類算法上,筆者分別將數據集1 和數據集2 在Easy-DL、Google Cloud、Azure三個平臺上運行,并對比不同自動機器學習平臺得出的結果。不同平臺本質上是不同的模型訓練方法。但三者都是先生成數個模型,然后選擇最優的模型。其中Google Cloud 和Azure 平臺會將其他模型的效果也呈現在結果中。回歸算法上,將數據集3也在上述3個平臺進行運行,綜合評價數據結果,并對比不同平臺下的訓練效果。

另外,Azure 平臺需要用戶自己選擇配置,筆者選擇的是4核CPU,28GB內存的機器。

3 實驗結果與模型評估

3.1 評估標準解釋

3.1.1 分類算法的模型評估

分類算法上,筆者通過F1-score、精確率(Precision)、召回率(Recall)和運行時間來評估。

其中,精確率(Precision)指實際上為正占被判定為正的比例。以EasyDL 對于數據集1 的混淆矩陣為例,數值1 表示“推薦”類型的游戲,數值0表示“中性”,數值-1表示“不推薦”。就劃分為“推薦”的電子游戲來說,(1,1)為實際上為正且判定也為正(公式上寫為TP),(1,1)、(0,1)、(-1,1)之和表示被判定為正類(公式上寫為TP+FP)。精確率用來表示對于某一樣本預測的準確程度。

表4 EasyDL對于數據集1生成模型的混淆矩陣

召回率(Recall)指被判定為正占所有實際上是正的比例。同樣以圖2 為例,就劃分為“推薦”的電子游戲來說,(1,1)為TP即實際上為正且判定也為正,(1,1)、(1,0)、(1,-1)之和為所有實際上為正的情況(公式上寫為TP+FN)。召回率表示對某一項判定的全面程度。

F1-score 表示精確率和召回率的調和平均數,其值越高表示模型越好。

運行時間表示訓練開始運行,直到得出最優模型所用的所有時間。

3.1.1 回歸算法的模型評估

回歸算法上,筆者通過平均絕對誤差(MAE)、平均絕對百分比誤差(MAPE)、均方誤差(MSE)和R2 Score來評估模型效果。

平均絕對誤差(MAE)表示預測值減去真實值結果的絕對值,進行累加再除以項數。越接近0,表示模型效果越好。

平均絕對百分比誤差(MAPE)表示預測值減去真實值的結果,除以真實值之后的絕對值,進行累加再除以項數,再乘100%。越接近0越好,超過1則意味著模型極差。

均方誤差(MSE)表示預測值減真實值結果的平方,進行累加再除以項數,與上述相同,值越小越好。

R2 Score 表示自變量能通過回歸關系解釋因變量的程度,通常越接近1越好,當小于0時表示模型選擇不當。

3.2 結果分析

3.2.1 用于分類的實驗

由表5可以看出,以電子游戲基本信息和媒體評分以及正面負面及中性評論數為特征列,可以有效建立將電子游戲分成對于用戶“推薦”“不推薦”和“中性”的模型。其中EasyDL 和Azure的F1-score均在70%以上,而Google Cloud的值均在69%左右。精準率上,三個平臺的結果不相上下,而Google Cloud的召回率略低。訓練時間上看,EasyDL的訓練時間最短,而Azure和Google Cloud 用時依次增加,也就是說基于云處理的自動機器學習速度更慢。另一方面,這也可能與EasyDL 所用的遷移技術和自動混合精度訓練對其速度的提升有關。

表5 分類算法模型結果

具體來看,就數據集1 而言,EasyDL 構建模型時前4 個重要特征是媒體評分、中立媒體評論數、開發商和游戲名。而Azure的前4個重要特征是正面用戶評論數、負面用戶評論數、媒體評分和正面媒體評論數。Google Cloud 前4個重要特征是正面用戶評論數、負面用戶評論數、發布平臺和媒體評分。

至于數據集2,EasyDL 構建模型時前4 個重要特征是媒體評分、多人游戲類型、游戲類型和正面媒體評論數。而Azure的前4 個重要特征是媒體評分、正面媒體評論數、正面用戶評論數和中立用戶評論數。Google Cloud 前4個重要特征是正面用戶評論數、負面用戶評論數、正面媒體評論數和發布平臺,而媒體評分則是其第五個重要特征。

根據以上影響各個模型的重要特征,可以看出媒體評分在兩個數據集各個模型中均發揮重要作用。由此可以推測,用戶評分與媒體評分有一定的關聯性。從大眾社會理論的角度看,這一關聯可以解釋為大眾的觀感相對容易被媒體或少數群體所控制。

3.2.2 用于回歸的實驗

由表6 可以看出,以電子游戲基本信息、媒體評分和全球及各區域銷售情況為列,預測用戶評分情況,可以建立效果一般的模型。三個平臺的R2 Score均略大于0.5,表明此模型效果不差,但并不優秀。其中Google Cloud 的R2 Score 的值最大。另一方面,從表5其他幾項和平均絕對百分比誤差(MAPE)可以看出,模型盡管關聯性較低,但誤差較小。

表6 數據集3分類算法模型結果

結合三個平臺重要特征來看,三個平臺的第一重要特征均是媒體評分。這再次印證了媒體評分與用戶評分的關聯性。至于市場銷量,在EasyDL平臺中,北美銷量、歐洲銷量、日本銷量則分別占據第2至第4重要性。但其他兩個平臺生成的模型中,市場與用戶評分的關聯則微乎其微。在Google Cloud 生成的模型中,北美銷量稍微起到了一定作用。考慮到三個模型中Google Cloud 的模型更好,這說明市場存在與用戶評分的可能性,但關聯不強。

4 結論

總的來說,就數據內容上看,實驗說明電子游戲的用戶評分和媒體評分關聯較大,市場銷量與游戲評分沒有必然聯系。從EasyDL、Google Cloud、Azure 三個自動學習平臺的訓練成果來看,EasyDL的訓練速度整體上更快;Google Cloud對于數據要求更嚴格,在數據較完整的情況下表現較好,更容易受數據缺失影響。從模型的特點上看,Google Cloud和Azure的模型重要特征相似度更高,而EasyDL的模型雖然性能表現較好,但與其他兩種的模型重要特征差別較大。

猜你喜歡
游戲用戶模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
數獨游戲
瘋狂的游戲
飛碟探索(2016年11期)2016-11-14 19:34:47
3D打印中的模型分割與打包
爆笑游戲
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
主站蜘蛛池模板: 色窝窝免费一区二区三区| 制服丝袜国产精品| 在线视频精品一区| 亚洲性色永久网址| 亚洲二区视频| 亚洲人成电影在线播放| 国产免费人成视频网| 综合社区亚洲熟妇p| 久久中文字幕av不卡一区二区| 国内熟女少妇一线天| …亚洲 欧洲 另类 春色| 亚洲中文字幕久久精品无码一区| 亚洲浓毛av| 国产成人精品一区二区三区| 国内熟女少妇一线天| 欧美精品一区二区三区中文字幕| 亚洲精品第一页不卡| 71pao成人国产永久免费视频 | 久久久久久久久久国产精品| 国产精品第一区| 黄色国产在线| 欧美激情第一欧美在线| 露脸一二三区国语对白| 日本在线视频免费| 国产精品成人第一区| 最近最新中文字幕在线第一页| 日韩av电影一区二区三区四区| 日韩精品无码一级毛片免费| 在线看AV天堂| 久久综合色天堂av| 精品三级网站| 99精品视频在线观看免费播放| 久久综合色视频| 99在线视频免费| 久青草免费在线视频| 国产美女无遮挡免费视频| 欧美精品三级在线| 91极品美女高潮叫床在线观看| 成人精品区| 第一区免费在线观看| 国产麻豆精品在线观看| 毛片国产精品完整版| 日本一区二区三区精品AⅤ| 成人在线欧美| 中文字幕伦视频| 一级全免费视频播放| 麻豆精品在线| 老汉色老汉首页a亚洲| 免费av一区二区三区在线| 日本尹人综合香蕉在线观看 | 又黄又湿又爽的视频| 天天色天天综合网| 天天摸夜夜操| 日韩一区精品视频一区二区| 毛片网站在线播放| 永久免费无码日韩视频| 91美女视频在线观看| 亚洲国产欧美目韩成人综合| 国产综合亚洲欧洲区精品无码| 国产免费好大好硬视频| 国产精品欧美在线观看| 国产成人无码播放| 国产欧美专区在线观看| 国内毛片视频| 国产毛片高清一级国语 | 国产91视频观看| 亚洲AⅤ无码国产精品| 亚洲激情区| 爱爱影院18禁免费| 亚洲三级a| 99999久久久久久亚洲| 亚洲伊人久久精品影院| 精品国产aⅴ一区二区三区| 亚洲男人的天堂久久香蕉| 欧美一级大片在线观看| 亚洲天堂视频网站| 国产在线视频导航| 国产人在线成免费视频| 欧美第一页在线| 青草91视频免费观看| 久草性视频| 欧美成人精品高清在线下载|