999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于邏輯回歸的智能手機用戶監(jiān)測數(shù)據(jù)的分析

2024-12-31 00:00:00戴道成于琛洋宋吉昊郭小亮
現(xiàn)代信息科技 2024年8期

摘 要:近年來,隨著數(shù)字化和信息化的快速發(fā)展,越來越多的人開始使用智能手機。文章基于某公司某年連續(xù)21天4萬多位智能手機用戶的監(jiān)測數(shù)據(jù),通過邏輯回歸模型對智能手機用戶的監(jiān)測數(shù)據(jù)進行挖掘和分析,有效地統(tǒng)計和歸納了用戶對于A類APP的使用情況,模型準(zhǔn)確度達到了98.06%,同時對于智能手機APP的開發(fā)和使用提出了相應(yīng)的建議。該研究的數(shù)據(jù)驅(qū)動的分析和決策,有助于精準(zhǔn)了解用戶的行為和需求,可為推薦系統(tǒng)的智能推薦和個性化營銷等提供重要的決策依據(jù),有力地促進了我國智能手機市場的持續(xù)健康發(fā)展。

關(guān)鍵詞:智能手機用戶;APP;監(jiān)測數(shù)據(jù);邏輯回歸

中圖分類號:TP311.1;TN929.53 文獻標(biāo)識碼:A 文章編號:2096-4706(2024)08-0036-04

DOI:10.19850/j.cnki.2096-4706.2024.08.009

0 引 言

近年來,隨著中國創(chuàng)造的不斷崛起,中國智能手機發(fā)展迅猛,成為全球最大的智能手機市場[1]。與此同時,伴隨著在技術(shù)創(chuàng)新、產(chǎn)品質(zhì)量和市場營銷等方面所取得的顯著進步[2,3],智能手機軟件也得到了很好的發(fā)展,就目前來講,智能手機APP涵蓋社交、出行、資訊、購物、理財、娛樂、游戲等方方面面,給人們的生活帶來了極大的便利和豐富的趣味。研究智能手機用戶的監(jiān)測數(shù)據(jù)(包括APP的使用情況、點擊偏好、停留時間等),有助于精準(zhǔn)了解用戶的行為、偏好和需求,從而優(yōu)化產(chǎn)品設(shè)計、改進所需服務(wù)和制定營銷策略,給人們帶來更好的體驗并提升用戶滿意度,進一步促進智能手機市場的繁榮發(fā)展。

1 問題描述

本研究收集了某公司某年連續(xù)21天4萬多位智能手機用戶的監(jiān)測數(shù)據(jù)[4,5],共包含兩個數(shù)據(jù)集:手機使用數(shù)據(jù)和手機類別數(shù)據(jù)。對于手機使用數(shù)據(jù),每天的數(shù)據(jù)為1個txt文件,包含uid、appid、app_type、start_day、start_time、end_day、end_time、duration、up_flow和down_flow十列,其中,uid為用戶的ID,appid為APP的ID,app_type為APP的類型,start_day為使用起始日期,start_time為使用起始時間,end_day為使用結(jié)束日期,end_time為使用結(jié)束時間,duration為使用時長,up_flow為上行流量,down_flow為下行流量。對于手機類別數(shù)據(jù)app_class.csv,其包含appid和app_class兩列,其中,appid依然為APP的ID,app_class為APP的所屬類別,如社交類、影視類、教育類、出行類等,并采用英文字母A-T來表示,共20個常用的所屬類別。

本研究旨在預(yù)測用戶對A類APP的使用情況,通過分析用戶在第1天至第11天對A類APP的使用數(shù)據(jù),來預(yù)測用戶在第12天至第21天是否會繼續(xù)使用該類APP,并且計算預(yù)測結(jié)果與真實結(jié)果相比的準(zhǔn)確率。通過這種方法,更好地理解用戶的行為模式和軌跡趨勢,為手機APP的未來優(yōu)化和市場營銷提供有力的決策依據(jù)和有效建議。

2 問題分析

由于用戶在第12天至第21天是否使用A類APP的結(jié)果只有使用與不使用兩種情況,這是機器學(xué)習(xí)中典型的二分類問題[6]。因此,本研究使用邏輯回歸模型[7]進行問題求解。眾所周知,邏輯回歸是一種用于解決分類問題的有監(jiān)督學(xué)習(xí)算法,其在線性回歸模型的基礎(chǔ)上,通過Sigmoid函數(shù)將回歸結(jié)果轉(zhuǎn)換為0和1兩種類別,在機器學(xué)習(xí)算法中,其包括數(shù)據(jù)預(yù)處理[8]、模型訓(xùn)練、模型評估和模型預(yù)測四個過程[9]。因此在本研究中,第一,對所提供的數(shù)據(jù)進行預(yù)處理,包括重復(fù)值檢測和處理、缺失值檢測和處理、異常值檢測和處理、數(shù)據(jù)離散化等。第二,需要將所提供的第1天至第11天的數(shù)據(jù)和app_class.csv合并為merged_data1,同時將第12天至第21天的數(shù)據(jù)和app_class.csv合并為merged_data2。第三,調(diào)用sklearn庫中的train_test_split函數(shù),將merged_data1劃分為訓(xùn)練集和測試集,并調(diào)用LogisticRegression模型使訓(xùn)練集進行學(xué)習(xí),使用測試集對模型精度進行驗證。第四,使用學(xué)習(xí)后的模型對merged_data2進行預(yù)測,并得到是否使用A類APP的預(yù)測結(jié)果。最后,使用評估分類模型的指標(biāo)(準(zhǔn)確度、精確度、召回率、ROC曲線和混淆矩陣等)對預(yù)測結(jié)果的性能進行評估。具體來說,基于預(yù)測結(jié)果和真實監(jiān)測數(shù)據(jù),使用混淆矩陣得到模型在測試集上的預(yù)測結(jié)果與實際結(jié)果之間的對應(yīng)關(guān)系,并計算預(yù)測結(jié)果和真實結(jié)果相比的準(zhǔn)確率,同時,可以根據(jù)預(yù)測結(jié)果來計算假陽率(FPR)和真陽率(TPR),并將其繪制成ROC曲線圖形進行解讀[10]。

3 模型求解

3.1 數(shù)據(jù)預(yù)處理

首先,將第1天至第11天的智能手機用戶監(jiān)測數(shù)據(jù)進行逐一合并,合并后的數(shù)據(jù)為data1,同時,為每一列添加標(biāo)題uid、appid、app_type、start_day、start_time、end_day、end_time、duration、up_flow和down_flow。其次,將data1數(shù)據(jù)的appid列與app_class數(shù)據(jù)的appid列進行合并,合并后的數(shù)據(jù)為merged_data1。最后,將app_type里面的用戶、usr和sys分別轉(zhuǎn)換成數(shù)字1、1和0。分別剔除start_day、duration、up_flow和down_flow中為0的數(shù)據(jù),并在data數(shù)據(jù)最末處新增app_class和isa兩列,其中app_class與appid一一對應(yīng),isa列用于標(biāo)記用戶是否使用A類APP,如果使用為1,否則為0。具體操作如下:

merged_data1['isa'][merged_data1['app_class']=='a']=1

merged_data1['isa'][merged_data1['app_class']!='a']=0

經(jīng)過以上處理,得到的數(shù)據(jù)如圖1所示。

與之對應(yīng),完成第12天至第21天數(shù)據(jù)和app_class.csv的合并,合并后的數(shù)據(jù)為merged_data2。

3.2 模型建立

在問題分析中已經(jīng)指出,本研究需要通過邏輯回歸模型進行問題求解,即導(dǎo)入sklearn中的LogisticRegression模型。具體操作如下:

from sklearn.linear_model import LogisticRegression as LR

Lr=LR( )

在此之前,需要篩選自變量和因變量,根據(jù)本研究的問題,篩選appid、app_type、duration、up_flow和down_flow五列作為自變量x,isa列作為因變量y。具體操作如下:

x=merged_data1[['appid','app_type','duration','up_flow','down_flow']]

y=merged_data1[['isa']]

接下來,使用train_test_split函數(shù)生成訓(xùn)練集和測試集。具體操作如下:

x_train,x_test,y_train,y_test=train_test_split(x,y,train_size=0.8)

然后,通過fit方法擬合訓(xùn)練集數(shù)據(jù),并通過score方法對測試集數(shù)據(jù)進行打分。具體操作如下:

lr.fit(x_train,y_train)

lr.score(x_test,y_test)

最后,使用訓(xùn)練后模型的predict方法對merged_data2數(shù)據(jù)中的待預(yù)測數(shù)據(jù)test_x進行預(yù)測,并得到預(yù)測結(jié)果pre_y。具體操作如下:

test_x=merged_data2[['appid','app_type','duration',

'up_flow', 'down_flow']]

pre_y=lr.predict(test_x)

3.3 模型評估

首先,介紹常見的評估指標(biāo)。

TP(True Positive):預(yù)測為1,實際為1,預(yù)測正確。

FP(False Positive):預(yù)測為1,實際為0,預(yù)測錯誤。

FN(False Negative):預(yù)測為0,實際為1,預(yù)測錯誤。

TN(True Negative):預(yù)測為0,實際為0,預(yù)測正確。

同時,基于TP、FP、FN和TN得到混淆矩陣,如表1所示。

根據(jù)混淆矩陣得到評價分類模型的指標(biāo)如下:

1)準(zhǔn)確率(Accuracy):預(yù)測正確的結(jié)果占總樣本的百分比,計算式為:

(1)

2)召回率(Precision):在實際為正的樣本中被預(yù)測為正樣本的概率,計算式為:

(2)

3)精確率(Recall):在所有預(yù)測為正的樣本中實際為正樣本的概率,計算式為:

(3)

4)F1分?jǐn)?shù)(F1-score):同時考慮精確率和召回率,讓兩者同時達到最高,取得平衡,計算式為:

(4)

根據(jù)預(yù)測結(jié)果pre_y和真實監(jiān)測數(shù)據(jù)即merged_data2中的isa列,使用Python中的sklearn.metrics模塊進行完整的二分類混淆矩陣檢驗。模型評估結(jié)果如圖2所示。

由圖2中的數(shù)據(jù)可知,該模型在總體上表現(xiàn)良好,準(zhǔn)確率高達98%,并且能夠正確分類大部分負類樣本。然而,該模型對正類樣本的分類性能較差,模型無法正確識別正類樣本。為了提高該模型對正類樣本的分類能力,可以嘗試改進模型或解決數(shù)據(jù)不平衡的問題,從而提高模型整體的分類性能。

同時,對pre_y和merged_data2[['isa']]中的0和1進行統(tǒng)計,得到真實檢測數(shù)據(jù)和預(yù)測結(jié)果的混淆矩陣,如表2所示。

由表3可知,準(zhǔn)確度= (27060571 + 0)/(27060571 + 7 + 536517 + 0)×100% = 98.06%,即模型的準(zhǔn)確率為98.06%,模型的預(yù)測結(jié)果較好。

最后,計算假陽率(FPR)和真陽率(TPR)并繪制其ROC曲線,如圖3所示。

由圖3可知,模型的ROC曲線接近于1,且AUC值為0.98,可見模型的泛化能力較好。

4 結(jié) 論

本研究以某公司某年連續(xù)21天4萬多位智能手機用戶的監(jiān)測數(shù)據(jù)為研究對象,通過用戶已有的APP使用記錄預(yù)測用戶未來的APP使用情況。具體來講,通過用戶第1天至第11天對A類APP的使用記錄數(shù)據(jù),預(yù)測用戶在第12天至第21天是否使用A類APP。由于是否使用A類APP只有使用與不使用兩種情況,是一個典型的二分類問題。因此,本研究選用機器學(xué)習(xí)中的邏輯回歸模型,篩選用戶在第1天至第11天對A類APP使用記錄中的可量化數(shù)據(jù)進行學(xué)習(xí),并根據(jù)用戶在第12天至第21天的監(jiān)測數(shù)據(jù)對其是否使用A類APP進行預(yù)測。同時,將預(yù)測結(jié)果和真實監(jiān)測數(shù)據(jù)進行比較,通過計算準(zhǔn)確率來評估模型的性能。結(jié)果表明,模型預(yù)測結(jié)果的準(zhǔn)確度高達98.06%。

綜上,對用戶各類APP的使用情況進行精準(zhǔn)的分析和預(yù)測,不僅能夠幫助了解用戶的行為和需求,還能為用戶畫像、推薦系統(tǒng)、個性化營銷等提供決策依據(jù)。這樣的數(shù)據(jù)驅(qū)動決策能夠進一步優(yōu)化用戶體驗和品牌競爭力,推動我國信息產(chǎn)業(yè)的建設(shè)和發(fā)展。另一方面,通過深入挖掘用戶數(shù)據(jù),可以更好地了解用戶的偏好和習(xí)慣,為用戶量身定制個性化的服務(wù)和推薦,提升用戶滿意度和忠誠度。與此同時,有效的數(shù)據(jù)分析和預(yù)測也可以幫助企業(yè)更好地把握市場趨勢,及時調(diào)整產(chǎn)品策略和營銷策略,增強市場競爭力,實現(xiàn)可持續(xù)發(fā)展。

參考文獻:

[1] 朱祖平,婁小亭,張宇航.數(shù)字經(jīng)濟背景下創(chuàng)新驅(qū)動發(fā)展的路徑研究——基于智能手機行業(yè)的實證分析 [J].福州大學(xué)學(xué)報:哲學(xué)社會科學(xué)版,2023,37(3):39-52+170-171.

[2] 王福祥.創(chuàng)新生態(tài)系統(tǒng)視角下華為智能手機技術(shù)創(chuàng)新趕超路徑研究 [D].哈爾濱:哈爾濱理工大學(xué),2021.

[3] 朱健珣.公司智能手機產(chǎn)品精準(zhǔn)營銷策略研究 [D].蘇州:蘇州大學(xué),2022.

[4] 凌寶慧.基于數(shù)據(jù)挖掘技術(shù)的智能手機用戶行為分析 [J].科技信息,2012(36):306.

[5] 劉新帥,林強,曹永春,等.基于智能手機使用數(shù)據(jù)的用戶行為提取與分析 [J].西北民族大學(xué)學(xué)報:自然科學(xué)版,2019,40(3):26-33+43.

[6] 代雯月,王玲玲.基于分類技術(shù)的信用評分模型研究 [J].自動化應(yīng)用,2023,64(12):180-183.

[7] 張俠.基于SVM和邏輯回歸的糖尿病數(shù)據(jù)分析與研究 [J].滄州師范學(xué)院學(xué)報,2023,39(1):19-23+84.

[8] 李小聰.基于機器學(xué)習(xí)的數(shù)據(jù)預(yù)處理框架研究 [J].中國信息化,2023(7):67-68.

[9] 阿布,胥嘉幸.機器學(xué)習(xí)之路 [M].北京:電子工業(yè)出版社,2017.

[10] 潘錫龍,陳麗,梁利斯.基于Logistic回歸和ROC曲線評價外周血PCT,CRP,NEU%和PLT水平在血流感染中的聯(lián)合預(yù)測價值 [J].現(xiàn)代檢驗醫(yī)學(xué)雜志,2020,35(6):119-124.

作者簡介:戴道成(1995.08—),男,漢族,陜西西安人,講師,碩士研究生,研究方向:數(shù)據(jù)挖掘和機器學(xué)習(xí);于琛洋(2003.08—),女,漢族,陜西咸陽人,本科在讀,研究方向:數(shù)據(jù)分析;宋吉昊(2003.03—),男,漢族,陜西寶雞人,本科在讀,研究方向:數(shù)據(jù)分析;郭小亮(2007.06—),男,漢族,河南南陽人,本科在讀,研究方向:數(shù)據(jù)分析。

收稿日期:2023-10-16

Analysis of Smartphone User Monitoring Data Based on Logistic Regression

DAI Daocheng, YU Chenyang, SONG Jihao, GUO Xiaoliang

(School of Finance and Data Science, Xi'an Eurasia University, Xi'an 710065, China)

Abstract: In recent years, with the rapid development of digitization and informatization, more and more people have started to use smartphones. This article is based on the monitoring data of over 40000 smartphone users in a certain company for 21 consecutive days in a certain year. By using a logistic regression model to mine and analyze the monitoring data of smartphone users, the usage of Class A apps by users is effectively calculated and summarized. The accuracy of the model reaches 98.06%, and corresponding suggestions are proposed for the development and use of smartphone apps. The data-driven analysis and decision-making in this study contribute to a precise understanding of user behavior and needs, providing important decision-making basis for intelligent recommendations and personalized marketing in recommendation systems, and effectively promoting the sustained and healthy development of China's smartphone market.

Keywords: smartphone user; APP; monitoring data; logistic regression

主站蜘蛛池模板: 亚洲乱强伦| 波多野结衣亚洲一区| 9久久伊人精品综合| 美女被狂躁www在线观看| 凹凸国产分类在线观看| 亚洲男人天堂久久| 四虎国产在线观看| 亚洲人成人无码www| 天堂在线亚洲| 国产精品专区第1页| 无码精品福利一区二区三区| 欧美中文字幕在线二区| 99热这里只有精品免费| 久久青青草原亚洲av无码| 国产精品无码制服丝袜| 国产草草影院18成年视频| 激情影院内射美女| 免费不卡视频| 在线观看国产一区二区三区99| 国产精品jizz在线观看软件| 亚洲综合色在线| 国产SUV精品一区二区| 亚洲国产精品日韩专区AV| 欧美精品在线看| 国产伦精品一区二区三区视频优播| 成人免费一级片| 欧美高清三区| 在线播放精品一区二区啪视频| 国产亚洲精久久久久久无码AV| 亚洲综合色吧| 国产在线八区| 国产精品理论片| 亚洲一区波多野结衣二区三区| 国产中文在线亚洲精品官网| 91丝袜在线观看| 亚洲精品在线观看91| 91久久国产综合精品女同我| 美女一级免费毛片| 女人18毛片一级毛片在线| 午夜少妇精品视频小电影| 欧美国产日韩在线播放| 婷婷六月天激情| 少妇高潮惨叫久久久久久| 亚洲中文字幕在线一区播放| 国产91视频观看| 日韩高清欧美| 伊人91在线| 全部免费毛片免费播放| 国产18页| 在线免费不卡视频| 国产日产欧美精品| 国产三级成人| 亚洲bt欧美bt精品| a天堂视频| 免费中文字幕一级毛片| 国产乱码精品一区二区三区中文 | 911亚洲精品| 玖玖免费视频在线观看| 日本高清免费不卡视频| 中文字幕日韩欧美| 国产高颜值露脸在线观看| 日韩黄色大片免费看| 少妇精品在线| 免费观看无遮挡www的小视频| 天天干天天色综合网| 刘亦菲一区二区在线观看| 国产精品视频a| 日韩无码黄色| 欧美一区二区三区国产精品| 中国一级特黄大片在线观看| 亚洲天堂网2014| 国产成人精品一区二区三在线观看| 人妻丝袜无码视频| 亚洲国产天堂在线观看| 永久免费无码成人网站| 亚洲第一精品福利| 亚洲人成人无码www| 亚洲黄色片免费看| 亚洲三级电影在线播放| 亚洲免费三区| 欧美亚洲另类在线观看| 在线视频精品一区|