中圖分類(lèi)號(hào):TP393 文獻(xiàn)標(biāo)志碼:A
0引言
隨著科技的進(jìn)步,AI教育視頻學(xué)習(xí)逐漸成為一種新的學(xué)習(xí)模式。然而,大量AI教育視頻資源引發(fā)的“信息超載”問(wèn)題,讓學(xué)習(xí)者難以快速找到自己所需的視頻,影響學(xué)習(xí)效率與質(zhì)量。因此,如何高效發(fā)現(xiàn)并推薦與之適配的AI教育視頻,做到因材施教,充分挖掘?qū)W生個(gè)性,成為教育教學(xué)中亟待解決的難題。目前,關(guān)于教育資源個(gè)性化推送問(wèn)題,相關(guān)學(xué)者與專(zhuān)家開(kāi)展了一系列研究。
王南提出基于云計(jì)算的推送方法,該方法構(gòu)建基于Hadoop的個(gè)性化推送框架,利用潛在狄利克雷分配模型對(duì)視頻主題分類(lèi),利用基于注意力機(jī)制的卷積神經(jīng)網(wǎng)絡(luò)模型對(duì)視頻主題特征提取,同時(shí)根據(jù)用戶(hù)的歷史瀏覽行為識(shí)別用戶(hù)興趣,生成個(gè)性化推薦列表,實(shí)現(xiàn)視頻推送。但該方法運(yùn)算量較大,導(dǎo)致視頻個(gè)性化推送速率較慢。高宇璇等[2]提出網(wǎng)絡(luò)行為追蹤視域下推送方法,該方法結(jié)合學(xué)生的瀏覽習(xí)慣和偏好,構(gòu)建融媒體信息智能混合推送模型,通過(guò)分析不同時(shí)間段內(nèi)用戶(hù)關(guān)注的信息,提取內(nèi)在關(guān)聯(lián)特征,推送符合用戶(hù)個(gè)性化偏好數(shù)據(jù)信息。但該方法推送精度有待進(jìn)一步提升,推送的視頻用戶(hù)點(diǎn)擊率較低。
盡管上述方法在數(shù)據(jù)個(gè)性化推送方面取得了一定的研究成果,但是仍然存在不足。為此,文章提出基于用戶(hù)屬性的AI教育視頻個(gè)性化推送研究。
1用戶(hù)數(shù)據(jù)獲取
為方便后續(xù)分析用戶(hù)屬性,文章采集與用戶(hù)屬性相關(guān)的數(shù)據(jù)信息。用戶(hù)屬性數(shù)據(jù)分為動(dòng)態(tài)數(shù)據(jù)與靜態(tài)數(shù)據(jù)2種,這2種數(shù)據(jù)共同勾勒出用戶(hù)多維度的屬性集合。靜態(tài)數(shù)據(jù)涵蓋姓名、性別、年齡等基礎(chǔ)信息。這類(lèi)數(shù)據(jù)在用戶(hù)首次注冊(cè)或完善信息時(shí)被采集,數(shù)據(jù)較穩(wěn)定,在較長(zhǎng)時(shí)間內(nèi)不會(huì)因用戶(hù)行為而發(fā)生變動(dòng)。動(dòng)態(tài)數(shù)據(jù)記錄用戶(hù)行為軌跡與交互信息,包括但不限于瀏覽記錄、搜索關(guān)鍵詞、訪問(wèn)時(shí)間等[3]。這些數(shù)據(jù)隨用戶(hù)操作實(shí)時(shí)更新,反映用戶(hù)在使用AI教育服務(wù)過(guò)程中的興趣偏好、瀏覽習(xí)慣及情感傾向。文章對(duì)不同類(lèi)型的用戶(hù)數(shù)據(jù)采用不同的采集方式:教育視頻管理系統(tǒng)經(jīng)接口采集用戶(hù)行為數(shù)據(jù)與基本數(shù)據(jù);教育視頻App通過(guò)接口和數(shù)據(jù)庫(kù)采集基本行為及互動(dòng)數(shù)據(jù);微信公眾平臺(tái)、小程序、教育門(mén)戶(hù)網(wǎng)站分別借助接口與對(duì)應(yīng)后臺(tái)、原始日志采集這3類(lèi)數(shù)據(jù)。
綜上,靜態(tài)數(shù)據(jù)獲取依托于AI教育的門(mén)戶(hù)網(wǎng)站、AI教育管理系統(tǒng)、移動(dòng)AI教育App、微信公眾平臺(tái)等數(shù)字化服務(wù)平臺(tái),經(jīng)系統(tǒng)數(shù)據(jù)整合關(guān)聯(lián)形成完整數(shù)據(jù)集。動(dòng)態(tài)數(shù)據(jù)采集依賴(lài)各數(shù)字化服務(wù)系統(tǒng)4的日志記錄與數(shù)據(jù)分析功能。系統(tǒng)通過(guò)埋點(diǎn)技術(shù)記錄用戶(hù)的操作行為,將這些數(shù)據(jù)上傳至專(zhuān)門(mén)的文件中存儲(chǔ),用于后續(xù)用戶(hù)屬性特征提取。
2用戶(hù)屬性模型構(gòu)建
文章基于采集的用戶(hù)數(shù)據(jù)信息,構(gòu)建用戶(hù)屬性模型,提煉出可量化用戶(hù)興趣屬性特征。在構(gòu)建用戶(hù)屬性模型的過(guò)程中,文章采用“ 1+NX′′ 的邏輯數(shù)據(jù)模型架構(gòu),該框架由用戶(hù)標(biāo)識(shí)和用戶(hù)興趣特征集2個(gè)部分構(gòu)成,以整合用戶(hù)的靜態(tài)屬性與動(dòng)態(tài)行為信息。因此,文章建立的用戶(hù)屬性模型為:
S=l+NX
式中, s 為用戶(hù)屬性模型; l 為用戶(hù)基礎(chǔ)標(biāo)識(shí),包括用戶(hù)姓名等; N 為用戶(hù)AI教育視頻瀏覽興趣,在實(shí)際應(yīng)用中,用戶(hù)的興趣往往呈現(xiàn)出多元化、層次化的特點(diǎn),難以用單一的興趣標(biāo)簽來(lái)概括[5]。因此,文章將用戶(hù)的興趣劃分為科技、娛樂(lè)等多個(gè)類(lèi)別,以便更全面地捕捉用戶(hù)的興趣偏好; X 為各類(lèi)別中用戶(hù)對(duì)AI教育視頻的興趣特征詞,這些特征詞通過(guò)量化計(jì)算用戶(hù)行為數(shù)據(jù)得到,反映用戶(hù)在某一興趣類(lèi)別下的具體關(guān)注點(diǎn)或偏好方向[。文章構(gòu)建的用戶(hù)屬性模型如圖1所示。
圖1用戶(hù)屬性模型

如圖1所示,文章首先對(duì)用戶(hù)行為數(shù)據(jù)進(jìn)行多維度分類(lèi)處理,依據(jù)時(shí)間維度、頻次維度以及行為維度劃分用戶(hù)行為。其次,為了更深入地理解用戶(hù)的個(gè)性化需求,文章采用手動(dòng)歸類(lèi)的方法,根據(jù)用戶(hù)個(gè)性化類(lèi)目中預(yù)先設(shè)定的父子關(guān)系等級(jí)體系,對(duì)用戶(hù)行為數(shù)據(jù)進(jìn)行人工標(biāo)注與歸類(lèi),從而得到用戶(hù)個(gè)性化手動(dòng)歸類(lèi)的特征詞。進(jìn)一步地,在各類(lèi)目下,文章結(jié)合模型學(xué)習(xí)結(jié)果,提取出能夠代表該類(lèi)目特征的特征詞。這些特征詞以文本內(nèi)容為基礎(chǔ),依據(jù)其在分類(lèi)體系中的不同層次,劃分為多個(gè)類(lèi)別。底層特征詞以單個(gè)字為基礎(chǔ),隨著層次提升,逐漸發(fā)展為詞、短語(yǔ)乃至句子。
3權(quán)重估算
通過(guò)計(jì)算用戶(hù)行為序列集等參數(shù),文章進(jìn)一步計(jì)算行為簇內(nèi)的平均相似度和簇間相似度,其公式為:

式中, s(xi,xj) 為用戶(hù)屬性模型中2個(gè)隨機(jī)向量xixj 之間的相似度。文章綜合這些相似度計(jì)算結(jié)果,深入挖掘用戶(hù)的興趣特征詞。這些興趣特征詞與前期通過(guò)用戶(hù)興趣模型學(xué)習(xí)得到的特征詞共同構(gòu)成用戶(hù)興趣特征集 Yc ,這2類(lèi)特征詞均以二元組的形式存在,即每個(gè)特征詞都對(duì)應(yīng)一個(gè)權(quán)重值。其中,用戶(hù)興趣模型學(xué)習(xí)后的特征詞權(quán)重默認(rèn)為1;而用戶(hù)個(gè)性化手動(dòng)歸類(lèi)的特征詞權(quán)重則通過(guò)公式(3)計(jì)算:
式中, σ(t) 為用戶(hù)個(gè)性化手動(dòng)歸類(lèi)的特征詞權(quán)重; e 為經(jīng)驗(yàn)值; y 為特征詞在分類(lèi)體系結(jié)構(gòu)中的相差的層數(shù)。利用權(quán)重反映特征詞在分類(lèi)體系中的相對(duì)重要性。
4AI教育視頻個(gè)性化推送
文章基于以上估算的用戶(hù)屬性權(quán)重,綜合考慮對(duì)象、行為、時(shí)間、內(nèi)容4種關(guān)鍵因素,描繪用戶(hù)的AI教育視頻平臺(tái)上的隨機(jī)行為模式,生成AI教育視頻個(gè)性化推送列表。對(duì)象是區(qū)分不同用戶(hù)的一種重要形式,不同用戶(hù)對(duì)于同一對(duì)象的可信度描述往往存在差異。文章通過(guò)綜合比值描述這種差異,反映用戶(hù)對(duì)于特定對(duì)象的關(guān)注程度或信任度,其公式為:

式中, E 為用戶(hù)對(duì)于特定對(duì)象的關(guān)注程度; m 為用戶(hù)屬性模型中對(duì)象總量。為了量化時(shí)間對(duì)用戶(hù)屬性的影響,文章估算用戶(hù)上網(wǎng)時(shí)間與AI教育視頻瀏覽時(shí)間的比值:

式(5)中, T 為時(shí)間對(duì)用戶(hù)屬性的影響程度; ter 為用戶(hù)上網(wǎng)時(shí)間; twe 為用戶(hù)瀏覽AI教育視頻的時(shí)間。內(nèi)容是用戶(hù)屬性的核心組成部分,也是用戶(hù)隨機(jī)行為的中心。為了量化內(nèi)容對(duì)用戶(hù)興趣的影響,文章利用詞頻-逆文檔頻率(Term Frequency-InverseDocumentFrequency,TF-IDF)算法來(lái)提取內(nèi)容中的關(guān)鍵詞,計(jì)算其最大TF-IDF閾值。該閾值可以反映內(nèi)容在用戶(hù)興趣中的重要性程度。其估算公式為:

式(6)中, D 為內(nèi)容在用戶(hù)興趣中的重要性程度; Ri-end?Ri-stand 分別為AI教育視頻文檔中關(guān)鍵詞i的頻率和逆文檔頻率; Rend?Rstand 分別為關(guān)鍵詞 i 在用戶(hù)屬性模型中的頻率和逆文檔頻率。行為是用戶(hù)對(duì)AI教育視頻的具體操作,如收藏、瀏覽、點(diǎn)贊等。不同的隨機(jī)行為往往對(duì)應(yīng)著不同的權(quán)重,反映用戶(hù)對(duì)內(nèi)容的興趣程度或參與度。利用公式(7)量化這種差異:

式(7)中, K 為用戶(hù)行為對(duì)AI教育視頻個(gè)性化推薦的影響程度; U 為用戶(hù)屬性模型中用戶(hù)行為 Ωn 頻次; Ud 為第 d 種行為的比例。文章通過(guò)以上4個(gè)用戶(hù)屬性模型的影響向量,構(gòu)建AI教育視頻個(gè)性化推送模型,其公式為:
H=σ(t)[f(E+T+D+K)]s
式(8)中, H 為推送的AI教育視頻; f 為衰減因子。文章通過(guò)以上模型輸出推送的AI教育視頻,向用戶(hù)進(jìn)行個(gè)性化推送,實(shí)現(xiàn)基于用戶(hù)屬性的AI教育視頻個(gè)性化推送。
5 實(shí)驗(yàn)論證
為了驗(yàn)證所提的基于用戶(hù)屬性的AI教育視頻個(gè)性化推送方法在實(shí)際場(chǎng)景中的應(yīng)用效果,筆者進(jìn)行以
下實(shí)驗(yàn)。
5.1實(shí)驗(yàn)數(shù)據(jù)
文章實(shí)驗(yàn)使用CourseraAI教育視頻平臺(tái)的公開(kāi)數(shù)據(jù)集GFAAF、JGFAH,其中,GFAAF數(shù)據(jù)集包含151526條行為數(shù)據(jù)、251422條內(nèi)容數(shù)據(jù)、153142條時(shí)間數(shù)據(jù)以及122854條對(duì)象數(shù)據(jù);JGFAH數(shù)據(jù)集則有136254條行為數(shù)據(jù)、284515條內(nèi)容數(shù)據(jù)、165847條時(shí)間數(shù)據(jù)和132594條對(duì)象數(shù)據(jù)。
筆者將以上數(shù)據(jù)作為測(cè)試數(shù)據(jù),實(shí)驗(yàn)中所有數(shù)據(jù)運(yùn)算均在Windows10操作系統(tǒng)、2.8GB內(nèi)存、Inteli8CPU的環(huán)境中進(jìn)行。
5.2 實(shí)驗(yàn)設(shè)計(jì)
筆者利用本文設(shè)計(jì)方法向用戶(hù)進(jìn)行AI教育視頻個(gè)性化推送,實(shí)驗(yàn)設(shè)計(jì)用戶(hù)數(shù)量為1000名,向每個(gè)用戶(hù)推送AI教育視頻一次,通過(guò)公式(1)一(8)完成推送的AI教育視頻服務(wù)。筆者在實(shí)驗(yàn)中設(shè)置2組對(duì)照組,分別為王南提出的基于云計(jì)算的推送方法和高宇璇等[2]提出的網(wǎng)絡(luò)行為追蹤視域下推送方法。方法評(píng)價(jià)指標(biāo)選擇推送時(shí)長(zhǎng)與推送視頻平均點(diǎn)擊率,評(píng)價(jià)3種方法的AI教育視頻個(gè)性化推送速率和精度。
5.3實(shí)驗(yàn)結(jié)果與討論
文章實(shí)驗(yàn)統(tǒng)計(jì)了不同方法在AI教育視頻個(gè)性化推送場(chǎng)景中的時(shí)長(zhǎng),如圖2所示。推送的AI教育視頻用戶(hù)點(diǎn)擊率如圖3所示。
用戶(hù)序號(hào)
圖2不同方法推送視頻時(shí)長(zhǎng)

筆者通過(guò)對(duì)比圖2、圖3可以得出結(jié)論:設(shè)計(jì)方法推送時(shí)長(zhǎng)不超過(guò) 150ms ,比王南的方法快將近30ms ,比高宇璇等2的方法快將近 50ms ,設(shè)計(jì)方法在推送速率方面具有絕對(duì)的優(yōu)勢(shì);設(shè)計(jì)方法推送視頻用戶(hù)點(diǎn)擊率在 90% 以上,遠(yuǎn)高于2種主流方法,說(shuō)明設(shè)計(jì)方法推送的視頻可以滿(mǎn)足用戶(hù)需求,具有良好的可行性與可靠性。
6結(jié)語(yǔ)
為了幫助用戶(hù)更加高效地挖掘出有價(jià)值的AI教育視頻資源,文章將用戶(hù)屬性融合到AI教育視頻個(gè)性化推送中,提出了一種新的推送方法和思路,有效提高了AI教育視頻個(gè)性化推送速率和精度。但隨著用戶(hù)數(shù)量的逐漸上升,用戶(hù)屬性特征的逐漸增加以及對(duì)AI教育視頻個(gè)性化推送精度要求的逐漸增高,大量的錯(cuò)誤推送和非個(gè)性化推送出現(xiàn),因此,未來(lái)筆者將研究AI教育視頻個(gè)性化推送方法優(yōu)化與創(chuàng)新以及海量用戶(hù)屬性數(shù)據(jù)處理技術(shù),以此提升視頻個(gè)性化推送技術(shù)水平。
圖3推送視頻平均點(diǎn)擊率

參考文獻(xiàn)
[1]王南.基于云計(jì)算的短視頻媒體資源個(gè)性化推送方法[J].兵工自動(dòng)化,2024(2):16-22.
[2]高宇璇,孫秉珍.“00后”大學(xué)生網(wǎng)絡(luò)行為追蹤視域下的融媒體信息推送研究[J].運(yùn)籌與管理,2024(3):211-217.
[3]王圓圓.基于用戶(hù)畫(huà)像的電商平臺(tái)營(yíng)銷(xiāo)信息個(gè)性化推薦方法[J].無(wú)線互聯(lián)科技,2024(15):14-16.
[4]謝夢(mèng)怡.基于近鄰傳播聚類(lèi)的多源異構(gòu)數(shù)據(jù)信息個(gè)性化推送方法[J].信息技術(shù)與信息化,2024(7):165-169.
[5]孫志剛.基于RabbitMQ智慧校園消息一站式與個(gè)性化推送的研究[J].國(guó)際援助,2023(22):97-99.
[6]張博君.基于近鄰傳播聚類(lèi)的電商商品信息個(gè)性化推送研究[J].中國(guó)信息界,2024(2):246-248.
(編輯 王永超)
Research on personalized AI education video push based onuser attributes
NIU Muyuan,MA Shibo,WANG Shujun,GAO Yiming,WANG Yanan * (School of Government and Public Affairs, Communication University of China,Beijing 1OoO2O,China)
Abstract:Inresponse to the problems of long push time and low click through rate in the personalized push practice of artificial inteligence(AI)educational videos,thisarticleproposesaresearchonAI educational videopersonalized push based onuser atributes.Thearticle firstcollects userdata from digital service platforms such as AI education portals,AI education management systems,and WeChat public platforms.Basedonthe collected data,a user atribute modelisconstructed toextract quantifiable user interestatribute characteristics.Various typesof user behavior information colected internallare analyzed in depthto estimate weight vectors.Then,thearticle takes into accountthe four keyfactors of object,behavior,time,and content,to describe therandom behavior paterns of users on the AI education video platform,construct a personalized AI education video push model,and achieve personalized AI education video push.The experimental results show that thedesign method has a push duration of no more than 150 ms and a video user click through rate of over 90% .It can achieve personalized,accurate,and fast push of AI educational videos,and has good Application prospects in the field of AI educational video personalized push.
Key words:user attributes;AI educational video; personalization; object;behavior;content