王炎
(陜西財(cái)經(jīng)職業(yè)技術(shù)學(xué)院 管理學(xué)院, 咸陽(yáng) 712000)
隨著電子商務(wù)的快速發(fā)展,越來(lái)越多的企業(yè)開(kāi)始對(duì)網(wǎng)絡(luò)用戶的行為進(jìn)行分析,通過(guò)用戶行為來(lái)對(duì)興趣愛(ài)好進(jìn)行掌握,根據(jù)用戶的興趣愛(ài)好來(lái)為其進(jìn)行個(gè)性化商品的推薦,在此過(guò)程中,能夠充分提高用戶交易的成功率,增強(qiáng)企業(yè)的盈利水平。用戶在使用互聯(lián)網(wǎng)的過(guò)程中,瀏覽記錄會(huì)被網(wǎng)絡(luò)進(jìn)行自動(dòng)識(shí)別并記錄,該項(xiàng)記錄會(huì)對(duì)用戶的行為分析提供基礎(chǔ),在對(duì)行為分析過(guò)程中,數(shù)據(jù)的采集以及網(wǎng)站數(shù)據(jù)的提取至關(guān)重要[1]。
個(gè)性化的智能推薦系統(tǒng)可以通過(guò)對(duì)相關(guān)信息的過(guò)濾,將用戶感興趣的信息推薦給用戶,例如電影、音樂(lè)、書(shū)籍、圖片等。此次研究以電影為例,對(duì)數(shù)據(jù)挖掘技術(shù)下的智能推薦系統(tǒng)進(jìn)行設(shè)計(jì)分析,最終目標(biāo)為:結(jié)合用戶的喜好,推薦系統(tǒng)為其提供經(jīng)過(guò)篩選之后的電影推薦列表,并且能夠及時(shí)更新。系統(tǒng)整體構(gòu)架如圖1所示。
由圖1所示,該系統(tǒng)以三層構(gòu)架結(jié)構(gòu)進(jìn)行設(shè)計(jì),當(dāng)用戶對(duì)需求信息發(fā)出指令以后,接口會(huì)將指令傳遞到中間層,位于中間層的搜索引擎會(huì)結(jié)合用戶給出的喜好信息與多媒體資料庫(kù)中的內(nèi)容相匹配,產(chǎn)生符合用戶標(biāo)準(zhǔn)的媒體信息反饋給用戶接口。用戶對(duì)所推薦的內(nèi)容滿意之后可以進(jìn)行付費(fèi)并瀏覽。本次所設(shè)計(jì)的智能推薦系統(tǒng)由用戶處理子系統(tǒng)、管理員控制系統(tǒng)與推薦子系統(tǒng)構(gòu)成。

圖1 個(gè)性化智能推薦系統(tǒng)整體構(gòu)架
1.1 用戶處理子系統(tǒng):該子系統(tǒng)主要對(duì)用戶的個(gè)人信息進(jìn)行收集,并且為用戶提供注冊(cè)、觀看視頻的相關(guān)信息等功能。包括列表推薦、熱點(diǎn)分析、分類列表、資料搜尋等。
1.2 管理員控制系統(tǒng):對(duì)多媒體資料庫(kù)進(jìn)行及時(shí)更新與維護(hù),可以對(duì)用戶或媒體信息進(jìn)行刪除,在搜索引擎上,可以對(duì)參數(shù)進(jìn)行調(diào)整。管理員可以對(duì)用戶資料庫(kù)進(jìn)行管理,對(duì)系統(tǒng)個(gè)性化信息進(jìn)行自動(dòng)更新。
1.3 推薦子系統(tǒng):該子系統(tǒng)主要產(chǎn)生關(guān)聯(lián)規(guī)則,以最快的速度提供信息推薦。
數(shù)據(jù)挖掘技術(shù)下的個(gè)性化智能推薦系統(tǒng)的設(shè)計(jì)主要涉及個(gè)人信息的自我學(xué)習(xí)技術(shù)以及個(gè)性化特征分析技術(shù)[2]。
2.1 個(gè)人信息自我學(xué)習(xí)技術(shù)
該項(xiàng)技術(shù)主要是通過(guò)用戶對(duì)不同類型電影的點(diǎn)擊頻率來(lái)構(gòu)建起個(gè)性化的瀏覽信息列表,對(duì)電極習(xí)慣與特性進(jìn)行自我學(xué)習(xí)。在對(duì)電影進(jìn)行推薦時(shí),要根據(jù)電影自身與用戶的喜好關(guān)系進(jìn)行推薦,所以需要對(duì)電影資料與用戶信息之間做出相應(yīng)關(guān)聯(lián)。通過(guò)信息搜索技術(shù),最終產(chǎn)生規(guī)則信息。用戶可以直接通過(guò)推薦系統(tǒng)來(lái)對(duì)規(guī)則庫(kù)中的資料進(jìn)行使用,通過(guò)對(duì)比之后,給出正確的推薦信息。系統(tǒng)會(huì)將用戶每次選取的電影操作當(dāng)作一次交易記錄,每個(gè)信息特征都當(dāng)作一個(gè)項(xiàng)目,通過(guò)CBW算法能夠增進(jìn)搜索速度,結(jié)合不同的用戶資料結(jié)構(gòu),快速的搜索出相關(guān)項(xiàng)目集[3]。針對(duì)多維度關(guān)聯(lián)規(guī)則舉個(gè)簡(jiǎn)單例子:如表1所示。

表1 挑選記錄交易信息表
{(性別,男),(星座,巨蟹),(年齡,中年),(職業(yè),教師),(居住,南部)}—{(類別,動(dòng)作),(男主角,湯姆克魯斯),(電影點(diǎn)選記錄,點(diǎn)擊)}
其中代表的意義為:居住在南部的中年巨蟹座男教師通過(guò)點(diǎn)擊瀏覽了由湯姆克魯斯主演的動(dòng)作片。
2.2 個(gè)性化特征分析技術(shù)
在智能推薦系統(tǒng)的構(gòu)建中,個(gè)性化特征分析技術(shù)的應(yīng)用主要是為了找出電影自身與用戶需求信息之間的關(guān)系,用戶信息包括性別、年齡、職業(yè)、興趣愛(ài)好等。電影信息包括導(dǎo)演、男女主角等。用戶行為包括試看、點(diǎn)擊、付費(fèi)三種。通過(guò)個(gè)性化特征分析技術(shù)將這些信息形成相關(guān)聯(lián)的規(guī)則。個(gè)體關(guān)系如圖2所示。

圖2 推薦視頻與個(gè)人資料關(guān)系
推薦程序主要是對(duì)眾多條件的因素進(jìn)行分析,針對(duì)需求給予最佳匹配。以較新的電影資源優(yōu)先,其次為點(diǎn)擊率,點(diǎn)擊率較高的電影優(yōu)先次序較高[4]。具體邏輯分析如下:
輸入:用戶的個(gè)人資料、交易記錄、多媒體資料以及關(guān)聯(lián)規(guī)則。
輸出:推薦的10部符合要求的電影。
處理:對(duì)電影推薦的流程處理如圖3所示。

圖3 系統(tǒng)推薦流程
當(dāng)用戶登錄到瀏覽器之后,系統(tǒng)會(huì)分析用戶數(shù)據(jù),判斷其是否為第一次使用,如果是第一次使用,系統(tǒng)會(huì)自動(dòng)對(duì)用戶需求進(jìn)行檢索,找到合適的關(guān)聯(lián)規(guī)則,通過(guò)關(guān)聯(lián)規(guī)則來(lái)推薦電影,如果找不到相關(guān)的關(guān)聯(lián)規(guī)則,會(huì)直接推薦給用戶最熱門的10部電影。如果用戶不是第一次使用推薦系統(tǒng),那么系統(tǒng)會(huì)對(duì)與用戶適合的關(guān)聯(lián)規(guī)則進(jìn)行搜索,一旦發(fā)現(xiàn)可用的關(guān)聯(lián)規(guī)則,會(huì)通過(guò)該關(guān)聯(lián)規(guī)則對(duì)電影進(jìn)行推薦。如果搜尋不到關(guān)聯(lián)規(guī)則,會(huì)直接按照用戶的交易記錄來(lái)進(jìn)行推薦。
3.1 根據(jù)關(guān)聯(lián)規(guī)則推薦
首先系統(tǒng)會(huì)檢查關(guān)聯(lián)規(guī)則右項(xiàng)的結(jié)論,當(dāng)系統(tǒng)給出的結(jié)論為單向信息時(shí),可以直接根據(jù)右項(xiàng)結(jié)論來(lái)進(jìn)行推薦。如果結(jié)論為多項(xiàng)信息,則需要對(duì)信息進(jìn)行分離,分離成單一的結(jié)論信息之后,針對(duì)每個(gè)單一信息推薦出10部電影,根據(jù)這10部電影之間的信息交集,來(lái)選出最符合用戶的五部電影做出推薦[5]。根據(jù)規(guī)則推薦電影流程,如圖4所示。

圖4 關(guān)聯(lián)規(guī)則推薦
3.2 交易記錄推薦
如果根據(jù)交易記錄進(jìn)行推薦,那么需要從用戶的交易記錄中挑選出用戶最長(zhǎng)看的五部電影類型,找出用戶是否對(duì)電影的某個(gè)信息有所偏愛(ài),如果有,需要將該信息下的電影挑選出來(lái),對(duì)電影類型進(jìn)行分析,與之前的電影進(jìn)行對(duì)比分析,最后集成為一種電影類型,根據(jù)相應(yīng)比例計(jì)算出各種類型的電影推薦書(shū)目進(jìn)行推薦。推薦流程如圖5所示。
系統(tǒng)測(cè)試模塊是系統(tǒng)設(shè)計(jì)中不可缺少的一部分,通過(guò)測(cè)試能夠證明系統(tǒng)運(yùn)行的穩(wěn)定性與實(shí)用性。本次對(duì)智能推薦系統(tǒng)以實(shí)際數(shù)據(jù)進(jìn)行實(shí)驗(yàn)測(cè)試。在Intel Core i5-1.6 GHz,4GB RAM硬件環(huán)境下,運(yùn)用Ubuntu 14.04操作系統(tǒng),通過(guò)模擬數(shù)據(jù)器產(chǎn)生數(shù)據(jù)。本次測(cè)試以交易數(shù)量10萬(wàn)筆與5萬(wàn)筆為基礎(chǔ),交易平均長(zhǎng)度為12,項(xiàng)目種類為1400種[6]。如表2所示。

圖5 交易記錄推薦

參考值參數(shù)名T12.100KT12.50K交易數(shù)量/個(gè)100 00050 000平均交易長(zhǎng)度1212項(xiàng)目 種類/種14001400
根據(jù)相應(yīng)的數(shù)據(jù)量生成五種不同的測(cè)試數(shù)據(jù),測(cè)試系統(tǒng)的穩(wěn)定性。根據(jù)表3所示。

表3 不同資料執(zhí)行時(shí)間以及頻繁項(xiàng)目集
將最低門限值設(shè)定為1%時(shí),兩者執(zhí)行時(shí)間為14.19秒和16.22秒。所以,系統(tǒng)在相同數(shù)據(jù)量所產(chǎn)生的不同測(cè)試數(shù)據(jù)下,時(shí)間非常穩(wěn)定。基本不會(huì)由于測(cè)試數(shù)據(jù)而對(duì)穩(wěn)定性造成很大影響。可靠性比較高,值得信賴。另外,系統(tǒng)所產(chǎn)生的項(xiàng)目集在2萬(wàn)個(gè)左右,使用者的個(gè)性信息在越長(zhǎng)頻繁項(xiàng)目集中出現(xiàn),代表電影隊(duì)額推薦準(zhǔn)確性越高。利用最低門限值來(lái)產(chǎn)生頻繁項(xiàng)目集,預(yù)測(cè)推薦的電影會(huì)更準(zhǔn)確。
本文所設(shè)計(jì)的數(shù)據(jù)挖掘技術(shù)下的個(gè)性化智能推薦系統(tǒng),主要運(yùn)用數(shù)據(jù)挖掘技術(shù),針對(duì)用戶的個(gè)人喜好進(jìn)行預(yù)測(cè),將符合用戶需求的內(nèi)容推薦給用戶,通過(guò)關(guān)聯(lián)規(guī)則與交易記錄的結(jié)合,擺脫傳統(tǒng)被動(dòng)的推薦方式,使用戶無(wú)需時(shí)刻進(jìn)行上線查詢,能夠隨時(shí)掌握最新信息。經(jīng)過(guò)對(duì)系統(tǒng)的測(cè)試,能夠證明該只能推薦系統(tǒng)的運(yùn)行穩(wěn)定性,在實(shí)際應(yīng)用中具有一定的推廣價(jià)值。