林 群 閻瑞霞
(上海工程技術大學管理學院 上海 201620)
基于變精度雙論域粗糙集的個性化推薦方法
林 群 閻瑞霞
(上海工程技術大學管理學院 上海 201620)
針對用戶不確定性決策問題,提出基于變精度雙論域粗糙集的個性化推薦方法。首先,基于置信度的含義提出一種新的知識庫構建方法,并利用SQL語言實現(xiàn)。在此基礎上構建基于變精度雙論域粗糙集的個性化推薦模型,并將該模型應用到男士襯衫的個性化推薦中。最后通過推薦方法比較分析,實驗結果說明了基于變精度雙論域粗糙集的個性化推薦模型的有效性。
變精度粗糙集 雙論域 個性化推薦 關聯(lián)規(guī)則 非確定性決策
“互聯(lián)網(wǎng)+”行動計劃不斷加快電子商務企業(yè)發(fā)展,越來越多的商家進入電子商務行業(yè)。據(jù)統(tǒng)計,截至2015年12月,中國網(wǎng)民增長率為6.1%,網(wǎng)民規(guī)模達6.88億[1],在線銷售變得紛繁復雜。盡管推薦系統(tǒng)早已產(chǎn)生,但面對海量的不確定性用戶信息,商家往往只根據(jù)熱度高的商品或者用戶以往買過的相似商品覆蓋率進行推薦,商家推薦商品的精準性大幅度下降。同時,隨著用戶生活節(jié)奏逐漸增強,用戶購物時間緊迫,用戶要求商家在短時間內做出精準推薦。商家在不確定性用戶信息與實時性決策環(huán)境下推薦的商品,往往會使用戶對實際貨物與購物心理預期形成落差,大大提高了網(wǎng)購退換貨率,退換貨必然會影響購物體驗,降低用戶忠誠度。為了提高商家推薦準確性與實時性,提高用戶回頭率,準確性高的個性化推薦系統(tǒng)對商家而言尤為重要。
個性化推薦系統(tǒng)[2-4]是建立在海量數(shù)據(jù)挖掘基礎上的智能推薦平臺,以幫助電子商務網(wǎng)站為用戶提供個性化購買決策支持與信息服務。商家針對不同的用戶,根據(jù)偏好與個性化需求給出更加精確的推薦。近年來,電子商務個性化推薦受到了國內外諸多學者的密切關注,產(chǎn)生許多研究成果。個性化推薦算法主要分為3種:基于內容、協(xié)同過濾與混合推薦。文獻[5] 在計算微博用戶與微話題的相似性的基礎上,提出了基于內容的熱門微話題推薦方法,該方法可解釋性強,用戶易理解,也不存在冷啟動問題,但是在推薦多樣性上存在不足,難以發(fā)掘用戶的潛在偏好。文獻[6] 根據(jù)用戶的發(fā)帖、回帖和閱讀等記錄,計算用戶帖子的評分矩陣,認為對于任意帖子評分相同的用戶具有相同的偏好,提出基于協(xié)同過濾的網(wǎng)絡論壇個性化推薦算法,該方法很好應用于復雜推薦對象,但存在冷啟動問題。文獻[8] 提出基于商品屬性與用戶聚類的個性化服裝混合推薦方法,通過用戶個人信息與對商品的評價,計算用戶之間的相似性,進行聚類分析,通過計算商品相似性,得到top-N相似列表,并結合兩者的權重值,實現(xiàn)用戶個性化推薦。文獻[9] 改進傳統(tǒng)基于內容推薦得到的用戶現(xiàn)有興趣,通過協(xié)同過濾得到用戶潛在興趣,并加以結合,構建基于內容與協(xié)同過濾的混合推薦方法下的用戶興趣模型。混合推薦方法兼顧推薦多樣性和個性化需求的同時,有效避免推薦時間上的滯后性,但存在冷啟動問題,并未考慮推薦環(huán)境的不確定性。
用戶屬性特征的不確定性決定了網(wǎng)絡購物環(huán)境的不確定性,用戶購物行為復雜多變,比如,用戶年齡是不斷增長的,過去購買行為并不能說明現(xiàn)狀;用戶身份為銷售人員時其工資發(fā)放性質決定其收入的不穩(wěn)定性和購物行為不定性等。粗糙集是一種處理不確定性知識的數(shù)學工具,是人工智能中的一種重要推理技術。針對以往推薦系統(tǒng)并不能很好地解決推薦環(huán)境不確定性問題,本文提出基于變精度雙論域粗糙集的個性化推薦方法,其主要思想是在粗糙集的基礎上,將粗糙集模型推廣到兩個不同但相關的論域,同時在模型中引入分類精度,使模型具有一定的容錯性,增強模型抗噪聲能力。目前關于變精度雙論域粗糙集的研究主要集中在模型的構建、屬性約簡和規(guī)則提取等方面[10-12],很少有學者研究知識庫的構建。本文結合關聯(lián)規(guī)則的原理,將置信度引入到知識庫的構建中,并利用SQL語言實現(xiàn);在此基礎上構建基于變精度雙論域粗糙集的個性化推薦模型;最后,本文將該模型應用到服裝的個性化推薦中,并通過比較說明了模型的有效性。
1.1 變精度雙論域粗糙集
經(jīng)典Pawlak粗糙集研究的是在同一個論域上的對象,同時要求所處理對象完全已知的且分類是完全精確的,得到的規(guī)則也只適用于該對象。然而在許多實際管理決策問題中,常常涉及兩個不同論域,往往只是將所求的樣本結論推測總體對象,數(shù)據(jù)具有不精確性。因此,相對于經(jīng)典粗糙集而言,變精度雙論域粗糙集的理論思想和模型是解決實際管理決策問題的有效工具。
1.1.1 分類正確率與參數(shù)的確定
基于上述問題,變精度雙論域粗糙集在引入雙論域的基礎上,還引入分類正確率與參數(shù)α、β,加強定義雙論域粗糙集上、下近似算子,放松粗糙集嚴格的邊界定義,使模型更適用于現(xiàn)實數(shù)據(jù)的不精確性問題,同時,雙參數(shù)的設定使模型對數(shù)據(jù)不一致性有一定的容忍度,提高數(shù)據(jù)分析的適應能力。
定義1 (分類正確率) 設X、Y分別是有限論域U、V的子集,令:
(1)
其中,|R(x)∩Y|表示集合X關于Y的相對分類正確率,即集合Y基于X的條件概率。
在雙參數(shù)變精度雙論域粗糙集模型中,正確確定參數(shù)α和β的范圍能減少數(shù)據(jù)噪聲,增強分析的準確性。Y的雙論域近似區(qū)域與閾值α和β取值緊密相關,并隨α和β的取值變化而變化,因此,α和β取值能夠體現(xiàn)雙論域近似空間的精確度,決策者對參數(shù)確定也顯得尤為重要。本文研究主要利用Aijun提出的0.5<β≤α≤1的分類正確率來研究電子商務服裝個性化推薦模型[ 13]。
1.1.2 雙參數(shù)變精度雙論域粗糙上、下近似計算
定義2 (雙論域上、下近似) 在信息系統(tǒng)(U,V,R),U={x1,x2,…,xm},V={y1,y2,…,yn},?Y?V,0.5<β≤α≤1,Y在關系R下的α雙論域下近似集和雙論域β上近似集定義如下:
(2)
(3)
分別表示Y的雙論域α下近似和β雙論域上近似[14]。
1.1.3 決策規(guī)則提取
在信息系統(tǒng)(U,V,R)中,U={x1,x2,…,xm},V={y1,y2,…,yn},?Y?V,規(guī)定:
由此可以提取規(guī)則:兩條確定性規(guī)則,分別根據(jù)雙論域正域和負域提取;以及兩條可能性規(guī)則,分別根據(jù)雙論域可能域和邊界域提取,為商家個性化推薦提供有力的依據(jù)。
1.2 關聯(lián)規(guī)則
定義3 (關聯(lián)規(guī)則) 關聯(lián)規(guī)則是數(shù)據(jù)挖掘的核心技術之一,可描述如下:設I={i1,i2,…,im}是個不同項目組成的集合,其中的元素i稱為項目(item)。記D={t1,t2,…,tn}為事務數(shù)據(jù)庫,T為D的事務集,每個事務ti(i=1,2,…,n)都對應I上的一個子集。我們用關聯(lián)規(guī)則分析形如X→Y的蘊涵式,X?I,Y?I,且X∩Y=?。X是關聯(lián)規(guī)則的前件,Y是關聯(lián)規(guī)則的后件,關聯(lián)規(guī)則挖掘就是要找到所有滿足給定的最低支持度和最低置信度的蘊含式。
因此,關聯(lián)規(guī)則分析的基本算法步驟:
(1) 選出滿足支持度最小閾值的頻繁項集;
(2) 從頻繁項集中找出滿足最小置信度的所有規(guī)則。
變精度雙論域粗糙集是在知識庫基礎上進行推理判斷的。傳統(tǒng)知識庫的建立主要有三種方法:(1)簡單使用SPSS軟件分析各屬性之間的相關性并構建關系矩陣;(2)將關系數(shù)據(jù)庫中的多值屬性進行布爾轉換,再利用布爾型關聯(lián)規(guī)則建立關系矩陣。在屬性較多的情況下,這兩種方法在實現(xiàn)上較復雜且消耗大量時間,甚至會丟失部分有用信息;(3)利用關系數(shù)據(jù)庫系統(tǒng)中的SQL語句來執(zhí)行。該方法目前只是對經(jīng)典關聯(lián)規(guī)則算法進行擴展,影響了挖掘效率。
同時,關系數(shù)據(jù)庫往往是由成千上萬不同類型和值域空間的屬性組成的,這決定了獲取的關聯(lián)規(guī)則具有明顯的特點:(1)離散化的多值型關聯(lián)規(guī)則。關系數(shù)據(jù)庫往往含有大量的數(shù)值屬性和類別屬性,在關聯(lián)規(guī)則分析之前需要對其進行數(shù)值屬性或多值屬性的離散化;(2)多屬性型關聯(lián)規(guī)則,包括兩個及以上不同屬性之間關系的關聯(lián)規(guī)則。
因此,針對上述問題,本文主要是在關聯(lián)規(guī)則分析關系數(shù)據(jù)庫的基礎上,通過執(zhí)行SQL語句提出數(shù)據(jù)庫中多值、多屬性型關聯(lián)規(guī)則算法[15-19]。該方法操作簡單快速且高效,適用于各種數(shù)據(jù)類型。挖掘算法描述如下[20]:
輸入:挖掘數(shù)據(jù)源(db)、最小支持度閾值(minsup)、最小可信度閾值(minconf)
k=1
ACk=generate-attribute-combination(k)
// 產(chǎn)生db中所有1組合屬性集
Lk=generate-frequent-attribute-value-sets (ACk)
// 產(chǎn)生db中頻繁1項集
DowhileLk≠?andk≤AttributeCount
//AttributeCount為db中屬性的個數(shù)
k=k+1
ACk=generate-attribute-combination(k)
// 產(chǎn)生db中可能具有頻繁值集的所有k組合屬性集
Lk=generate-frequent-attribute-value-sets(ACk)
// 產(chǎn)生db中頻繁k項集
End do
AR=generate-association-rules(Lk)
// 產(chǎn)生db中所有強關聯(lián)規(guī)則。
例如,在收集的數(shù)據(jù)表(db)中計算年齡(A)、收入(C)、檔次(I)這三個屬性滿足的最小支持度(minsup)的頻繁屬性值集,可用“selectA,C,I,count(*)fromdbgroupbyA,C,Ihavingcount(*)≥minsup”執(zhí)行。通過借鑒Apriori算法“連接”與“剪枝”的思想產(chǎn)生屬性組合集,減少SQL執(zhí)行次數(shù)。

根據(jù)上述分析研究,針對目前電子商務個性化推薦中存在的問題,提出基于雙參數(shù)變精度雙論域粗糙集的方法。商家通過提取影響用戶購物行為的商品屬性特征以及用戶本身屬性特征,運用關聯(lián)規(guī)則建立知識庫,在此基礎上構建變精度雙論域粗糙集的個性化推薦模型[10-13],計算并提取決策規(guī)則。根據(jù)變精度雙論域粗糙集特點,提取到兩條確定性規(guī)則(基于α正域、基于β負域)和兩條可能性規(guī)則(基于α可能域、基于α、β邊界域),并依據(jù)上述四條規(guī)則對用戶進行個性化推薦。
基于雙參數(shù)變精度雙論域粗糙集推薦模型步驟如圖1所示。
(1) 將SQL語句引入到關聯(lián)規(guī)則中,建立關系知識庫,從而構建雙參數(shù)變精度雙論域粗糙集關系矩陣MR;

(3) 計算雙參數(shù)變精度雙論域粗糙集的正域、負域、邊界域和可能域;
(4) 提取決策規(guī)則。
為了方便分析,以男士襯衫個性化推薦為例,利用雙論域變精度雙論域粗糙集方法,針對用戶對男士襯衫的個性化需求,商家對男士襯衫進行個性化推薦,縮短用戶消耗時間,提高用戶信賴與忠誠度,減少退換貨率。
4.1 數(shù)據(jù)來源
本文主要通過設計調查問卷,從受訪者的年齡、身高、收入、購買時間、穿著習慣等基本信息,以及受訪者對襯衫的尺碼、顏色、材質、檔次、風格、版型、厚薄等個性化要求進行調查,將收集到的數(shù)據(jù)進行預處理,進而對問題進行研究。此次共發(fā)放問卷350份,扣去未收回和缺失值過多的無效問卷,最后得有效問卷310份,有效率達到88.6%。
4.2 用戶和男士襯衫屬性類型
根據(jù)結合天貓網(wǎng)站用戶和男士襯衫屬性劃分方法,本文主要利用用戶5種屬性(年齡、身高、收入、購買時間、穿著習慣)以及男士襯衫7種特征(尺碼、顏色、材質、檔次、風格、版型、厚薄)來分析男士襯衫的個性化推薦情況,但是從問卷調查中收集到的數(shù)據(jù)都是連續(xù)性的,因此,需要先對收集到的數(shù)據(jù)進行離散化。本文采用自然劃分分段的方法,將連續(xù)的屬性值劃分成若干個范圍,并在每個范圍中給出一個標準值,這樣就使連續(xù)的屬性值達到了離散化。具體分類及離散化后的決策如表1和表2所示。

表1 用戶特征屬性值

表2 男士襯衫屬性值
由上述表1可以得到離散的數(shù)據(jù)如表3所示。

表3 離散的數(shù)據(jù)表

續(xù)表3
4.3 關系矩陣
根據(jù)信息系統(tǒng)(U,V,R)中,U={x1,x2,…,xm},V={y1,y2,…,yn},?Y?V。其中U={x1,x2,…,x23}表示男士襯衫的屬性特征,V={y1,y2,…,y21}表示用戶屬性特征。


圖2 相關分析圖

4.4 結果分析
假設下近似閾值為α=0.6,上近似閾值為β=0.55,并且上述的知識庫為完備知識庫。為了充分驗證雙參數(shù)變精度雙論域粗糙集推薦方法能很好地處理冷啟動問題,假設新用戶屬性集合為Y={y2,y6,y11,y16,y19},可以得到:

由此可以看出,如果新的用戶屬性為年齡:25~35,身高:170~175,收入:5 000~7 000,購買時間:秋季,穿著習慣:合體,可以得到:
(1) 兩條確定性規(guī)則
①y2∩y6∩y11∩y16∩y19?x3∩x12∩x17∩x21,則必須向其推薦的男士襯衫應該同時具有:尺碼:L,檔次:中檔,版型:直筒,厚薄:厚。
②y2∩y6∩y11∩y16∩y19?(x1∩x2∩x4∩x5∩x7∩x8∩x10∩x11∩x13∩x14∩x16∩x18∩x19∩x20∩x22),則不要向其推薦的男士襯衫具有 :尺碼:S,尺碼:M,尺碼:XL,尺碼:2XL,顏色:深色系,檔次:低檔,檔次:高檔,風格:休閑,版型:修身,版型:寬松,厚薄:常規(guī),厚薄:薄,厚薄:加厚。
(2) 兩條可能性規(guī)則
①y2∩y6∩y11∩y16∩y19?x3∩x6∩x9∩x12∩x15∩x17∩x21,則可以考慮向其推薦的男士襯衫具有:尺碼:L,顏色:淺顏色,材質:棉質,檔次:中檔,風格:正式,版型:直筒,厚薄:厚中任意特征的男士襯衫。
②y2∩y6∩y11∩y16∩y19?x6∩x9∩x15,則可以考慮向其推薦的男士襯衫具有:顏色:淺顏色,材質:棉質,風格:正式中任意特征的男士襯衫。
4.5 評 估
由于每個推薦系統(tǒng)的評估標準不一樣,本文主要采用綜合指標F-Measure和整體多樣性來評估推薦系統(tǒng)的好壞,其中綜合指標F-Measure是由分類準確率中準確率(precision)與召回率(recall)兩個評估指標調和加權平均所得[7-10]。推薦結果統(tǒng)計如表4所示。

表4 推薦結果統(tǒng)計表


通過設置不同的推薦服裝數(shù)N,得到不同推薦方法在不同推薦服裝數(shù)下的F1的值,N-F1曲線如圖3所示。

圖3 推薦服裝數(shù)N-F1曲線
由圖3可以看出,基于變精度雙論域粗糙集隨著推薦服裝數(shù)N的變動,綜合評價指標F1的值在排除偶然因素的情況下,一直穩(wěn)定在0.4~0.6之間,具有良好的穩(wěn)定性與持久性。同時,變精度雙論域粗糙集方法在性能上與混合算法相比雖然只有稍微提高,但與協(xié)同過濾和基于內容的推薦方法相比有了明顯提高。
設s(i,j)ε[0,1]表示服裝屬性i和j的余弦相似度,單用戶u推薦列表R(u)的多樣性計算公式為:
(4)
推薦系統(tǒng)整體多樣性計算如下式所示:
(5)
如圖4所示,不同推薦服裝數(shù)N下的Diversity值,可以看出變精度雙論域粗糙集方法在多樣性上,與混合方法、協(xié)同過濾推薦算法基本相當,但比基于內容的推薦方法有了明顯提高。

圖4 不同推薦算法Diversity比較
圖3、圖4表明雙論域粗糙集在性能上與混合推薦方法差別不大,但由于混合推薦方法易產(chǎn)生冷啟動的問題,而變精度雙論域粗糙集能很好的針對新用戶進行推薦,不存在冷啟動問題,因此雙論域粗糙集方法優(yōu)于其他方法。
基于變精度雙論域粗糙集的個性化推薦系統(tǒng),將雙論域粗糙集應用到電子商務多對多雙邊匹配的多屬性決策問題中去,是解決實際管理決策問題的有效工具。將SQL語句引入到關聯(lián)規(guī)則中,用于構建關系矩陣,高效且方便的數(shù)據(jù)關系挖掘方法大大縮短系統(tǒng)的推薦時間,節(jié)約了用戶時間成本。同時,在保證性能良好與整體多樣性的基礎上,基于變精度雙論域粗糙集不依賴于用戶以往行為,不僅能夠很好地解決目前推薦系統(tǒng)中存在的冷啟動問題,更能實現(xiàn)用戶不確定性環(huán)境下的個性化需求,提高了推薦的準確性以及用戶的購物體驗與忠誠度,減少退換貨率。
[1]CNNIC報告. 移動互聯(lián)網(wǎng)或引領文化發(fā)展新布局[J].計算機與網(wǎng)絡, 2016, 42(5):6.
[2]WengSS,LinBS,ChenWJ.Usingcontextualinformationandmultidimensionalapproachforrecommendation[J].ExpertSystemwithApplications, 2009,36(2):1268-1279.
[3]ZuoY,GongMG,ZengJL,etal.PersonalizedRecommendationBasedonEvolutionaryMulti-ObjectiveOptimization[J].IEEEcomputationalintelligencemagazine, 2016,10(1):52-62.
[4] 王國霞, 劉賀平.個性化推薦系統(tǒng)綜述[J].計算機工程與應用, 2012,48(7):66-76.
[5] 安悅,李兵,楊瑞泰,等. 基于內容的熱門微話題個性化推薦研究[J].情報雜志,2014,33(2):155-160.
[6] 張新猛,蔣盛益. 基于協(xié)同過濾的網(wǎng)絡論壇個性化推薦算法[J]. 計算機工程,2012,38(5):67-69.
[7]MarcoDegemmis,PasqualeLops,GiovanniSemeraro.Acontent-collaborativerecommenderthatexploitsWordNet-baseduserprofilesforneighborhoodformation[J].UserModelingandUser-AdaptedInteraction, 2007, 17(3):217-255.
[8] 艾黎. 基于商品屬性與用戶聚類的個性化服裝推薦研究[J]. 現(xiàn)代情報,2015,35(9):165-170.
[9] 楊武,唐瑞,盧玲. 基于內容的推薦與協(xié)同過濾融合的新聞推薦方法[J].計算機應用,2016,36(2):414-418.
[10]WuZhong,YanRuixia.Variableprecisionroughsetoverdual-universesingeneralincompleteinformationsystem[J].InternationalJournalofAdvancementsinComputingTechnology, 2012, 4(19):299-306.
[11] 庾慧英,劉尚. 雙論域上的變精度粗糙集模型[J].科學技術與工程,2007,7(1):4-7.
[12] 張海東. 基于一般關系下的雙論域變精度粗糙集模型[J]. 寧夏師范學院學報,2011,32(6):18-21.
[13] 趙煥煥,劉勇,劉思峰,等. 基于灰色相似關聯(lián)關系的灰色變精度粗糙集模型及應用[J]. 系統(tǒng)工程,2015,33(2):146-151.
[14] 閻瑞霞,鄭建國,翟育明. 雙論域粗糙集的不確定性度量[J]. 上海交通大學學報,2011,45(12):1841-1845.
[15] 李少陽,李巧艷,宋衛(wèi)妮. 粗糙集上下近似的矩陣刻畫及應用[J]. 計算機工程與應用,2015, 51(20):107-110,152.
[16]ChunguangBai,JosephSarkis.Evaluatingsupplierdevelopmentprogramswithagreybasedroughsetmethodology[J].ExpertSystemswithApplications, 2011, 38(11):13505-13517.
[17] 肖輝輝,段艷明. 關系數(shù)據(jù)庫SQL語句的設計優(yōu)化研究[J]. 軟件導刊,2010,9(12):177-179.
[18] 李杰,徐勇,王云峰,等. 面向個性化推薦的強關聯(lián)規(guī)則挖掘[J]. 系統(tǒng)工程理論與實踐,2009,29(8):144-152.
[19] 錢慎一,王歡歡,楊鐵松. 改進關聯(lián)規(guī)則算法在煙草物流銷售規(guī)律中的應用[J]. 計算機系統(tǒng)應用,2016,25(3):204-208.
[20] 王芳,王萬森. 關系數(shù)據(jù)庫中關聯(lián)規(guī)則挖掘的一種高效算法[J].微機發(fā)展,2004,(14)9:20-22.
A PERSONALIZED RECOMMENDATION METHOD BASED ON VARIABLE PRECISION DUAL-UNIVERSE ROUGH SET
Lin Qun Yan Ruixia
(SchoolofManagement,ShanghaiUniversityofEngineeringScience,Shanghai201620,China)
Aiming at the problem of user uncertainty decision, a personalized recommendation method based on variable precision dual-universe rough set is proposed. First, a new knowledge base construction method is proposed based on the meaning of confidence, and implemented by SQL language. Based on this, a personalized recommendation model based on variable-precision dual-domain rough set is proposed, and the model is applied to the personalized recommendation of men’s shirts. Finally, the effectiveness of the personalized recommendation model based on variable precision dual-universe rough sets is illustrated by the comparative analysis of experimental results.
Variable precision rough set Dual-universe Personalized recommendation Association rule Uncertainty decision-making
2016-04-28。國家自然科學基金項目(71301100);上海市教委科研創(chuàng)新項目(14YZ140);上海市教委青年教師計劃項目(ZZGJD12036);上海市自然科學基金項目(16ZR1414000);上海工程技術大學研究生科研創(chuàng)新項目(15KY0354)。林群,碩士生,主研領域:個性化推薦技術。閻瑞霞,副教授。
TP713
A
10.3969/j.issn.1000-386x.2017.06.045