999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于改進LDA-FCM 的UserCF 知識推薦研究

2020-11-09 11:51:00張建華
科技管理研究 2020年19期
關鍵詞:語義詞匯用戶

張建華,冉 佳,劉 柯

(鄭州大學管理工程學院,河南鄭州 450001)

知識庫作為組織獲取、存儲、傳播知識的重要載體,對組織發展和創新起著重要作用。然而隨著技術發展與環境演進,快速膨脹的知識庫規模使人們陷入了“知識過載”“知識迷航”困境。對知識使用者來說,從大量數據和信息中找到自己需要的知識變得越來越困難。將合適的知識在合適的時間、以合適的方式提供給需要它的用戶,提高用戶獲取知識的效率和有效性,成為知識庫建設的關鍵問題。知識推薦是解決這一問題的有效途徑,它將知識和用戶聯系在一起,把用戶需要的、感興趣的知識展示在用戶面前,緩解知識過載問題。許多學者對知識推薦進行了研究,大致分為以下幾類:(1)利用情境信息進行知識推薦。張發平等[1]建立了多維層次情境模型,首先通過情境相似度計算找到最相似的歷史情境,再通過情境-知識映射找到與用戶需要的知識。密阮建馳等[2]將用戶知識情境向量化,將知識推薦轉化為求目標函數最優解的問題,并通過因子分解機求解目標函數得到待推薦的知識。Song 等[3]用甘特圖表示業務流程中知識項間的時序關系,為用戶推薦業務流程知識。(2)利用社會網絡分析進行知識推薦。Fan 等[4]將用戶所處的知識系統看作社會網絡,對用戶行為進行凝聚子群分析,得到推薦列表。黃微等[5]將用戶的隱性知識需求顯性化,并通過社會網絡分析目標用戶群,尋找需求相似的用戶,解決了隱性知識難以推送的問題。(3)基于規則的知識推薦。劉海濤等[6]采用Markov 模型和GSP 算法構建知識推送規則,實現了序列知識的推送。胡小光等[7]利用人工免疫算法將知識與需求的匹配轉化為抗原抗體的識別,實現知識的推薦。可見,當前知識推薦研究大都通過構建模型將知識推薦問題轉化為知識與知識、知識與環境以及知識與用戶間的相似性計算問題,或將知識推薦轉化為函數,通過函數求解得到推薦列表。這些研究為改善知識推薦時機奠定了理論基礎,然而這些方法構建的模型約束條件過多,導致模型求解的效率低、適用場景少。

隨著計算機及網絡技術的發展,個性化推薦技術在電子商務[8]、音視頻網站[9]、個性化閱讀[10]、在線教育等領域得到了廣泛應用[11]。融合個性化推薦技術的知識推薦可以更好地滿足用戶需求。協同過濾是使用最廣泛的個性化推薦算法,許多學者將其應用到知識推薦中。Zhang S 等[12]基于協同過濾的思想,利用信任感知策略尋找近鄰用戶,利用項目聚類策略尋找近鄰知識,將兩近鄰融合進行知識推薦。房小可等[13]將情境語義與協同過濾相結合,針對虛擬學術社區的知識推薦構建了情境語義層次模型,并將情境相似度轉化為節點間的語義相似度,實現了情境語義層次的知識推薦。丁夢曉等[14]在內容推薦算法的基礎上引入用戶興趣,對推薦對象進行評分,實現了對學術資源的TOP-N 推薦。張喜征等[15]通過模糊概念格使用戶偏好顯性化,并結合協同過濾算法對創新社區中的領先用戶進行知識推薦。Rodrigo 等[16]將協同過濾和基于內容的推薦相結合,針對虛擬學習社區進行知識推薦,提高了知識重用率。以上方法將協同過濾算法應用于知識推薦中,一定程度上提高了知識推薦的效率和有效性,但仍存在以下問題:(1)忽略了知識自身語義的作用。知識作為凝聚化、系統化的信息內容,能夠指導人們的思想和行為的恰恰是其語義內涵。因此,對語義的獲取與表示在知識推薦中至關重要,不應棄之不顧。(2)以上算法尋找近鄰用戶時需要遍歷所有用戶,降低了算法的實施效率。

有鑒于此,本文以知識庫為應用背景,提出一種融合知識語義的推薦算法。該算法引入語義挖掘和用戶聚類思路與方法,利用LDA 模型挖掘知識的語義內涵,表征用戶興趣;而后,利用FCM 算法對用戶進行聚類,縮小遍歷范圍;最后,基于用戶興趣相似度以及用戶協同過濾的思想,構建有序的、符合用戶興趣的知識推薦列表。

1 基于改進LDA 和FCM 的知識推薦原理

1.1 基于改進LDA 的知識主題挖掘

知識主題模型是處理知識譜線低端的非結構化知識的常用方法。常用的主題模型有隱含狄利克雷分布(Latent Dirichlet Allocation,LDA)、潛在語義索引(Latent Semantic Index,LSI)、概率隱語義分析(probabilistic Latent Semantic Analysis,pLSA)、詞匯鏈(Lexical Chains)等。其中,LDA 在所有知識主題建模算法中性能最好[17],它根據文檔和詞匯的概率分布,將高維的文本-詞匯矩陣分解為兩個低維的文檔-主題矩陣和主題-詞匯矩陣,從而得到文檔的主題分布,揭示文檔的語義信息,其概率模型如圖1 所示。

圖1 LDA 概率模型圖

其中陰影圓圈表示可觀測變量,非陰影圓圈表示隱變量,箭頭表示兩變量間的條件依賴,方框表示重復抽樣,右下角數字表示重復次數。為抽取的詞匯,為詞分布,為主題分布,為抽取的主題。根據圖1,可以將LDA 主題抽取看作以下兩個隨機過程:(1)對第m 篇文檔隨機抽取主題的過程(2)選取主題后隨機抽取詞匯的過程

傳統LDA 是從大量異構文本知識源中提取主題的一種無監督學習算法,由文檔-主題-詞匯三層貝葉斯結構組成。本文基于用戶導向思維,將每個用戶發表的內容匯總成一個文檔,以用戶的合并文檔代替文檔層,LDA 矩陣如下[18]:

語料庫為用戶合并文檔的集合,表示為M={U1,U2,U3Um}。D 為用戶-詞匯矩陣,矩陣中第i行表示第i個用戶的詞匯分布,記為Di={pui,w1,pui,w2,pui,w3, ,pui,wn}。U為用戶-主題矩陣,第i 行表示第i個用戶的主題分布,記為Ui={pui,z1,pui,z2,pui,z3, ,pui,zn}。Z 為主題-詞匯矩陣,第i行表示第i個主題下的詞匯分布,記為Zi={pzi,w1,pzi,w2,pzi,w3, ,pzi,wn}。假設語料庫中共有m個用戶合并文檔,所有的主題和詞匯分別表示為:

文檔抽取主題和根據主題抽取詞匯是兩個相互獨立的過程,所以得到主題和詞匯的聯合分布為:

最終得到LDA 模型的吉布斯抽樣公式[20]:

根據LDA 模型定義以及吉布斯抽樣的過程可知,主題的個數k 會影響模型的降維能力和主題抽取能力,主題數量過多會導致主題間的辨識度低而相似性高,增加模型的復雜度;主題數量過少則無法體現語義,甚至導致語義缺失。因此在訓練LDA模型的過程中,主題個數的選擇至關重要,但目前仍沒有公認的較好的確定主題個數的方法。現有研究常用兩種方法確定主題個數k:(1)根據經驗選取不同的主題個數進行調試,使模型評價指標(通常采用困惑度)達到最優時的主題個數便為最優主題個數。該方法操作簡便,但具有一定的主觀性,并且僅以模型的泛化能力作為評價,可能出現過擬合的情況,導致主題個數過多。(2)將主題數目進行非參數化處理,使模型不需要將主題個數顯性表述出來,常見的方法是采用層次狄利克雷過程(Hierarchical Dirichlet Processes,HDP) 對LDA 模型進行非參數化變形。該方法在LDA 模型的基礎上又建立新的HDP 模型,復雜性較高[21]。

針對傳統LDA 模型的上述不足,本文對LDA模型中主題個數k 的選取進行了改進。LDA 建模是將語料庫中的詞匯劃分到不同主題下,與聚類的結果類似,一個主題可以看作聚類的一個簇,主題下的詞匯看作簇內的樣本。鑒于LDA 與聚類的相似性,本文將主題個數的選取看作聚類結果的評價問題。聚類評價通常分為外部評價指標和內部評價指標,外部指標需要人為進行判斷[22],在沒有外部信息可用時,用內部指標進行判斷是評價聚類結果的唯一選項。內部指標簡便易操作,通過設置目標函數,在計算機上進行迭代即可找出最優解,因此本文采用內部指標進行判斷,構建主題個數k 的自適應函數L(k),當L(k)最小時k 為最優主題數。

離散數據的概率分布常用KL 散度(Kullback-Leibler divergence,又稱KL 距離、相對熵)、JS 散度(Jensen-Shannon divergence,又稱JS 距離)等指標來衡量其差異性[23]。KL 散度越小表明兩個概率分布的相似度越大,但KL 散度具有不對稱性和非負性。JS 散度是KL 散度的變形,與其相比JS 散度具備兩個優點:(1)JS 散度對相似度的判別更準確,其值域為[0,1],相似度越高則越接近0,反之越接近1。(2)JS 散度具有對稱性。因此選用JS 散度度量主題之間的距離,計算方法如下:

其中JS(P||Q)表示概率分布P(x)和Q(x)的JS散度,KL(P||Q)為P(x)和Q(x)的KL 散度。主題個數K 的自適應函數為:

其中Ki表示第i個主題,為主題-詞匯的概率分布均值,分子部分表示各個主題與均值之間JS散度的方差累加和,分母部分表示語料庫中所有主題之間JS散度的方差累加和。

1.2 基于FCM 的用戶主題聚類

基于訓練好的LDA 模型,可以得到用戶感興趣的知識主題及對應主題下詞匯的概率分布。在推薦之前對用戶進行聚類,可以縮小計算用戶相似度時的遍歷范圍,提高算法效率。傳統的聚類算法具有排他性,即一個對象只能劃分到一個類。但在實際中,有時無法將某個對象嚴格的劃分到某一類中,因此有學者提出了模糊聚類算法。在用戶的聚類中,用戶相似程度的界定也具有一定模糊性,因此本文用模糊聚類算法對用戶進行聚類。模糊C 均值(Fuzzy C-Means,FCM)是效果較好的模糊聚類算法,FCM中采用歐氏距離計算樣本與聚類中心的距離,此處需要將歐式距離替換為JS 散度[24],實現樣本到用戶之間的轉變。JS 散度與歐式距離的轉換公式為:

替換后FCM 的目標函數變為:

通過拉格朗日乘子法求解得到:

如果存在j、r使則令uij=1,且當i≠r時,令uij=0。通過FCM 得到用戶聚類矩陣,為后續的知識推薦做準備。

1.3 基于LDA-FCM 的UserCF 算法

協同過濾基于鄰域的思想,包括基于用戶的協同過濾(User-based Collaborative Filtering,UserCF)和基于項目的協同過濾(Item-based Collaborative Filtering,ItemCF)。兩種方法各有其優缺點和適用場景,ItemCF 反映了用戶自己的興趣,更加個性化,但它只推薦用戶感興趣的內容,容易使用戶陷入“信息繭房”困境。UserCF 體現了與用戶相似的小群體的關注熱點,更具社會性。知識作為引導個人、組織和社會成長發展的重要資源,具有社會屬性,因此在知識推薦中使用UserCF 顯然更適合。

得到用戶聚類結果后,采用JS 散度計算用戶的相似程度,在用戶所在的簇中尋找興趣相近的用戶,將相似度高的用戶作為近鄰用戶。將近鄰用戶的知識主題進行合并,去除當前用戶已經被推薦過或用戶已經產生的知識主題,從而得到待推薦的知識主題。將知識庫中與用戶知識主題相似的知識推薦給用戶即可,用戶u對主題i的感興趣程度為:

其中rvi表示用戶u的近鄰用戶v對主題i的感興趣程度。本文只使用單一行為,所以所有的rvi=1。計算得到用戶興趣指數,按照興趣降序將知識推薦給用戶。

綜上,具體知識推薦流程如下:

輸入:各用戶合并文檔

輸出:各用戶知識推薦列表

步驟1:對各個用戶合并文檔進行去停用詞和分詞處理,得到用戶-詞匯矩陣。

步驟2:采用吉布斯抽樣求解模型參數,訓練LDA 主題模型。

步驟3:通過自適應函數得到最優主題數,根據最優主題數得到用戶-主題矩陣和主題-詞匯矩陣,計算主題TOP-N 詞。

步驟4:從用戶-主題矩陣中隨機生成初始化隸屬度矩陣。

步驟5:根據公式(20)計算新的聚類中心。

步驟6:根據公式(19)計算新的隸屬度矩陣。

步驟7:當兩次隸屬度矩陣的矩陣范數小于終止閾值時停止迭代。

步驟8:選取用戶所在簇內TOP-N 用戶作為近鄰用戶,合并近鄰用戶主題得到用戶興趣主題集合。

步驟9:根據公式(21)求推薦指數并構建推薦列表。

2 實驗分析

中國知網包含期刊、學位論文、統計年鑒、專利等豐富知識資源,是重要的知識共享傳播平臺,因此將其選為實驗數據來源。本文爬取了不同層次、不同領域的25 所高校所發表的期刊論文共500 篇,爬取字段包括:標題、摘要、關鍵詞、作者、單位。把對每位作者的爬取字匯總后得到用戶知識文檔,再經過分詞和去停用詞處理后得到支撐后續實驗研究的最終用戶知識文檔。

本文實驗環境如表1 所示。

表1 實驗主要配置

對LDA 主題個數進行自適應求解得到最佳主題數為10, LDA 模型運行得到用戶-主題矩陣(前3個主題,前10 個用戶)如表2、主題-詞匯矩陣(前3 個主題,前20 個詞匯)如表3 所示。

表2 用戶-主題矩陣(部分)

表3 主題-詞匯矩陣(部分)

表3 (續)

困惑度(Perplexity)是評估概率語言模型的指標,其數值越小表明模型的泛化能力和預測能力越強,表示為:

本文的LDA 算法與傳統LDA 算法的對比結果如圖2 所示,可以看出改進后的LDA 算法困惑度低于傳統的LDA 算法。

圖2 LDA 模型困惑度對比

根據LDA 主題抽取結果并據FCM 算法將用戶劃分為10 個簇,各簇用戶數量如表4 所示。

表4 FCM 聚類結果

TOP-N 推薦中常用F1 值(F1-Measure)度量推薦準確率。其定義如下:

其中P為準確率(precision),R為召回率(recall),其定義為:

本文進行了4 組對比試驗,結果如表5 所示。

表5 對比實驗結果

從表5 的對比結果可以看出,本文算法的準確率、召回率和F1 值與其他算法相比均有明顯的提高。其中ILDA-FCM-UserCF 優于ILDA-UserCF,說明引入用戶聚類的算法效果優于僅使用LDA 模型的算法,同時 ILDA-UserCF 優于LDA-UserCF,說明改進后的LDA 算法較傳統的LDA 算法具有優越性。

3 結語

針對既有方法之不足,本文提出的算法從用戶產生的知識文檔出發,通過LDA 模型挖掘用戶感興趣的知識主題,基于UserCF 思想構建推薦列表;在計算用戶興趣相似度之前,先采用FCM 算法將用戶劃分為興趣相似的簇,從而縮小遍歷范圍、降低數據稀疏性。實驗結果表明本文的算法具有可行性和比較進步性。該方法對于知識需求延續性強、發展演進相對穩定與緩和的知識推送領域,滿足長文本LDA 建模特征的活躍老用戶,具有較強的適用性和優越性。

不過,本文研究還存在如下不足:(1)由于LDA 模型在短文本上應用效果較差,本文采用了長文本進行LDA 建模,而在現實中新用戶或不活躍用戶通常會存在知識文本較短的問題,應考慮其他有效方法對這部分用戶進行推薦。(2)由于知識具有一定的時效性,用戶興趣也不斷變化,知識推薦的時間會影響用戶體驗。本文僅列出了用戶的推薦列表,尚未考慮推薦的時間問題。針對前述不足,不斷改進和完善算法以進一步提高其適用性,將是下一步的工作重點。

猜你喜歡
語義詞匯用戶
本刊可直接用縮寫的常用詞匯
一些常用詞匯可直接用縮寫
山東醫藥(2020年34期)2020-12-09 01:22:24
語言與語義
本刊可直接用縮寫的常用詞匯
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
認知范疇模糊與語義模糊
如何獲取一億海外用戶
創業家(2015年5期)2015-02-27 07:53:25
主站蜘蛛池模板: 伊人久久福利中文字幕| 亚洲va视频| 成年人久久黄色网站| 性喷潮久久久久久久久| 国产精品丝袜视频| 国产成人a在线观看视频| 久久这里只有精品2| 欧美黄网在线| 东京热av无码电影一区二区| 999国产精品永久免费视频精品久久| 久久久久国产精品嫩草影院| 国产原创第一页在线观看| 国产中文一区二区苍井空| 日韩av资源在线| 99久久性生片| 午夜福利视频一区| 手机成人午夜在线视频| 奇米精品一区二区三区在线观看| 国产综合网站| 久久精品国产一区二区小说| 国产精品久久久久久久久久98| 日韩国产亚洲一区二区在线观看| 国产91九色在线播放| 久久美女精品国产精品亚洲| 67194亚洲无码| 亚洲国产天堂在线观看| 国产精品丝袜在线| www.亚洲一区| 国产精品亚洲一区二区三区z| 国产在线精品人成导航| 女人爽到高潮免费视频大全| 99在线观看视频免费| 国产麻豆精品手机在线观看| 国产成人精品综合| 欧美黑人欧美精品刺激| 97人妻精品专区久久久久| 色精品视频| 国产玖玖玖精品视频| 国产av剧情无码精品色午夜| 91福利免费| 性色在线视频精品| 成人综合久久综合| 国产精品成人观看视频国产| 亚洲无码一区在线观看| 精品撒尿视频一区二区三区| 国产欧美日韩综合在线第一| 22sihu国产精品视频影视资讯| 四虎成人精品| 国产精品手机在线播放| 久久久精品国产SM调教网站| 久久久成年黄色视频| 国产一级小视频| 色综合激情网| 午夜福利在线观看成人| 日本欧美在线观看| 日日拍夜夜操| 最新亚洲人成无码网站欣赏网 | 亚洲精品少妇熟女| 亚洲午夜片| 色综合久久88| 亚洲福利一区二区三区| 新SSS无码手机在线观看| 久久久久国产一级毛片高清板| 国产综合无码一区二区色蜜蜜| 男人天堂伊人网| 无码AV高清毛片中国一级毛片 | 亚洲一区二区三区在线视频| 亚洲综合专区| 99久视频| 久久久久亚洲AV成人人电影软件| 亚洲天堂区| 日韩成人在线一区二区| 国产爽妇精品| 亚洲成人免费看| 五月婷婷导航| 精品小视频在线观看| аv天堂最新中文在线| 2021国产精品自拍| 久久黄色一级片| 国产肉感大码AV无码| 国产精品夜夜嗨视频免费视频| 99热精品久久|