999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

電子檔案實時推薦系統模型優化應用研究

2023-12-08 14:03:43陳靜胡祥科彭煦彭登輝
北京檔案 2023年11期
關鍵詞:用戶策略系統

陳靜 胡祥科 彭煦 彭登輝

摘要:論文結合實時推薦技術的特性,針對現有電子檔案管理系統中的檢索推薦方法,進一步提出實時推薦的優化方式,即通過應用基于內容的召回推薦策略和基于用戶的協同過濾推薦策略進行電子檔案的實時推薦。此種方式將打破傳統依賴關鍵詞的正向檢索局限,提升電子檔案的利用效率,為電子檔案管理提供一定的參考與借鑒。

關鍵詞:電子檔案 實時推薦 計算機應用

隨著電子檔案呈海量增長的趨勢加強,如何高效、精準地滿足電子檔案利用者的需求,提升檢索效能,充分發揮電子檔案的價值,成為亟待解決的問題。本文提出了應用基于內容的召回推薦策略和基于用戶的協同過濾推薦策略,打破了傳統依賴關鍵詞檢索推薦的局限,有效縮短了檔案查詢時間,提升了電子檔案的檢索效率。

一、電子檔案推薦系統現狀及存在的問題

電子檔案具有類型復雜多樣、數量大等特點。現有推薦系統大多是通過獲取所檢索的關鍵詞,與后臺數據庫存儲的電子檔案進行匹配,篩選符合條件的電子檔案,最終反饋匹配成功的檢索結果。由于此種方式要將關鍵詞與存儲的電子檔案逐一匹配,若存儲的電子檔案數量不大,需要比對的數據量相對較少,尚可滿足利用需求。但針對海量電子文檔的檢索,由于數據量過大,此種查詢方式會帶來查詢延時,在一定程度上無法滿足實時反饋檢索結果的需求。

另外,在查詢用戶無法提供關鍵詞或者提供的關鍵詞相關性不大的應用場景下,系統無法精準獲取用戶需求,進而無法提供給用戶真正所需的電子檔案,從而減弱電子檔案的利用效率,影響用戶體驗。而且當前大部分推薦系統缺乏用戶喜好的相關數據,無法建立用戶和用戶之間的關聯度分析,進而尚未實現相似用戶感興趣的電子檔案的互相推薦。

二、電子檔案實時推薦系統優化策略

針對上述問題,本文提出電子檔案實時推薦系統的優化模型,以解決推薦效率低下等問題。該優化模型是在不同階段分別應用基于內容的召回推薦策略和基于用戶的協同過濾推薦策略,通過用戶畫像生成和倒排索引構建、混合推薦和推薦結果的實時反饋等步驟,最終達到電子檔案實時推薦的目標。具體實施步驟如下所述。

(一)基礎數據生成與構建

1.用戶畫像生成。不同于傳統基于關鍵詞的檢索方式,該推薦系統主要基于用戶的喜好和意圖進行自動化的推薦。為了獲取用戶的喜好,推薦系統需要獲取用戶對不同電子檔案的行為數據,包括點擊、閱讀等操作,然后基于此生成用戶畫像。同時,該系統逐一對電子檔案生成電子檔案畫像,主要涉及文章分類、主題詞提取等。

2.電子檔案標簽編碼。為了高效完成自動推薦,該系統還需要逐一對電子檔案和用戶進行標簽編碼。為便于理解,這里假設每一份電子檔案使用64位整數作為標簽進行編碼,將64位整數分為兩部分,高12位用來表示電子檔案的相關類型參數,低52位用來表示該類型參數對應的編碼標識。例如,某電子檔案的標簽是{“所屬領域:新能源”,“發布單位:集團某科研院所”,“文檔類型:制度”,“主題詞:海上風電”},這里的標簽和對應的值可根據業務需要動態進行調整。

3.用戶標簽編碼。與上述電子檔案的標簽編碼類似,這里也采用64位整數來標識用戶,將64位整數分為兩部分,高12位用來表示用戶的相關類型參數,低52位用來表示該類型參數對應的編碼標識。例如,某用戶的標簽是“{關注領域:新能源”,“所在單位:集團某科研院所”,“喜好文檔類型:制度”,“喜好主題:海上風電”},這里的標簽和對應的值可根據業務需要動態調整。

4.倒排索引構建。傳統正向索引技術主要是建立電子檔案與關鍵詞的映射關系,將檔案ID或者標題作為文檔唯一標識。例如“檔案A”“檔案B”“檔案C”中包含“新能源”這個關鍵詞,其對應的正向索引為:{“檔案A”:“新能源”、“檔案B”:“新能源”、“檔案C”:“新能源”},通過此種方式建立的映射關系,在對“新能源”這個關鍵詞進行檢索查詢時,需逐一從每份檔案中進行全文檢索,在一定程度上影響了檢索效率。而倒排索引是記錄每個關鍵詞和對應的電子檔案信息的列表,采用倒排索引建立的映射關系為:{“新能源”:“檔案A”,“檔案B”,“檔案C”}。后期通過“新能源”關鍵詞檢索時,只需要查詢一次就可以得到所有包含該關鍵詞的檔案信息,可有效提升檢索效率。

這里將電子檔案和用戶的標簽作為關鍵詞來構建倒排索引,在倒排索引列表中記錄對應的電子檔案的存放列表。以上述電子檔案和用戶標簽編碼為例,構建的電子檔案倒排索引列表為:{“所屬領域”:“海上風電,新能源,水電”},{“文檔類型”:“制度,通知,紀要”};用戶倒排索引列表為:{“關注領域-新能源”:“用戶A,用戶B,用戶C”},{“感興趣類型-制度”:“用戶B,用戶C,用戶D”}。

(二)基于內容的召回推薦策略

基于內容的召回是指根據電子檔案的內容,來判斷該檔案是否符合用戶喜好。其主要應用在推薦系統的冷啟動環節(即系統上線運行的初期),處于這個時期的推薦系統由于缺乏用戶的瀏覽、點擊等行為數據,無法通過用戶的喜好進行推薦。基于內容的召回推薦策略可以通過分析電子檔案的內容,從而提煉出電子檔案標簽,推薦給能匹配該標簽的用戶。

具體來說,如果用戶畫像和電子檔案畫像中的標簽或關鍵詞相同,說明該電子檔案的內容符合用戶喜好,可推送該電子檔案。從計算的角度來說,即將用戶標簽和電子檔案標簽進行邏輯“與”運算(標簽里存放的都是0或者1這樣的64位正整數),若運算結果完全一致,可將電子檔案倒排索引列表中的電子檔案依次取出并推送給該用戶,也可通過設定結果相似度的閾值來判斷是否需要推送。

(三)基于用戶的協同過濾推薦策略

在系統運行上述基于內容的召回推薦算法一段時間后,此時后臺系統已存儲大量的用戶行為數據。在此背景下可使用基于用戶的協同過濾推薦策略,該策略與基于內容的召回推薦策略的不同之處在于,其不依賴電子檔案的內容進行推薦,而基于用戶與電子檔案的互動關系來進行推薦。從本質上說,就是將和某用戶相似的用戶找出來,然后將相似用戶所瀏覽過的電子檔案推薦給該用戶。

具體操作分為兩步:第一步,找到與該用戶最相似的一批用戶;第二步,將相似用戶瀏覽過但該用戶沒有瀏覽的電子檔案進行推薦。例如,用戶1瀏覽過檔案1和檔案2,而用戶3和用戶4也瀏覽過檔案1和檔案2,那么用戶1和用戶3、用戶4就是相似用戶。如果用戶3和用戶4還分別瀏覽過檔案3和檔案4,就可以將檔案3和檔案4都推薦給用戶1。具體如圖1所示。

這里以一個實際例子來進一步說明,假定有四個用戶、四篇電子檔案,用戶對四篇電子檔案的興趣程度(可通過用戶的點擊次數、收藏和轉發等行為計算)如表1所示。

為了便于理解,表格里的每個電子檔案列下的數字表示每個用戶對該電子檔案的喜好度(可通過用戶的點擊次數、收藏和轉發等行為計算),表中“-”表示用戶和檔案尚未建立相關的喜好度。

基于表1,若要找出和用戶1相似的用戶,可以將用戶對電子檔案的喜好度看作一個n維空間,每個用戶都可以表示為n維空間中的一個向量,同時將n維空間中各個向量維度中的值設置為用戶對電子檔案的喜好度。據此,找到與用戶1最相似的用戶的問題,就變成在n維向量空間中,找到和用戶1這個點最接近的點的問題。而在n維向量空間中找到與某點最接近的點可以通過計算余弦距離來對比獲得。這里采用余弦距離所得的結果如表2所示。

根據表2,用戶2、用戶3、用戶4和用戶1的相似度排序為用戶3>用戶4>用戶2,根據相似度的排序可取出若干相似用戶,然后將相似用戶感興趣的電子檔案取出進行推薦。從排序得出,用戶3和用戶4為用戶1的相似用戶,然后將用戶4和用戶3感興趣的電子檔案3和電子檔案4進行排序推薦。針對優先推薦檔案3還是檔案4的問題,可對電子檔案的喜好進行加權打分(用戶喜好度×與待推薦用戶的相似度)累加,優先推薦分數最高的電子檔案。

基于上述數據,分別計算電子檔案3和電子檔案4的推薦得分,檔案3的推薦得分是:1×0.73=0.73(用戶3的喜好度×用戶3和用戶1的相似度),檔案4的推薦得分是:2×0.54 = 1.08(用戶4的喜好度×用戶4和用戶1的相似度)。因此,根據計算得到的結果,系統會優先推薦檔案4,再推薦檔案3。

(四)推薦結果的實時反饋

最后根據上述算法選取符合條件的且排序最靠前的若干個電子檔案返回,得到最終推薦結果,也就是說從全部符合條件的電子檔案中選擇排名前K個結果即可。為提高排序選擇效率,可采用常規排序的Top-K排序(又叫堆排序)算法來獲取。該算法是在特定的數據區域中找出排名前K個符合條件的數據的檢索方法。采用該方法將大幅減少排序的時間,有效提升檢索性能,同時避免不必要的系統資源消耗,減少計算資源,提升系統運行效率。

三、結語

本文圍繞電子檔案實時推薦的應用方式,通過引入基于內容的召回推薦策略和基于用戶的協同過濾推薦策略,將兩種類型的推薦模式進行互補融合。在用戶行為數據較少、相似用戶不具規模的情況下,采用基于內容的召回推薦策略進行電子檔案推薦,解決系統冷啟動問題。當系統運行一段時間,用戶和電子檔案積累到一定數量時,采用基于用戶的協同過濾推薦策略,可以進一步提高電子檔案推薦的科學性和準確率。下一階段,對電子檔案檢索的研究還可關注基于AI的實時推薦模型,即通過AI自動化與推薦搜索算法進一步融合,以達到更好的實時推薦效果。

*本文系2020年國家檔案局科技項目“基于重大工程項目施工現場的電子文件‘單套制歸檔和電子檔案管理研究”(項目批準號:2020-X-22)的階段性研究成果。

參考文獻:

[1]劉青文.基于協同過濾的推薦算法研究[D].合肥:中國科學技術大學,2013.

[2]王哲.新時期建設工程電子檔案的移交與接收工作探析[J].北京檔案,2023(1):30-32.

[3]楊茜雅.中國聯通電子檔案數據挖掘與智能利用的研究[J].檔案學研究,2018(6):105-109.

[4]楊俊杰.數字化轉型背景下的檔案信息安全問題研究[D].鄭州:鄭州航空工業管理學院,2022.

[5]柯賢斌.基于用戶的協同過濾算法在圖書推薦系統中的應用研究[D].荊州:長江大學,2019.

[6]張新,王瑋.探索電子文件歸檔和電子檔案管理新模式[J].中國檔案,2018(5):70-71.

[7]秦楊.我國智慧檔案館建設的現狀分析與對策研究[D].保定:河北大學,2020.

作者單位:1.中國長江三峽集團有限公司科學技術研究院

2.中國長江三峽集團有限公司檔案中心

猜你喜歡
用戶策略系統
Smartflower POP 一體式光伏系統
工業設計(2022年8期)2022-09-09 07:43:20
WJ-700無人機系統
ZC系列無人機遙感系統
北京測繪(2020年12期)2020-12-29 01:33:58
例談未知角三角函數值的求解策略
我說你做講策略
高中數學復習的具體策略
數學大世界(2018年1期)2018-04-12 05:39:14
連通與提升系統的最后一塊拼圖 Audiolab 傲立 M-DAC mini
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
主站蜘蛛池模板: 亚洲色欲色欲www在线观看| 欧美三级自拍| 国产精品亚欧美一区二区| 国产69囗曝护士吞精在线视频| 看你懂的巨臀中文字幕一区二区| 91免费观看视频| 免费A级毛片无码免费视频| 精品少妇人妻av无码久久| 欧美成在线视频| 久草热视频在线| 国产成人盗摄精品| 日韩小视频网站hq| 91www在线观看| 国产成人艳妇AA视频在线| 久久综合九色综合97婷婷| 在线观看亚洲人成网站| 伊人91在线| 欧美日韩亚洲综合在线观看| 国产男女免费完整版视频| 99久久国产综合精品2020| 一本大道在线一本久道| 亚洲AV无码乱码在线观看代蜜桃| 亚洲国产理论片在线播放| 国产女同自拍视频| 国产精品专区第一页在线观看| 精品国产一区二区三区在线观看| 热伊人99re久久精品最新地| 黄色一级视频欧美| 毛片网站在线看| 欧美国产日韩在线| 国产精品吹潮在线观看中文| 国产综合亚洲欧洲区精品无码| 99免费在线观看视频| 波多野结衣无码AV在线| 欧美国产三级| 熟女成人国产精品视频| 一本大道无码日韩精品影视| 在线观看欧美精品二区| 国产成人久久综合一区| 伊人国产无码高清视频| 日韩精品毛片人妻AV不卡| julia中文字幕久久亚洲| 国产精品无码AV中文| 中文字幕久久精品波多野结| 国产制服丝袜91在线| 黄色网址手机国内免费在线观看| 思思热在线视频精品| 精品在线免费播放| 又黄又湿又爽的视频| 国内精自视频品线一二区| 毛片网站在线播放| 欧美性久久久久| 午夜限制老子影院888| 97亚洲色综久久精品| 毛片久久久| 国产在线精品美女观看| 国产午夜不卡| 国产对白刺激真实精品91| 美女一区二区在线观看| 国产xxxxx免费视频| 欧日韩在线不卡视频| 国产在线专区| 欧美一级夜夜爽www| 成人免费午间影院在线观看| 久久国产高清视频| 久久精品中文无码资源站| 亚洲无码视频一区二区三区| 日韩中文字幕免费在线观看| 亚洲三级电影在线播放| 老司国产精品视频91| 99青青青精品视频在线| 亚洲天堂日韩在线| 国产成人综合日韩精品无码首页| 波多野结衣一区二区三区88| 日本一区二区不卡视频| 亚洲精品不卡午夜精品| 日日摸夜夜爽无码| 91外围女在线观看| 精品无码一区二区三区在线视频| 婷婷综合亚洲| 成人午夜福利视频| 日韩欧美国产精品|