王子嵐,曹路舟
(1.黃山職業技術學院 工業與財貿系,安徽 黃山 245000;2.安徽黃梅戲藝術職業學院 圖文信息中心,安徽 安慶 246000)
隨著當前網絡信息量的不斷增加,信息過載現象逐漸涌現,并造成搜索引擎精確度下降等問題,為此隱語義模型逐漸成為推薦搜索系統領域的熱點名詞.傳統的關鍵詞推送方法在進行數據迭代尋優的過程中,通常使用梯度下降類算法中的隨機梯度下降法完成任務,且傳統人工信息分類不能滿足用戶的需求,在一定程度上很難控制分類的質量,對于不同用戶行為數據很難給出多種相對應分類,隱語義模型充分考慮傳統人工信息分類的不足,很大程度上改善問題[1].隱語義模型是指從用戶的行為數據角度考慮,自動找到這些分類規則,然后進行適合用戶的個性化推薦,以此完成用戶行為數據算法推薦,相關方面的研究越來越得到眾多專家和學者的關注.
楊辰等[2]提出融合語義和社交特征的電子文獻資源推薦方法,在基于用戶的協同過濾方法的基礎上引用隱語義主題模型,充分考慮用戶的信息數據的推薦方式,運用相似性的非監督體系進行信息融合,在此基礎上實現對電子文獻資源推薦方法進行優化.李艷娟等[3]提出基于蜂群K-means聚類模型的協同過濾推薦算法,首先設計用戶隱語義聚類模型,以此為依據計算用戶與目標用戶之間的聚類模型中各聚類中心的連接距離,通過蜂群K-means聚類模型完成協同過濾推薦算法的計算,最后根據計算結果同時通過相識度計算搜索目標用戶的推薦信息.
基于隱語義模型的推薦算法,可實現根據關鍵詞來獲得更多有效信息,進一步解決當前用戶信息搜索結果不精確的問題.基于隱語義模型的推薦算法成為現階段人們從信息海洋中獲取有效信息的關鍵途徑之一,通過對用戶歷史行為記錄數據進行整合分析,獲取其特征數值,從而有效判斷用戶的偏好,準確推送用戶所需的信息.不考慮隱語義模型推薦過程中常見的數據損失現象,結合傳統的信息特征推薦梯度下降算法進行優化,分析兩類梯度下降算法的優缺點,并進行結合和優化處理,從而更好地提高基于隱語義模型的推薦算法的準確性.
為保障信息推薦的準確性,首先對隱語義模型數據特征進行采集,獲取用戶的個性化喜好信息,并針對采集到的特征數據及搜索關鍵詞,進行信息分類和推薦.為保障信息推送的準確性,結合最小梯度下降算法和隱語義模型對數據信息特征采集和分類算法進行規范[4].首先采用小樣本梯度下降法對用戶興趣信息進行隨機抽取,并對收取到的特征信息進行挖掘,則采集到的信息特征相關性數值算法可記為
(1)

(2)
式中,Qa和Qb分別表示為相似度預選評分數值和相似度評分均值.根據數據特征系數進一步對不同的數據相似性結果進行分類,若ΔV>1則可將數據歸類至相似特征集;若ΔV≤1則進一步對數據特征進行挖掘分類,計算其特征相似類別[5].針對不同的信息特征相似度數值進行特征等級劃分,并整合為特征集合,以便對不同等級中的差異性特征數值進行評價,并選擇最優評價尺度進行記錄.結合模糊控制算法對網絡流量信息特征進行采集,進一步對用戶檢索信息趨向進行挖掘數,并規范參考特征數值,其限制條件可記為Y,則信息特征數據挖掘興趣度算法為
I(n)=Sij×ΔV×C(Yi+Yj),
(3)

(4)
式中,h表示每一個特征等類別都會包含一個組列,u表示各個特征子集之間的共性特征屬性,e表示差異性特征數值,t表示數據中的隱語義信息挖掘次數,n表示數據特征類別數量.基于以上算法有效對用戶非重要性關鍵詞進行排查和檢測,根據特征數值進行特征類別劃分,從而更好地幫助用戶篩選喜愛的興趣信息.基于上述算法對用戶興趣信息進行評價,判斷信息共性特征的評分向量,確定用戶新相似性及相似程度,以便更好地進行隱語義特征數據類別的分類篩選和有效推薦.
基于上述算法進行信息數據的篩選和推薦,為保障數據推薦的準確性,對篩選步驟進行優化,并在人際交互界面上對特征信息進行顯示,以便提供給用戶進行判斷,并對隱語義模型的行為特征數據進行篩選.在信息推薦過程中,對興趣信息相似度是提高推薦精度很重要的一部分.在不同的推薦場景中,選擇的相似度的計算方法也不相同.設An點特征向量取值范圍為(a1,a2,a3,…,an),Bm點特征向量取值范圍為(b1,b2,b3,…,bn),則An點與Bm點的共性特征表示公式為
(5)
根據用戶歷史信息瀏覽和收藏情況進行反饋和檢測,判斷用戶最高檢索情況和數據點擊率,同時分析數據搜索結果,進行有效信息的篩選,并提供個性化推薦列表.結合協同信息原理進行數據特征過濾,對任意指定的興趣信息進出篩選.假設在進行信息篩選的過程中存在與用戶搜索興趣相似的一組特征集,結合隱語義原理對采集到的特征信息相似度標準進行規劃和搜索,評價過的興趣信息的評分來預測對篩選信息的評分[7].信息推薦的聯系方式主要分為用戶與用戶聯系、與項目聯系以及與特征聯系,從而通過推薦系統聯系到推薦的項目.具體的數據推薦管理關聯原理如圖1所示.

圖1 數據推薦管理關聯原理
基于以上原理,結合網絡信息協同過濾原理進行用戶興趣信息的特征采集處理,對于任意一個用戶,假設其擁有與之興趣相似的一組數據特征類別,則基協同過濾原理和隱語義模型進行信息相似度對比,為保障特征采集的準去性需要進行特殊分類標準的規劃,需要對用戶以往的搜索行為進行興趣類別比分析,并對比其他用戶的相似搜索信息進行信息特征類別的篩選,根據篩選結果進行分類評價,獲取用戶潛在興趣項目的評分,根據評分內結構推送相似信息[8].對不同信息的相似度計算并劃分相似度等級,從而在推薦系統中得到不同等級的差異結果數值,根據差異數值對不同用戶需求選擇不同的相似度評價方法進行分類處理,并進行多種排列嘗試,構建了基于大數據的電子商務框架圖,如圖2所示.

圖2 基于語義模型的信息處理塊
基于以上模塊進行用戶信息的篩選分類,并構建隱語義信息庫模型,選取信息的最優行為路徑,然后對篩選出的相似信息和并向推薦庫發送傳輸請求,并按照用戶興趣計算推薦信息,最后對客戶端響應結果進行顯示[9].進一步利用隱語義模型找到用戶搜索趨向及采集到的相似數據進行篩選和推薦,當用戶對該信息給予高度評價時,推薦給用戶與該信息相似度較高的其他信息,保障信息推薦的快速和精準.
1.3.1 信息重要性影響排序
為了更好地實現對用戶信息進行推薦,首先對隱語義模型中的模糊數據進行統一評價,并根據評價結果對語義模型推薦功能進行改善,在進行隱語義信息的推薦過程中,受到的語義模型多元化重要性因素影響,對推薦信息進行分步評估和加固處理,所推薦的相關特征信息數據的最大有效性特征范圍在Kmax范圍內,其計算公式為
(6)
式中,Hj表示隱語義模型篩查出的相似特征內容數據信息推薦要求,Ni表示特征信息的初始推薦功能偏好.在上述算法中,若i=(1,2,3,…,n),j=(1,2,3,…,m),設篩選出的相似信息重要性特征影響度為P,推薦信息的評估體系構成要素為n,每個評估體系的重要性影響度數據編碼集合為Pij,且Pij={P1,P2,…,Pi},通過對隱語義模型特征信息推薦的重要性影響進度數值S進行數據編碼和集中分類管理,繼而從篩選的數據結果中劃分出數據推送的重要程度等級,最后再對隱義模型數值特征行為所受重要性影響等級進行計算,得到公式(7):
(7)
若G為隱語義模型數據的總體信息評測有效度,在進行信息推薦的過程中,受到zij個重要性因素干擾,且干擾程度為D,則篩選出的信息重要性影響排序算法為:
(8)
采用上述步驟對隱語義模型信息特征的多元化屬性影響因素進行優化,獲取關聯性信息的最終特征相似性測評影響數值,利用計算機網絡用戶的相關動作數據特征,輔助區別正常推薦數據與異常推薦數據,并對這些推薦數據的特征進行匹配,以此實現對隱語義數據數據的挖掘和分類[10].再對獲取到的信息特征規則進行統一歸類和數據更新,構建出相對較完備與精準的信息儲備庫,以便對信息數據進行準確推薦.
1.3.2 用戶興趣數據信息推薦
由于在進行數據推薦的操作過程中,需要進行大范圍的數據搜索,為保障數據搜索的有效性需要對采集到的全部信息特征值匯總潛在關鍵詞進行提取,最大程度上縮小信息搜索的范圍,由于隱語義模型關鍵詞存在一定的隱藏性,因此在進行信息推薦的過程中存在較大的信息挖掘難度,為此需要結合模糊聚類隱語義融合模型推薦算法對不同數據特征類別集合進行挖掘訓練,并整合出數據的相應特征的聚類簇集合,并將采集到的集合信息特征存入隱語義模型中的分布式數據庫數據處理模塊,設計隱語義模型訓練因子排列等級評估模型,具體模型結構如圖3所示.

圖3 隱語義模型訓練因子排列等級評估模型
為保障信息推薦的合理性,進一步對隱語義模型推薦流程進行優化,分別在離線和在線狀態下對信息推薦流程進行優化處理,判斷相似信息及特征集,從而進行信息推薦,具體信息推薦流程如圖4所示.

圖4 基于隱語義模型的信息推薦流程
根據以上流程對推薦信息進行相似性篩查和排序處理,可更好的提高對用戶興趣數據推薦的有效性,同時保障在海量數據環境下對特征數據的準確挖掘.
為驗證基于隱語義模型的推薦算法,對比傳統推薦算法進行了準確性對比檢測,為保障檢測結果的準確性,首先對實驗環境及參數進行統一設置.
實驗采用的集群由三臺機器組成,其種一臺為Master,作為Name Node節點來配置,其余兩臺為Slave來配置,處理器CPU為lntel(R) Core(TM)i7-7700 CPU@3.60GHZ,內存128G,操作系統為CentOS6.6.實驗數據來源為Group Lens Research項目組提供的Movielens數據集,在數據集內排除限定條件較多的樣本集,排除與本文研究擬合程度較低的樣本集,排除特征不明顯的樣本集,剩余樣本集合90個.
將樣本集合分為9組,進行9次測試實驗.為在上述實驗環境下進行多次對比檢測,將用戶興趣值作為數據推薦有效性的評價標準,為方便對實驗結果進行觀察和記錄,將本文算法檢測結果記為A,將文獻[2]算法檢測結果記為B,將文獻[3]算法檢測結果記為C.具體用戶興趣值對比檢測結果如圖5所示.
由圖5可知,對比文獻[2]算法、文獻[3]算法以及本文方法大致可分為兩種模式,文獻[2]算法、文獻[3]算法在10~30個樣本集下的用戶感興趣程度最高,而本文與之相反,可滿足不同樣本集的不同需求,且其整體用戶感興趣程度始終高于其他兩種文獻方法,說明本文提出的基于隱語義模型的推薦算法在進行信息推薦的過程中,用戶興趣值相對較高.為進一步驗證本文算法的合理性,對比本文算法和文獻[2]算法和文獻[3]算法的準確性進行驗證,其準確率公式如式(9)所示.

用戶樣本集/個圖5 用戶興趣值對比實驗檢測結果
(9)
在公式(9)中,G(a)表示a最終選擇對象集合的總量;H(a)表示a最終選擇對象集合的數值量;F表示對象集合.利用準確率公式計算本文算法和文獻[2]算法和文獻[3]算法的分布等級準確性,其中誤差最大值為20%,區段誤差最大值為1%,誤差值越低則表示模型越準確,其結果如表1所示.

表1 三種方法準確性分布等級對比
由表1可知,與文獻[2]算法和文獻[3]算法對比,本文算法的對比誤差僅為5%,遠遠低于允許取值誤差;文獻[2]算法和文獻[3]算法誤差分別處于25%和26%,遠遠高于允許取值誤差20%,且區段誤差只有本文算法保持在規定極限以內,文獻[2]算法和文獻[3]算法的區段誤差值超出允許區段誤差值.由此證實基于隱語義模型的推薦算法具有較高的準確性和實用性,為用戶行為數據的推薦奠定了基礎,增加了推薦結果的完整性和可行性.
用戶需要花費大量的時間從眾多數據獲得自己想要的信息,造成信息過載過重,這時就需要有技術或工具能夠幫用戶過濾掉不感興趣或者與所想要的信息不相關的信息,為此提出了基于隱語義模型的推薦算法,通過采集用戶興趣信息特征數值,對近鄰特征信息進行評估分類,并針對采集到的特征數據及搜索關鍵詞,根據用戶平均興趣度以及不相似度懲罰系數設置向量特征信息值,劃分特征等級,以便對興趣信息進行有效劃分.最后通過實驗分析,結果表明本文提出的基于隱語義模型的推薦算法能夠滿足不同用戶的需求信息的推薦,且提高信息推薦的準確性,在未來的研究中,可就如何縮短基于隱語義模型推薦算法的推薦時間進行深入的研究.