基于文本信息處理的深度網絡推薦技術研究

2022-02-18 09:36:40牛成磊

科技創新與應用 2022年4期

牛成磊

（北京比圖科技有限公司，北京 100102）

目前在建模中，可以充分地采用輸入文本信息。數字信息目前越來越強大，所以在互聯網中也會出現一些信息攔截的情況。用戶在使用互聯網時，希望可以快速準確的得到想要的信息，然而目前信息出現了過度膨脹，所以用戶需要消耗大量的時間來進行搜索查詢。互聯網商家提供的服務，其實是希望能夠精準掌握客戶的需求，然而為客戶推送的相關內容，有的時候并不符合客戶的需求。根據以上的內容推薦系統現在已經產生了新的推薦系統，就是把用戶的相關信息進行分析，然后再進行歷史交互，歷史交互包含用戶的購買記錄以及查閱記錄等。通過這些特點，能夠了解到用戶目前的上網習慣。所以項目特征也隨著歷史交互被了解。

1 文本信息處理技術

1.1 概述

文本信息處理簡單的講就是對文本進行處理，在里面找到所需要的信息，這一過程對于文本處理來講非常重要。以NLP領域為中心展開研究，但是推薦系統領域中，可以直接采用研究成果對此領域中的數據展開處理，根據提取的信息，將文本引入到推薦過程，能夠獲得最佳的推薦效果。在自然語言處理領域中文本信息有很多的種類，并且可根據不同形式展開處理，由于受到篇幅的限制，所以本節對于設計中的推薦模型展開了討論，以及對文本信息處理技術展開討論。

1.2 深度學習模型

深度神經網絡概述。深度神經網絡在進行深度學習技術的時候，是比較基礎的一個部分，然而感知機模型想要得到更好的拓展，需要添加隱藏層，這樣才能夠促使非線性激活函數能夠更加充分的體現自身能力。深度神經網絡在各領域中應用的非常廣泛，能夠表現出較強的特征。同時也可以根據模型進行設計，并充分融合深度網絡，最終達到模型中的強大功能。最近系統研究領域會出現各種推薦模型，同時根據文中所提出的，采用卷積神經網絡，可以將文本特點進行提取，從而促進推薦任務在深度網絡中所推薦的領域得到具體應用，另外，想要捕捉更多用戶的喜好，首先應該在推薦模型中使用注意力機制。在很多工作中，可以使用圖神經網絡充分的與推薦系統相融合，從中能夠得到更好地推薦效果，最終會形成DNN，并廣泛應用到推薦領域。

2 基于文本的注意力神經網絡推薦模型

根據上文的內容，協同過濾推算法一般可以用于訓練時使用，主要針對數據種類比較單一，并且還會出現信息不完善等情況，所以應使用要推薦的模型為用戶建立更好的固定特征向量，但是從而也會導致忽視用戶的愛好。如果想要找到更好的解決方法，首先應該評論文本信息，并適當的添加到推薦過程之中，然而模型建筑會獲得更多的信息輸入，最重要的是在文本中，一般會囊括用戶所選擇的項目以及看法等。另外，在使用時也會體現出用戶的感受，能夠幫助模型挖掘用戶更多的喜好，同時也可體現出模型挖掘的特征。

在用戶使用某一項目的時候，會產生不同的想法，例如手機項目用戶在對手機項目進行評價的時候，會根據手機的外觀以及通話質量等來發表自己的意見以及感受。挖掘評論文本所體現出的信息會支持模型的構建，同時也可以根據用戶以及項目的不同等級為用戶來推薦更多的模型輸入，從而能夠獲得更多的補充信息，并且也會獲得更多的功能。ANAR模型主要分為4個內容，共內容主要是用戶嵌入向量、文本特征、項目嵌入向量、項目的文本特征。與傳統的隱語義模型相比，現在用戶所使用的項目能夠體現出隱向量思想，根據用戶的id，能夠反映出用戶正在使用的嵌入向量Embi∈Rk。

文本特征θu∈RK和項目文本特征Embi∈Rk都是使用特殊設計，最終獲得卷積神經網（CNN），根據數據集評論去獲得文本。要注意的是，在本文中所采用的實驗大多來自于美國亞馬遜電商網站，因為這些數據都屬于公開的，所以在選擇數據的時候，會對文本進行評論，同時所有的文本均為英文，根據ANAR模型所提取到的相關流程可參考如下內容，文本數據再進行清洗時，首先要考慮真實語言環境，因為很多詞語，不具備實際的意義，所以要考慮限定詞以及語氣詞等。在進行數據清理時，首先應該將這些詞語刪除，另外，如果在數據集中，將所有的評論文檔進行整合，匯總成為一個總評論文檔，這與推薦任務不會有任何的關聯,并且對推薦任務還會有所影響，主要是因為高頻詞無法正常的體現出用戶的喜好。低頻詞容易出現錯誤，導致數據中會產生噪聲，所以應該適當的被刪除，根據所選擇的數據展開評論，并且進行統計分析，最終設定數據總評論文檔應該使用低頻詞，如果文檔中低頻詞的數量已經超過3萬，那么此時應該被設定為高頻詞。

根據以上的內容分析數據，在進行清洗的時候，首先總評論文檔不應該使用高頻詞或者是低頻詞，因為這些詞語應該被刪除，另外在生成用戶或者是評論文檔的時候，首先要完善。在文本清洗時，首先應該把CNN文本進行提取，尤其是其特征，所以在很多環節會產生評論文檔。根據數據分析用戶發表的評論，會按照首尾相接的形式進行整合。如果集合大于265個單詞，那么應該在此處展開階段，并且保留前面的詞語進行評論集合。如果長度小于256個單詞，那么在這個集合中的單詞都應該被復制，并且整合到末尾單詞的后邊，要將這個過程進行重復，直到長度大于256個單詞。之后，這種方式應該及時中斷，并且應該為用戶建立單獨的256個單詞的評論集合，針對所獲得的評論集合展開向量化操作，根據上文所述，目前選擇使用谷歌公司建立的預訓練模型，完成此項任務，針對評論集合中的每一個單詞都要掌握維度正常應該在300個單詞向量。從而也應該為用戶創建維度在（256，300）的評論文檔，文檔中應該具備256個單詞，并且每300個單詞為向量維度。

以上是根據數據集中一個用戶所產生的文檔評論，全部的過程根據數據集中對用戶在使用時闡述相關步驟，最終得到數據集中對應用戶建立的評論文檔，整合數據集中的項目評論文檔，最終會形成相應的思路，并且不會被重復使用。特殊設計的卷積網絡，并且從中能夠汲取到文檔的特征，另外還要設計比較特殊的卷積網絡，但此時單層在連接網絡的時候，不會出現向量維度的改變。

注意力交互部分本身屬于核心設計，同時也屬于an AR模型，所以根據本文的引言能夠分析出用戶在使用各種項目的時候，也應該關注不同點，所以模型在進行推薦時，應該捕捉到更好的多樣性喜好，從而能夠使推薦準確度獲得提升。

3 基于文本的圖卷積網絡推薦模型

近幾年，圖卷積網絡已經被廣泛地使用，并且在每一個領域中都能夠見到這種網絡，現在這種網絡的構建已經存在很大的優勢，能夠使信息達到目標節點，能夠幫助模型去學習目標節點。并且形成相應的特征，根據以上的內容分析，評論文本信息通過節點信息再進行傳遞，根據這一過程，文本信息會得到更好地利用。

3.1 模型介紹

本章節主要是簡單分析RAGCN模型，首先對此模型的概論進行介紹，然后具體分析怎么進行，在進行訓練時能夠找到關鍵點以及使用關鍵的步驟，這樣才可以進行設計，最后將此模型的訓練方法以及如何優化進行介紹。

3.2 模型概述

在對RAGCN模型展開闡述之前，首先在本文中應該注意公式符號，要盡量設置正確的符號，所以在推薦系統中，相關數據以及相關數據包會對用戶產生一定的影響，同時也會建立相應的集合，根據所選項目，所構成的集合數據集中，用戶一般會使用量Embi∈Rk。項目量Embi∈Rk，所表示的是自身相對應的評論文檔，在文檔中首先應該采用bert去提取文本向量，然后根據這個向量逐層地將其轉化成為項目評論，并與向量Embi∈Rk融合。

3.3 基于圖卷積網絡的特征學習

圖卷積網絡表示方式，會通過信息的傳遞以及策略學習，用戶選擇項目等。根據數據集中能夠體現出每一個用戶量Embi∈Rk，并且將其特征與用戶相結合，能夠得到的嵌入向量會與用戶節點的特征相符合，并且能夠查找到評論本文節點中所有的特點，根據以上的步驟在圖網絡結構中會包含所有節點，同時也都包含特征向量，根據此項任務能夠知道圖卷積網絡可以支持用戶節點以及用戶特征等，能夠使特征不斷地進行更新，學習優化，同時還可以及時被利用。要注意一點，再進行學習時，首先要評論本文節點中產生的特點，信息中一般不會出現更新的狀態。然而在通過項目節點進行傳輸時，往往會以學習的方式進行參與，很多時候圖卷積網絡在系統中會起到很大的作用。

3.4 注意力機制

如前文所述，在一個推薦情境中，不同的相鄰項目節點對于目標用戶節點的重要程度是不一樣的。例如：假設某用戶近期購買過《新華字典》和嬰兒紙尿褲兩種商品，那么對于刻畫該用戶特征畫像的作用而言，《新華字典》這個商品幾乎起不到任何作用，因為無論是什么身份、什么年齡、什么性別的用戶，都有購買《新華字典》的理由；而對于嬰兒紙尿褲則完全不同，因為購買此商品的用戶，其身份概率大多是剛剛為人父母的人。因此，對于這個用戶所對應的用戶節點而言，在圖網絡消息傳遞的過程中，其兩個相鄰的項目節點對其傳遞過來的信息重要程度應當是截然不同的，嬰兒紙尿褲這個項目對應的節點應該被賦予更大的消息傳遞權重。

4 結束語

本文主要針對文本信息處理展開了深入研究，尤其是應用于深度網絡技術中，根據文本信息以及用戶在使用數據進行交互時，對其融合并且深度學習相關技術以及模型的構建，同時也為用戶推薦模型。根據現有的文本推薦方法有的時候會忽視用戶在使用時的多樣性以及喜好，由于沒有建立較完善的模型，所以在輸入文本信息時，首先應該給用戶提供更多的推薦任務，以此滿足用戶的多樣性以及喜好。對于項目特征應該更加細致并且建立模型，首先針對文本，要提高神經網絡模型的推薦。另外，在感知方面也要融合到端神經網絡，同時也要注意對其預測進行評分，并根據抽取用戶以及項目評論等推薦模型適當的對特征信息進行提取，同時要設計一個交互網絡，通過動態捕獲相關項目，在進行交互的時候也會產生多樣性。針對圖卷積網絡，要適當地了解其節點信息，對圖卷積網絡傳遞能力要不斷地進行提升，不斷學習更新以及優化用戶節點。同時根據公開的數據對其進行實驗，入門信息大多都作為輔助，而此時輔助信息可以構建更好的模型，并且完善訓練，能夠提升推薦的表現。圖卷積網絡比較適合處理在推薦系統中所產生的交互關系，同時也可以讓文本信息在輸入的過程中能夠得到充分的利用。對于圖卷積網絡構建在進行學習時，可以適當的推薦模型，這樣能夠支持用戶在選擇各種項目的時候所使用。

如果在文本信息中能夠適當的引用輔助信息則可以構建更好的模型，并且能夠更加完善訓練，還可以促使推薦表現獲得不斷的提高。在如今的大數據時代，不僅僅要注意文本信息，同時還要注意其他相關的數據能夠充分的被使用，在推薦系統中，最主要的來源就是信息，其中包含圖片、項目、屬性等。在未來的科技研究中，輔助信息將會被應用的非常廣泛，同時也會伴隨著推薦技術不斷的升級，不斷的研究，根據多種輔助信息與模型相融合的狀態，對多元化信息再進行輸入時，應適當的采用推薦系統，相對比較傳統系統已不具備太多優越性，所以建議使用推薦系統。