趙 麗
(六安職業技術學院 經濟管理學院,安徽 六安 237158)
進入信息資源爆炸時代后,互聯網技術開始逐步滲入到人們日常生活中[1],在健康、養老等領域發揮巨大作用。而面對海量信息資源,如何捕捉用戶個人偏好,為其提供所需信息,逐漸成為很多人關注的重點[2]。對于健康養老用戶群體來說,其表現出的信息需求更加個性化,想要將信息推送給合適的對象,就需要信息推送算法的輔助來識別用戶需求并找到符合其需求的信息,為這一群體提供更高質量的養老服務。
考慮到不同健康養老信息表達的主體不同,為了找到符合要求的推送信息,應用LDA主題模型建立一種健康養老信息主題抽取方案,將每條信息分解為多個詞項,并分析詞項和文檔關聯[4]。應用LDA主題模型進行三層式有向概率計算,獲取每個詞項的出現概率,與該詞項屬于某個主題的概率,從而確定健康養老信息的主題。
在已知信息淺層主題數量后,將文本內某個詞匯出現的概率計算表示為式(1):
(1)
式中,αi表示第i個詞匯,p表示概率值,l表示淺層主題,L表示健康養老信息包含的淺層主題數量,β表示潛在變量,P(αi|βi=l)表示目標詞匯屬于淺層主題的概率,P(βi=l)表示文本屬于該主題的概率。
為了便于理解分析,通過圖1所示的詞項文檔矩陣分解模式,簡化式(1)的計算過程。

圖1 詞項文檔矩陣分解示意圖
在詞項文檔矩陣分解結束后,分別建立詞項-主題矩陣、主題-文檔矩陣,運用LDA模型進行信息主題抽取時,其核心環節就是計算兩個矩陣的乘積,考慮文本語義關聯后,計算出健康養老信息文本中,目標詞匯出現概率。
(2)
式中,d表示文本,δ表示文檔分布,φ表示主體分布。
通過求解LDA主題模型可以了解健康養老信息文本中每個詞匯出現概率,從中選擇出現概率較高的詞匯,計算其屬于各個主題的概率[4],根據概率值判斷當前健康養老信息內容對應的主題,根據信息主題可以將待推送的信息進行分類,輔助推送信息的選擇。
從互聯網用戶信息瀏覽歷史數據入手,分析各種用戶瀏覽行為,并運用熵權理論計算該行為的權重。以此為基礎,構建用戶興趣度模型。其中,互聯網用戶興趣度計算公式為:
K(c)=H(ε(c),q(c),ι(c),t(c)),
(3)
式中,c表示健康養老信息,K表示用戶興趣度,H表示興趣度函數,ε表示保存率,q表示轉發率,ι表示點擊率,t表示用戶在消息頁面停留時間。
考慮到用戶瀏覽健康養老推送信息時,各種行為對興趣度貢獻不一樣,為了得到更加深入地了解用戶興趣,需要對各種操作行為設置對應的權值。
(4)
式中,w1、w2、w3表示熵權法計算出的權重,η表示信息長度,e表示信息文本中的某一詞匯。
在實際操作過程中,需要針對用戶瀏覽記錄組建指標矩陣,根據用戶瀏覽行為對興趣度的影響,從正、逆兩個方向對瀏覽行為數據進行標準化處理。
(5)

應用標準化處理后的數據,和用戶瀏覽行為權重量化結果,構建用戶興趣度模型:
(6)
式中,η表示用戶興趣度模型,w表示權重因子,υ表示用戶,F表示用戶點擊推送信息的時間間隔,Y表示用戶使用推送結果的時間跨度。
在已知待推薦信息主題和用戶興趣偏好后,應用協同過濾推薦算法建立健康養老推送信息篩選策略。實際操作過程中,假如用戶對一條健康養老信息有興趣,則與該信息同屬一個主題的其他信息,也很有可能獲得用戶關注,如圖2所示。

圖2 基于項目的協同過濾算法
運用圖2所示的基于項目的協同過濾算法進行健康養老信息推薦時,為了簡化信息推薦步驟,需要將用戶偏好和信息主題均映射為健康養老標簽,通過修正后的余弦相似度計算公式,獲取不同健康養老信息的相似度,將相似度較高的信息歸納在一個標簽內,根據用戶的歷史瀏覽內容確定用戶興趣標簽,而后再搜索相似度最高的信息資源進行推送。
協同過濾推薦算法的實現主要包括兩個步驟。首先,依據健康養老信息資源體系的標準規范,定義用戶興趣關鍵詞,并將所有關鍵詞劃分到不同的分類標簽之內,然后,應用修正后的余弦相似度計算公式,獲取兩個向量夾角的余弦值,并以此來衡量選定個體之間的相似程度,當余弦值為0時,每兩個向量之間表現出垂直的特點,這也表明兩者之間完全不同,反之,余弦值越靠近1,則表明兩者之間完全相似。
在健康養老信息推送實現過程中應用云計算智慧平臺,本質上是采用虛擬化技術匯總可推送信息,在平臺中形成資源池。實際推送過程中可以將每個信息推送問題描述為一個任務,通過云計算智慧平臺分離任務要求,在多個虛擬機的共同作用下從資源池找到最符合要求的信息資源,將其推送給用戶完成任務。在平臺上運行MapReduce框架,實施“分而治之”的思想,將健康養老信息推送任務分解為多個子任務,任務處理主要依托于map(映射)和reducer(規約)兩個函數,分解過程如圖3所示。

圖3 云計算智慧平臺的MapReduce數據處理框架
利用云計算智慧平臺執行信息推送服務時,其服務質量計算過程如式(7)所示。
hSr={ωr,Mr,Br,Er,Or},
(7)
式中,r表示云計算智慧平臺的虛擬機,S表示信息推送任務集,h表示服務質量,ω表示操作時間,M表示內存,B表示網絡帶寬,E、O分別表示安全性、信息推送能耗。
而后,分析養老信息推送總時間:
(8)
式中,ω′表示云計算智慧平臺完成信息推送服務消耗的總時間,ξ表示平臺內虛擬機數量,λ表示健康養老信息推送任務,ωrλ表示虛擬機r完成推送任務λ消耗的時間。
用戶對云計算智慧平臺推送服務的滿意程度可以通過式(9)~(11)進行計算。
(9)
(10)
(11)

根據上述計算結果,對云計算智慧平臺進行調整,確保其在健康養老信息推送過程中,可以保證信息推送任務執行情況符合要求。
提出的健康養老信息推薦算法應用了云計算智慧平臺,屬于創新型研究項目。為了確保該算法可以發揮良好的信息推送性能,需要進行實驗測試。在實驗準備節點利用現有的開源云平臺(Cloud Foundry)開發出全新的云計算智慧平臺,該平臺的主要架構如圖4所示。

圖4 健康養老信息推送服務云計算智慧平臺架構
由圖4可知,服務節點不能直接從DEA容器包含應用中獲取服務,而是需要在基礎服務架構上創建一個服務實例,經由基礎架構綁定服務實例和DEA容器,綁定后DEA也可以通過服務實例獲取讀物節點提供的信息。
考慮到健康養老信息推薦涉及的內容繁多,且所有信息都需要上傳到平臺,以便后續信息篩選和信息推送,為了避免出現失誤,在開發云計算智慧平臺時,需要添加一個后臺管理工具cfdo(云代工廠),該工具提供的主要功能如表1所示。

表1 后臺管理工具cfdo主要功能操作
可用于健康養老信息推送的云計算智慧平臺開發結束后,采集此次實驗所需的數據,從網絡上獲取帶有特征標簽的健康養老相關的公開數據構建實驗數據集。再選擇100名健康養老用戶來作為實驗對象,應用所提算法進行健康養老信息推送實驗。同時,為了提升實驗結果的說服力,此次實驗過程中還同時應用了文獻[2,5-6]提出的方法進行信息推送,與所提算法推送結果進行對比,體現所提算法的優越性。
根據用戶注冊時選取的興趣標簽,以及用戶歷史瀏覽數據,構建用戶興趣模型。建模完成后,篩選所有用戶興趣標簽只保留3個記錄在數據庫中,形成圖5所示的存儲記錄。

圖5 用戶興趣標簽記錄結果
以圖5所示的用戶興趣標簽為基礎,在云計算智慧平臺的輔助下進行健康養老信息推送,用戶最終接收到的信息如圖6所示。

圖6 信息推送結果
從圖6可以看出,所提信息推送算法具有可行性。而為了對比該算法推送結果和其他方法的推送結果,采用F-Measure指標衡量信息推送準確性,該指標是準確率和召回率的加權調和平均值,具體計算公式為:
(12)
式中,F表示F-Measure指標,R表示健康養老信息推送結果的召回率,P表示推送結果的準確率。
應用公式(12)進行計算時,準確率和召回率需要依據用戶瀏覽記錄進行計算,最終得出不同信息推送算法的F-Measure對比結果如圖7所示。

圖7 不同信息推送算法的F-Measure對比
由圖7可知,所提方法的F-Measure值在0.6左右,上下浮動不大,而其他3種方法信息推送F-Mrasure平均值分別為0.41、0.35和0.34。綜上所述,所提方法與3種文獻提出方法相比,信息推送F-Measure值提升了31.67%、41.67%、43.33%,應用該算法可以推送出更加符合用戶需求的信息。
總之,隨著人們對健康養老問題的重視程度不斷增加,健康養老信息推送也成為備受關注的問題。為了提升信息推送質量,提供更好的健康養老服務[7],設計一種基于云計算智慧平臺的推送算法,利用云計算強大的數據處理能力,可以實現信息精準推送,滿足人們的個性化信息需求。