李歡



摘 要: 針對傳統推送技術存在推送效率低、局限性大及安全性差的問題,提出基于文化安全的微博信息推送技術;該技術下的微博信息推送系統主要包括用戶興趣模塊、關鍵詞采集模塊、文本分類模塊以及信息推送模塊。系統通過用戶興趣模塊,為用戶提供符合文化安全要求的信息;采用基于主題詞表的貝葉斯方法,獲取微博文本中的關鍵詞。通過關鍵詞和文化安全類別的互信息值,塑造關鍵詞?文化安全類別關系表,實現微博文本的分類;再經過信息推送模塊,將文化安全類的微博信息推送給用戶。實驗結果表明,該方法具有更優的查準率和召回率指標,實現了很好的信息推送服務。
關鍵詞: 文化安全; 微博; 信息推送; 用戶興趣模塊
中圖分類號: TN911?34 文獻標識碼: A 文章編號: 1004?373X(2016)08?0041?04
Research of microblog information push technology based on cultural security
LI Huan
(School of Computer Science and Technology, Zhoukou Normal University, Zhoukou 466001, China)
Abstract: To solve the problems existing in traditional push technology, such as low efficiency push, great limitations and poor safety problems, a microblog information push technology based on the cultural security is proposed. The microblog information push system based on the technology is mainly composed of user interest module, keywords acquisition module, text classification module and information push module. The system provides users with information which is in accordance with the requirements of the cultural security through a user interest module, and gets the keywords in the microblog text by means of Bayesian method based on thesauri. By keyword and mutual information value in the cultural security category, the relational table of keyword and cultural security category is made to realize the classification of the microblog text. And then the weibo information in the culture safety class is pushed to the users through information push module. The experimental results indicate that the method has better precision ratio and recall rate, and can achieve very good information push service.
Keywords: cultural security; microblog; information push; user interest module
文化安全是文化建設中民族文化健全自身機制、防范和解決風險的能力。隨著當前計算機技術和網絡技術的快速發展,使得人們處在快速膨脹的信息社會。由于經濟全球化的發展,使得政治和文化呈現多元化發展,出現了很多文化交流的方式,微博作為目前最火的一個網絡社交平臺,受到越來越多人的關注和使用。社會中的任何人都可通過微博肆意發布任何消息,對于我國的文化安全造成了嚴重威脅[1?3]。因此,為了確保中國文化安全性,應在微博信息推送過程中考慮文化安全因素,關注微博時代信息傳播的安全性具有了重要意義[4?5]。但是,當前的推送方法存在效率低,準確性差等問題,為了解決上述問題的產生,本文提出基于文化安全的微博信息推送系統,該系統由用戶交互層、興趣模型層以及語義操作層組成。系統依據關鍵詞和文化安全類別的互信息值,塑造關鍵詞?文化安全類別關系表,實現微博文本的分類。通過信息推送模塊,將文化安全類別的微博信息推送給用戶。實驗結果說明,本文方法具有更優的查準率和召回率指標。
1 基于文化安全的微博信息推送技術
在了解基于文化安全的微博信息推送系統的組成結構之后,進一步對系統核心功能模塊進行設計。本文設計的基于文化安全的微博信息推送系統主要包括用戶興趣模塊、關鍵詞采集模塊、文本分類模塊以及信息推送模塊,下面對各個模塊進行設計分析。
1.1 用戶興趣模塊
用戶興趣模塊是系統用于描述用戶個性化信息需求的模塊。微博信息推送技術應滿足用戶的個性化需求,通過用戶興趣模塊,為用戶提供文化安全類別高的微博信息。塑造用戶興趣模型時,應先采集用戶信息,再基于用戶信息塑造用戶模型,為用戶提供文化安全方面高的微博信息服務,同時通過用戶反饋機制調整用戶興趣模塊信息。用戶興趣模塊建模過程如圖1所示。其中文化安全信息推送服務的模式是基于用戶興趣模型而構建的,其可提供滿足用戶需求的文化安全信息。
1.2 關鍵詞采集模塊
在收集到用戶感興趣的信息之后,微博信息推送系統可準確識別出文化安全類別的關鍵詞,對于系統推送精度具有重要作用。本文采用基于主題詞表的貝葉斯方法,采集微博文本中的關鍵詞,并在訓練過程中采集貝葉斯模型中的相關參數,對詞語在文本中產生的位置進行了分析,可獲取更優的結果。該算法由訓練過程和采集過程組成,如圖2所示。
圖2 關鍵詞采集算法
1.3 文本分類模塊
采集到微博文本關鍵詞后,可通過文化安全類信息的要求對文本分類模塊進行分析,實現微博文本的分類。文本分類模塊通過概率的方式,計算所屬文本安全類別的概率,而此步驟由訓練過程和分類過程構成。訓練過程主要是對訓練文本集進行操作,明確分類算法的參數,塑造文本分類器;分類過程通過使用文本分類器對微博文本進行操作,獲取文化安全類別高的微博文本。其詳細步驟如下所示:
(1) 訓練過程。訓練過程主要是通過互信息量描述方法,建立微博文本詞語同文化安全類別文本間的關系。互信息則可以體現出不同兩個事件集間的關聯性。系統對具有文化安全類別的文本進行訓練學習,獲取關鍵詞與文化安全類別間的關系,訓練過程為:
① 基于關鍵詞采集算法,獲取訓練集中不同文本中的關鍵詞。
② 通過關鍵詞和文化安全類別互信息公式,獲取關鍵詞和文化安全類別的互信息值。互信息公式為:
[MI(x,y)=log p(x,y)p(x)p(y)] (1)
式中:[p(x,y)=c(x,y)x′,y′c(x′,y′)];[p(x)]和[p(y)]分別表示關鍵詞[x]與[y]獨立出現的概率;[p(x,y)]是關鍵詞與同時出現的概率;[c(x,y)]表示關鍵詞與同時出現在一篇微博文本最終的次數。
③ 過濾互信息值,塑造關鍵詞?文化安全類別關系表。
(2) 分類過程。采用關鍵詞采集算法獲取微博文本中的關鍵詞。通過關鍵詞?文化安全類別表,計算微博所屬文化安全類別的概率,再依據分類順序得到相應微博文本內容的分類矢量,采用該分類矢量可對采集文化安全類別的微博文本信息進行分類。詳細的過程如圖3所示。
圖3 文本分類過程
1.4 信息推送模塊
在對微博文本進行分類之后,通過微博文本信息?興趣模型的相關度,調控文化安全類別微博信息推送的過程。當相關度同系統規定一致時,文化安全類別信息會被推送給用戶。具體的推送流程如下:
(1) 通過文本分類方法,對一條原始微博信息進行處理,采集信息的分類矢量;
(2) 計算微博文化安全類別的概率;
(3) 依據信息分類矢量和興趣模型,得出用戶對文化安全類別信息的興趣度,公式為:
[興趣度=iIiPi, i=1,2,…,n] (2)
式中:[Ii]用于描述用戶對文化安全類別信息的興趣度;Pi表示微博文本屬于文化安全類別[Ci]的概率。
(4) 向用戶推送文化安全類別信息。系統向用戶推送文化安全類別信息時,要充分分析用戶對文化安全類別信息的興趣度和熱度,再確定可不可以向用戶推送該類信息。因此,應在用戶對文化安全類別信息的興趣度高于瀏覽的信息平均興趣度,且信息熱度高于制定的閾值時,向用戶推送文化安全類的微博信息。基于文化安全的微博信息推送流程如圖4所示。
在對基于文化安全的微博信息推送系統的用戶興趣模塊、關鍵詞采集模塊、文本分類模塊以及信息推送模塊進行設計之后,對其源代碼進行設置。
2 系統設計實驗代碼
本文系統中的用戶同服務端交互微博信息時,微博信息中的文本信息、圖片消息以及語音消息都采用XML數據包的方式完成傳輸。所以服務端與發送端在收發數據的過程中,需要完成數據的XML數據解析及XML數據轉換處理。XML解析通常依據事件流或文檔樹完成數據的解析。而本文分析的微信推送信息,則是依據XML樹形結構進行的解析。所以系統設計的詳細代碼為:
Community immovability Pattern
收集用戶感興趣的文本
{
Pattern
Readingdata readingdata =
requirement.networkRelevancesO; 對關鍵詞進行訓練
PIPEspeak speak = good PIPEspeakQ:
Missive missive = speak.read(readingdata); 獲取互信息值
Component origin =
missive.forOriginComponentQ;
塑造關鍵詞?文本安全類別關系表
Catalogue
to (Component c : componentCatalogue){
pattern .stupid(c .forDenominateU, c.toThemeU);
計算文化安全類別的概率
}
readingdata.overU;
readingdata = vacancy; 推送信息
repay pattern;
}
先設置了Pattern
完成基于文化安全的微博信息推送系統設計及源代碼設計之后,需要進一步對設計系統的性能進行驗證。
3 實 驗
為了驗證本文提出的基于文化安全的微博信息推送技術的有效性,需要進行相關的實驗分析。
3.1 實驗方法
實驗將微博網絡中全部的微博內容當成一個總文本集,分別采用本文方法和靜態推送方法,對實驗微博網絡中的信息進行推送;采用查準率和召回率評估兩種方法的性能,并將總文本集按文化安全類別分為以下4類:A類,系統推送并屬于文化安全類別的內容;B類,系統推送但不屬于文化安全類別的內容;C類,系統沒有推送但屬于文化安全類別的內容;D類,系統沒有推送但不屬于文化安全類別的內容。
系統的查準率和召回率定義如下:
查準率:[U=AA+B];
召回率: [W=AA+C]。
其中:A+B用于描述系統的總推送微博信息數;A+C用于描述全部同文本安全相關的信息數。查準率值越高,說明相應方法下系統推送文化安全方面的信息準確性越高。召回率越低,說明相應方法下系統推送的信息中,遺漏掉有關文化安全方面的信息越少。
3.2 實驗結果分析
實驗分別對本文方法和靜態推送方法下微博信息推送系統的10次檢測結果分別用表1和表2描述。
基于表1和表2中的數據,運算兩種方法的查準率和召回率,在實驗次數相同的情況下,本文算法相比靜態推送方法,本文設計的系統推送的文化安全類微博數與實際文化安全類的全部微博數更相近。其結果分別如圖5和圖6所示。
分析圖5可得,相對于靜態推送方法,本文方法下的微博信息推送系統的查準率是穩定的,并且高于靜態推送方法。從圖6中的結果可以看出,本文方法下的微博信息推送系統的召回率較為平穩,而靜態推送方法下的系統召回率具有較高的波動幅度,并且本文方法的召回率低于靜態推送方法,說明本文方法下的微博信息推送系統可向用戶推送更多文化安全方面的信息,實現了很好的信息推送服務。
4 結 語
本文提出基于文化安全的微博信息推送技術,在該技術下的微博信息推送系統,主要包括用戶興趣模塊、關鍵詞采集模塊、文本分類模塊以及信息推送模塊實驗結果說明,本文方法具有更優的查準率和召回率指標,實現了很好的信息推送服務。
參考文獻
[1] 許少華,夏智偉.基于輪轉周期的動態反饋負載均衡算法[J].計算機技術與發展,2013,23(6):63?66.
[2] AL?REFAIE Abbas. Factors affect companies ' safety performance in Jordan usingstructural equation modeling [J]. Safety science, 2013 (57): 169?178.
[3] FANG Dongping, WU Haojie. Development of a safety culture interaction (SCI) modelfor construction projects [J]. Safety science, 2013 (57): 138?149.
[4] 中國互聯網絡信息中心.第33次中國互聯網絡發展狀況調查統計報告[R].北京:CNNIC,2014.
[5] 李森.大數據背景下的內河航運信息化建設[J].信息化建設,2013(8):29?31.
[6] 馮祖洪,李靜.基于主成分分析的改進貝葉斯網絡入侵檢測研究[J].現代電子技術,2012,35(19):73?75.