浙江省科技信息研究院 陳驍
為了降低由于科技政策信息與創新主體需求之間匹配度較低引起的推送效果差的問題,提出基于數據挖掘技術的科技政策信息推送算法。首先利用Python組件對信息中的詞匯進行預處理,利用深度挖掘的方式確定數據簇的中心以及半徑,將其作為用戶信息需求匹配的參照,將用戶信息與數據簇之間建立匹配關系,將相似度最高的數據簇中對應的信息作為推送內容,完成信息推送。通過實驗測試所提方法的推送效果,結果表明其推送的誤差均值在10%以內,用戶滿意度均值為94.13%,錯誤推送率僅為0.93%。
信息爆炸的時代,信息傳播的體量越來越大,與此同時,受眾對于信息的敏感度也越來越低[1]。為了實現信息與接收者之間的高度匹配,提高信息傳播的效果,進行個性化的推送成為了重要方式[2]。科技政策是各級科技管理部門為了促進科技創新發展而制定的科技創新活動基本規則,對科技發展方向具有指導意義,能夠激活創新資源、提高利用效率;激發創新潛力、增強創新實力;優化創新環境、促進創新合作[3]。科技政策信息推送的用戶對象主要包括企業、高校、科研機構、創投機構、孵化載體運營機構等各類創新主體和創新服務主體。但是如何實現信息的精準推送成為了現階段面臨的主要問題[4]。數據挖掘技術是建立在大數據基礎之上的,以目標信息為基礎,分析具有相關特征的信息,或者分析一類信息的特征[5]。因此,將其應用到信息推送中具有十分巨大的價值潛力。借助數據挖掘技術,對創新主體和創新服務主體進行識別,通過行為分析,確定存在特定科技政策需求的群體,以此為基礎實現更具針對性的個性化信息推送,對于提高信息傳播效果將產生積極作用[6-7]。
為此,本文提出基于數據挖掘技術的科技政策信息推送方法,并通過實驗驗證了所提方法的有效性。通過本文的研究,以期為科技政策信息在更大范圍內發揮實際價值提供幫助。
要實現科技政策信息的精準推送,首先要對目標用戶建立充分的了解,為此,本文利用深度挖掘技術實現對特征的描述,并以此為基礎建立了相應的用戶畫像[8]。
在對用戶特征進行挖掘之前,首先需要對用戶的行為信息進行初步預處理。考慮到在實際的行為數據中,數據的形式具有明顯的多樣化特征[9],本文首先對數據進行了預處理。利用中文分詞包配套的Python組件作為數據核心內容提煉工具,實現對數據中完整詞匯的分解操作,將停用詞表作為判斷依據,當完成對數據的完整遍歷后,對于部分無意義的停用詞,以及不具有實際意義詞匯進行過濾處理,將過濾后的數據內容整合成新的詞匯表。以此作為深度挖掘的數據基礎。
在新得到的詞匯表中,首先按照屬性將具有同種屬性的詞匯有序放置在同一數據簇中,再通過深度挖掘技術計算各種詞匯對應索引值。假設新的詞匯表中,數據匯總包含x個數據簇,每個數據簇中的信息量為i,以此為基礎確定對應不同數據簇的特征,就可以將待推送目標的屬性特征與之進行匹配,以此確定其需要的科技政策信息類型。對不同數據簇的數據進行分類時,首先要確定該簇的中心,其基本原理如圖1所示。

圖1 數據簇中心確定方法Fig.1 Method of determining data cluster center
從圖1中可以看出,對于不同的數據簇,其半徑是不同的,簇內數據的密度也存在一定差異,這是因為不同詞匯表中的信息在用戶畫像中的權重不同。在確定簇半徑時,本文以詞匯出現的頻率作為評價標準,當詞匯出現的頻率為p時,那么其在整個詞匯表中的權重計算方式為
其中,W表示詞匯的權重值,Pn表示數據簇的總頻率。通過這樣的方式,確定數據的數簇的權重,將頻率最高的詞匯作為中心,對應的半徑即為數據簇權重在整體詞匯中的占比。
通過這樣的方式,將推送信息轉變為由若干個數據簇組成的單元,在確定推送目標與推送內容時,通過將用戶的行為數據特征與之建立匹配關系即可實現。
在上述基礎上,為了實現信息的精準推送,要建立起推送對象與信息之間的匹配關系。
首先對待推薦對象的行為信息進行提取,并以上文劃分的數據屬性結果為依據,分別進行關聯性對比。當確定與用戶行為相近的數據簇后,以數據簇內詞匯對應的科技政策信息為推送內容,以此提高信息推送的有效性。其中,信息匹配的方式如圖2所示。
在圖2中,o點表示對應數據簇的中心,分散的點表示用戶行為數據,通過這樣的方式確定用戶對于科技政策信息的需求,將與之存在匹配關系數據簇內對應的信息作為推送內容,實現精準的信息推送,提高用戶對推送內容的滿意度。

圖2 用戶屬性特征匹配方式Fig.2 Matching method of user attribute characteristics
需要注意的是,部分用戶的行為數據會表現出單一屬性特征,由于數據之間都是存在一定關聯的,出現該情況極有可能是因為信息的采集不完整,用戶數據的提取存在誤差,因此需要對數據信息進行檢驗,以此確保計算結果的可靠性,為推送提供可靠保障。
為了測試本文提出的信息推薦算法的效果,采用傳統的基于協同過濾推薦方法[10]和基于模糊遺傳的推薦方法作為實驗的對照組,通過分析三種方法的推薦效果,實現對本文設計算法的客觀評價。
實驗測試是在Windows10環境下進行的,并利用仿真軟件搭建了用戶行為關系網,為了確保實驗設計最大限度接近實際情況,本文選取了浙江科技大腦的100個用戶行為數據作為實驗測試的樣本。當其接收到推送信息后,根據自身設定的數據與接收信息之間的匹配度,對其進行評分,評分的閾值為[0,1]。以此為基礎對比三種方法信息推送的精度,直接對精度進行統計難度較大,本文將平均絕對誤差MAE作為度量推送系統精度的指標,其計算方式為
其中,Di表示第i個用戶對推送信息的評分,n表示實驗設計的用戶總量。
在此基礎上,利用三種方法進行信息推送,并對比推送的效果。
在上述基礎上,分別對比了三種方法的推送效果,為了提高測試結果的可靠性,測試共進行了5次,具體如表1所示。

表1 不同推送方法的平均絕對誤差統計表Tab.1 Statistical table of average absolute error of different push methods
從表1中可以看出,基于協同過濾推薦方法平均絕對誤差基本在20%左右,處于較高的水平,基于模糊遺傳的推薦方法與之相比有所下降,但也達到了42%,本文方法的平均絕對誤差基本穩定在10以內,初始測試時達到10.96,但隨著數據挖掘的深入,誤差始終穩定在10%以內。表明本文提出的算法可以實現對于信息的高精度推送。
為了進一步分析三種方法的推送效果,對數據進行了詳細分析,分析了該部分信息推送用戶對信息的需求度,該值以用戶匹配結果為指標進行統計,得到的數據如表2所示。

表2 推送需求度分析表/%Tab.2 Analysis table of degree of push demand/%
從表2中可以看出,協同過濾推薦方法的推薦結果中,用戶的整體需求度均值為63.95%,勉強達到及格水平,無需求規模均值達到了5%以上,模糊遺傳推薦方法的推薦結果中,用戶整體需求度均值為73.77%,處于良好水平,無需求規模均值也僅為3.26%,但與本文方法相比,其仍存在一定提升空間,本文方法推薦結果中,整體需求度均值為94.13%,無需求規模均直接0.83%,明顯低于對比方法的5.13%和3.26%。表明本文設計的信息推送算法綜合性能較優。
科技政策信息對于各類創新主體和創新服務主體發展具有重要的指導作用,所以通過精準匹配實現精準推送具有十分重要的價值。本文提出的基于數據挖掘技術的科技政策信息推送算法,在對用戶行為進行深度挖掘分析的基礎上,實現了高精度的信息推送。通過本文的研究,希望幫助相關科技政策信息能夠實現更加有效的傳播,助力科技創新事業發展。