吳燕 鐘永美 韓飛
摘 要 本文分析了基于數據挖掘的推薦引擎系統研究現狀,以及這種大數據庫中的數據挖掘的推薦引擎帶來的效果并分析其擁有的優勢與劣勢,并得出結論。
關鍵詞 數據挖掘 推薦引擎系統 數據分析
一、基于數據挖掘的推薦引擎系統的現狀
(一)推薦引擎系統的現狀
我們處于一個信息密集的時代,如果只是依靠簡單的計算與處理,需要花費大量的人力和時間,無法從海量信息中選擇對自己有用的信息。所以為了能夠在海量信息中提供符合用戶需要、感興趣的信息便產生了推薦引擎系統。相對于普通搜索引擎系統,推薦引擎系統更加貼近用戶需求。
這項技術貼近人們生活的應該是購物平臺和一些訊息推送平臺,如淘寶、天貓、京東等,它們的購物首頁推送的物品往往是用戶剛剛搜索過的或者是搜索數量最多的,這些推送無疑會吸引用戶的注意力,從而增加銷售量。這些平臺的高明之處是通過傳輸數據使其他平臺也會出現為用戶量身定做的產品信息,使用戶隨時隨地都可以看見與產品的有關信息。
而一些訊息推送平臺如今日頭條,向用戶推送的新聞往往也是用戶比較感興趣的。這是后臺通過顯性信息和隱性信息綜合推算以此增加與用戶貼合性較高的推送量的結果。顯性信息是通過用戶填寫個人信息,對于文章的收藏、訂閱、留言等,以及手機問卷調查和用戶體驗形式收集數據;隱形信息是用戶搜索的內容、搜索的次數、點擊率、瀏覽時間的長短等。
(二)數據挖掘的現狀
數據庫與信息技術從20世紀60年代開始,從原始的文件走向復雜化,到80年代產生了數據挖掘的概念。經過幾十年的發展,這項技術不斷完善和升級,數據挖掘是面向對象方法、數據庫技術、人工智能、高性能計算、信息檢索等多個技術領域相交的一門學科。
數據挖掘技術廣泛運用于各個領域,尤其是運用于發達國家金融行業預測銀行客戶的需求以及一些大型網站如亞馬遜、沃爾瑪等。我國的數據挖掘技術并不像西方那么發達,正處于起步階段,普及這門技術任重而道遠。
二、對運用數據挖掘的推薦引擎系統特性的研究
(一)此類推薦引擎系統共同具有的特性
基于前文的分析,可得出此類推薦引擎系統共同具有的特性如下:
數據收集與分析產生的差異性是數據挖掘技術的特點,不同的用戶之間存在的個體差異導致個人信息的差異化,包括但不限于興趣愛好、年齡、收入階層、職業等。這些差異決定了用戶對信息的感興趣程度不同,因此差異性是其首要特征。
個性化是此類推薦引擎系統具有的鮮明的特性,也是運用數據挖掘技術進行信息推薦的必然結果。此類推薦引擎系統的運行原理主要是通過收集用戶的主動表達和個人信息,基于此推薦信息,將用戶的反饋作為參考,為用戶推薦個性化的信息。在當前時代背景下,這類推薦引擎系統的優勢在于能夠幫助用戶便捷地獲取自己需要的和感興趣的信息。
(二)此類推薦引擎系統面臨的挑戰
雖然基于數據挖掘的推薦引擎系統的運用日漸廣泛,但作為大數據時代誕生的一項技術,其必然還存在一些問題。經過分析,發現此類推薦引擎系統目前面臨如下挑戰:
推薦信息的精準度還存在不足,這是比較突出的一個問題。由于數據挖掘需要大量的用戶數據作為基礎,就很容易形成在用戶剛開始使用時,由于信息不夠完善,反饋不夠多,推薦的信息精確度較低的問題,這可能使用戶對系統的推薦功能失去信心。另外,用戶的興趣具有廣泛性,在收集用戶信息時集中于一兩點,可能忽略了其他興趣點,后續如果沒有補充完善,就可能造成信息整體準確度比較低。
如何在精確度和廣泛性之間取得平衡是一個必須思考的問題。同一時間段,用戶的喜好是相對固定的,但如果一味推送固定的內容,則容易讓人產生審美疲勞,這會使用戶失去興趣。而推薦新的信息,則意味著需要承擔推薦的精確度下降的風險。如何在二者之間取得平衡,也是此類推薦引擎系統目前面臨的挑戰。
還有一個客觀存在的問題是如何防止惡意信息對正常數據的影響,即如何保持數據的純潔性。當前營銷手段多種多樣,出于利益的驅動,難免存在惡意破壞數據的行為,如給某一部電影或商品刷差評或惡意舉報等。如何抵御這些異常數據也是下一步需要優化的問題。
三、結語
隨著信息時代的到來,基于數據挖掘的推薦引擎系統應運而生。通過分析基于數據挖掘的推薦引擎系統的現狀,我們可知,此類推薦引擎系統具有差異性和個性化兩個特點。同時,其面臨著一系列的挑戰。要確保推薦信息的準確度和數據的純潔性,需要相關的研發團隊及編程人員收集更加精細化的數據,并深入分析數據。如何在精確度和廣泛性之間找到平衡點,仍需繼續探索。總之,在當前環境下,基于數據挖掘的推薦引擎系統正面臨前所未有的機遇和挑戰。希望本文的分析能為其發展提供一些參考價值。
(作者單位為廣東東軟學院)
[作者簡介:吳燕(1996—),女,廣東東軟學院商務管理系財務管理專業本科生。鐘永美(1996—),女,廣東東軟學院商務管理系財務管理專業本科生。韓飛(1969—),男,博士,廣東東軟學院副研究員,研究方向:金融學。基金項目:本文系廣東省教育廳(粵教高函[2017]56號)2017年省級大學生創新創業訓練計劃立項項目“自動閱讀機”(項目編號:2017-12574-006)資助。]
參考文獻
[1] 范明.數據挖掘概念與技術[M].機械工業出版社,2006.
[2] 盧亮.搜索引擎原理、時間與應用[M].電子工業出版社,2007.
[3] 廖貴明.個性化推薦引擎系統研究[D].電子科技大學,2013.