999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大數據環境下個性化推薦系統的研究和應用

2019-02-17 03:05:40
長春大學學報 2019年6期
關鍵詞:監督用戶系統

李 艷

(蘭州財經大學 長青學院,蘭州 730000)

1 大數據與推薦系統

1.1 大數據的發展

近年來,互聯網、大數據、云計算、物聯網和人工智能等技術的迅猛發展和廣泛應用導致全球網絡數據爆炸性地增長。一方面推動了全球政治、經濟、文化和科技等方面的信息交流和資源共享;另一方面也引發了“信息過載”問題。據伙伴產業研究院(PAISI)研究統計,2018年全球數據總量達19.4ZB,并且未來幾年全球數據的增長速度在每年25%以上,到2020年,全球數據總量將達到30ZB。數據量的急劇增長為人們全面和深入地理解問題提供了更多的可能性。面對如此紛繁復雜的網絡大數據,如何從中獲取到有價值的數據成了人們新的困擾。20世紀中期,人們開始了關于數據處理技術的研究和應用,例如數據分析和數據挖掘技術。但是隨著互聯網的廣泛應用,積累的數據量不斷增長,急需更有效的方法應對數據處理中的新問題。近年來,人工智能和機器學習技術成了海量數據處理不可或缺的助力。

1.2 個性化推薦系統的發展

個性化推薦系統是互聯網大數據和海量數據處理技術相結合的應用最廣泛的領域之一,也是解決“信息過載”問題的重要手段。該系統應用的最為人熟知的領域非亞馬遜莫屬。亞馬遜公司的推薦引擎負責為瀏覽亞馬遜網站的用戶提供個性化的內容。據統計由亞馬遜推薦系統所賣出的商品每秒達72.9件,推薦的轉化率高達60%,推薦系統對亞馬遜銷售額的貢獻率達30%。推薦系統的發源,要追溯到20世紀90年代,1992年Xerox公司為了解決信息負載的問題,第一次提出協同過濾算法,同時Goldberg等人將協同過濾算法引入了內部新聞組文檔推薦系統Tapestry,此后又陸續推出了Ringo系統對音樂進行協同過濾推薦,以及貝爾視頻推薦系統用于電影推薦[1]。直到1997年,推薦系統這一概念才被第一次提出[2]。90年代末,隨著互聯網技術的發展,推薦系統被廣泛應用到了電子商務領域,1998年亞馬遜將基于物品的協同過濾算法應用到圖書推薦中,2003年Google將推薦技術應用到了AdWards廣告服務中,通過分析用戶搜索的關鍵詞和用戶近期的搜索歷史記錄了解用戶的喜好和需求,從而更精準地為用戶呈現個性化的廣告內容。2006年,美國一家提供在線視頻流媒體服務和DVD租賃業務的公司Nexflix啟動了Netflix Prize,這是一個有關機器學習和數據挖掘的比賽,他們公開了其網站中的一部分真實數據供參賽者使用[3],旨在解決電影評分預測問題,以此發現更好的方法來向用戶推薦影視產品。Netflix Prize競賽中提出了很多有效的算法,同時推動了學術界和產業界對推薦算法的研究。最近幾年,隨著社會化網絡的發展,推薦系統在各行業廣泛應用并且取得了顯著進步。除了傳統的電子商務網站,如Amazon和淘寶網的電子商務推薦系統之外,還包括Youtube的視頻推薦系統、網易音樂推薦系統、Facebook和Twitter的好友推薦系統。經過近二十年的發展,個性化推薦系統不僅在應用領域上得到了迅速擴張,而且還結合目前的網絡大數據環境和機器學習算法在應用深度上有了長足進步[4]。

2 機器學習算法的分類和發展

近年來,“人工智能”這一概念得到了廣泛的關注,同時“機器學習”一詞也深入人心,它是人工智能研究中所使用的主要方法。這種方法的核心目的是使機器能從大量數據中尋找學習規律,并將獲得的學習規律應用到其他的同類數據中。因此,近年來這一方法也被應用到了個性化推薦系統的研究中。目前,應用在個性化推薦系統中的機器學習算法主要有以下幾類:

(1)有監督的學習(Supervised Learning)

有監督的學習主要是用來建立預測模型。所謂的預測模型是指利用數據集中的其他數值來預測另一個值,因此有監督的學習所需要的數據由兩部分構成:一部分是用于訓練推薦系統的特征(feature)數據集;另一部分是標簽(label)數據集,通過機器學習方法尋找特征和標簽之間的聯系,然后將其應用在只有特征而沒有標簽數據的數據集上,發現并建立特征與待預測的目標特征(待預測標簽)之間的關系。這種算法就如同訓練計算機學習如何做練習題,在計算機學會完成那些沒有答案的練習題之前,先在有正確答案的練習題上進行學習,這里練習題就是特征數據集,答案就是標簽數據集。計算機在這樣的數據集上自行建立題目含義、題目已知條件以及其他特征與答案之間的關系,然后將所學應用到其他題目上。在有監督的學習中,“監督”一詞并不是指人為干預,而是用標簽數據集來擔任監督的角色,讓它來控制學習的效果。此外,雖然有監督的學習是用來建立預測模型的,但是這里的“預測”并不一定只預測未來,也可以用來“預測”過去的事情。有監督的學習常用的算法包括:進行分類的最近鄰、樸素貝葉斯和決策樹算法;進行數值預測的線性回歸、回歸樹和模型樹算法;既可以分類又可以進行數值預測的神經網絡和支持向量機算法等。

(2)無監督的學習(Unsupervised Learning)

與有監督的學習相對應的便是無監督的學習,它主要用來建立描述型模型。在無監督的學習中,只有特征數據集,沒有標簽數據集,因此訓練或學習這類數據時,計算機無法準確地知道哪些特征或特征組合能代表或者能反映哪些標簽,只能憑借算法自身的解析能力和計算機強大的計算能力來分析這些數據特征,從而演算出一定的代表結果的標簽數據集。這類算法的主要目標就是從不包含標簽的數據中,由計算機依據數據的屬性的相似性對數據進行聚類或者關聯分析。無監督的學習中,具有代表性的兩個算法分別是關聯規則和K-means聚類算法,前者的主要任務是進行模式識別,后者的主要任務就是聚類。模式識別用來描述數據之間聯系的緊密型。例如,典型的購物籃分析問題便是通過關聯規則來識別那些經常在一個訂單中被一起購買的商品。其中,最著名的案例便是啤酒-尿不濕的關聯,即通過關聯規則,商場發現啤酒和尿不濕是經常會被消費者購買的商品,因此商家就將這兩個商品擺放在一起銷售,或者將兩者進行捆綁做促銷,這樣便可以提高銷售量。不難發現,關聯規則這種無監督學習幫助商場改進了其銷售策略。聚類用來將數據集按照相同類型進行分組,當無法利用標簽對某個數據集進行分類的時候,聚類算法就是用來應對這類問題最好的方法。雖然計算機可以利用聚類算法對數據進行分類,但是由于缺乏標簽,分類的結果還需人工根據數據集的特征進行解釋。

(3)半監督的學習(Semi-Supervised Learning)

處在監督學習和無監督學習之間的便是半監督的學習。在半監督的學習中,用于訓練計算機的數據,有一部分是有標簽的;另一部分是沒有標簽的。沒有標簽的數據的數量往往遠遠大于有標簽的數據數量。半監督的學習的基本原理:首先從無標簽的數據入手,利用聚類等無監督的學習算法創建分類標簽;然后應用一個有監督的學習算法(例如決策樹)來尋找這些類中最重要的預測目標。由于用于學習的數據集的分布并非完全隨機,因此通過一些有標簽的數據的局部特征和更多沒有標簽的數據的整體分布,就可以獲得較好的分類結果。相比于有監督的學習,半監督學習可以在相對低的成本下達到較高的準確度。近幾年來半監督學習得到了很好的應用和發展。

(4)強化學習(Reinforcement Learning)

強化學習又被稱為再勵學習或評價學習,是一種非常重要的機器學習方法。強化學習使用的是無標簽數據,它通過特征數據集與周圍環境的交互來不斷逼近正確的結果,當然在這個過程中,學習的結果也有可能遠離正確的結果,那么如何去判斷學習的結果與正確答案之間的距離是越來越近還是越來越遠呢,這就需要用到獎懲函數(reward function)。當計算機面對無標簽數據時,先根據現有的特征得到一種結果;然后依據獎懲函數來反饋該結果是對還是錯,并指導計算機對學習過程進行調整;最后經過多次嘗試和調整,計算機就可以學習到利用什么樣的特征數據,在什么樣的條件下可以獲得最好的結果。強化學習目前面臨的最困難的問題就是延遲獎勵,即在計算機獲得好的結果之前需要完成大量探索工作,才能得到一個延遲的反饋。與有監督的學習相比,強化學習面對的學習過程總是處在動態變化之中,因為其作出的每一個決定,獲得的每一個結果都會影響到下一次學習過程中數據的輸入內容和方式。而在有監督的學習過程中,學習的目的是明確的,學習完成后是可以立即獲得反饋的。與無監督的學習相比,強化學習更關注經過學習后所獲得的反饋,然后根據反饋信息再完成更好的學習,經過多次訓練歸納出理想的學習結果,而無監督的學習僅僅是去建立學習模式,不涉及反饋問題。

3 個性化推薦系統的應用

3.1 電子商務推薦

20世紀90年代末,隨著互聯網技術的不斷普及,衍生出電子商務這一商務活動,并迅速擴張,經過近二十年的發展,逐漸成了互聯網技術重要的應用領域。便利是網絡購物最大的優點,因此不斷吸引著越來越多的用戶,據CNNIC報告(42次)截至2018年6月,我國網民規模為8.02億,網絡購物用戶規模達到5.69億。正是這數以萬計的用戶不斷推動著電子商務的迅速發展,同時在網絡中留下了數以萬計的信息數據。在這海量的信息空間中,用戶往往會迷失自己,不得不為尋找到自己心儀的東西而花費大量的時間和精力,這便是信息過載問題。目前,亞馬遜、淘寶和京東等電子商務網站均通過建立推薦系統來應對此問題,因此電子商務領域是個性化推薦系統應用最廣泛的領域。除了傳統的基于協同過濾算法及其改進算法之外,眾多研究者也提出了關于提高電子商務推薦系統準確性和正面體驗的很多新的想法。陳梅梅等人[5]將馬斯洛需求層次理論引入電子商務推薦系統中,從用戶的需求角度出發,構建了基于電子商務特點的用戶體驗需求層次模型,使用回歸分析獲取影響用戶體驗的需求因素,從而發現了影響推薦系統體驗優劣的若干因素。將Web日志數據與個性化推薦技術相結合對提高推薦系統準確性有一定的作用。馬勇等人[6]提出了一種改進方法,即將Web日志挖掘和相關性度量結合在一起并根據用戶偏好來提高推薦的準確性。建立用戶興趣模型是電子商務推薦系統的關鍵,但是,用戶在電子商務活動中留下的數據往往有限,無法全面反映用戶的興趣傾向,為解決該問題,趙虎等人[7]在推薦系統中引入了用戶隱形行為數據。這些用戶隱形行為知識是通過對用戶的原型行為數據加以分析獲得的。該方法在一定程度上提高了個性化推薦系統的親和力。

3.2 新聞推薦

新聞推薦是近年來個性化推薦的一個重要的應用領域。據統計,截至2018年6月,我國網絡新聞用戶規模為6.63億,手機網絡新聞用戶規模達到6.31億,可見個性化推薦在新聞推薦領域有著廣闊的應用前景。與電子商務推薦所不同的是新聞推薦中不但要處理數據量大且結構復雜的問題,還會遇到另一個棘手的情況,就是用戶興趣漂移問題。花凌鋒等人[8]從基于用戶位置標簽的基礎上提出了面向位置的新聞推薦算法,即首先使用聚類算法對用戶的位置標簽數據聚類,然后再使用基于LDA算法的協同過濾技術為每個聚類位置建立偏好模型。從而實現利用用戶位置信息來提高推薦準確度的目標。新聞推薦還有一個難點就是大多數用戶在瀏覽新聞時目的性不強,容易受其他因素的干擾和影響,從而導致其瀏覽行為難以預測。張驍逸等人[9]提出了根據用戶過往瀏覽日志中留下的上下文相關特征來建立Logistic回歸模型對用戶未來可能感興趣的新聞進行預測,結果表明用戶的瀏覽行為的確與其上下文信息相關,同時,在預測模型中加入上下文數據提高了推薦效果。

3.3 娛樂推薦

機器學習算法在娛樂推薦中最經常使用的就是音樂和視頻的推薦。音樂推薦與電商推薦相比,在音樂產品特征的提取上更困難。章宗杰等人[10]提出了一種基于標簽擴展的協同過濾算法,也就是將音樂作品的社會化標簽作為其特征,基于這樣的標簽內容利用協同過濾算法為用戶提供推薦列表,從而改善推薦結果的準確性。對于推薦準確性的提高,一直以來都是推薦系統始終追求的目標,譚斌等人[11]提出了基于狀態轉移的獎勵值算法,即為了提高推薦準確性,根據用戶喜好數據集提取出了音樂流行度和用戶從眾度兩個重要特征數據,同時在推薦算法中加入了獎勵函數,該函數是根據用戶喜好、音樂流行度以及狀態轉移概率而提出的,從而大大提高了推薦的效果。蘭艷等人[12]提出了一種時間加權協同過濾算法用來解決電影推薦中經常遇到的信息過期問題,即在推薦模型建立和預測評分過程中加入時間權重,在一定程度上提高了預測推薦的準確性。

3.4 廣告推薦

廣告在我們的日常生活中無處不在,無論是在報紙、廣播和電視等傳統媒體中,還是在基于互聯網的新型媒體中,廣告幾乎無時無刻不出現在我們的面前。在傳媒領域、電商領域、文化產業領域中,都會涉及各種各樣的廣告投放。傳統媒體中,一方面媒體投放廣告沒有針對性;另一方面用戶對于廣告的接受都是被動的。在基于互聯網的新媒體中,無論從廣告的投放方式還是用戶的接受方式上都有了新的變化。而這些變化的根本原因就是互聯網大數據的影響。互聯網廣告的出現主要是為了產生流量。互聯網的內容采取的都是免費模式,需要流量變現維持運營,而廣告正是最佳的變現途徑。因此廣告投放的精準性直接決定了互聯網公司的收益,朱志北等人[13]廣告數據稀疏性的算法,通過建立廣告相似性網絡來獲取廣告的相似性關系,并對該相似性矩陣進行分解,從而獲得已知廣告數據的相似鄰居,以此來彌補數據稀疏性造成的推薦疏漏。陸濟湘等人[14]在傳統的基于關鍵詞的推薦算法中,提出了一種結合用戶應用環境和用戶情感分析的多維廣告推薦算法。所謂情感分析是指從用戶的其他社交媒體中提取與用戶態度相關的文本數據進行分析,并將分析結果加入推薦算法中,從而達到更精確的推薦。

4 大數據環境下個性化推薦系統研究面臨的挑戰

4.1 隱性喜好發現

在傳統的基于協同過濾算法的推薦系統中,用戶對某種物品的喜好程度主要是通過評分來體現的。雖然這種獲得用戶興趣度的方法簡單直接,可以很方便地應用到推薦系統中,但是在實際的互聯網大數據環境中,除了評分之外,用戶往往還通過其他隱性的形式來表達他們的喜好程度。例如,用戶的評論文字、用戶停留在某種物品上的瀏覽時間、以及用戶瀏覽或購買物品的頻率等都間接反映了他們對物品的興趣度,這些隱性的喜好都可以應用到推薦系統的建立和使用中。推薦系統可以通過自然語言處理的方法從用戶的評論中獲取用戶對物品的興趣度,或者根據用戶瀏覽物品的時間長度以及瀏覽或購買物品的頻率等數據,使用聚類或者關聯等算法挖掘用戶的消費行為,利用這些消費行為數據獲得用戶的隱形喜好。

4.2 數據稀疏問題

稀疏數據是指在數據集中絕大多數數值缺失或者為零的數據。稀疏數據絕對不是無用數據,只是信息不完全,通過適當的手段可以挖掘出大量有用信息。基于協同過濾算法的推薦系統的準確性主要取決于用戶數據的數量。一般來說,某種物品獲得的評分數據越多,推薦系統就能越準確地預測出哪些用戶喜歡它;同樣,用戶留下的對物品的評分數據越多,推薦系統也能越準確地為其推薦感興趣的物品。然而,目前影響推薦系統推薦準確性的主要問題便是數據的稀疏,即使是在這樣一個大數據的環境下,數據稀疏問題依然存在。例如,Google、 Yahoo、 Netflix、 Amazon等大型互聯網和電子商務企業,它們每天都擁有很多的數據,但是依然不夠多。

4.3 冷啟動問題

冷啟動問題是困擾推薦系統準確性的另外一個因素,它是數據稀疏問題的一種特殊現象。根據推薦對象的不同,冷啟動問題可以分為兩種:用戶冷啟動和物品冷啟動。用戶冷啟動是指當一個網絡系統中進入一個新的用戶時,由于沒有該用戶的歷史記錄等相關數據,推薦系統對其興趣點一無所知,因此推薦系統無法給該用戶提供準確的推薦。在這種情況下,通常的做法是向該用戶推薦那些系統中最受歡迎的物品,也就是大多數用戶感興趣和普遍反映良好的物品。物品冷啟動問題是指當一個新的物品進入到一個網絡系統后,由于沒有和該物品相關的歷史記錄數據,例如購買、評價等,推薦系統無法將其推薦給可能對其感興趣的用戶。通常遇到這種情況時,推薦系統往往是根據該物品和系統中已存在的其他物品的相似程度來推薦適合的用戶。除了協同過濾方法外,目前解決冷啟動問題還包括一些混合方法。例如,在推薦系統中加入用戶或物品的特征標簽數據;提取用戶的社群信息;將關聯規則、聚類方法等數據挖掘技術引入到協同過濾方法中等。

4.4 大數據處理與算法可擴展性問題

推薦系統完成之后,要解決實際問題依然存在諸多困難。從數據量的角度來講,大多數推薦系統通常都是在小規模數據上搭建起來的,它們的推薦表現良好,但是當這些系統應用到大規模數據集上時,表現并不理想;從數據組成結構的角度來講,實際問題所涉及的數據結構往往是處在動態變化中的,例如新用戶、新評論、新購買情況等,造成了推薦系統應用到動態變化數據時,表現差強人意。

5 結語

互聯網的發展不僅改變了社會也改變了人們的生活方式,同時也將人類帶入了大數據時代。機器學習在個性化推薦系統中的應用在解決“信息過載”問題的同時,也滿足了人們對于個性化服務的強烈需求。隨著機器學習算法研究的深入和個性化推薦系統應用范圍的擴展,在不斷暴露出各種問題的同時也開拓了未來的發展方向。例如,結合云計算技術的并行推薦可以大大提高推薦系統運行速度、多推薦系統的交互以提高推薦準確性,以及在保證推薦精確性的同時加入推薦的多樣性和新穎性等。

猜你喜歡
監督用戶系統
Smartflower POP 一體式光伏系統
工業設計(2022年8期)2022-09-09 07:43:20
WJ-700無人機系統
ZC系列無人機遙感系統
北京測繪(2020年12期)2020-12-29 01:33:58
突出“四個注重” 預算監督顯實效
人大建設(2020年4期)2020-09-21 03:39:12
連通與提升系統的最后一塊拼圖 Audiolab 傲立 M-DAC mini
監督見成效 舊貌換新顏
人大建設(2017年2期)2017-07-21 10:59:25
夯實監督之基
人大建設(2017年9期)2017-02-03 02:53:31
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
主站蜘蛛池模板: 国产成人调教在线视频| 精品1区2区3区| 亚洲a级毛片| 亚洲视频免费在线| 精品国产女同疯狂摩擦2| 日韩av手机在线| 精品国产成人高清在线| 国产微拍一区二区三区四区| 在线观看国产精品日本不卡网| 日韩精品一区二区三区swag| 亚洲最大福利视频网| 欧美 国产 人人视频| 老司机精品一区在线视频| 伊人查蕉在线观看国产精品| 一区二区三区毛片无码| 好吊色国产欧美日韩免费观看| 97影院午夜在线观看视频| 亚洲不卡影院| 国产大全韩国亚洲一区二区三区| 日本高清视频在线www色| 国产精品自在线拍国产电影| 国产在线精品人成导航| 91人人妻人人做人人爽男同| 区国产精品搜索视频| 尤物亚洲最大AV无码网站| 波多野结衣一区二区三区四区视频| 久久综合伊人 六十路| 亚洲天堂视频网站| 99视频精品全国免费品| 日韩精品高清自在线| 97久久精品人人| h网址在线观看| 国产一区二区网站| 欧美精品成人| 国产在线高清一级毛片| 色婷婷色丁香| 色亚洲激情综合精品无码视频| 国产香蕉97碰碰视频VA碰碰看 | AV天堂资源福利在线观看| 国产精品人莉莉成在线播放| 成人国产三级在线播放| 国产第一色| 亚洲欧美日本国产专区一区| 日本不卡视频在线| 久久久久国产一级毛片高清板| 亚洲精品成人7777在线观看| 99激情网| 欧美精品啪啪| 三级毛片在线播放| 波多野结衣视频网站| 69综合网| 亚洲成aⅴ人在线观看| 无码在线激情片| 国产成人永久免费视频| 国产理论最新国产精品视频| 国产麻豆精品在线观看| 97国产成人无码精品久久久| 青青极品在线| 国产精品手机视频一区二区| 2019年国产精品自拍不卡| 成人一区在线| 亚洲人在线| 久久久噜噜噜| 国产美女在线观看| 无码AV动漫| 成年免费在线观看| 亚洲欧美激情小说另类| 免费观看三级毛片| 国产免费网址| 成人一区专区在线观看| 又黄又湿又爽的视频| 毛片视频网| 国产99视频在线| 美女免费精品高清毛片在线视| 日韩精品一区二区三区swag| 成年人国产视频| 亚洲大学生视频在线播放| 日本精品一在线观看视频| 久久成人国产精品免费软件| 久久久亚洲国产美女国产盗摄| 麻豆国产原创视频在线播放| 国产一级二级在线观看|