陳 軍,謝衛(wèi)紅,陳揚(yáng)森
(1.廣東工業(yè)大學(xué)管理學(xué)院,廣東 廣州 510520;2.廣東工業(yè)大學(xué)大數(shù)據(jù)戰(zhàn)略研究院,廣東 廣州 510520)
國(guó)內(nèi)外大數(shù)據(jù)推薦算法領(lǐng)域前沿動(dòng)態(tài)研究
陳 軍1,2,謝衛(wèi)紅1,2,陳揚(yáng)森1
(1.廣東工業(yè)大學(xué)管理學(xué)院,廣東 廣州 510520;2.廣東工業(yè)大學(xué)大數(shù)據(jù)戰(zhàn)略研究院,廣東 廣州 510520)
大數(shù)據(jù)時(shí)代下,信息過(guò)載問(wèn)題日益突出,使得大數(shù)據(jù)推薦算法研究顯得尤為重要。 本文基于Web of Science和中國(guó)知網(wǎng)的大數(shù)據(jù)推薦算法期刊文獻(xiàn)數(shù)據(jù),運(yùn)用文獻(xiàn)計(jì)量、共詞分析和社會(huì)網(wǎng)絡(luò)方法,從高頻關(guān)鍵詞共現(xiàn)、關(guān)鍵詞主題演進(jìn)、研究動(dòng)態(tài)等方面對(duì)大數(shù)據(jù)推薦算法領(lǐng)域的總體情況進(jìn)行量化比較研究。結(jié)果顯示,國(guó)外大數(shù)據(jù)推薦算法在理論和應(yīng)用的研究上都領(lǐng)先于國(guó)內(nèi),特別是在應(yīng)用上的廣度和深度是國(guó)內(nèi)大數(shù)據(jù)推薦算法需要加強(qiáng)研究的方向。大數(shù)據(jù)推薦算法朝著個(gè)性化教育、個(gè)性化醫(yī)療、個(gè)性化社會(huì)網(wǎng)絡(luò)服務(wù)等應(yīng)用領(lǐng)域發(fā)展。本文對(duì)促進(jìn)中國(guó)大數(shù)據(jù)推薦算法理論的縱深研究、深層次的應(yīng)用研究以及向著國(guó)際化發(fā)展具有一定的指導(dǎo)意義。
大數(shù)據(jù);推薦算法;SNA;文獻(xiàn)計(jì)量;研究趨勢(shì)
隨著大數(shù)據(jù)時(shí)代的來(lái)臨,信息數(shù)據(jù)呈現(xiàn)爆發(fā)式增長(zhǎng)。大數(shù)據(jù)一方面記錄著大量的信息,卻也讓互聯(lián)網(wǎng)用戶在面對(duì)大量信息時(shí)難以把握自己所需要的信息[1]。大數(shù)據(jù)攜帶大信息卻讓人們對(duì)信息的使用率降低,這也是所謂的信息過(guò)載問(wèn)題[2]。解決這一問(wèn)題非常有用的方法就是推薦算法[3]。Anderson[4]在其著作《長(zhǎng)尾理論》中給出這樣的論斷:“我們即將離開檢索進(jìn)入到推薦的時(shí)代”。推薦系統(tǒng)正取代信息檢索,成為互聯(lián)網(wǎng)上最受重視的應(yīng)用。而隨著電子商務(wù)商品個(gè)性化推薦的進(jìn)一步發(fā)展,基于大數(shù)據(jù)的推薦算法受到了越來(lái)越多的關(guān)注[5]。
大數(shù)據(jù)推薦算法最早源于國(guó)外對(duì)于Hadoop系統(tǒng)的算法優(yōu)化,Pessemier[6]在2011年便著手研究在Hadoop系統(tǒng)和Mapreduce框架下的推薦算法,推薦算法也第一次在大數(shù)據(jù)環(huán)境下進(jìn)行相關(guān)理論研究和數(shù)據(jù)測(cè)試。Joldzic[7]致力于Hadoop集群上大型數(shù)據(jù)集的分布式處理和推薦模型的研究。而在國(guó)內(nèi),孫遠(yuǎn)帥[8]在其著作中探討了大數(shù)據(jù)的推薦算法,并從相似度計(jì)算、基于項(xiàng)目層次相似度的推薦算法、矩陣并行化等角度具體闡釋推薦算法如何在大數(shù)據(jù)中得以運(yùn)用。孫天昊等[9]在Hadoop分布式計(jì)算中改進(jìn)聚類協(xié)同過(guò)濾推薦算法。至此,國(guó)內(nèi)基于原有算法的改進(jìn)推薦算法的研究逐漸火熱。
為了更好地把握國(guó)內(nèi)外大數(shù)據(jù)推薦算法的發(fā)展情況,本研究運(yùn)用共詞分析和社會(huì)網(wǎng)絡(luò)等方法致力于解決以下幾個(gè)問(wèn)題:①國(guó)內(nèi)外大數(shù)據(jù)推薦算法領(lǐng)域研究熱點(diǎn);②國(guó)內(nèi)外大數(shù)據(jù)推薦算法研究的主題演進(jìn);③國(guó)內(nèi)外大數(shù)據(jù)算法的演進(jìn)。
本文基于中國(guó)知網(wǎng)(以下簡(jiǎn)稱CNKI)和Web of Science(以下簡(jiǎn)稱WOS)兩大權(quán)威文獻(xiàn)數(shù)據(jù)庫(kù),對(duì)大數(shù)據(jù)推薦算法相關(guān)文獻(xiàn)進(jìn)行深度分析與挖掘。
(1)國(guó)內(nèi)數(shù)據(jù)來(lái)源。國(guó)內(nèi)選取CNKI數(shù)據(jù)庫(kù),全面反映大數(shù)據(jù)推薦算法在國(guó)內(nèi)的研究狀況。CNKI檢索策略:(主題=‘大數(shù)據(jù)’+‘推薦算法’),學(xué)術(shù)界一般將2012年視為大數(shù)據(jù)元年,故檢索時(shí)間跨度設(shè)為2012—2016年,檢索時(shí)間為2016 年10月15 日。檢索結(jié)果為學(xué)術(shù)期刊112篇。
(2)國(guó)外數(shù)據(jù)來(lái)源。國(guó)外選取WOS的核心子庫(kù),以“big data”and“recommendation algorithm”作為主題檢索詞,時(shí)間范圍選取2012—2016年,檢索時(shí)間截至2016年10月15日,檢索結(jié)果114篇文獻(xiàn)作為國(guó)際學(xué)術(shù)論文的研究樣本。
本文主要運(yùn)用文獻(xiàn)計(jì)量方法和社會(huì)網(wǎng)絡(luò)分析方法(Social Network Analysis,SNA),以CNKI和WOS兩大數(shù)據(jù)庫(kù)的期刊文獻(xiàn)為數(shù)據(jù)源。運(yùn)用多種文獻(xiàn)計(jì)量和SNA的工具,對(duì)現(xiàn)有國(guó)內(nèi)外研究大數(shù)據(jù)可視化的文獻(xiàn)進(jìn)行深度挖掘。
(1)文獻(xiàn)計(jì)量法。文獻(xiàn)計(jì)量分析法是利用研究性論文發(fā)表的規(guī)律,以數(shù)理統(tǒng)計(jì)等定量研究方法為基礎(chǔ),以可視化分析法直觀地說(shuō)明不同研究范疇間的內(nèi)在聯(lián)系,特別是對(duì)關(guān)鍵詞、核心作者群以及各類共現(xiàn)的可視化,從而科學(xué)有效地預(yù)測(cè)科學(xué)研究的發(fā)展動(dòng)向與趨勢(shì)。
本文利用文獻(xiàn)計(jì)量方法主要探究大數(shù)據(jù)可視化國(guó)內(nèi)外時(shí)間序列文獻(xiàn)分布特點(diǎn)、國(guó)內(nèi)外對(duì)大數(shù)據(jù)可視化文獻(xiàn)研究的學(xué)科分布特點(diǎn)、國(guó)內(nèi)外對(duì)大數(shù)據(jù)可視化文獻(xiàn)研究的期刊分布特點(diǎn)、國(guó)外對(duì)大數(shù)據(jù)可視化文獻(xiàn)研究的國(guó)家分布特點(diǎn)。
(2)社會(huì)網(wǎng)絡(luò)分析方法。社會(huì)網(wǎng)絡(luò)分析用于描述和測(cè)量行動(dòng)者之間的關(guān)系或通過(guò)這些關(guān)系流動(dòng)的各種有形或無(wú)形的東西,如信息資源等。筆者借用社會(huì)網(wǎng)絡(luò)分析的思想,將大數(shù)據(jù)可視化為主題的期刊文獻(xiàn)視為一個(gè)整體網(wǎng)絡(luò),通過(guò)共詞分析,將關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)直接展現(xiàn)出來(lái)。同時(shí)利用社會(huì)網(wǎng)絡(luò)中心性和結(jié)構(gòu)洞等相關(guān)概念對(duì)關(guān)鍵詞進(jìn)行分析與深度挖掘,以主題詞構(gòu)建大數(shù)據(jù)可視化領(lǐng)域研究熱點(diǎn)和發(fā)展趨勢(shì)。

從表1可知,國(guó)內(nèi)期刊對(duì)于大數(shù)據(jù)推薦算法的研究主要集中在協(xié)同過(guò)濾、大數(shù)據(jù)、推薦系統(tǒng)、Hadoop、推薦算法等。而國(guó)外期刊對(duì)于大數(shù)據(jù)推薦算法的研究主要集中在big data(大數(shù)據(jù))、collaborative filtering(協(xié)同過(guò)濾)、system(系統(tǒng))、recommendation system(推薦系統(tǒng))、mapreduce等。比較而言,國(guó)內(nèi)外對(duì)于大數(shù)據(jù)推薦算法的研究都出現(xiàn)了協(xié)同過(guò)濾、大數(shù)據(jù)、推薦系統(tǒng)等詞匯。顯然,兩大數(shù)據(jù)庫(kù)在期刊文獻(xiàn)上對(duì)于大數(shù)據(jù)推薦算法的研究方向與前沿上是具有相似性的。

表1 大數(shù)據(jù)推薦算法文獻(xiàn)高頻關(guān)鍵詞
基于統(tǒng)計(jì)的高頻關(guān)鍵詞,本文利用SNA中個(gè)體在整體網(wǎng)絡(luò)中的中心性概念,構(gòu)建兩大數(shù)據(jù)庫(kù)的高頻關(guān)鍵詞中心性表。根據(jù)社會(huì)網(wǎng)絡(luò)分析方法[12]中度數(shù)中心度的定義,在一個(gè)社會(huì)網(wǎng)絡(luò)中,如果兩個(gè)行為者之間的聯(lián)系越多,那么該行為者的度數(shù)中心度越高,將處在中心位置。弗里曼[13]強(qiáng)調(diào),網(wǎng)絡(luò)中的行為者度數(shù)較低卻有著很強(qiáng)的中介作用,中間中心度值越大其橋梁作用越強(qiáng),該行為者在網(wǎng)絡(luò)中越重要。若一個(gè)關(guān)鍵詞在網(wǎng)絡(luò)中處于結(jié)構(gòu)洞的位置[14],說(shuō)明與該關(guān)鍵詞相聯(lián)系的其他關(guān)鍵詞之間沒(méi)有任何聯(lián)系,其他關(guān)鍵詞都需要依附于該關(guān)鍵詞而形成網(wǎng)絡(luò),即非冗余關(guān)系。本文參考伯特[15]給出的結(jié)構(gòu)洞指數(shù)中限制度指標(biāo)作為結(jié)構(gòu)洞指數(shù),構(gòu)建以度數(shù)中心度、中介中心度、結(jié)構(gòu)洞三個(gè)指標(biāo)為核心的關(guān)鍵詞中心性表(見(jiàn)表2),以表征高頻關(guān)鍵詞的重要性程度,并為后文基于共現(xiàn)的關(guān)鍵詞主題演進(jìn)的探究打下基礎(chǔ)。
高頻關(guān)鍵詞中心度與關(guān)鍵詞出現(xiàn)頻次并沒(méi)有絕對(duì)的排序聯(lián)系。CNKI中心度、中介中心度、結(jié)構(gòu)洞都較高的如協(xié)同過(guò)濾、大數(shù)據(jù)、推薦算法等,表明這三個(gè)關(guān)鍵詞在整個(gè)網(wǎng)絡(luò)中處于中心位置,其中大數(shù)據(jù)和推薦算法在網(wǎng)絡(luò)中具有更強(qiáng)的中介能力。WOS中心度、中介中心度、結(jié)構(gòu)洞都較高的如big data(大數(shù)據(jù))、collaborative filtering(協(xié)同過(guò)濾),其次是recommender system(推薦系統(tǒng))、mapreduce。從關(guān)鍵詞中心性上看,國(guó)內(nèi)外對(duì)于大數(shù)據(jù)推薦算法的研究方向和主題具有較強(qiáng)的相似性,基礎(chǔ)方法上都依托大數(shù)據(jù)技術(shù),如關(guān)鍵詞hadoop、mapreduce、spark、apache spark以及云計(jì)算。協(xié)同過(guò)濾算法在大數(shù)據(jù)推薦算法中運(yùn)用得最廣泛,矩陣分解次之。
共詞分析法主要是通過(guò)共關(guān)鍵詞、主題詞的方法,分析鑒別某一學(xué)科的主要知識(shí)結(jié)構(gòu)和研究熱點(diǎn)[16],分析學(xué)科約定,把握學(xué)科范式結(jié)構(gòu)。
本研究在統(tǒng)計(jì)高頻詞匯的基礎(chǔ)上,對(duì)國(guó)內(nèi)外高頻詞匯進(jìn)行共現(xiàn)分析,運(yùn)用時(shí)下比較火熱的詞頻分析工具Bibexcle對(duì)高頻詞匯進(jìn)行共現(xiàn)操作,得到共現(xiàn)頻次≥2的高頻關(guān)鍵詞共現(xiàn)矩陣,并導(dǎo)入到Netdraw中進(jìn)行關(guān)鍵詞共現(xiàn)的可視化展示,最終共現(xiàn)結(jié)果如圖1所示。

表2 大數(shù)據(jù)推薦算法文獻(xiàn)關(guān)鍵詞中心性
關(guān)鍵詞之間的距離遠(yuǎn)近也代表著關(guān)鍵詞之間的聯(lián)系緊密程度[17],從這個(gè)角度上來(lái)看,推薦算法、社交網(wǎng)絡(luò)、大數(shù)據(jù)、協(xié)同過(guò)濾、推薦系統(tǒng)、hadoop、云計(jì)算、mapreduce聚集成為各自小網(wǎng)絡(luò)的中心,并緊密圍繞在協(xié)同過(guò)濾和大數(shù)據(jù)網(wǎng)絡(luò)周圍,共同構(gòu)成整個(gè)大數(shù)據(jù)推薦算法領(lǐng)域的關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)。顯然,大數(shù)據(jù)、協(xié)同過(guò)濾和推薦算法形成整個(gè)共詞網(wǎng)絡(luò)的中心,這在三者的網(wǎng)絡(luò)中心性的數(shù)據(jù)分析上得到佐證,而可視化展示可更加清晰地看出。
在大數(shù)據(jù)推薦算法研究領(lǐng)域,協(xié)同過(guò)濾算法已經(jīng)成為大數(shù)據(jù)推薦算法的研究熱點(diǎn)和研究重點(diǎn)。以協(xié)同過(guò)濾為中心的網(wǎng)絡(luò)中包含的主要關(guān)鍵詞有:推薦系統(tǒng)、聚類、并行化、mapreduce、mahout、矩陣分解、spark、hadoop、興趣點(diǎn)、圖書館等;以大數(shù)據(jù)為中心的網(wǎng)絡(luò)中主要的相關(guān)聯(lián)關(guān)鍵詞有:數(shù)據(jù)挖掘、聚類、矩陣分解、spark、hadoop、電子商務(wù)、個(gè)性化服務(wù)、社交網(wǎng)絡(luò)、圖書館等;以推薦算法為中心的主要關(guān)鍵詞有:社交網(wǎng)絡(luò)、非結(jié)構(gòu)化、結(jié)構(gòu)化數(shù)據(jù)、淘寶、內(nèi)容挖掘、分布式數(shù)據(jù)庫(kù)、電子商務(wù)等。從網(wǎng)絡(luò)中距離的角度上看,協(xié)同過(guò)濾和大數(shù)據(jù)主要通過(guò)大數(shù)據(jù)處理技術(shù)hadoop分布式處理框架以及涉及圖書推薦的圖書館學(xué)緊密聯(lián)系。大數(shù)據(jù)和推薦算法主要通過(guò)社交網(wǎng)絡(luò)、電子商務(wù)、個(gè)性化聯(lián)結(jié)。推薦算法和協(xié)同過(guò)濾主要通過(guò)海量性、數(shù)量性、興趣點(diǎn)、數(shù)據(jù)挖掘算法以及矩陣分解等,主要涉及協(xié)同過(guò)濾推薦算法的研究?jī)?nèi)容和研究熱點(diǎn)。
綜上研究數(shù)據(jù),國(guó)內(nèi)大數(shù)據(jù)推薦算法領(lǐng)域主要研究基于大數(shù)據(jù)工具的協(xié)同過(guò)濾算法、聚類算法、矩陣分解算法等,并不斷發(fā)展新的研究領(lǐng)域,如電子商務(wù)的智能推薦、個(gè)性化推薦、社交網(wǎng)絡(luò)智能推薦以及圖書館領(lǐng)域的推薦等。李改等[18]于2012年便開始探討基于ALS的協(xié)同過(guò)濾算法在hadoop上進(jìn)行并行化,解決了傳統(tǒng)的基于ALS的協(xié)同過(guò)濾算法在大規(guī)模數(shù)據(jù)集上的運(yùn)算問(wèn)題。曹萍[19]針對(duì)CF技術(shù)依賴的評(píng)分矩陣稀疏性問(wèn)題,引入平均相似度概念,提出綜合用戶、項(xiàng)目的ASUCF算法,分析其計(jì)算方法,并通過(guò)實(shí)驗(yàn)設(shè)計(jì)驗(yàn)證ASUCF算法在準(zhǔn)確度上的提高進(jìn)而研究mahout中taste推薦引擎。丁然[20]利用協(xié)同過(guò)濾算法思想探討在大數(shù)據(jù)環(huán)境下的電子商務(wù)個(gè)性化推薦技術(shù)并研究其發(fā)展趨勢(shì)。由此可見(jiàn),國(guó)內(nèi)對(duì)于大數(shù)據(jù)推薦算法領(lǐng)域的研究在基于大數(shù)據(jù)技術(shù)框架下的算法理論探索之后逐漸轉(zhuǎn)向如何用大數(shù)據(jù)推薦算法去解決個(gè)性化推薦、電子商務(wù)領(lǐng)域的智能推薦、依據(jù)社交網(wǎng)絡(luò)大數(shù)據(jù)的推薦、圖書學(xué)領(lǐng)域的推薦等實(shí)際問(wèn)題,這也追尋學(xué)科研究領(lǐng)域的一般范式[21]。
國(guó)外大數(shù)據(jù)推薦算法網(wǎng)絡(luò)結(jié)構(gòu)圖相較國(guó)內(nèi)簡(jiǎn)單,big data(大數(shù)據(jù))、mapreduce、data mining(數(shù)據(jù)挖掘)、callaborative filtering(協(xié)同過(guò)濾)、recommendation system(推薦系統(tǒng))各自聚集成小網(wǎng)絡(luò),共同構(gòu)成整個(gè)網(wǎng)絡(luò)結(jié)構(gòu)。同時(shí),cloud computing(云計(jì)算)、machine learning(機(jī)器學(xué)習(xí))、mahout、apache spark、mapreduce、electronic health records(電子健康記錄)也具有較大的中介中心性,這幾個(gè)關(guān)鍵詞也構(gòu)成主要小型和其他關(guān)鍵詞之間的紐帶。

圖1 國(guó)內(nèi)外大數(shù)據(jù)推薦算法文獻(xiàn)關(guān)鍵詞共現(xiàn)知識(shí)圖譜
通過(guò)關(guān)鍵詞共現(xiàn)的分析,比較而言,可以得到以下結(jié)論:①國(guó)內(nèi)外都是通過(guò)大數(shù)據(jù)技術(shù),以hadoop分布式框架為中心,建立大數(shù)據(jù)推薦算法之間的紐帶;②協(xié)同過(guò)濾在國(guó)內(nèi)外的研究中都十分受重視,并成為大數(shù)據(jù)推薦算法領(lǐng)域研究最多、改進(jìn)最多的算法;③在強(qiáng)調(diào)大數(shù)據(jù)的同時(shí)更加注重算法自身的研究,從理論探討到算法改進(jìn),使得推薦算法在大數(shù)據(jù)環(huán)境下具備更好的適應(yīng)性;④在基礎(chǔ)理論研究基礎(chǔ)上,國(guó)內(nèi)外都轉(zhuǎn)向大數(shù)據(jù)推薦算法的應(yīng)用性研究,但國(guó)內(nèi)更偏向于電子商務(wù)商品的智能推薦,商業(yè)應(yīng)用性質(zhì)更強(qiáng),國(guó)外較關(guān)注社交網(wǎng)絡(luò)關(guān)系以及在自身健康監(jiān)測(cè)與預(yù)測(cè)中的應(yīng)用,這方面國(guó)外較為領(lǐng)先。
基于大數(shù)據(jù)的推薦算法的研究自2012年出現(xiàn)開始,主題不斷演進(jìn)。從發(fā)展趨勢(shì)上看,可將其發(fā)展歷程大致分為三個(gè)階段:
第一階段(2012年),概念提出階段。2012年是大數(shù)據(jù)概念誕生的元年,各種概念結(jié)合大數(shù)據(jù)的浪潮雨后春筍般出現(xiàn),推薦算法與大數(shù)據(jù)的結(jié)合也受到更多重視。此時(shí),更多地將重點(diǎn)集中在傳統(tǒng)推薦算法上,如協(xié)同過(guò)濾、矩陣分解、用戶近鄰模型等。大數(shù)據(jù)概念的提出,使得大數(shù)據(jù)處理技術(shù)平臺(tái)hadoop在文獻(xiàn)的研究中成為熱點(diǎn),此時(shí)更多討論的是hadoop技術(shù)如何應(yīng)用到大數(shù)據(jù)中的問(wèn)題,如查禮[22]研究的基于hadoop的大數(shù)據(jù)計(jì)算技術(shù)。總體而言,基于大數(shù)據(jù)的推薦算法還處于概念提出階段,并沒(méi)有實(shí)質(zhì)性進(jìn)展。
第二階段(2013—2015年),基于大數(shù)據(jù)的推薦算法進(jìn)一步發(fā)展與成熟階段。在這個(gè)階段中,2013—2014年為發(fā)展階段,2015年為成熟階段。2013年新出現(xiàn)的高頻關(guān)鍵詞如數(shù)據(jù)挖掘、云計(jì)算、個(gè)性化推薦、社交網(wǎng)絡(luò)、mapreduce,同時(shí)中心性比較高的關(guān)鍵詞如分布式、LSH、非結(jié)構(gòu)化。2013年的研究側(cè)重于基于網(wǎng)絡(luò)的計(jì)算機(jī)處理技術(shù)如云計(jì)算和分布式計(jì)算,此時(shí)更多探討如何更好更快地處理數(shù)據(jù),優(yōu)化服務(wù)器的計(jì)算處理,同時(shí)也更加側(cè)重非結(jié)構(gòu)化數(shù)據(jù)處理。算法上更加側(cè)重更快處理大容量數(shù)據(jù),針對(duì)算法的改進(jìn)研究也更加偏向基于大數(shù)據(jù)的框架。陳佑雄等[23]通過(guò)結(jié)合位置敏感哈希(Locality-SensitiveHas—hing,LSH)與mapreduce,提出了一種能夠在線性時(shí)間復(fù)雜度內(nèi)并行計(jì)算用戶或項(xiàng)之間相似度的近鄰模型推薦算法。王彬等[24]提出了一種利用大數(shù)據(jù)分析進(jìn)行優(yōu)化的分布式并行算法,致力于減少服務(wù)器處理機(jī)空閑時(shí)間和系統(tǒng)總能耗。2014年新出現(xiàn)的詞匯如k-means聚類、行為分析、手機(jī)游戲、用戶體驗(yàn)和項(xiàng)目推薦。在2013年研究的基礎(chǔ)上,2014年開始關(guān)注用戶行為的分析,手機(jī)游戲的用戶體驗(yàn)與用戶行為的數(shù)據(jù)分析。應(yīng)璇等[25]就用戶的檢索行為進(jìn)行研究,驗(yàn)證用戶檢索行為的“大數(shù)據(jù)”具備了高價(jià)值度以及價(jià)值數(shù)據(jù)挖掘的可操作性。而算法層面的研究側(cè)重于k-means聚類算法的改進(jìn)。而2015年是大數(shù)據(jù)推薦算法基礎(chǔ)理論研究成熟的一年,這一年新出現(xiàn)的詞匯如spark、mahout、slope one、關(guān)聯(lián)規(guī)則、個(gè)性化學(xué)習(xí)、二部圖、關(guān)聯(lián)多叉樹、同現(xiàn)矩陣等。在分布式數(shù)據(jù)框架下的hadoop之后,apache spark作為處理分布式存儲(chǔ)的大數(shù)據(jù)的工具得到進(jìn)一步研究。至此,大數(shù)據(jù)處理的技術(shù)框架體系已搭建完成。而在算法層面上呈現(xiàn)百花齊放的姿態(tài),slope one算法、關(guān)聯(lián)規(guī)則、關(guān)聯(lián)二叉樹、同現(xiàn)矩陣的研究與改進(jìn)將算法的研究推向高潮。mahout的出現(xiàn),提供了可擴(kuò)展的機(jī)器學(xué)習(xí)領(lǐng)域經(jīng)典算法,推進(jìn)程序與算法的智能化發(fā)展。
第三階段:(2016年至今),本階段更加偏向于基于大數(shù)據(jù)的推薦算法的應(yīng)用。基于此前對(duì)于大數(shù)據(jù)推薦算法的理論和技術(shù)的研究與探討,2016年研究者更多地把關(guān)注點(diǎn)集中到推薦算法的應(yīng)用上來(lái)。2016年新出現(xiàn)的詞匯如個(gè)性化服務(wù)、基于位置的社交網(wǎng)絡(luò)、商品推薦、實(shí)時(shí)性、圖書推薦、情境推薦、二分網(wǎng)絡(luò)、臨近聚類、傳媒科技。在數(shù)據(jù)和算法層面上更加講求數(shù)據(jù)流的實(shí)時(shí)性,這也是大數(shù)據(jù)推薦算法的實(shí)時(shí)推薦的應(yīng)用。正是注重實(shí)時(shí)數(shù)據(jù)的分析,商品推薦、圖書推薦、情境推薦等的研究引領(lǐng)大數(shù)據(jù)推薦算法向個(gè)性化服務(wù)方向邁進(jìn)。
國(guó)外對(duì)于大數(shù)據(jù)推薦算法的研究也是經(jīng)歷了概念的提出、發(fā)展、成熟、應(yīng)用這四個(gè)階段。國(guó)外對(duì)大數(shù)據(jù)推薦算法的研究要稍早于國(guó)內(nèi),與國(guó)內(nèi)2015年才形成比較成熟的大數(shù)據(jù)推薦算法體系不同,國(guó)外發(fā)展穩(wěn)固、快速。在2014年已開始將大數(shù)據(jù)推薦算法理論的研究轉(zhuǎn)向?qū)?yīng)用的探索。2015年至今,國(guó)外對(duì)大數(shù)據(jù)推薦算法應(yīng)用的研究涉獵教育、醫(yī)療、用戶行為研究等多方面。
針對(duì)檢索到的112篇國(guó)內(nèi)和114篇國(guó)外論文樣本研究依據(jù)算法分類的規(guī)則,按照理論源頭、所包含的算法、文章對(duì)該算法的擴(kuò)展、文章所研究?jī)?nèi)容以及該類算法在總體研究樣本中出現(xiàn)的次數(shù)進(jìn)行統(tǒng)計(jì),具體結(jié)果如表3和表4所示。
國(guó)內(nèi)外對(duì)于大數(shù)據(jù)推薦算法的研究主要集中在協(xié)同過(guò)濾算法、高性能計(jì)算推薦、混合推薦以及算法結(jié)合進(jìn)行推薦。國(guó)內(nèi)研究中分別出現(xiàn)19次、10次、15次和13次,國(guó)外研究中分別出現(xiàn)18次、6次、12次和16次。顯然,國(guó)內(nèi)外對(duì)大數(shù)據(jù)推薦算法的研究更傾向于運(yùn)用協(xié)同過(guò)濾算法。大數(shù)據(jù)時(shí)代信息過(guò)載的問(wèn)題急需智能推薦系統(tǒng)來(lái)加以處理,而協(xié)同過(guò)濾算法正是根據(jù)用戶行為偏好和興趣偏好,通過(guò)相似性尋找相似用戶,進(jìn)而進(jìn)行相關(guān)推薦。讓大數(shù)據(jù)時(shí)代更多地發(fā)揮人的主觀能動(dòng)性,針對(duì)人的所需進(jìn)行相關(guān)推薦更為優(yōu)化,這也是協(xié)同過(guò)濾算法受到關(guān)注的原因。用戶的興趣和相似度引申出諸如最近鄰算法、用戶對(duì)物品評(píng)分的個(gè)性化算法slope one、關(guān)聯(lián)規(guī)則、矩陣分解等算法的運(yùn)用。高性能計(jì)算推薦中更多的是應(yīng)用大數(shù)據(jù)分布式處理架構(gòu)結(jié)合各類算法進(jìn)行相關(guān)推薦,如分布式系統(tǒng)框架hadoop的并行化推薦、基于大規(guī)模數(shù)據(jù)集的編程模型mapreduce的并行化推薦、基于大規(guī)模數(shù)據(jù)集的數(shù)據(jù)計(jì)算引擎spark的并行化推薦等。而算法結(jié)合類推薦中主要涉及協(xié)同過(guò)濾算法和高性能計(jì)算的結(jié)合,這也說(shuō)明在大數(shù)據(jù)集的處理過(guò)程中更傾向于和協(xié)同過(guò)濾算法的結(jié)合。同時(shí)hadoop和關(guān)聯(lián)規(guī)則的結(jié)合推薦、并行計(jì)算和決策樹的推薦也受到較大關(guān)注。
從研究領(lǐng)域上看,國(guó)內(nèi)外的研究具有較大差別。國(guó)內(nèi)對(duì)于大數(shù)據(jù)推薦算法的研究主要致力于算法本身的進(jìn)一步優(yōu)化,如關(guān)系信任度、用戶近鄰、矩陣分解、BP神經(jīng)網(wǎng)絡(luò)等。而對(duì)于應(yīng)用的研究主要涉及微博推薦、新聞智能推薦、用戶行為等。比較而言,國(guó)外對(duì)于大數(shù)據(jù)推薦算法更多關(guān)注在應(yīng)用上,且應(yīng)用范圍較廣,主要包含在線教育、醫(yī)療保健推薦、旅游路線和景點(diǎn)推薦、社會(huì)網(wǎng)絡(luò)服務(wù)推薦、隱私保護(hù)、電子郵件類別推薦、醫(yī)院治療時(shí)間預(yù)測(cè)等。顯然,國(guó)外的大數(shù)據(jù)推薦已經(jīng)在教育、醫(yī)療、社交網(wǎng)絡(luò)、在線商品銷售、旅游服務(wù)、圖書推薦等領(lǐng)域有著深入的研究,這是國(guó)內(nèi)還需進(jìn)一步加強(qiáng)研究的領(lǐng)域。

表3 國(guó)內(nèi)大數(shù)據(jù)推薦算法文獻(xiàn)內(nèi)容分析

表4 國(guó)外大數(shù)據(jù)推薦算法文獻(xiàn)內(nèi)容分析
本文從文獻(xiàn)計(jì)量和社會(huì)網(wǎng)絡(luò)的角度,針對(duì)關(guān)鍵詞的詞頻分析、中心性分析,確定大數(shù)據(jù)推薦算法的高頻關(guān)鍵詞和主題詞;通過(guò)高頻關(guān)鍵詞的共現(xiàn)分析,鑒別大數(shù)據(jù)推薦算法研究領(lǐng)域的主要知識(shí)結(jié)構(gòu)和研究熱點(diǎn);依據(jù)主題詞的時(shí)間演進(jìn)探討大數(shù)據(jù)推薦算法領(lǐng)域主題研究的實(shí)時(shí)動(dòng)向,把握研究主題的動(dòng)態(tài)演變和最新趨勢(shì)。同時(shí)針對(duì)關(guān)鍵詞探索具體推薦算法的不足,引進(jìn)內(nèi)容分析法,對(duì)文獻(xiàn)研究的具體大數(shù)據(jù)推薦算法和算法拓展以及研究的具體內(nèi)容進(jìn)行分類與總結(jié)。
不難發(fā)現(xiàn),國(guó)內(nèi)對(duì)于大數(shù)據(jù)推薦算法的研究要滯后于國(guó)外,特別是對(duì)大數(shù)據(jù)推薦算法的應(yīng)用研究上國(guó)內(nèi)還比較欠缺。“十三五”規(guī)劃目標(biāo)任務(wù)的出臺(tái),給了國(guó)內(nèi)學(xué)者進(jìn)一步擴(kuò)大對(duì)大數(shù)據(jù)本身和大數(shù)據(jù)相關(guān)研究的契機(jī)。大數(shù)據(jù)推薦算法向著個(gè)性化教育、個(gè)性化醫(yī)療、個(gè)性化社會(huì)網(wǎng)絡(luò)服務(wù)等應(yīng)用領(lǐng)域發(fā)展。同時(shí)實(shí)時(shí)數(shù)據(jù)流的可預(yù)測(cè)性是大數(shù)據(jù)時(shí)代研究的重點(diǎn),大數(shù)據(jù)的大潮與算法優(yōu)化的結(jié)合預(yù)示著大數(shù)據(jù)推薦算法智能推薦時(shí)代的到來(lái)。
[1]SOLTYSIK R C,YARNOLD P R.MegaODA large sample and BIG DATA time trials:separating the chaff[J].Optimal data analysis,2013,2(2):194-197.
[2]SHERLOCK A.Managing information overload[J].Medical journal of Australia,2014,201(201):200-202.
[3]PING H.The research on personalized recommendation algorithm of library based on big data and association rules[J].Open cybernetics & systemics journal,2015,9(1):2554-2558.
[4]ANDEIRSON C.The long tail:Why the future of business is selling less of more[J].Journal of product innovation management,2005,24(3):274-276(3).
[5]YANG X Q.An intelligent E-commerce recommendation algorithm based on collaborative filtering technology[C]// International Conference on Intelligent Computation Technology and Automation.IEEE,2015:80-83.
[6]PESSEMIER T D,VANHECKE K,MARTENS L,et al.Content-based recommendation algorithms on the hadoop mapreduce Framework[C]// Webist 2011,Proceedings of the,International Conference on Web Information Systems and Technologies,Noordwijkerhout,the Netherlands,6-9 May.2011:237-240.
[7]JOLDZIC O V.Applying mapreduce algorithm to performance testing in lexical analysis on HDFS[C]//Telecommunications Forum(TELFOR),2013 21st.IEEE,2013:841-844.
[8]孫遠(yuǎn)帥.基于大數(shù)據(jù)的推薦算法研究[D].廈門大學(xué),2014.
[9]孫天昊,黎安能,李明,等.基于Hadoop分布式改進(jìn)聚類協(xié)同過(guò)濾推薦算法研究[J].計(jì)算機(jī)工程與應(yīng)用,2015,51(15):124-128.
[10]魏瑞斌.社會(huì)網(wǎng)絡(luò)分析在關(guān)鍵詞網(wǎng)絡(luò)分析中的實(shí)證研究[J].情報(bào)雜志,2009,28(9):46-49.
[11]孫清蘭.高頻,低頻詞的界分及詞頻估計(jì)方法[J].情報(bào)科學(xué),1992(2):28-32.
[12]付允,牛文元,汪云林,等.科學(xué)學(xué)領(lǐng)域作者合作網(wǎng)絡(luò)分析——以《科研管理》(2004—2008)為例[J].科研管理,2009(3):41-46.
[13]劉軍.整體網(wǎng)分析講義-UCINE軟件應(yīng)用(第二屆社會(huì)網(wǎng)與關(guān)系管理研討會(huì)資料)[R].哈爾濱:哈爾濱工程大學(xué)社會(huì)學(xué)系,2007,111.
[14]盛亞,范棟梁.結(jié)構(gòu)洞分類理論及其在創(chuàng)新網(wǎng)絡(luò)中的應(yīng)用[J].科學(xué)學(xué)研究,2009(9):1407-1411.
[15]BURT R S.Structural hole[M].Harvard Business School Press,Cambridge,MA,1992.
[16]張勤,馬費(fèi)成.國(guó)外知識(shí)管理研究范式——以共詞分析為方法[J].管理科學(xué)學(xué)報(bào),2007,10(6):65-75.
[17]吉亞力,田文靜,董穎.基于關(guān)鍵詞共現(xiàn)和社會(huì)網(wǎng)絡(luò)分析法的我國(guó)智庫(kù)熱點(diǎn)主題研究[J].情報(bào)科學(xué),2015(3).
[18]李改,潘嶸,李章鳳,等.基于大數(shù)據(jù)集的協(xié)同過(guò)濾算法的并行化研究[J].計(jì)算機(jī)工程與設(shè)計(jì),2012,33(6):2437-2441.
[19]曹萍.基于大數(shù)據(jù)的協(xié)同過(guò)濾推薦算法研究[D].南京農(nóng)業(yè)大學(xué),2014.
[20]丁然.大數(shù)據(jù)時(shí)代電子商務(wù)個(gè)性化推薦發(fā)展趨勢(shì)[J].電子商務(wù),2015(4):5-5.
[21]BANSEMIR B.Research paradigm[M].Springer Fachmedien Wiesbaden,2013:9-11.
[22]查禮.基于Hadoop的大數(shù)據(jù)計(jì)算技術(shù)[J].科研信息化技術(shù)與應(yīng)用,2012,3(6):26-33.
[23]陳佑雄,向陽(yáng),張騏,等.基于LSH和MapReduce的近鄰模型推薦算法[J].微電子學(xué)與計(jì)算機(jī),2013(12):47-49.
[24]王彬,雷麗暉.一種利用大數(shù)據(jù)分析優(yōu)化的分布式并行算法[J].計(jì)算機(jī)與數(shù)字工程,2013,41(11):1720-1724.
[25]應(yīng)璇,孫濟(jì)慶,等.面向大數(shù)據(jù)的用戶檢索行為研究[J].情報(bào)雜志,2014(2):140-143.
FrontierDynamicsofBigDataRecommendationAlgorithmatHomeandAbroad
Chen Jun1,2,Xie Weihong1,2,Chen Yangsen1
(1.School of Management,Guangdong University of Technology,Guangzhou 510520,China;2.Big data Strategy Research Institute of Guangdong University of Technology,Guangzhou 510520,China)
In the age of big data,the problem of information overload has become increasingly prominent,then the research on big data recommendation algorithm has become increasingly important.This paper takes the articles of big data recommendation algorithm from Web of Science and CNKI as data sources,and uses the method of bibliometrics,co-word analysis and SNA to do quantitative comparative analysis from co-word of high frequency keywords,the evolution of keywords and dynamics research.The results show that the abroad research on the theory and application of big data recommendation algorithm are matured than the domestic.Especially we should strengthen the study of the application’s breadth and depth.Big data recommendation algorithm develops into the trend of individualized education,personalized medical care,personalized social network service and other applications.This paper has a certain guiding significance to promote the deep research of the theory of big data recommendation algorithm,the deep application research and the development of internationalization.
Big data;Recommendation algorithm;SNA;Bibliometrics;Research trend
廣東省哲學(xué)社會(huì)科學(xué)規(guī)劃項(xiàng)目“企業(yè)大數(shù)據(jù)能力構(gòu)建及影響因素研究”(GD15XGL14)、“基于大數(shù)據(jù)的廣東省大學(xué)生就業(yè)信息服務(wù)平臺(tái)設(shè)計(jì)與實(shí)現(xiàn)研究”(2014B040401013),廣東省科技計(jì)劃“基于大數(shù)據(jù)的廣東省級(jí)企業(yè)創(chuàng)新平臺(tái)創(chuàng)新能力評(píng)價(jià)與監(jiān)測(cè)研究”(2015AD70703018)。
2017-03-16
陳軍(1990-),男,湖北荊州人,碩士研究生;研究方向:大數(shù)據(jù)分析、大數(shù)據(jù)戰(zhàn)略管理。
C93-0
A
(責(zé)任編輯 沈蓉)