基于作者共引分析的推薦系統研究知識圖譜構建

2015-07-12 12:30:56黃文彬張惟愷

現代情報 2015年11期

黃文彬張惟愷徐揚

隨著互聯網的普及和發展，網絡上的信息呈現爆炸式的增長，用戶在利用互聯網搜索時，往往會檢索出過度冗雜的信息，而推薦系統的目的則是根據用戶需求和個性偏好等特征，利用相關算法為用戶推薦最有可能需要的信息［1－2］。自90年代中期關于協同過濾的研究成果出現以來，推薦系統已成為一個重要的研究領域［3］。目前，推薦系統廣泛應用于諸多領域，例如音樂、電視、書籍、文檔、電子學習、電子商務、移動應用和網絡搜索等［4］。無論是應用層面還是理論層面，關于推薦系統的研究都在不斷深入。本文利用作者共引分析 (Author Co－citation Analysis，下文簡稱ACA) 的方法，構建國際期刊上推薦系統研究的知識圖譜。

White和Griffith于1981年正式提出作者共引分析(ACA)［5］，該方法假定兩個作者的文章同時被后繼的研究引用則表明這兩個作者之間具有聯系性，且共同被引用的次數越多，他們之間的關系就越緊密。一組相關作者的共引頻次模式分析能揭示出作者間突出的鏈接，并能解釋他們各自或共同代表的主題領域［6－7］。ACA分析方法通過映射圖揭示研究領域內部專業人員之間的聯系與結構特點，進而反映他們從事的專業間的聯系與發展。此外，著作相關的作者在之后的文獻中被重復引用的，將傾向于聚集在映射圖中，而很少或從未被共同引用的作者會偏離且分散［8－9］。科學知識圖譜 (簡稱知識圖譜) 是顯示科學知識的發展進程與結構關系的一種圖形，利用可視化技術描述人類隨時間積累的知識資源及其載體，繪制、挖掘、分析和顯示科學技術知識以及它們之間的相互聯系［10－11］。知識圖譜是對科學知識及其之間的關系可視化所得出的結果，具有直觀、定量、簡單與客觀等諸多優點［12－13］。知識圖譜是一種綜合性的、有效的知識可視化分析方法和工具，被廣泛應用，并取得了可靠結論［14］。在情報分析領域中，有許多基于ACA與知識圖譜的研究［15－19］，但針對推薦系統的分析研究較少，主要原因在于推薦系統的發展在近年來才成為亮點議題。

本文主要提取Web of Science數據庫中1997－2014年的推薦系統相關論文，利用作者共引分析構建推薦系統研究領域的知識圖譜，使用SPSS軟件從因子分析、聚類分析與多維尺度分析3個角度分別進行分析探討［20］。本文的因子分析采用主成分方法和方差極大正交旋轉，聚類分析采用層次聚類，選擇離差平方和法與歐氏距離平方法，二維圖由多維尺度分析生成。最后，利用相關知識結合上述方法對結果進行分析解釋。通過將數據源切分為1997－2002年、2003－2008年、2009－2014年3個時段分別進行上述方法的知識圖譜構建與分析，發現該領域研究熱點的發展趨勢。

1 數據來源與數據處理

1.1 數據來源

本文的數據來自 ISIWeb of Science的數據庫，以“Recommender Systems”為關鍵詞在數據庫中進行檢索，共獲得3 218篇文獻 (檢索期限至2014年4月) ，進而獲得這些文獻共79 734篇的參考文獻記錄和21 349位參考文獻的第一作者。本文將這些作者之間的共引關系作為重點分析對象，統計了這些文獻的年度分布情況，如圖1所示。推薦系統領域的論文大約從1997年開始出現，到2008年一直呈逐年遞增的趨勢，2008年之后發文量較為穩定 (注:2014年的文獻只統計到2014年4月) 。

圖1 W eb of Science數據庫推薦系統領域年度文獻篇數統計

1.2 數據處理

從ISIWeb of Science數據庫中檢索出推薦系統領域相關文獻后，提取該文獻以及其參考文獻的作者，選取被引頻次大于等于100的71位作者作為ACA分析對象，如表1所示。通過統計這些作者之間的共引頻次生成71×71共引矩陣，如表2所示，將其轉換成Pearson相關系數矩陣，作為因子分析、聚類分析和多維尺度分析的基礎，并綜合這些分析方法得到推薦系統領域的知識圖譜。

表1 作者被引頻次大于等于100的71位作者及其被引頻次

表1 (續)

表2 部分作者共引矩陣示例表

2 作者共引矩陣的數據分析

2.1 因子分析

因子分析是利用少數因子去描述多個指標或因素之間的聯系，從多個變量指標中選取少數綜合變量指標降維的多元統計方法。該方法將密切相關的變量歸為同一類，每一類變量成為一個因子，以較少的因子反映原始資料的大部分信息［8］。通過因子分析，作者共引矩陣的因子數為8個，累計貢獻率為77.171%，其中前4個因子累計貢獻率達到65.958%，說明其所代表的學術團體是推薦系統領域的主要研究力量，如表3所示。

表3 全時段因子分析結果 (著者因子負載值＞0.3)

表3 (續)

根據以上的因子分析結果以及該因子所屬學者的研究方向，可將這8個因子解釋為:基于協同過濾的推薦算法(因子1) 、基于內容的推薦算法 (因子2、7) 、基于數據挖掘的推薦算法 (因子3、8) 、基于信任的推薦系統 (因子4) 、個性化推薦 (因子5) 、基于模糊語言處理的推薦算法 (因子6) 。其中，多位學者在多個因子中都有較高的負載值。例如HERLOCKER JL與BREESE JS在因子1和2中的負載值均大于0.4，說明這兩位學者在這兩個分支領域中均有一定的學術影響。

2.2 聚類分析

聚類分析是把分析對象分類，根據彼此之間的相關程度形成群，群間的關系具有一定的相異程度。共引聚類分析可以反映某學科或專題的研究情況［8］。本文通過聚類分析方法得出推薦系統研究專題相關的結果，如圖2所示，縱軸為文獻作者名字，具有關聯性的作者相互連接。結果顯示，該研究群聚出6類，通過檢索相關學者的研究方向發現，這6類有許多交叉，第1類與第3類為基于協同過濾的推薦算法;第2類中包含了基于數據挖掘的推薦算法和基于模糊語言處理的推薦算法，同時第5類也是基于數據挖掘的推薦算法;第4類為基于內容的推薦算法，而第6類中包含了基于信任的推薦系統、個性化推薦和基于內容的推薦算法。由此可見，推薦系統領域的研究熱點之間有許多關聯，每一個研究熱點本身也有許多單獨的分支方向。這也反映出該領域仍然是目前新興的研究領域。

2.3 多維尺度分析

雖然因子分析可以把原本數量眾多的變量用少數幾個因子表示出來，并通過這些因子來分析作者之間的關系，但由于前2個主因子只能反映較少的全部變量的信息，很難直觀地表示變量間的內在聯系，不便于分析解釋，因此必須取2個以上的因子進行分析。此外，利用聚類分析的樹狀圖雖然能夠反映分類過程的細節信息，但無法反映最終類群之間的相異程度。多維尺度分析可以解決上述問題，其產生的散點圖可以反映一定的類群關系。結合聚類分析和因子分析結果，把分析對象的點用線圈成點群，最后根據點、群之間的相關位置進行分析研究。本文通過多維尺度分析結果得到了推薦系統研究的知識圖譜，如圖3所示。其中Stress值為0.09721，RSQ值為0.96607，說明模型的擬合效果較好。根據因子分析和聚類分析的結果，并結合在

Web of Science中檢索出的相關作者的研究方向與著作，可將多維尺度分析結果劃分為6片區域。由于每個區域的作者數量甚多，以下只列代表作者與至多5位相關作者。這6片區域分別為:

圖2 聚類分析樹狀圖結果

區域1:基于協同過濾的推薦算法:以HERLOCKER JL、BALABANOVIC M 為代表，包括 MIDDLETON SE、ADOMAVICIUS G、 RESNICK P、 GOLDBERG D、SHARDANBAND U等學者。

區域2:個性化推薦:以BREESE JS、JOACHIMS T為代表，包括 MOBASHER B、JAMESON A、RICCI F、SMYTH B等學者。

區域3:基于數據挖掘的推薦算法:以BAEZAYATES RA、PU P為代表，包括 MCGINTY L、MCSHERRY D、BURKE RD、MCCARTHY KK、HAN JW等學者。

區域4:基于內容的推薦算法:以SARWAR BM、FELFERNIG A為代表，包括BRUSILOVSKY P、NEWMAN MEJ、LIU JG、ZHOU T等學者。

區域5:基于模糊語言處理的推薦算法:以ZADEH LA、HERRERA F、HERRERA －VIEDMA E、YAGER RR、BRIDGE DG為代表。

區域 6:基于信任的推薦系統:以 GOLBECK J、O'DONOVAN J、JOSANG A為代表。

圖3 全時段多維尺度分析結果

由此可見，基于內容的推薦算法、基于模糊語言處理的推薦算法和基于信任的推薦系統這3個方向的研究相對獨立，研究人數也較少。基于協同過濾的推薦算法研究人數眾多，是推薦系統領域最為核心的研究方向，其次是個性化推薦研究。另外，部分作者之間的距離非常接近，例如基于數據挖掘的推薦算法研究的TERVEEN LG、BAEZAYATESRA與基于模糊語言處理的推薦算法研究的HERRERA F、HERRERA－VIEDMA E、BRIDGE DG，表明這兩個方向的研究關系密切，這些作者也開展了一定的交叉研究。不過，從這個圖上無法了解推薦系統領域研究熱點的發展變化情況，因此本文又分別繪制了3個時間段的知識圖譜(如圖4、圖5、圖6所示) ，從中可以發現一些趨勢及變化。

2.4 分時段知識圖譜

為了分析推薦系統領域研究熱點的發展變化，本文采用相同的圖譜構建方式與分析方法，分別生成3個分時段內的知識圖譜來進行領域分析，分別為1997－2002年、2003－2008年、2009－2014年。由于各時間段內的文獻篇數相較于總篇數會減少很多，所以在觀察各時間段的作者被引頻次后，分別選擇被引頻次大于10、50、80的作者作為主要分析對象。

圖4 1997－2002年時段多維尺度分析結果

圖5 2003－2008年時段多維尺度分析結果

1997－2002年時段的多維尺度分析結果如圖4顯示。其中Stress值為0.10804，RSQ值為0.95755。根據因子和聚類分析的結果，結合相關作者的研究方向，將結果劃分為4片區域，分別為:

區域1:基于協同過濾的推薦算法。以RESNICK P、SHARDANAND U為代表，包括 BILLSUS D、SHARDANBAND U、GOLDBERG D、BASU C、HILL W、BALABANOVICM、KONSTAN JA、HERLOCKER JL、SALTON G、JOACHIMST、DELGADO J等學者。

區域2:基于數據挖掘的推薦算法。以BREESE JS、AGRAWAL R為代表，包括 SARWAR BM、MOBASHER B、PAZZANIMJ、MCSHERRY D、QUINLAN JR、COOLEY R等學者。

區域3:多準則推薦。以BURKERD、SMYTH B為代表。

圖6 2009－2014年時段多維尺度分析結果

區域4:基于知識的推薦系統。以RAMAKRISHNAN N、HOUSTISEN為代表。

綜合以上結果，1997－2002年時段作為推薦系統領域研究的初始階段，學者們的研究方向相對集中，大多數學者圍繞基于協同過濾的推薦算法這一核心方向，也有部分學者研究基于數據挖掘的推薦算法，還有一小部分學者研究多準則推薦與基于知識的推薦算法，但是人數較少。

2003－2008年時段多維尺度分析的結果如圖5所示。其中Stress值為0.05791，RSQ值為0.99013。根據分析結果與作者的研究方向，將多維尺度分析結果劃分為5片區域，分別為:

區域1:基于協同過濾的推薦算法。以LIEBERMAN H、RESNICK P為代表，包括 ADOMAVICIUS G、BALABANOVIC M、GOLDBERG D、BILLSUS D、SHARDANBAND U等學者。

區域2:個性化推薦。以MCSHERRY D、SMYTH B為代表，包括 AGRAWAL R、MCGINTY L、PU P、RICCI F、ARDISSONO L、REILLY J等學者。

區域3:基于內容的推薦算法。以SARWAR BM、BREESE JS、TERVEEN LG、BRIDGEDG、YAGERRR為代表。

區域4:基于知識的推薦系統。以 BURKE RD、FELFERNIG A、MCCARTHY KK為代表。

區域5:基于信任的推薦系統。以 ZIEGLER CN、MASSA P為代表。

綜合上述分析，此時段研究學者人數有所增加，并且出現新的研究熱點。雖然大部分學者仍在進行基于協同過濾的推薦算法的研究，但也有相當數量的學者開始研究個性化推薦。此外，基于內容的推薦算法和基于信任的推薦系統開始成為新興熱點，引起了一部分學者的注意。

2009－2014年時段多維尺度分析的結果如圖6所示。其中Stress值為0.12304，RSQ值為0.95122。將分析結果劃分為6片區域，分別為:

區域1:基于協同過濾的推薦算法。以ADOMAVICIUS G、HERLOCKER JL為代表，包括RESNICK P、KOREN Y、SCHAFER JB、LINDEN G、HOFMANN T等學者。

區域2:個性化推薦。以BREESE JS、MOBASHER B為代表，包括 FELFERNIG A、RICCI F、BOBADILLA J、SALTON G、AGRAWAL R等學者。

區域3:基于內容的推薦算法。以 SARWAR BM、BURKE RD為代表，包括 ZHOU T、LIU JG、O＇DONOVAN J、SALAKHUTDINOV R、BRUSILOVSKY P等學者。

區域4:基于模糊語言處理的推薦算法。以HERRERA F、HERRERA－VIEDMA E、PORCEL C、YAGER RR、ZADEH LA為代表。

區域5:基于信任的推薦系統。以MASSA P、GOLBECK J、NEWMAN MEJ、JOSANG A為代表。

區域6:基于數據挖掘的推薦算法。以PAZZANIMJ、SCHEIN AI為代表。

分析結果表明，該時段研究學者人數明顯增加，而相較于2003－2008年時段，研究熱點也有一定變化，基于模糊語言處理的推薦算法和基于數據挖掘的推薦算法的熱點程度已經超過基于知識的推薦系統。這說明目前推薦系統領域中各熱點的研究學者人數逐步增加，新興領域也在不斷出現。最為核心的研究熱點依舊是基于協同過濾的推薦算法。此外，個性化推薦、基于內容的推薦算法與基于信任這3個方向也正在穩步發展。

3 分析與結語

3.1 分析

全時段與各分時段的分析結果匯總如表4所示。在推薦系統領域的發展過程中不斷涌現出新的核心學者，說明該領域知識創新和積累非常迅速，研究十分活躍。在全時段和各分時段中，基于協同過濾的推薦算法與個性化推薦基本保持在前兩名，說明它們是推薦系統領域的核心熱點，特別是基于協同過濾的推薦算法。從1997－2002年時段到2003－2008年時段，基于知識的推薦系統一直是研究熱點，而多準則推薦與基于數據挖掘的推薦算法則被個性化推薦、基于內容的推薦算法和基于信任的推薦系統所超越。這說明隨著時代需求的變化，學者們逐漸傾向于某些具體類型的推薦系統的研究，更加注重實際應用。從2003－2008年時段到2009－2014年時段，個性化推薦、基于內容的推薦算法和基于信任的推薦系統等3個研究持續保持熱度，而基于知識的推薦系統被基于模糊語言處理的推薦算法超越，基于數據挖掘的推薦算法也重新出現。這說明隨著用戶對信息系統的需求提高和網絡上信息量的爆炸式增長，如何更好地理解用戶需求和在大量數據中挖掘出最有用的信息是學者們更加關注的。

表4 各時段推薦系統領域核心方向與學者人數

數據顯示，一些學者隨著研究熱點的變化也在不斷地改變自己的研究方向。例如，SMYTH B在1997－2002年時段屬于多準則推薦方向，到了2003－2008年時段及2009－2014年時段則屬于個性化推薦方向，在全時段中該作者也屬于個性化推薦方向。這說明該作者在自己最初所處的方向逐漸弱化后能夠迅速調整研究方向，并且在個性化推薦方向取得了長足進展。而另一些學者的研究領域則較為穩定，例如很多學者長期處于基于協同過濾推薦算法的研究方向。這說明該方向具有很高的研究價值，能夠吸引很多學者參與其中。而許多后進研究人員也不斷參與到基于協同過濾的推薦算法方向的研究中，使得該方向的研究人數顯著提高，研究不斷深入。

3.2 結語

本文針對推薦系統進行了基于ACA分析方法的知識圖譜構建。分析表明，推薦系統研究近年來處于快速發展時期，相關學者人數與研究范圍不斷擴大。其中基于協同過濾的推薦算法是最為核心的研究方向，目前已經發展出多個具體分支;個性化推薦、基于內容的推薦算法、基于數據挖掘的推薦算法等方向也是該領域的研究熱點。一些曾經的研究熱點由于時代需求的變化被其他新興方向所超越。綜合上述研究，在今后推薦系統領域的發展中，基于協同過濾的推薦算法方向在較長時期內仍將是該領域的核心研究方向，并且會進一步細分為更多分支。而個性化推薦、基于內容的推薦算法、基于數據挖掘的推薦算法和基于模糊語言處理的推薦算法方向將較為穩定地發展。基于信任的推薦系統有可能被逐漸弱化。基于其他方式的推薦系統研究以及應用將會出現。

［1］孫彥超，韓鳳霞.基于協同過濾算法的個性化圖書推薦系統的研究［J］.圖書館理論與實踐，2015，(4) :99－102.

［2］楊博，趙鵬飛.推薦算法綜述［J］.山西大學學報:自然科學版，2011，(3) :337－350.

［3］G.Adomavicius，A.Tuzhilin.Towards the Next Generation of Recommender Systems:A Survey of the State－of－the－Art and Possible Extensions［J］.IEEE Transactions on Knowledge and Data Engineering，2005，17(6) :734 －749.

［4］J.Bobadilla，F.Ortega，A.Hernando，A.Gutierrez.Recommender systems survey［J］.Knowledge － Based Systems，2013，(46) :109－132.

［5］H.D.White，K.W.McCain.Visualizing a Discipline:An Author Co－Citation Analysis of Information Science，1972－1995［J］.Journal of the American Society for Information Science，1998，49(4) :327－355.

［6］耿海英.共引分析方法及其應用研究［D］.北京:中國科學院研究生院，2007.

［7］孟祥保，錢鵬.國際圖書情報學研究群體結構——以核心作者互引分析為視角［J］.情報科學，2015，(5) :124－128.

［8］H.D.White， B.C.Griffith. Author Cocitation:A Literature Measure of Intellectual Structure［J］.Journal of the American Society for Information Science，1981，32(3) :163－171.

［9］苑彬成，方曙，劉合艷.作者共被引分析方法進展研究［J］.圖書情報工作，2009，(22) :80－84.

［10］侯海燕.基于知識圖譜的科學計量學進展研究［D］.大連:大連理工大學，2006.

［11］秦長江，侯漢清.知識圖譜——信息管理與知識管理的新領域［J］.大學圖書館學報，2009，(1) :30－37.

［12］邱均平，呂紅.近五年國際圖書情報學研究熱點、前沿及其知識基礎——基于17種外文期刊知識圖譜的可視化分析［J］.圖書情報知識，2013，(3) :4－15.

［13］高鵬斌，于渤，吳偉偉，等.基于知識圖譜的即興領域知識結構及其演化分析［J］.科技管理研究，2015，(6) :112－117.

［14］楊思洛，韓瑞珍.國外知識圖譜繪制的方法與工具分析［J］.圖書情報知識，2012，(6) :101－109.

［15］向劍勤，趙蓉英.國內外圖書情報學研究主題的知識圖譜比較研究［J］.情報雜志，2014，33(2) :86－94.

［16］趙勇，沙勇忠.當代情報學研究的知識圖譜:基于ACA的分析［J］.圖書館論壇，2008，(6) :63－69.

［17］奉國和，梁曉婷.國內推薦引擎學術研究知識圖譜分析［J］.情報科學，2012，30(1) :144－148，160.

［18］孫海生.圖書館學高頻被引論文共被引分析［J］.現代情報，2012，(1) :107－112.

［19］詹川.大數據研究的知識圖譜分析［J］.圖書館論壇，2015，(4) :84－91.

［20］吳占福，馬旭平，李亞奎.統計分析軟件SPSS介紹［J］.河北北方學院學報:自然科學版，2006，(6) :67－69.