王勛鴻 馬建春
(山東大學圖書館,山東 濟南 250100)
近年來,基于用戶畫像技術的應用研究在學術界備受關注。用戶畫像是1999年由軟件開發者、程序設計師Alan Cooper 提出的,他認為,用戶畫像(Personas)是基于用戶真實的行為及動機,代表真實用戶并在數據基礎上形成綜合原型(Com?posite Archetype),即“真實用戶數據的虛擬代表”[1]。絕大部分學者將用戶畫像翻譯為“User Pro?file”,用以表述基于用戶數據描述的標簽集合。大數據時代下,基于用戶屬性和行為數據的用戶畫像,是研究用戶、開展對應服務的重要手段之一。
大數據時代的到來,引發了圖書館服務轉型及變革的浪潮,用戶畫像在圖書館領域的應用,為智慧化圖書館的建設,以及實現圖書館向用戶提供精準化、精細化和個性化服務創造了條件。圖書館是以讀者為中心的服務機構,其對讀者用戶的研究是圖書館精準服務及創新服務的前提。自2014年,用戶畫像被引入圖情領域后,研究如火如荼。經過七年多的快速發展,該主題研究整體狀況如何,研究力量分布如何,研究的細分主題及關注點是什么,都需要進行系統的分析。為數不多的相關綜述研究多是基于文獻分析法,從概念界定、構成要素、模型與方法等維度進行系統的文獻梳理[2-5]。筆者采用文獻計量法、詞頻分析方法進行更為精細的內容分析,并從時間、作者、機構等角度全面呈現用戶畫像在圖情領域的研究現狀,以期為今后圖書館精準服務及用戶畫像研究提供參考和借鑒。
在中國知網數據庫中,以“主題”為檢索途徑,以“用戶畫像”和“讀者畫像”為檢索詞進行文獻檢索,學科選擇“圖書情報與數字圖書館”進行文獻篩選,檢索時間截至2021年8 月25 日,共獲得371條中文文獻記錄。將其導入文獻管理工具NoteEx?press,進行數據清洗,去掉會議資訊等無關文獻,共獲得368 條記錄,其中期刊論文327 篇,學位論文39篇,會議論文兩篇。
筆者利用文獻計量方法對獲取的數據進行時間分布和研究機構的統計和分析,以此呈現“用戶畫像”研究主題的研究現狀和力量分布。進而在此基礎上,通過詞頻g 指數方法提取高頻關鍵詞,利用NoteExpress獲得共現矩陣,進行關鍵詞分析,再利用Gephi軟件構建聚類圖譜,發掘該主題的細分主題分布和研究熱點,為后續相應研究提供借鑒和參考。
由數據統計可見,國內圖情領域“用戶畫像”主題研究起步于2014年,江西省省委黨校圖書館李業根的《基于大數據的圖書館信息營銷策略》一文,首次將用戶畫像引入到圖書館學研究領域。作者認為大數據環境下構建用戶需求行為畫像,是進行圖書館信息營銷的策略和方法。自此,圖書館界有關用戶畫像的研究逐年升溫,主題為用戶畫像的期刊論文與學位論文發文量呈逐年遞增趨勢,研究領域不斷拓展,研究成果層出不窮,因此在圖情領域,用戶畫像已然成為研究的熱點(見圖1)。
圖1 用戶畫像研究論文時間分布
了解一個研究領域或專題的研究力量,作者是重要的考量向度。科學家、科學史學家普賴斯認為,在同一主題中,半數的論文為一群高生產能力作者所撰,這一作者集合的數量約等于全部作者總數的平方根,這就是著名的普賴斯定律。該定律在文獻計量中被用來獲取高產作者,高產作者發表論文的下限用公式表示為:N=0.749nmax,其中nmax為最高產作者所發的論文數。
根據本研究樣本數據源進行作者詞頻統計可知,圖情領域用戶畫像專題研究368篇文獻共涉及到作者637位,篇均作者1.7。發文大于等于2篇的共有93 人,占發文作者總量的14%。由普萊斯定律可獲知發文不低于3篇的高產作者22個(表1),占比僅為3%,由此可見,圖情領域用戶研究作者比較分散,沒有形成研究的密集地帶。
表1 用戶畫像高產作者統計
為了更全面呈現作者之間的關系,在此選取發文量大于等于2 的作者構建作者共現圖譜(圖2)。圖中連線越粗,說明作者之間的聯系越緊密,合作關系越強。節點字號越大,說明發文量越多。圖中分析可見:一方面,用戶畫像主題研究,作者之間合作并不多,大多是獨立作者,合作關系較強的作者有劉海鷗、張亞明、張海濤、姚蘇梅等,同時這些作者也是發文較多的作者,因此可以看出合作是提高產出的重要手段;另一方面,也說明用戶畫像研究在圖情領域是一個新興的主題,作者之間的研究相關度還不夠高,隨著該主題研究的不斷深入,相信合作將越來越多。
圖2 用戶畫像研究作者共現圖譜
研究機構是科研文獻的產出機構,對該領域的研究具有重要的導向和引領作用。統計得知,圖情領域用戶畫像主題研究368篇論文分布于210個研究機構(筆者僅統計第一作者機構)。依照普賴斯定律,得出主要研究機構,即發文不低于3 篇的研究機構共有27家(見表2)。
表2 用戶畫像研究主要發文機構
圖情領域用戶畫像研究機構排在前五的有吉林大學、燕山大學、南京大學、武漢大學、華中師范大學,高等院校是用戶畫像研究的主要力量,相關研究者應多加關注。
這個角度的考察,一方面可以揭示該主題研究的相關專業期刊,為相關研究提供參考;另一方面,也可以側面反映出該主題研究的學術水平。根據布拉德福文獻分散定律,如果將期刊按照刊載某個學科的論文數量的高低,以漸減順序排列,可以把期刊分為面向這個學科核心區和包含著與核心區同等數量論文的相關區和外圍區。核心區與相繼各區的期刊數量成l:a:a2關系,其中期刊數量少但效率高的為核心區,數量較大、效率中等的為相關區,期刊數量最多而效率低的為外圍區[6],因此,確定了研究主題論文在期刊中的分散規律,只需要重點關注核心區的期刊,就有可能獲取這個領域內的重要論文。
經統計,圖情領域327篇用戶畫像主題相關期刊論文分布在108種期刊,依據布拉德福文獻分散定律,選出核心區期刊。計算可知,發文大于10篇的7 種期刊為核心區期刊(見表3),這7 種期刊發文總量111篇,占比約34%,因此,這7種期刊構成圖情領域用戶畫像主題研究的核心期刊群。
表3 用戶畫像主題研究核心區期刊
通過對上表中核心區期刊分析,清晰可見,圖書館學研究、圖書情報工作、情報理論與實踐為該主題研究發文較多的期刊,研究者應多關注這些期刊;另一方面,核心區期刊多為圖情領域的核心刊,由此說明,用戶畫像主題研究在圖情領域備受關注,還有較大的研究拓展空間。
本研究基于樣本數據源,進行關鍵詞的抽取,進而確定高頻詞,在此基礎上,進行詞頻分析和聚類分析,發掘用戶畫像研究熱點和關注點,為后續相關研究提供參考。
基于詞頻的統計分析是文獻計量的重要方法之一。一般認為,一定時段內某個主題詞在某領域文獻中反復出現,則認定該詞所表征的主題為該領域在相應時段內的研究熱點和關注點,所以詞頻分析是挖掘研究對象主題分布、研究熱點的重要方法。因為這些分析和研究均是基于相應研究對象的高頻詞,所以,高頻詞閾值的確定即高頻詞的選擇尤為重要,它直接關系到分析結果的客觀性,高頻詞閾值選取不當則可能無法較好地反映研究的熱點內容和關注點。
目前,圖書情報領域研究人員進行高頻詞閾值計算方法主要有自定義法、齊普夫高低頻詞分界公式法、普賴斯公式法、g 指數方法和二八定律等方法。經過實證研究,大多研究者認為在上述方法中,比較科學且取得不錯效果的是g指數法。
g 指 數是2006年Egghe 在物理學家Hirsch 提出的h 指數的基礎上提出的用以評價論文質量的指數。其定義為:將論文按照被引次數降序排序,被引次數按序號疊加,當累計被引次數等于序號的平方時,該序號值即為g 指數。g 指數的計算過程為:將源項論文按被引次數降序排列,找出g值,使得前g篇論文被引次數的總和大于或等于g2,而前g+1篇論文的被引次數小于(g+1)2[7]。
g 指數在文獻計量應用中被后來者不斷加以拓展和修正,其中,楊愛青[8]根據g指數的計算方法和原理,提出了詞頻g 指數的概念,用以進行詞頻分析。即:某一個研究主題關鍵詞的數量分值為g,當且僅當此研究主題的關鍵詞總量N中,有g個關鍵詞其累計出現頻次不少于g2次,而g+1個關鍵詞其累計出現頻次少于(g+1)2次。研究者虞求雨[9]又在此基礎上完善了詞頻g 指數計算方法,計算過程如下:將關鍵詞按頻次排列,若從第g 個開始相同頻次的關鍵詞個數為n個,若g個關鍵詞累計出現的頻次大于或等于g2,而(g+n)個關鍵詞累計頻次小于(g+n+1)2個,則截至第g+n個在內的之前的關鍵詞即詞組集合中的高頻詞。表達式如下:,其中,n為相同頻次關鍵詞個數。
參考此種計算方法,針對本研究的數據,我們從中選出頻次大于等于6次的關鍵詞共計26個作為高頻關鍵詞,累計詞頻648次。具體的關鍵詞及計算過程見表4。
表4 高頻關鍵詞及g值計算過程
高頻關鍵詞一定程度上可以呈現研究主題的研究熱點和方向,分析高頻詞詞間關系,則有助于厘清研究主題的學術發展脈絡,發現研究細分主題以及各主題之間的關系。針對于本研究篩選出的26 個高頻詞數據,用NoteExpress 構建高頻關鍵詞共現矩陣,部分見表5。
表5 高頻關鍵詞共詞矩陣(局部)
關鍵詞之間共現次數越多,表明其關聯性越強,為了更好地呈現關鍵詞之間的共現和聚類關系。利用可視化工具Gephi 進行可視化處理。首先將關鍵詞共現矩陣加載到Gephi中,進行數據處理,自動生成Gephi 可以識別的節點數據和邊數據,節點即為24個高頻關鍵詞,邊數據為關鍵詞之間的共現關系,研究的關鍵詞,源數據和目標數據之間為無向連結,故類型選擇“無向”。Gephi數據處理結果顯示為共26 個節點(關鍵詞),151 條邊(連接線)。邊數據表部分見表6。
表6 Gephi邊數據表(部分)
經過軟件計算,關鍵詞平均聚類系數為0.585,關鍵詞節點按照關聯度進行渲染,選擇Fruchter?man-Reingold 算法進行布局,得到共現圖譜(見圖3)。
圖3 國內用戶畫像研究關鍵詞共現網絡
圖3 中,節點即為高頻詞,節點間的線段表示連接各節點的無向邊。節點標簽字體大小代表關鍵詞的頻次多少,字體越大代表頻次越多,關聯度越高。線段的粗細用來呈現兩詞共現頻次多少,邊越粗表明兩詞同時出現在文獻中次數越多。圖3可以看出高校圖書館、圖書館、智慧圖書館、大數據等關鍵詞與用戶畫像的連線較粗,這說明圖情領域用戶畫像的研究主要是基于圖書館,尤其是高校圖書館的讀者用戶研究,這也是用戶畫像研究的一級主題。
圖3 中二級節點主要是知識服務、閱讀推廣、個性化服務、精準服務、個性化推薦等幾個關鍵詞,由此分析可知,基于圖書館的用戶畫像研究是實現圖書館個性化服務和精準服務的重要前提。圖中其他較小的節點,顯示圖情領域用戶畫像研究還多涉及到學科服務、數據挖掘、人工智能的技術和相關服務等主題。
高校圖書館是用戶畫像研究的重要力量,因為高校圖書館的服務對象為教師和學生,用戶服務是其基本的職責,圖書館在為用戶提供服務的過程中,產生大量的使用數據,包括圖書借閱信息、圖書預約信息以及用戶入館信息等,這些信息可以幫助管理者對用戶的行為進行分析,從而進一步提高圖書館服務質量,創新圖書館的服務模式和服務內容。因此,針對不同群體用戶的個性化和精準化服務,既是圖書館的工作內容,也是圖書館業界的研究主題。
為了更好地呈現用戶畫像研究的主題分布,進行相異矩陣的構建,進行了數據z-score標準化,進而制作聚類樹狀譜系圖(見圖4)。
圖4 國內用戶畫像主題研究聚類譜系
分析樹狀聚類圖,我們不難發現,國內圖情領域用戶畫像相關主題研究大體分為4 個類團。第一類團是圖書館,尤其是高校圖書館針對讀者精準服務、學科服務和閱讀推廣等進行的相關研究;第二類團是基于數字圖書館環境,通過數據驅動和挖掘進行的資源個性化推薦;第三類團是針對用戶行為、用戶需求,通過人工智能、數據挖掘技術進行可視化知識圖譜呈現;第四類團是基于用戶畫像對知識服務、個性化服務等精準服務模式的探討。
為了更好地呈現用戶畫像主題演化過程,構建了關鍵詞時區圖(見圖5)。圖中清晰可見,用戶畫像2014年被首次應用到圖情領域,主要作用是用于信息營銷。2016年研究主題拓延到移動數據挖掘和用戶行為分析。自2017年始,用戶畫像研究進入高速發展時期,2017年研究主題多關注基于用戶實際需求的精準服務。2018年在此基礎上,又拓展到基于高校智慧圖書館建設中的相關個性化服務和閱讀推廣。2019年研究側重點在數據驅動下服務模式的創新。2020年后,研究方向開始走向分散,不再僅僅關注于圖書館精準服務、個性化服務等創新服務的研究,用戶畫像算法和知識聚類、智能技術、情感分析、知識付費、流程再造等成為新的關注點。
圖5 用戶畫像研究主題演化
(1)圖情領域用戶畫像的研究已經逐漸成為該領域的研究熱點。盡管用戶畫像概念首次應用于圖情領域是在2014年,距今僅近八年時間,但發文量逐年增加,且研究論文質量較高,核心區期刊發文量高達34%,相關研究作者和研究機構數量眾多。同時也要看到,高產作者并不多,且作者之間的合作較少。另外,相較其他熱門主題,研究熱度值還不高。
(2)研究主題較為集中單一,但技術性較強。從研究細分主題和關注點來看,用戶畫像研究多是基于圖書館個性化服務和精準服務的工具和實踐進行的研究,內容多針對圖書館閱讀推廣、學科服務、資源布局和推介等基本服務,研究對象較為集中。但細分主題和關注點涉及到大數據、數據挖掘、數據聚類、智能技術、虛擬知識社區等相關概念和技術。因此,技術性較強。
(1)由上文分析可見,一方面,當前用戶畫像在國內圖情領域的研究主題較為單一,主要基于圖書館讀者服務過程及用戶行為過程中產生的數據構建讀者畫像,目的是提高讀者服務和資源利用的精準化和個性化。另一方面,圖書館用戶畫像的研究多是應用和實踐研究,研究者多是圖書館工作人員,而對用戶畫像構建方法和多維度本體研究較少且不夠深入,盡管細分主題多元,但應用主體單一。究其原因,這與圖情領域學界和業界,在大數據時代智慧圖書館的建設中服務方式和內容的變革有直接關系。用戶畫像的構建和本體研究涉及到數據挖掘、智能技術等細分主題,離不開計算機、數據建模等技術應用,因此,圖書館和計算機學科交叉融合,圖書館工作人員和計算機技術人員進行合作,是拓展該主題研究廣度和深度,提高科研產出,進而提升學術影響力的有效舉措。
(2)目前,用戶畫像的構建在圖情領域并沒有統一的框架,相關研究多是針對具體圖書館的服務架構進行的相關研究,研究成果很難推廣普及。未來,在圖情領域尤其是圖書館業界,構建用戶畫像統一框架,實現用戶數據融合和共享,建設全面細致的用戶畫像,是大數據時代實現圖書館聯合和服務精準化的重要手段,也是用戶畫像縱深研究的突破口。
(3)當前,用戶畫像基本上是基于離線數據構建的,是一種靜態畫像,無論是基于其自然屬性的基本數據,還是基于一段時間用戶行為特性和偏好的應用數據,只能顯示出用戶一個時段內的特征,而實際生活中用戶的行為數據隨時可能發生改變,變化后的興趣無法及時通過之前構建的用戶畫像顯現出來,造成畫像在使用時產生偏差。圖情領域用戶畫像研究構建及使用也是如此。因此,針對圖書館用戶實時畫像的構建顯得尤為重要,這是用戶畫像未來研究和使用可以拓展的空間。
最后,需要說明的是,筆者是基于圖情領域用戶畫像研究成果的高頻關鍵詞文本分析,實際上,僅僅基于高頻關鍵詞很難準確地呈現研究的角度和核心關注點。盡管高頻詞在文本分析中,尤其是熱點分析中有著重要的作用,但是也要看到,因高頻詞取詞范圍的問題、作者自擬關鍵詞規范性問題,單純用高頻詞挖掘研究熱點,多是呈現的一級研究主題,尤其是對某一相對較小的專題,高頻詞分析很難較好地呈現其內在的細分主題或新興主題,對此,次高頻次、中頻次,甚至低頻次或可有更為重要的價值。因此,上述圖情領域用戶畫像的主題分析方法和結果僅供相關研究者參考。