999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

圖書情報碩士研究生群體的用戶畫像研究

2022-04-20 10:21:38王雯霞中國醫科大學沈陽110122
高校圖書館工作 2022年2期

●王雯霞 (中國醫科大學 沈陽 110122)

研究生教育是培養高層次人才的有效途徑。我國圖書情報研究生教育歷史較短,1978年全面恢復研究生培養制度后,武漢大學和南京大學圖書館學系開始招收首批碩士研究生[1]。面對信息時代出現的各種挑戰,圖情領域的研究生教育發展方向更加多元化、專業化。國務院學位委員會于2010年通過了圖書情報碩士專業學位(MLIS)方案[2],標志著圖書情報碩士研究生教育進入一個新階段。筆者嘗試在總結國內圖書情報領域碩士研究生群體畫像的基礎上,為其科研能力的培養與發展提供解析和參考,有利于優化圖書情報人才結構,提升核心競爭力。

1 圖書情報研究生培養概述

關于圖書情報領域研究生培養的研究成果很豐富,有學者通過對我國臺灣地區[3]以及國外[4-7]圖書館學情報學碩士研究生教育和人才培養的詳細闡述,具體說明了新時代背景下研究生人才培養理念的轉變狀況。還有學者通過對中美圖書情報研究生培養方案的對比分析,提出對研究生培養應該基于職業需求,加強實踐和合作共享優勢資源[8-9]。柯平等認為圖書情報學研究生教育是整個圖情教育體系的一個重要組成部分[10]。同時,對MLIS的研究近年來也受到學界的廣泛關注[11-13],這些研究成果一致認為通過優化教學方式、完善師資隊伍等方式,能促進圖書情報碩士專業學位研究生的人才培養。

碩士研究生是充滿活力的科研生力軍,在導師的科研課題中承擔著重要角色,在科研活動中可以得到培養,增長才干。目前有學者認為圖書情報碩士教育呈現出學術型和專業碩士并行的情況[14],相比側重理論研究的學術碩士,MLIS偏向應用,但在培養方式上都是理論學習、實踐實習、學位論文相結合[15]。在學位論文方面,兩者對科研能力的需求是重合的,但側重點不一致,學術碩士重點面向學術研究,對科研能力的需求高于專業碩士。學位論文是碩士研究生科研成果的重要產出形式,能展現圖情領域研究生教育的發展方向。針對學位論文的研究,有學者[16-17]采用關鍵詞和共詞分析的方法,對某一學科碩士論文進行分析,反映圖情領域的研究現狀和碩士選題特點。還有學者[18-20]對學位論文的研究是基于文獻計量的角度,指出圖書情報學碩士論文的研究主題日益多樣化,但稍落后于期刊論文。從現有研究結果來看,學者的關注點更多的是圍繞碩士學位論文,鮮有研究從整個攻讀碩士學位期間的科研成果角度展開,綜合分析碩士研究生作為學術研究后備軍的科研發展潛力。

2 搭建用戶畫像標簽數據集

虛擬用戶畫像的基礎是真實數據,姓名、畢業院校、發表文獻題名、發表文獻被引量等差異化標簽可以區分不同用戶。畫像的標簽體系決定不同群體的細分程度,描述了不同碩士研究生群體的學術科研需求,因此搭建用戶畫像標簽數據集是首要目標。本文選擇中國知網“圖書情報與數字圖書館”專輯內的相關文獻,學位授予年度選擇2000—2018年,數據采集時間為2020年6月13日,共獲取7 045個樣本對象。以樣本對象的具體姓名和所在高校為檢索點,利用專業檢索式獲取每位碩士研究生的發文情況。為避免重復和兼顧查準率、查全率,姓名字段選擇精確匹配,單位字段選擇模糊匹配,檢索式設置為“AU=作者 and AF%學位授予單位”。采用Python作為爬蟲抓取語言,以知網公開的文獻網址為種子頁,共采集到7 045位作者發表的49 589篇文獻,數據采集時間為2020年10月。

根據樣本采集的源數據結構和研究目的,本文從用戶和行為兩個維度構建表格:用戶信息表存放圖情領域碩士研究生的基礎數據,包含字段為姓名、畢業院校、學位授予時間、指導教師;文獻信息表描述該作者攻讀碩士學位期間發表文獻的相關信息,包含字段為作者、作者單位名稱、文獻題名、文獻來源、發表時間、被引量。

文獻信息表中的數據是冗余繁雜的原始資料,必須經過預處理才能變成有效信息。數據預處理分兩步進行。第一步是依據畢業院校的碩士研究生學制篩選特定時期內作者所發表文獻的相關信息。由于圖情領域部分期刊的出版周期為雙月刊、季刊等,文獻收錄見刊的時間較長,因此本文選取的特定時期是從作者入學到畢業后七個月以內。第二步是排除同單位中同名作者的情況,判斷依據首先是作者所發文獻中的簡介信息,其次是論文合著者。經過數據預處理后,僅擷取7 045位作者在攻讀碩士學位期間的16 352篇文獻。

3 碩士研究生群體用戶畫像構建與實現

群體用戶畫像構建與實現分三步展開:首先需要借助RFM模型對用戶行為特征進行篩選,提取可聚類變量近度R、頻度F、值度M;其次是在第一步的基礎上對碩士研究生群體進行聚類劃分;最后運用詞云分析可視化每類群體的論文顯著關鍵詞圍繞傾向,識別核心學術用戶,提供差異化的科研策略。

3.1 特征變量選取

目前,多數學者認為用戶畫像的概念最早由Cooper A在1995年提出[21],最初的目的是加強軟件工程師之間的溝通。隨著精準信息服務需求的增加,用戶畫像逐步擴張到社交網絡[22]、健康醫療[23]、圖書館[24]等領域。何娟通過構建讀者的個人畫像和群體畫像推薦圖書,并結合問卷調查驗證此方法的有效性[25]。Kumar H等使用奇異值分解(SVD)為每個用戶建立一個聚類用戶興趣檔案(CUIP)[26]。Riccardo R等用微觀模擬工具模擬機場用戶的行動軌跡,構建決策支持系統為機場用戶管理提供建議[27]。用戶畫像方法作為實現精準服務的有效工具之一,也可以運用RFM模型構建用戶畫像。

RFM模型是由Hughes A M[28]提出的,該模型簡單易用,根據具體應用領域的差異,學者對傳統RFM模型中的指標含義進行修正。Miglautsch J R認為RFM模型的三個變量應該根據客戶差異賦予不同權重[29]。Liu D R等混合了基于加權RFM方法和基于偏好的協作過濾方法,改進硬件零售市場的有效個性化推薦[30]。Yeh I C等加入首次購買時間和客戶流失概率參數來擴展RFM模型[31]。Sarvari P A等人采用加權RFM(WRFM)和未加權RFM指標組成不同類型集群[32]。趙洪波為分析面向圖書館精準服務的讀者行為數據,采用讀者最近相關活動數據(R) 、相關活動頻率數據(F) 、相關活動時間停留數據(M)三個指標為依據[33]。

群體畫像特征變量選取的是用戶的行為屬性,數據主要集中在文獻信息表中,包括6個字段,分別為作者、作者單位名稱、文獻題名、文獻來源、發表時間、被引量。借鑒上述的RFM模型指標含義,以進一步細分和識別碩士研究生為目標導向,根據發文行為的差異性,對RFM模型的指標含義進行調整。調整后的近度R表示在攻讀碩士學位期間,每個人最近一次文獻的發表時間與其畢業時間的間隔,以月為時間單位。頻度F表示在特定時間范圍內,每個人發表的文獻總量。被引量是衡量文獻學術價值的重要指標,值度M表示被引量的平均值。

3.2 用戶群體劃分

(1)變量聚類。聚類分析可以通過指標的變量聚類,對不同指標的分類情況進行總體分析,以實現用戶分群的目標,但如何確定分類距離是聚類分析的關鍵。聚類算法中的距離測度要求變量之間具有一定的獨立性,因此在聚類之前,需要檢驗變量的分布狀態與獨立性。表1是對三個特征變量的基本統計量描述,從表中可以看出值度M具有較大的標準差,有的作者文獻被引均值為0,最大被引均值為88。根據表2中K-S檢驗的結果,顯著性sig均小于0.05,因此三個特征變量均不呈正態分布。

表1 描述統計量

如果聚類分析所選變量之間的相關性較強,會在度量個體“親疏”距離時進行重復計算,使同類變量占據較高權重,導致最終的聚類結果出現偏差,因此探索三個特征變量間的相關性關系是必要的。從表1中可以看出近度R和頻度F的極小值頻率均為3 048,百分比為43.3%,說明在7 045個樣本中,有3 048位作者只發表過1篇文章,考慮到此部分樣本占比近半且數據規律統一,可自成一類,需要對剩余的3 997個樣本對象進一步展開探討。表3是針對三個變量的相關系數檢驗表,表中顯示三個特征變量具有一定的獨立性,發文總量與被引均值呈微弱正相關,相關系數為0.237,發文總量較高,被引均值會略有提高;發文總量與時間間隔成微弱負相關,相關系數為-0.276,間隔越短的作者說明對學術的熱情較高,發文總量相應會高一些。

表3 Spearman的rho相關系數檢驗

(2)聚類分析結果。手肘法是一種利用SSE(Sum of the Squared Errors,誤差平方和)和K值的關系圖確認最優K值的方式,其主要特點是隨著K值的不斷增大,樣本劃分的類別就越精細,SSE隨著聚類精確度的提高變得越小,呈現出下降趨勢[34]。按照手肘法的特點,選取K值范圍為2~10,繪制出K值與SSE的關系圖,如圖1所示。從圖中可知,隨著K值的增加,SSE不斷降低,當K>4時,下降幅度明顯降低,因此選取聚類數量的值為4。

圖1 K值與SSE的關系圖

使用手肘法根據三個特征變量將群體劃分為四類,再結合K-means聚類方法,7 045個樣本對象的聚類結果如表4所示。其中,第一類群體占比最高,數據個數為3 048;其次為第二類群體和第三類群體,兩者頻度F和值度M的聚類中心值很接近,但近度R有明顯差異;第四類群體共有367名,占比最小。

表4 聚類結果

3.3 群體畫像構建與展示

7 045個樣本對象包含的發表文獻共16 352篇,根據四類群體的聚類結果進行劃分,群體一包含文獻3 048篇,群體二包含文獻9 496篇,群體三包含2 332篇,群體四包含1 476篇。關鍵詞能有效揭示文獻主題,是論文的必備要素,本文將各群體所包含文獻的關鍵詞單獨抽取出來,按照關鍵詞詞頻進行排序,依據詞頻表通過Python的中文分詞工具包制作出四類群體的詞云圖,如圖2~圖5所示。

圖2 群體一詞云圖

圖3 群體二詞云圖

圖4 群體三詞云圖

圖5 群體四詞云圖

群體一的顯著關鍵詞是服務、圖書館,具體涵蓋個性化信息服務、公共文化服務、公共圖書館。公共圖書館面向全社會,可以實現全民共享文化服務,個性化信息服務也是構建公共文化服務體系的基礎,三者的關聯可看出群體一的顯著關鍵詞的圍繞傾向是面向公眾的圖書館服務研究。

群體二的顯著關鍵詞是分析,包含比較分析、文獻計量分析、可視化分析、因子分析、內容分析。各種分析方法的使用基礎是豐富嚴謹的數據,綜合運用這些方法可揭示研究現狀和熱點,為研究人員把握領域前沿提供有力的參考依據。

群體三的最顯著關鍵詞是信息,具體涵蓋信息需求和咨詢、信息組織、數字資源保存、信息資源管理等一系列信息行為。次顯著詞是被引次數、引文分析、MOOC、博客、微博,前兩者含義相近,后三者是在人工智能信息技術發展下興起的新事物。

群體四的最顯著關鍵詞是評價,具體包括網站評價、期刊評價等各種評價指標和體系的構建,次顯著關鍵詞比較分散,包含創客空間、共現分析、科學計量學、SERVQUAL(服務質量)、手機圖書館、特色數據庫、微信等。

4 用戶畫像描述及特征討論

本文聚焦于圖書情報碩士研究生群體的三個特征:在攻讀碩士學位期間的發文總量、最近一次文獻的發表時間與其畢業時間的間隔、文獻被引量的平均值,結合K-means算法將群體聚為四類。

4.1 低價值群體

群體一的特征是頻度F為1、近度R為0,說明在攻讀碩士學位期間,群體一的碩士研究生只發表了1篇文獻,即碩士畢業論文。碩士畢業論文是獲得碩士學位的必要條件之一,也是衡量研究生科研水平和創新能力的重要依據,群體一只是完成了必不可少的畢業論文,處于碩士研究生群體的科研邊緣位置,可以歸屬為低價值群體。低價值群體的用戶基數在群體中分布最廣,對科研論文還處于起步階段,論文顯著關鍵詞方向偏向基礎理論,該群體在某種程度上是學術成果的宣傳大軍。針對這部分群體首先需要進行更加深入的信息素養教育,潛移默化地提升其信息處理能力;其次可以從研究領域內的綜述、高被引論文入手,讓群體用戶更加了解研究領域的熱點問題和發展趨勢,明晰不同用戶的科研興趣點。

4.2 重要挽留群體

群體三的特征是頻度F為3、近度R為14,說明在攻讀碩士學位期間,除了必要的碩士畢業論文,群體三的碩士研究生平均每人發表2篇文獻,發表時間距離畢業時間14個月,大約是在研二階段。根據詞云圖顯示,群體三發表文獻的最顯著關鍵詞涵蓋了各種信息行為,揭示出該群體已經具備信息檢索和利用等科研技能,結合數值為14的近度,可以歸屬為重要挽留群體。重要挽留群體具備承擔課題輔助工作或接受科學研究全面訓練的能力,發文總量多,但最近一次發文時間間隔較長,是容易發展為科研潛力軍的類型。重要挽留群體可被視為潛在的科研輸出型用戶,可以制定相應措施對這部分群體用戶進行引導,提高該群體的科研積極性和活躍度,縮短科研發文的時間間隔。

4.3 重要發展群體

群體二的特征是頻度F為3、近度R為3,說明在攻讀碩士學位期間,群體二的碩士研究生平均每人發表3篇文獻,且發文時間間隔較短,基本與碩士畢業論文同步完成,結合文獻顯著關鍵詞傾向,可以歸屬為重要發展群體。重要發展群體能兼顧發文總量和發文時間間隔,表明該群體可以綜合運用知識發現問題、分析問題、解決問題,在某一研究方向有深層次的挖掘,在相應的研究方向中具有較高的科研基礎,可以極大地提升發文的效率。針對重要發展群體,可以判定此類用戶在發文需求方面較為突出,從發文行為模式來看,這類群體對文獻內容和分析方法有深入的思考,具有相對完善的理論應用系統性,相比于重要挽留群體,前者在快速產出科研成果方面有明顯優勢。滿足重要發展群體的科研需求是首要影響因素,其次是聚合科研方向相近的同伴,給群體用戶之間進一步探討的空間。

4.4 高價值群體

群體四的特征是頻度F為4、近度R為5、值度M為22.21,說明在攻讀碩士學位期間,群體四的碩士研究生平均每人發表4篇文獻,發文時間間隔大約為5個月,文獻被引量的平均值很高,大約為其他三類群體的5~7倍,可以歸屬為高價值群體。高價值群體是碩士開展科研的核心用戶,從文獻顯著關鍵詞傾向可以看出,此類用戶的研究方向比較新穎熱門,發文活躍性也最高。高價值群體用戶數量較少,發文質量較高,首先可以為該群體推薦研究前沿的高質量文獻,便于用戶及時掌握科研發展動向。其次是開展差異化的專項指導,引導并鼓勵用戶積極參與科研或者申請項目課題,進一步促使該群體在不同科研成果類型中多開花。

5 結語

碩士作為科研后備軍,具備較大的科研發展潛力和創新精神。本文基于用戶畫像相關理論方法,選擇2000—2018年圖書情報碩士在整個攻讀碩士學位期間的發文情況作為研究對象,根據碩士的發文偏好進行群體畫像描述,發現四類不同的研究生群體。在7 045個樣本對象中,43%的碩士只完成了必要的碩士畢業論文,57%的碩士發文數量在3篇以上,表明圖書情報領域碩士研究生不僅僅滿足于獲取學位,而且在科研方面有較強的需求。從發文質量角度衡量,只有5%的碩士研究生的文獻平均被引量比較突出,是核心學術用戶,是圖情領域可持續發展的基礎力量和核心競爭力。

梳理整個研究,仍然存在不足之處,首先受到中國知網學科分類的局限,本文僅以中國知網“圖書情報與數字圖書館”領域為樣本對象,實際上不同數據庫中碩士研究生的收錄情況可能是有少量不同的。其次是抓取時機問題,筆者選取的碩士學位授予年度是2000—2018年,如能結合不同數據庫中更多時間段內的碩士發文情況,將能更加清晰地了解碩士研究生的發文行為特征,從而提供精準化、個性化的科研發展策略。

主站蜘蛛池模板: 国产福利一区视频| 毛片在线区| 一级毛片免费不卡在线| 一级毛片不卡片免费观看| 这里只有精品在线播放| 国产激爽爽爽大片在线观看| 欧美精品影院| 亚洲伦理一区二区| 伊人久久大线影院首页| 91久久偷偷做嫩草影院电| 99久久国产综合精品2020| 成人亚洲视频| 亚洲欧洲免费视频| 亚洲国产成人久久77| 久久精品这里只有精99品| 思思热精品在线8| 996免费视频国产在线播放| 国产成人喷潮在线观看| 久久免费成人| 四虎影视8848永久精品| 在线不卡免费视频| 国产香蕉在线视频| 国产乱子伦视频在线播放 | 亚洲人成色在线观看| 狠狠色狠狠色综合久久第一次| 四虎综合网| 无码一区中文字幕| а∨天堂一区中文字幕| 一级一毛片a级毛片| 亚洲欧美h| 51国产偷自视频区视频手机观看| 久久夜色撩人精品国产| 波多野衣结在线精品二区| 色综合日本| 欧美日韩专区| 欧美www在线观看| 国产午夜福利在线小视频| a毛片免费看| 99视频在线观看免费| 午夜精品福利影院| 日本人妻一区二区三区不卡影院 | 日韩国产黄色网站| 一级毛片免费播放视频| 国产区免费| 毛片免费在线视频| 亚洲国产中文欧美在线人成大黄瓜| 久草青青在线视频| 五月六月伊人狠狠丁香网| 国产国产人成免费视频77777| 国内精品免费| 国产亚洲男人的天堂在线观看| 一级高清毛片免费a级高清毛片| 国产精品成人AⅤ在线一二三四| 久久国产V一级毛多内射| 中文无码精品A∨在线观看不卡 | 三级毛片在线播放| 伊人色在线视频| 呦女精品网站| 在线观看国产小视频| 18禁黄无遮挡网站| 国产精品99久久久| 久久99这里精品8国产| 免费在线视频a| 国产特级毛片aaaaaa| 久久精品国产免费观看频道| 四虎永久免费在线| 国产精品免费福利久久播放| 日韩高清一区 | 日本黄色不卡视频| 欧美性久久久久| 日日碰狠狠添天天爽| 色成人综合| 免费毛片网站在线观看| 亚洲自拍另类| AV无码无在线观看免费| 中文字幕乱码二三区免费| 国产一区二区色淫影院| 精品久久久无码专区中文字幕| 国产在线精品美女观看| 国产激爽大片高清在线观看| 亚洲爱婷婷色69堂| 国产成人精品无码一区二|