999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于用戶畫像的數字人文服務策略

2019-04-27 02:10:50張紅偉解素芳王春梅
中華醫學圖書情報雜志 2019年12期
關鍵詞:數據處理研究

張紅偉,邢 丹,陳 玲,解素芳,王春梅

隨著大數據、云計算等新興數字技術的發展,人文研究出現了革命性的轉變,數據密集型研究不斷加劇。“數字人文”的出現不僅為傳統人文研究帶來了新方法,注入了新活力,還拓展了人文研究領域[1]。李泉在《數字人文:開創人文研究的新紀元》一文中指出:“數字人文堪稱人文研究的‘開天辟地’與‘創世紀’,能夠開創人文研究的新紀元”[2]。數字人文研究在世界各地如火如荼地展開,“大數據視域下數字人文研究”入選2018年度“中國十大學術熱點”,數字人文的高熱狀態在近幾年將一直持續下去[3]。圖情界如何為數字人文學者提供個性化的服務成為當前的棘手問題,畫像技術的發展為數字人文服務提供了新思路。

1 數字人文個性化服務

當前數字人文服務主要從基礎設施建設、技術體系框架及科研服務內容等宏觀層面進行,如何進行數字人文個性化服務等以微觀層面研究較少[4]。針對個性化研究,周謙豪等設計了一款數字人文工具——inBooks,該工具不僅能通過紙本圖書的圖像獲取數字人文資源,還可以構建個性化知識網絡[5];曾子明和秦思琪采用深度學習方法和哈希方法構建了面向數字人文的移動視覺搜索模型,探討了圖像語義特征提取和檢索流程,為獲取數字人文視覺資源提供了新思路[6-7];上海圖書館推出家譜知識服務平臺,該平臺實現了基于概念的精確查詢,以“時間軸”“地圖”等為用戶提供可視化家譜數據展示[8]。以上研究從不同側面探討了數字人文領域的個性化服務,然而這些研究遠遠無法滿足數字人文學者的個性化需求。針對數字人文特點及學者不同的研究興趣,如何提供優質的個性化服務仍是圖情界急需探索的難題。

2 用戶畫像技術

用戶畫像是一種刻畫用戶信息模型的技術,在挖掘用戶真實數據的基礎上,按照需求提煉出用戶信息,呈現虛擬的用戶信息全貌,以此為基礎為用戶提供精準個性化服務[9]。用戶畫像技術近年引起了電子商務、金融、社交網絡等各界的廣泛關注和研究。圖情領域為了提供更貼合用戶需求的個性化服務,也引入了用戶畫像。李丹等利用顯式和隱式相結合的方法獲取讀者信息,構建讀者畫像,采用協同過濾的方法向讀者推薦興趣度排名靠前的N項內容[10];劉海鷗等將情景興趣應用于讀者畫像,通過計算與當前情景相似的歷史情景獲取讀者感興趣的內容[11];何娟在畫像模型中構建了個人畫像和群體畫像,綜合二者的閱讀特征對讀者進行個性化推薦[12];張海濤等通過對中國知網和Web of Science中有關用戶畫像的文章進行定量和定性分析后,指出用戶畫像研究雖然取得了一些成果,但主要集中于社會化問答社區、數字圖書館和輿情傳播等主題,其他主題的研究比較薄弱[13]。隨著數字人文研究的快速發展,數字人文研究學者隊伍不斷壯大,成果數量急劇增多,學者對數據處理的技術服務需求進一步增強。如何利用用戶畫像刻畫出數字人文學者信息,針對具體需求提升數字人文學者的個性化服務水平值得深入研究。

3 數字人文視域下學者畫像系統構建

數字人文學者在研究過程中經常需要用到一些軟件工具,如SPSS、Eviews等[14],并且在數據管理計劃、元數據、數據倉儲與保存、數據出版、數據分析可視化等數據處理環節中,不同學者的關注點也不盡相同[15]。針對數字人文的特點,本文設計了一個數字人文學者畫像系統,旨在從研究內容、常用科研工具和所關注的數據處理環節等方面刻畫出數字人文學者特點,在此基礎上實現更貼合需求的數字人文個性化服務。

3.1 數據的采集和處理

學者數據信息是構建畫像系統的基礎。學者數據主要包括基本信息、發表論文、內容偏好、常用科研工具和所關注數據處理環節等5方面的內容。其中基本信息包括學者姓名、年齡、性別、機構、專業等,發表論文包括論文題目、發表期刊、發表時間等;內容偏好是根據發表論文提取出的研究興趣與方向;常用科研工具包括SPSS、Eviews、SAS、ACCESS、Ucinet、CiteSpace、VOSviewer、Gephi等,數據處理環節包括數據管理計劃、元數據、數據倉儲與保存、數據出版、數據分析可視化等。

本文采用改進的爬蟲技術從中國知網和學者主頁爬取學者的基本信息、論文、常用工具、關注的數據處理環節等信息。獲取的論文在經過去重、去停用詞等預處理后,將論文用向量空間模型(Vector Space Model,VSM)表示,利用TF-IDF算法進行特征提取并賦予相應的權值,提取出論文的特征向量,將論文轉化為可以計算彼此相似度的向量。一篇論文可表示為:

d=(t1,t2,…tn;w1,w2,…,wn)

式中,n表示向量維度,tk表示論文第k個特征項,wk是tk(1≤k≤n)相應的權值。兩篇論文的相似度可以表示為:

(公式1)

sim()的取值范圍是[0,1],sim()越大,表示兩篇論文的相似度越高;相反,sim()越小,表示兩篇論文的相似度越低。在提取論文信息的基礎上分析得出學者的研究偏好,并對常用工具和關注的數據處理環節等內容進行補充。

3.2 數據聚類

本文采用Single-Pass算法對論文進行聚類。按照論文到達的次序,將第一個到達的論文設為一個類簇C1,然后將后續到達的論文di與現有的類簇C計算相似度,選擇相似度最大的類簇Ci。如果相似度大于閾值θ,則把論文di歸入Ci,并更新Ci的向量;否則,將論文di設為一個新的類簇,直到將所有的論文都歸入相應類簇為止。

本文以常用科研工具為依據對學者進行聚類。數據采集處理后,系統將保存常用工具信息表,該表列出所有的人文學者與其常用科研工具,如果學者使用該工具則用1表示,不使用則用0表示。如學者0001常使用SPSS和SAS而不使用Eviews,學者00002常使用Eviews和SAS而不使用SPSS(表1)。該表對每個學者使用的科研工具進行聚類。此外,每個科研工具對使用學者進行聚類,統計出每個科研工具的使用者(表2)。學者Si與學者Sj關于常用工具的相似度用公式(2)表示。

sim(Si,Sj)=n/N

(公式2)

式中,n表示學者Si常用科研工具與學者Sj重復的數量,N表示學者Si常用科研工具的總數。對數據處理環節也進行類似聚類。

表1 學者─常用科研工具對應表

表2 常用工具─學者倒排表

4 個性化服務

4.1 興趣相近學者查詢

為了促進科研交流合作,學者需要尋找與自己研究內容相近的學者。本文設計了以下查詢途徑:第一,學者可以根據研究興趣相似度大小,直接從相應類簇中提取一定數量的學者;第二,學者可以根據同時使用的某一個或幾個常用科研工具尋找相應學者,也可以根據常用工具的相似程度尋找相應學者;第三,學者可以根據所關注的不同數據處理環節尋找相應學者。此外,學者還可以綜合權衡以上3種因素的相似度尋找相應學者,計算方法如公式(3)所示。

sim(Si,Sj)=αsim1+βsim2+γsim3

(公式3)

式中,sim1表示學者Si和Sj的研究興趣相似度,sim2表示常用科研工具相似度,sim3表示關注數據處理環節相似度。系統根據用戶對3種因素的重視程度設置α、β和γ的值,其中0≤α,β,γ≤1,并且α+β+γ=1。系統根據學者需求,利用公式(3)提取一定數量的學者進行推送。

4.2 文獻精準推送

現有文獻根據Single-Pass算法形成穩定的類簇。當有新文獻出現時,該文獻根據Single-Pass算法進行聚類,歸入類簇Ci,Ci中所有文獻都是圍繞同一主題展開的研究,存在強相關性,所有作者也具有相同的研究興趣。因此,系統將新文獻推送給類簇Ci中其他文獻的作者。

4.3 其他推送內容

在學者根據研究興趣、常用科研工具及數據處理環節進行聚類后,系統根據具體需求進行精準推送。當舉行某個科研工具的培訓時,將培訓信息推送給使用該工具的所有學者;當舉行有關某個數據處理環節的會議時,將會議信息推送給關注該數據處理環節的學者;當需要尋找某個工具或數據處理環節的專家時,直接根據學者畫像推出相關專家名單。

4.4 嵌入式服務

數字人文館員嵌入科研過程,根據學者畫像,分析數字人文學者及團隊在科研過程中可能遇到的困難及需求,隨著科研進程的不斷推進,提供全方位的知識獲取、數據管理及科研工具支持等高層次服務。同時注重對學者數字人文研究素質的培養,特別是不斷提升其數據處理及科研工具使用的能力,營造數字人文研究的濃郁氛圍。

5 結語

針對數字人文個性化服務能力不足問題,本文提出了一種基于用戶畫像的個性化服務策略,從研究內容、常用科研工具和所關注的數據處理環節等方面提取數字人文學者信息,構建學者畫像,采用Single-Pass算法對論文進行聚類。分別以常用科研工具和所關注數據處理環節為依據對學者進行聚類。在此基礎上,為數字人文學者提供了興趣相近學者查詢、精準文獻服務及嵌入科研過程等個性化服務,使數字人文學者從繁雜的資料收集和數據處理工作中解脫出來,將精力集中在解決科研問題本身上,有助于數字人文研究的快速發展。

猜你喜歡
數據處理研究
FMS與YBT相關性的實證研究
認知診斷缺失數據處理方法的比較:零替換、多重插補與極大似然估計法*
心理學報(2022年4期)2022-04-12 07:38:02
ILWT-EEMD數據處理的ELM滾動軸承故障診斷
水泵技術(2021年3期)2021-08-14 02:09:20
2020年國內翻譯研究述評
遼代千人邑研究述論
視錯覺在平面設計中的應用與研究
科技傳播(2019年22期)2020-01-14 03:06:54
EMA伺服控制系統研究
新版C-NCAP側面碰撞假人損傷研究
MATLAB在化學工程與工藝實驗數據處理中的應用
Matlab在密立根油滴實驗數據處理中的應用
主站蜘蛛池模板: 国产福利免费观看| 精品国产美女福到在线不卡f| 欧美综合中文字幕久久| 日韩黄色在线| 中文字幕人妻av一区二区| 久草视频精品| 久久黄色视频影| 熟妇丰满人妻av无码区| 丝袜久久剧情精品国产| 久久免费精品琪琪| 高清无码手机在线观看| 国产香蕉在线视频| 综合五月天网| 99久久人妻精品免费二区| 亚洲永久免费网站| 一本大道香蕉中文日本不卡高清二区| 女人18毛片一级毛片在线 | 男人天堂伊人网| 国产精品自在线拍国产电影| 国产精品一区不卡| 亚洲人成电影在线播放| 欧美伊人色综合久久天天| 国产在线欧美| 亚洲日韩精品欧美中文字幕 | 波多野结衣一二三| 精品偷拍一区二区| 久久中文电影| 美女内射视频WWW网站午夜| 高潮毛片免费观看| 亚洲AV无码一二区三区在线播放| 999精品免费视频| 国产精品任我爽爆在线播放6080 | 一区二区三区高清视频国产女人| 狠狠色狠狠色综合久久第一次 | 亚洲毛片在线看| 国产va欧美va在线观看| 成人午夜网址| 精品福利一区二区免费视频| 色播五月婷婷| 精品伊人久久久久7777人| 久久久久亚洲精品无码网站| 日韩欧美中文字幕在线精品| 三上悠亚精品二区在线观看| 国产精品亚洲va在线观看| 欧美成人免费一区在线播放| 国产在线高清一级毛片| 国产第八页| 国产原创演绎剧情有字幕的| 色综合激情网| 亚洲高清资源| 欧美成人一区午夜福利在线| 亚洲Av综合日韩精品久久久| 日本五区在线不卡精品| 任我操在线视频| 99中文字幕亚洲一区二区| 成人一级免费视频| aa级毛片毛片免费观看久| 伊人久久综在合线亚洲2019| 色老头综合网| a级毛片免费播放| 色网站在线视频| 日本福利视频网站| 岛国精品一区免费视频在线观看| 99热免费在线| 就去色综合| 亚洲国产综合精品一区| 欧美色视频日本| 99热最新在线| 久久婷婷国产综合尤物精品| 欧美不卡视频在线| 久久精品亚洲中文字幕乱码| 免费一级毛片完整版在线看| 一区二区影院| 欧美无专区| 中文字幕有乳无码| 一级毛片网| 囯产av无码片毛片一级| 精品视频福利| 51国产偷自视频区视频手机观看| 国产精品网拍在线| 亚洲有码在线播放| 亚洲欧美另类专区|