999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于標簽計算的高校圖書館學者畫像及知識推薦研究*

2022-09-01 13:28:50熊太純吳智勤
圖書館研究 2022年4期
關鍵詞:融合用戶模型

何 勝,熊太純,吳智勤

(1.江蘇理工學院計算機工程學院,江蘇 常州 213001;2.江蘇理工學院圖書館,江蘇 常州 213001)

1 引言

基于高校圖書館(以下簡稱高校館)用戶行為數(shù)據(jù),開展學者畫像和知識推薦研究,以助力知識創(chuàng)新,全面促進人工智能技術在高校館應用的落地,對于高校館提升知識服務能力、踐行新時代圖書館人的知識服務使命具有重要意義[1]7。

作為用戶畫像領域的分支,高校館學者畫像研究主要面向高校學者群體,依托高校館基礎數(shù)據(jù)庫,應用語義計算等信息技術抽取學者人口和行為等特征標簽,構(gòu)建學者畫像標簽模型,在此基礎上開展個性化知識推薦、群體行為分析和科研趨勢預測等服務[2]2。

大數(shù)據(jù)背景下,有關學者特征建模、學者興趣標簽庫合理構(gòu)建以及知識推薦過程中異構(gòu)模型有效融合成為學者畫像研究的熱點和難點[3]1903。學者畫像的主要任務是畫像標簽體系構(gòu)建,即應用語義計算技術開展標簽提取、分類和對齊,構(gòu)建規(guī)范、統(tǒng)一的標簽庫;知識推薦面臨的挑戰(zhàn)是異構(gòu)模型融合,即需要將學者畫像模型的興趣特征與知識畫像模型中的關鍵詞進行準確匹配,從而在學者興趣與知識關鍵詞兩種異構(gòu)標簽之間搭建起有效的溝通橋梁,為精準知識推薦提供堅實的支撐。

針對上述問題,本文提出貫穿畫像建模、標簽庫構(gòu)建、異構(gòu)模型融合和畫像應用等過程的高校館學者畫像構(gòu)建及知識推薦模式,在此基礎上依托高校館學者借閱數(shù)據(jù)和互聯(lián)網(wǎng)著名平臺“知乎”知識庫(https://www.zhihu.com/)進行案例分析,著力解決標簽庫構(gòu)建和異構(gòu)模型融合難點,探索構(gòu)建高校館學者畫像的有效途徑。

2 研究回顧

現(xiàn)階段學界用戶畫像研究聚焦于畫像模型構(gòu)建和標簽技術應用兩個方面,以下密切結(jié)合圖情領域分析這兩部分研究現(xiàn)狀,總結(jié)近年來高校館學者畫像研究所取得的成果。

2.1 用戶畫像模型構(gòu)建

國內(nèi)外學界在不同領域的用戶畫像建模和應用方面的研究非常踴躍,相關文獻及綜述較為豐富[1]13,[4]95。例如Son等[5]采用啟發(fā)式的分類模型構(gòu)建Twitter 用戶畫像,并分析用戶轉(zhuǎn)發(fā)決策機制;Sun 等[6]對網(wǎng)絡學習平臺中用戶的學習數(shù)據(jù)進行統(tǒng)計分析后,構(gòu)建學習者畫像模型,為在線學習平臺內(nèi)容開發(fā)提供指導;在高校館用戶畫像建模方面也取得進展,如Andres 等[7]將用戶畫像特征庫和專家知識相融合,開發(fā)學習管理系統(tǒng)OntoSakai;于興尚等[8]面向用戶認知需求構(gòu)建圖書館用戶畫像模型,開展需求預測、個性化推薦分析應用;馮齡萱等[9]應用扎根理論構(gòu)建高校館流失用戶畫像模型,并分析高校館用戶流失形成機制,提出相關對策;彭程程等[2]4介紹了一種“智慧校園”學者畫像系統(tǒng),其數(shù)據(jù)源為某高校的碩博論文數(shù)據(jù)集,致力于分析學者的學術譜系和研究脈絡。

2.2 用戶畫像標簽技術應用

用戶畫像核心任務是用戶標簽體系構(gòu)建,即應用標簽計算等語義分析技術開展標簽提取、標簽庫構(gòu)建和異構(gòu)模型融合等研究,其中標簽庫的規(guī)范性有益于提升畫像的精準度,異構(gòu)模型融合是溝通學者畫像建模和資源畫像的橋梁,能助力領域應用落地。Middleton等[10]在研究學術論文推薦時,采用將論文內(nèi)容轉(zhuǎn)化為對應的詞向量標簽的語義計算方法,以準確匹配用戶畫像和推薦內(nèi)容;Calegari 等[11]融合YAGO 本體庫提取標簽,標記用戶特征,以提高用戶個性化檢索的精準度;唐杰等[12]應用分類方法從搜索引擎中檢索學者主頁,抽取文本信息開展用戶特征標注;宋雪雁等[13]以在線網(wǎng)站用戶消費行為為基礎,構(gòu)建用戶畫像標簽體系,提出一種在線網(wǎng)站用戶畫像模型;唐曉波等[14]將主題模型與用戶興趣相融合,構(gòu)建用戶畫像,實現(xiàn)社區(qū)主題畫像的動態(tài)更新;王仁武等[15]在學術社區(qū)中抽取用戶的行為特征與興趣關聯(lián)關系,提出一種融合用戶行為與興趣傾向的標簽構(gòu)建方法。

國內(nèi)外學界在研究用戶畫像的過程中,以用戶個體或群體特征分析、個性化推薦為目標,采用語義計算方法構(gòu)建用戶畫像并開展應用研究,取得很大的進展,但也存在如下問題:(1)用戶畫像建模角度,主要集中在理論層面,有關高校館用戶畫像技術及系統(tǒng)實踐方面研究較少[4]99,尤其缺乏針對學者畫像的案例研究;(2)用戶畫像標簽技術方面,學界注重研究標簽抽取技術,并提出各具特點的標簽構(gòu)建方案,但是在如何構(gòu)建規(guī)范統(tǒng)一的標簽庫,以及如何有效融合畫像異構(gòu)模型方面鮮有案例[3]1916。

作為著名UGC 平臺(User Generated Content,即用戶生成內(nèi)容),“知乎”社區(qū)由于知識質(zhì)量高、互動性強,對專家學者產(chǎn)生越來越強的黏附力,該平臺開發(fā)了規(guī)范統(tǒng)一的標簽庫,方便異構(gòu)畫像模型的融合。

綜上所述,本文提出了一種新的學者畫像及知識推薦模式,并以高校館學者行為數(shù)據(jù)和互聯(lián)網(wǎng)“知乎”平臺的知識資源為例,充分利用“知乎”平臺的規(guī)范統(tǒng)一的標簽庫,融合學者興趣特征和知識特征,開發(fā)了基于標簽計算的高校館學者畫像及知識推薦系統(tǒng)。

3 高校館學者畫像及知識推薦模式

高校館學者畫像及知識推薦模式包括“畫像建?!薄皹撕瀻鞓?gòu)建”“異構(gòu)模型融合”和“畫像應用”四個部分,如圖1所示。

圖1 基于標簽計算的高校館學者畫像及知識推薦模式

3.1 畫像建模

在描述學者和知識資源一般性特征的基礎上,以知識推薦為目標,畫像建模須突出展現(xiàn)“學者興趣”特征和“知識關鍵詞”特征,本文分別以“學者興趣”標簽和“關鍵詞”標簽作為兩類模型關聯(lián)的橋梁。

3.1.1 “學者畫像”建模

“學者畫像”是指對學者個性特征建模。以高校館學者行為數(shù)據(jù)庫為基礎庫,抽取學者個性特征,元數(shù)據(jù)包括“學者ID”“所屬單位”“學者專業(yè)”和“學者興趣”四個部分,其中“學者ID”“所屬單位”和“學者專業(yè)”從高校館學者行為數(shù)據(jù)庫直接抽取,而“學者興趣”則從學者所借閱或瀏覽的書籍(或資料)的題名或分類號中應用語義計算方法抽取。高校館借閱系統(tǒng)存儲了學者的個性化數(shù)據(jù)以及借閱行為數(shù)據(jù),包括“讀者證件號”“書名”“索書號”等,從中能夠方便地提取和解析學者的人口信息和興趣特征。

3.1.2 “知識畫像”建模

“知識畫像”是指對知識內(nèi)容建模。以互聯(lián)網(wǎng)知識資源為基礎庫,抽取知識特征,元數(shù)據(jù)包括“知識ID”“關鍵詞”“知識主題”和“知識創(chuàng)建者”4個部分,需要結(jié)合互聯(lián)網(wǎng)資源數(shù)據(jù)庫應用語義計算的方法抽取。作為知識的不竭源泉,來自互聯(lián)網(wǎng)的大量資源為學者提供了海量的數(shù)據(jù):專業(yè)科研文獻數(shù)據(jù)庫如萬方、知網(wǎng)、國際ScienceDirect 等平臺上的結(jié)構(gòu)化數(shù)據(jù);搜索引擎如百度、谷歌,以及學者們常用的微博、微信朋友圈、知乎、科學網(wǎng)等社交平臺產(chǎn)生的半結(jié)構(gòu)化數(shù)據(jù)等,這些數(shù)據(jù)能夠直接購買或利用開發(fā)爬蟲軟件獲取。

3.2 標簽庫構(gòu)建

標簽庫構(gòu)建是用戶畫像的主要內(nèi)容。標簽庫是指用層次化且精煉的詞匯描述客體,對學科知識這一客體而言,標簽庫須完整準確地體現(xiàn)該學科的知識組織架構(gòu)。由于標簽的專業(yè)性強,一般可以利用規(guī)范成熟的標簽庫(如權威機構(gòu)開發(fā)或經(jīng)領域?qū)<覍徍说臉撕烍w系),或者基于海量的互聯(lián)網(wǎng)語料應用語義計算方法(如實體抽取、分類和對齊等)構(gòu)建新標簽庫,后者的靈活性好,但也存在技術難度高、工作量大的問題。

3.3 異構(gòu)模型融合

異構(gòu)模型融合是溝通學者畫像和知識資源畫像的關鍵環(huán)節(jié)。以底層的同一“畫像標簽庫”為基礎,對“學者畫像”與“知識畫像”異構(gòu)模型進行標注,實現(xiàn)異構(gòu)標簽融合。

一是結(jié)合學者畫像模型,對“學者興趣”元數(shù)據(jù)進行標注,將每個學者的興趣用“畫像標簽庫”的術語進行標記,構(gòu)建“學者興趣標簽庫”。二是結(jié)合知識畫像模型,對“知識關鍵詞”進行標注,將每一條知識的內(nèi)容用“畫像標簽庫”的術語進行標記,構(gòu)建“知識關鍵詞標簽庫”。由于“學者興趣標簽庫”和“知識關鍵詞標簽庫”擁有共同的“畫像標簽庫”,二者的深度融合使得后續(xù)“知識推薦”應用中的“相似度計算”具備技術可行性。

3.4 畫像應用

利用標簽相似度計算方法,對上述構(gòu)建的“學者興趣標簽庫”和“知識關鍵詞標簽庫”,計算“學者興趣標簽”和“知識關鍵詞標簽”的兩兩相似度,并依據(jù)相似度從高到低排序,開發(fā)知識推薦系統(tǒng)以展示推薦結(jié)果。

知識推薦系統(tǒng)包括以下4 個模塊:(1)畫像標簽管理,根據(jù)知識資源語義計算和分析結(jié)果存儲和更新畫像標簽庫;(2)學者畫像管理,結(jié)合畫像標簽庫,依托高校館系統(tǒng)數(shù)據(jù)庫的抽取結(jié)果和學者興趣的分類結(jié)果,自動標注并更新學者畫像標簽;(3)知識畫像管理,結(jié)合畫像標簽庫,依托知識資源庫自動標注并更新知識畫像標簽;(4)知識推薦模塊,計算“學者興趣”和“知識關鍵詞”的兩兩相似度,對其排序并存儲,以便將與學者興趣高相似度的知識展現(xiàn)給學者用戶。

4 案例研究

密切結(jié)合所提出的高校館學者畫像和知識推薦模式,應用標簽計算技術開展案例研究。

4.1 畫像建模及標簽庫構(gòu)建

4.1.1 高校館學者數(shù)據(jù)收集

利用某高校館2019年1月1日—2021年12月31 日共114 597 條借閱數(shù)據(jù),去除學生借閱數(shù)據(jù),得23 092 條借閱記錄,涉及1 017 位教師,作為學者畫像建模原始數(shù)據(jù)。

4.1.2 互聯(lián)網(wǎng)知識資源收集

通過自行開發(fā)的爬蟲軟件,選取“知乎”平臺一級話題“社會科學”中的所有子話題,爬取精華問答?!吧鐣茖W”的話題包含情報學、歷史學、哲學、法律、金融學、心理學、政治學等32個二級子話題。對獲取的精華問答清洗并去重后得到522 943 條記錄,保存于Execl 表格,相關字段有“作者昵稱”“作者ID”“問題主題”“問題ID”“問題描述”“問題標簽”“具體內(nèi)容”“回答數(shù)”“發(fā)表時間”“點贊數(shù)”“評論人數(shù)”“回答鏈接”等,作為知識畫像模型的原始數(shù)據(jù)。

4.1.3 畫像標簽庫構(gòu)建

通過Python函數(shù)對“知乎”平臺上獲取的原始數(shù)據(jù)中的“知識關鍵詞”分類整理,形成本研究的畫像標簽庫?!爸酢逼脚_及其標簽庫具有以下特點:(1)擁有海量且專業(yè)的知識內(nèi)容?!爸酢逼脚_以問題提出和互動問答為主要方式,積聚了海量知識。由于其產(chǎn)生的知識質(zhì)量高、更新快、專業(yè)性強,受到國內(nèi)學者的青睞。(2)開發(fā)了成熟且規(guī)范的話題主題詞庫,即本研究中“畫像標簽庫”。經(jīng)過“知乎”平臺專家整體規(guī)劃、合理分類并嚴格遴選,主題詞庫能夠完整地呈現(xiàn)各領域知識的層次結(jié)構(gòu)和專業(yè)術語分類,經(jīng)過10多年的發(fā)展,“知乎”平臺已經(jīng)形成了較完備的“畫像標簽庫”,每一標簽都分配唯一的ID,如圖2所示。

圖2中以“競爭情報”“信息資源”和“數(shù)據(jù)科學”話題為例,列舉了部分畫像關鍵詞標簽。如對于“競爭情報”話題,對應關鍵詞有“競爭情報(20052199)”“情報機構(gòu)(19643868)”“情報學(19626490)”等,括號中的數(shù)字為該標簽的ID。

圖2 畫像標簽庫構(gòu)建

4.2 異構(gòu)模型融合

由于學者畫像模型與知識畫像模型異構(gòu)性,基于同一畫像標簽庫分別對“學者興趣”和“知識關鍵詞”進行標注,完成異構(gòu)模型融合。

4.2.1 學者興趣標注

如圖3所示,從高校館借閱數(shù)據(jù)庫中抽取相關數(shù)據(jù),包括“證件號”“專業(yè)”“借閱書籍題名”等字段數(shù)據(jù)(見“學者原始數(shù)據(jù)”部分),對學者畫像模型的四個標簽字段進行標注。其中:“學者ID”直接來源于“證件號”元數(shù)據(jù);“學者單位”是依據(jù)“證件號”的命名規(guī)則(第5~8位為學者單位編碼),抽取其中的第5~8 位匹配單位名稱;“學者專業(yè)”直接來源“專業(yè)”元數(shù)據(jù)。這三部分由Python函數(shù)自動完成;“學者興趣”根據(jù)“借閱書籍題名”的書籍所在的類別,自動匹配畫像標簽庫的話題標簽的類別。如學者ID 為“1998xxxx32”的用戶,其借閱的“競爭情報與企業(yè)競爭力”書籍,系統(tǒng)自動分類為“競爭情報”話題,因而將“畫像標簽庫”中的“競爭情報”“市場情報收集與分析”和“情報學”等標簽標注為該學者的“學者興趣”特征。

圖3 學者興趣標注

4.2.2 知識關鍵詞抽取

如圖4 所示,從“知乎”爬取的原始數(shù)據(jù)中,對知識畫像模型的4 個標簽字段進行標注。其中:“知識ID”和“知識主題”分別直接來源于“問題ID”和“問題主題”元數(shù)據(jù);將“知識創(chuàng)建者”元數(shù)據(jù)標注為“作者昵稱(作者ID)”的值;“知識關鍵詞”直接來源于“問題標簽”元數(shù)據(jù)的值。因為相關標簽已經(jīng)嚴格遴選,可以直接用于標注,這也體現(xiàn)了“知乎”平臺標簽庫所特有的應用價值。一般而言,對某個知識體系進行全面概括地描述(如構(gòu)建本體)非常費時費力,而利用“知乎”平臺標簽庫的關鍵詞體系,既節(jié)省人力成本,又兼?zhèn)漭^高的可靠性和規(guī)范性。

圖4 知識關鍵詞標注

4.3 標簽相似度計算

采用簡明的余弦相似度方法計算“學者興趣標簽庫”和“知識關鍵詞標簽庫”的兩兩相似度,標簽相似度計算方法見公式(1)。設有標簽集合A1、A2,式中l(wèi) 為標簽集合中對應的標簽列表長度,ti1、ti2分別為集合A1、A2中相關標簽的權重,計算結(jié)果S(A1,A2)即為A1、A2相似度。

計算流程如圖5 所示。 以學者ID 為1998xxxx32 的“學者興趣”標簽和知識ID 為359261682的“知識關鍵詞”標簽為例,計算二者相似度。首先,將二者標簽集合元素唯一化,得到5個標簽列表。其次,統(tǒng)計每類標簽在原來集合中出現(xiàn)的次數(shù)(即詞頻)并寫出標簽向量。最后,根據(jù)余弦相似度公式計算,結(jié)果顯示二者的相似度為0.577。系統(tǒng)對余弦相似度的值從大到小排序以后,存入數(shù)據(jù)庫。

圖5 計算標簽相似度

4.4 知識推薦系統(tǒng)

知識推薦系統(tǒng)如圖6所示。當用戶登錄后,系統(tǒng)將與該用戶興趣具有高相似度的知識(問題)推薦給用戶,如ID 為“1998500032”的用戶登錄后將與其情報學領域感興趣的4個“知乎”問題的鏈接進行推薦。由于該用戶標簽涉及“競爭情報”“情報學”等,知識推薦系統(tǒng)將“知乎”平臺上與情報學密切相關且標簽相似度高的知識推薦給該用戶。

圖6 知識推薦系統(tǒng)

5 結(jié)束語

在圖情領域的學者畫像和知識推薦研究中,畫像標簽庫的規(guī)范性及學者畫像和知識資源畫像的異構(gòu)模型融合一直困擾著學界。本文抽取互聯(lián)網(wǎng)“知乎”平臺自行開發(fā)的標簽庫,對學者興趣進行標注,從而搭建起高校館學者畫像和互聯(lián)網(wǎng)資源畫像模型融合的橋梁,借助“知乎”平臺標簽規(guī)范性的優(yōu)勢,以及利用標簽相似度計算等技術實現(xiàn)知識推薦,為高校館大數(shù)據(jù)與互聯(lián)網(wǎng)大數(shù)據(jù)的交叉融合及實施提供應用案例。

本文的不足之處及未來工作:(1)在實踐過程中,學者畫像的“學者興趣”存在多個主題現(xiàn)象。一種可行的解決方案是擴充“學者興趣”標簽,并對標簽設置動態(tài)權重,擴充時考慮學者興趣多樣、興趣遷移、專業(yè)變化等因素。另外,通過動態(tài)統(tǒng)計分析學者所借閱的書籍題名和借閱時間等數(shù)據(jù)確定標簽權重,借此影響相似度計算結(jié)果,使得其他興趣主題進入Top排序,從而在知識推薦中體現(xiàn)關聯(lián)多個興趣主題的推薦結(jié)果。(2)用戶數(shù)據(jù)的實時更新對知識推薦也將產(chǎn)生影響。這需要及時更新學者借閱和知識資源數(shù)據(jù),并對增量數(shù)據(jù)開展實時相似度計算,以實現(xiàn)知識資源的動態(tài)精準推薦,這些是本文下一步研究的方向。

猜你喜歡
融合用戶模型
一半模型
村企黨建聯(lián)建融合共贏
融合菜
從創(chuàng)新出發(fā),與高考數(shù)列相遇、融合
重要模型『一線三等角』
《融合》
重尾非線性自回歸模型自加權M-估計的漸近分布
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
3D打印中的模型分割與打包
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
主站蜘蛛池模板: 国产精品第页| a国产精品| 久久人人爽人人爽人人片aV东京热 | 国产精品欧美日本韩免费一区二区三区不卡| 激情午夜婷婷| 99在线视频免费| 免费va国产在线观看| 国产精品第| 欧美亚洲一二三区| 国产不卡在线看| 久久一色本道亚洲| 天天婬欲婬香婬色婬视频播放| 欧美啪啪一区| 亚洲欧美国产五月天综合| 日本高清免费一本在线观看| 国产精品视频白浆免费视频| 国产小视频网站| 欧美翘臀一区二区三区| 青青青伊人色综合久久| 亚洲精选无码久久久| av色爱 天堂网| 国产日本视频91| 国产精品一线天| 黄色污网站在线观看| 亚洲第一区精品日韩在线播放| 国产精品青青| 久久久91人妻无码精品蜜桃HD| 色婷婷视频在线| 久久福利网| 免费中文字幕在在线不卡 | 久久久久久久久久国产精品| 色婷婷色丁香| 日本欧美精品| 国产一区自拍视频| 91在线一9|永久视频在线| 中文字幕在线观看日本| 久久国产精品无码hdav| 国产色婷婷| 99精品高清在线播放| 91蜜芽尤物福利在线观看| 超碰aⅴ人人做人人爽欧美| 精品亚洲欧美中文字幕在线看| 亚洲综合第一区| 亚洲AⅤ无码日韩AV无码网站| 亚洲第一黄色网| 欧美日韩一区二区三区四区在线观看| 先锋资源久久| 国产在线97| 亚洲综合片| 国产另类视频| 在线观看视频一区二区| 老司机午夜精品视频你懂的| 亚洲中文字幕国产av| 中文字幕免费在线视频| 国产精品女主播| 91精品专区国产盗摄| 久久国产乱子| 精品人妻系列无码专区久久| 国产精品伦视频观看免费| 欧美.成人.综合在线| 91丝袜乱伦| 亚洲欧洲日韩综合色天使| 国产精品亚洲va在线观看| 狠狠色成人综合首页| 国模视频一区二区| 无码高清专区| 91在线视频福利| 亚洲高清资源| 久久精品丝袜高跟鞋| 久久女人网| 亚洲高清在线播放| 一级做a爰片久久毛片毛片| 国产区人妖精品人妖精品视频| 亚洲AV无码久久天堂| 新SSS无码手机在线观看| 亚洲美女视频一区| 成人福利免费在线观看| 三上悠亚在线精品二区| 久久一级电影| 国产在线观看99| 国产精品99久久久| 亚洲天堂网视频|