999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

多源數據融合驅動的機構畫像構建與應用研究

2023-05-30 03:28:02高紅蓮
河北科技圖苑 2023年1期

摘要:基于多源數據融合構建的機構畫像在圖書館信息服務場景中的應用能夠創造出新的服務模式,拓展圖書館信息服務內容的廣度和深度。

文章在數據獲取與預處理、建立標簽體系及實現數據可視化等機構畫像構建流程的基礎上,設計多源數據融合驅動的機構畫像模型,并對機構畫像在圖書館信息服務場景中的具體應用進行分析。

關鍵詞:數據融合;機構畫像;信息服務;應用場景

中圖分類號:G203.5?? 文獻標識碼:A

DOI:10.13897/j.cnki.hbkjty.2023.0008

0 引言

隨著大數據時代的到來,大量極具價值的顯性及隱性的多源數據被充分提供,使能夠對海量數據進行挖掘分析的用戶畫像得到不斷的發展,用戶畫像的應用更加廣泛。但用戶畫像存在的問題也很突出,例如畫像的特征僅局限于個體、研究生或博士等少量群體,信息服務大多僅是圍繞精準推薦而展開。然而,像科研成果統計和機構競爭力分析這類能夠輔助提出科研決策與管理需求的機構畫像卻較少。那么,如何利用多源數據融合驅動進行機構畫像的構建并將其應用于圖書館具體的信息服務場景中已經成為圖書情報界現階段關注的重點問題。本文在多源數據融合驅動下,按照機構畫像的構建流程,構建圖書館機構畫像模型并對其信息服務場景進行分析。

1 相關概念概述

1.1 數據融合

數據融合是用來處理復雜的和異構的原始數據以獲得可靠的和有價值信息的一種方法[1]。目前,各類數據融合的方法均在不同領域進行著廣泛的應用,例如軍事中的目標識別和醫療中的診斷等。數據融合技術有中間件、數據倉庫及機器學習等。而多源數據融合則指使用不同的技術手段和算法工具,對數據進行全面的搜集、調查和分析,進而將信息融合在一起,對其進行分析與評價以得到極具價值的信息[2]。該技術的應用能夠將不同來源、類型及結構的數據綜合處理,汲取其優勢特征,從而提取出對比單一數據更具價值、科學和有效的信息。

1.2 機構畫像

用戶特征分析是一種標簽化的模型,它分析并建立在基本用戶特征和行為模式等數據之上,以代表特定的用戶群。機構畫像是由孟琳首次提出,機構畫像強調從核心成員發現、關系抽取及興趣發現等方面分析動態屬性[3]。機構畫像能夠把機構及其內部成員均視為統一的整體而非單一的個體,用以研究固有屬性和動態改變,并對差異性進行歸納總結,從而構建出標簽化模型。機構也可以被看作是不同個體的組合體,所以,機構畫像中信息也是不同用戶畫像信息的組合體,其信息主要包括長時期內相對穩定的靜態特征和處于動態變化的動態特征[4]。

2 多源數據融合驅動的機構畫像構建流程

多源數據融合驅動的機構畫像構建大致可以分為三個核心環節:數據獲取與預處理、建立標簽體系和機構畫像可視化。

2.1 數據獲取與預處理

機構畫像能夠在建立不同類型的標簽和關聯的基礎上,準確捕捉所有機構信息,使機構數據能夠被結構化、標準化和組織化,以方便數據提取等分析工作的開展

[5]。多源數據融合驅動下機構畫像的數據來源渠道多樣,包括機構基本信息、機構科研特征、第三方評價等。在對機構畫像進行構建時,系統應利用自動監測和自動數據收集方法,酌情整合和更新數據。對于機構畫像的數據大致可以分為基本信息、機構研究特征和第三方評價三類,如表1所示。其數據源主要包括:(1)商業數據庫,如文獻數據庫等;(2)自建數據庫,如項目數據庫和人才數據庫等;(3)公開信息,涉及機構年鑒和第三方評價報告等;(4)機構管理部門,包括管理部門和人事部門等。

多源數據的獲取決定了不同數據源所反映的信息不同,有的側重于機構基本信息,有的表達了機構科研特征和第三方評價。為了融合這些異構數據,圖書館要確保數據的完整性和安全性,同時要解決字段統一映射的問題,考慮到沖突、結構沖突等情況。同時,圖書館在進行數據預處理時,要對不同來源的數據采用不同的權重,將數據在特定應用場景下的重要程度考慮在內[6]。總之,多源數據的融合涉及到數據的字段映射與補充、同名消歧、數據權重等多個方面,做好數據獲取與預處理,是面向多源數據融合的機構畫像構建的基礎。

數據預處理作為機構畫像構建的必要環節,其可以對獲取到的源數據進行相應處理。例如,面對數據不一致的問題,圖書館可以通過數據集成等方式,將具有多個來源的數據用以整合;面對數據缺失的問題,圖書館可以通過編寫相應的程序進行特殊值或空值的填充得以解決;面對數據重復的問題,圖書館可以通過SQL語句中的distinct函數等進行過濾[7]。在解決以上諸多數據問題后,圖書館還需要通過人工篩查等方式,對研究價值較低的相關數據進行刪除,方能獲得最終所需的測試數據。

2.2 建立機構畫像標簽體系

分類、聚類和回歸分析等算法可以用來分析相應的機構畫像數據關聯,形成機構畫像標簽體系,如圖1所示。

由圖1可知,機構畫像的標簽體系由基礎屬性、特征屬性和學術屬性三部分構成。由于機構畫像的數據來源是多渠道、多格式的,為了適應多源數據的實際情況,機構畫像的標簽提取涵蓋了機構的整體情況和個體構成情況,勾勒出機構的基本信息與特征。同時,多源數據應用于信息服務場景,那么機構畫像也從學術屬性維度構建了標簽體系,包括期刊論文、會議論文、學術專著等等。機構畫像標簽體系實際上就是將機構信息抽象化得描述出來,是對機構情況的整體感知,標簽能夠使我們更加簡單和直觀地掌握機構的特征,也能充分應用處理后的多源數據來進行解釋說明。

2.3 機構畫像可視化

機構畫像可視化是機構畫像所呈現的最終環節,能夠幫助機構理解機構畫像的標簽含義、分析發展狀態并全面了解基本情況。如今,隨著技術的廣泛發展,畫像可視化的方式也更加豐富,例如,詞云圖、折線圖和臉譜圖等是其常用的可視化方式[8]。機構畫像可視化的實現難易程度和復雜程度等都不是評價結果的關鍵所在,圖書館需要根據機構畫像內容去選擇最為合適的可視化方式。本文分別從機構畫像的三個屬性介紹可視化的方式:(1)機構基本屬性標簽可視化。機構名稱、成立時間、科研平臺、學科領域、地理位置和組織架構等使用樹圖可視化;機構構成可以單獨使用樹圖展示;科技人才構成可以使用餅狀圖可視化。(2)機構科研屬性標簽可視化。機構科研成果使用表可視化;機構科研項目的研究特點可以使用文本標簽可視化。(3)機構評價屬性標簽可視化。通過使用折線圖可視化展示機構自然指數排名;學科排名和機構排名等可以使用條形圖可視化。

3 多源數據融合驅動的機構畫像模型構建

基于多源數據融合的機構畫像模型的構建可以分為五個層面,它由數據源層、數據層、數據處理層、人像顯示層和信息服務層組成,如圖2所示。其中,數據源層作為組織畫像所獲得的原始數據的來源,其所選擇出的數據源在相應的專業內需具有相對較高的可靠性以及認可度,由圖可知,多源數據的來源十分廣泛且差別較大,數據的類型不同、格式不一致,可能存在數據缺失與重復等問題。在數據處理層,主要對多源數據進行篩選和校對,剔除數據中不符合需要的數據。同時,針對多個來源數據的部分,系統根據上下文修補完善不規范或不完整的數據以保證多源數據的價值和完整性。

不僅如此,數據處理層還利用自動挖掘、文本挖掘等技術收集靜態和動態數據,對數據進行審核、清洗和標簽分類處理。同時,數據處理層進一步提取統計以上數據,將其結構重組,對差異化的數據進行分類,使用自然語言處理,建立起數據之間的關聯性,將關聯結果變換為可被展示的畫像展示層。展示層包含了數據可視化、機構畫像和數據展示,能夠直接解釋數據之間的關聯,用于直觀展示靜態和動態數據的特征,建立起機構的畫像,記錄并描繪機構主要特征與發展情況。多源數據融合驅動的機構畫像模型頂層是信息服務層,這一層級被認為是機構情況的延伸,服務層能夠提供信息服務、參考咨詢服務、資源推薦服務以及嵌入式學科服務,既能夠為圖書館的決策、管理和研究過程提供必要的信息,也能夠對機構的信息統計與人力資源趨勢分析提供精準的建議。同時,信息服務層能夠適應不斷變化的信息服務需求,及時更新、優化和改進現有的資料數據庫。

4 多源數據融合驅動的圖書館機構畫像的應用

對圖書館而言,基于多源數據融合構建機構畫像,利用相應的機構畫像可以為部門機構提供多元的信息服務。圖書館對來源不同、結構不同、完整程度不同的多源數據進行挖掘清洗與處理,從中綜合集成為具有統一結構的數據,形成覆蓋全面、鏈接廣泛的多源異構數據庫,豐富了信息服務的場景。圖書館以多源數據匯聚與計算的結果為依托,借助標簽化、信息化與可視化的手段,構建完整的機構畫像。通過關聯規則計算與數據挖掘匹配技術,能夠精準實時地獲取符合機構用戶興趣和需求的信息,進一步提升信息服務的能力。具體的服務應用場景包括參考咨詢服務、資源推薦服務、嵌入式學科服務等。

4.1 參考咨詢服務

多源數據融合的應用在信息分析方面積累了大量豐富的經驗,通過多源數據融合,圖書館信息獲取能力與交流溝通能力均有提高。圖書館機構畫像能夠及時捕捉到靜態數據與動態數據,了解多源數據載體的多樣性與復雜性,能夠熟練運用各種信息源,進而從龐雜的信息來源中提取潛在有效信息。同時,由于圖書館機構畫像形成分類標簽與數據關聯,具備較強的理解能力和表達能力,能夠引導用戶和機構充分表達其需求[9]。基于此,圖書館的參考咨詢服務有了進一步突破:第一,多源數據融合打破了不同數據庫的壁壘,形成更為寬闊的數據池,便于用戶和機構對書刊信息的查詢,擴大了文獻參考咨詢的范圍;第二,通過多源數據,圖書館能夠減少檢索信息的模糊性和不確定性,降低語義偏差,較強的理解能力能夠敏銳捕捉到用戶和機構需要參考咨詢的問題,及時對用戶和機構訪問各類數據庫以及互聯網上各種信息資源時所遇到的問題給予解答;第三,多源數據融合使數據來源更加廣泛,信息應用更加全面,圖書館在參考咨詢服務過程中,有能力為機構提供科研查新、專題咨詢、代查代檢、定題跟蹤等服務。

4.2 資源推薦服務

通過機構畫像提取機構的行為特征和動態需求變化,可以預測現有機構未來短期內的興趣和行為偏好的轉變,圖書館及時通過特征對比等方式與類似的畫像模型資源進行匹配,可以改善傳統資源推薦服務的局限性。多源數據融合,一方面擴大了數據收集范圍和渠道來源,從數量看更加全面,另一方面對數據進行有規則的篩選和重組,應用不同方法進行交叉驗證,保證了數據的科學性和質量,這就使圖書館資源推薦服務更加精準。通過機構畫像,圖書館可以根據機構用戶的數據庫檢索、下載日志,以及發表論文的引文分析、關鍵詞分析,精準識別、呈現機構用戶重點關注的數據庫、期刊和關鍵詞云,實現向機構用戶精準推送最新科技文獻資源。此外,圖書館構建的機構畫像是在實時監測機構的基礎上不斷補充與完善的,多源數據融合處于動態更新調整狀態,因此,圖書館能夠實時地為機構推薦符合需求的資源,為機構的研究提供有效的參考依據。

4.3 嵌入式學科服務

嵌入式學科服務是利用機構畫像改善圖書館服務的重要方向之一。圖書館根據機構的實際行為偏好,對服務內容進行層次分析,開展不同的工作,包括數據資源服務(本館的數據資源和外部的數據資源)、學科概貌分析、專業信息分析以及學科熱點分析。在此過程中,涉及到來源廣泛、結構不統一的多源數據,這就需要圖書館做好多源數據融合工作,處理多種來源異構的數字資源,包括引文分析、文本挖掘分析等等。圖書館要對多源數據進行篩選,避免數據冗余的問題,要通過數據構建起不同機構的真實描述,從學科樣貌到專業信息再到學科熱點分析,每一個階段都做好嵌入工作,將數據動態性的特征要求在數據層面有所體現,做好學科服務的多源數據處理問題,進一步提供與最新熱點和優質知識資源相匹配的嵌入式學科服務,如研究趨勢分析報告等,有效提高知識應用和知識創新的價值。

5 結語

綜上所述,機構畫像能夠對機構基本信息和科研行為特征進行全面的展示。本文在多源數據融合的視角下,提出了一個三階段的機構畫像構建過程,并對機構畫像模型及其信息服務場景進行分析。在大數據迅速發展的時代,基于機構畫像模型對信息服務的場景應用進行分析為語義挖掘和人工智能等進一步實現多源數據的融合與關聯提供了新的思路。同時,豐富機構的標簽內容,擴大機構模式的服務范圍,將成為未來圖書館知識服務的重要發展方向。

參考文獻

[1]

Meng T, Jing X Y, Yan Z, et al. A survey on machine learning for data fusion

[J].Information Fusion, 2020,57(5): 115-129.

[2]韋冬.基于多源數據融合的高校圖書館知識服務模式[J].圖書館學刊,2019,41(2):83-86.

[3]孟琳. 多源信息融合的機構畫像的方法研究[D].北京:北京郵電大學,2018.

[4]趙晏強,馬廷燦,周伯柱.基于機構畫像的學科服務模式研究[J].圖書館學研究,2021(11):86-90.

[5]熊回香,李昕然,代沁泉.基于用戶畫像的數字檔案館個性化服務研究[J].浙江檔案,2021(7):41-44.

[6]閔甜,孫濤,賴富饒,等.用戶畫像在科技期刊微信公眾號精準推送中的應用[J].中國科技期刊研究,2021,32(12):1549-1555.

[7]俞琰,陳磊,姜金德,等.網絡招聘文本技能信息自動抽取研究[J].圖書情報工作,2019,63(13):105-113.

[8]任福兵,王朋.基于多源數據的高校畫像構建與應用場景研究[J].高校圖書館工作,2022,42(2):34-40.

[9]岳怡然. 面向知識服務的用戶畫像構建與應用研究[D].北京:中國農業科學院,2021.

作者簡介:

高紅蓮(1968-),女,巨野縣工人文化宮館員。研究方向:圖書館管理與服務。

(收稿日期:2022-12-03 責任編輯:劉 渝)

Research on Construction and Application of Institutional

Portrait Driven by Multi-Source Data Fusion

Gao Hong-lian

Abstract:

TheInstitutional portrait based on multi-source data fusionin library information service scenes can create new modes and expand the breadth and depth of library information service content. On the basis of data acquisition and preprocessing, establishment of label system and realization of data visualization and other institutional portrait construction processes, this paper designs a multi-source data fusion driven institutional portrait mode, and analyzes the specific application of institutional portrait in library information service scenarios.

Keywords:Data Fusion; Organization Portrait; Information Service; Application Scenario

主站蜘蛛池模板: 亚洲精品不卡午夜精品| 日韩精品少妇无码受不了| 国产成人精品2021欧美日韩| 国产国产人成免费视频77777| 麻豆a级片| yy6080理论大片一级久久| 亚洲视频无码| 老色鬼久久亚洲AV综合| 亚洲女同一区二区| 成人在线观看不卡| 国内精品九九久久久精品| 久青草免费视频| 91无码网站| 在线国产毛片| 国产自在线播放| 欧美日韩一区二区在线播放| 日韩精品毛片人妻AV不卡| 久久国产精品国产自线拍| 91午夜福利在线观看精品| 亚洲国产精品成人久久综合影院| 青草91视频免费观看| 99re视频在线| 精品无码国产一区二区三区AV| 色屁屁一区二区三区视频国产| 国内精品一区二区在线观看 | 伊在人亞洲香蕉精品區| 麻豆精品视频在线原创| 国产情侣一区二区三区| 少妇精品在线| 中国毛片网| 91精品综合| 国产一二三区在线| 福利一区在线| 国产精欧美一区二区三区| 久久综合丝袜日本网| 91成人免费观看| 永久天堂网Av| 久久综合一个色综合网| 自拍偷拍欧美| 九色视频一区| 久久精品国产国语对白| 91久久国产综合精品| 亚洲精选高清无码| 在线看片免费人成视久网下载| 中文字幕在线播放不卡| 国产午夜福利在线小视频| 欧美国产在线看| 色成人亚洲| 丰满人妻中出白浆| 欧美影院久久| 好紧太爽了视频免费无码| 国产真实二区一区在线亚洲| 久久国产精品波多野结衣| 精品人妻无码中字系列| 亚洲视频三级| 国产美女精品在线| 二级特黄绝大片免费视频大片| 久久91精品牛牛| 伊人网址在线| 波多野结衣在线一区二区| 亚洲中文字幕在线一区播放| 精品福利视频导航| 综合色婷婷| 国产理论精品| 综合久久五月天| 亚洲性日韩精品一区二区| 福利国产微拍广场一区视频在线| 国产永久在线观看| 亚洲成aⅴ人片在线影院八| 中文字幕2区| 九九热免费在线视频| 香蕉网久久| 99热这里只有精品免费国产| 色欲综合久久中文字幕网| 91无码国产视频| 国产小视频免费| 少妇精品在线| 无码乱人伦一区二区亚洲一| 国产一区二区三区精品久久呦| 亚洲天堂免费| 中国成人在线视频| 国产日韩精品一区在线不卡|