摘 要:對(duì)數(shù)據(jù)進(jìn)行科學(xué)治理可有效推動(dòng)圖書(shū)館事業(yè)的發(fā)展,新的數(shù)據(jù)治理模式、治理機(jī)制和治理手段可顯著提升高校圖書(shū)館的服務(wù)能力。文章分析了高校圖書(shū)館數(shù)據(jù)治理相關(guān)研究及存在的問(wèn)題,理清了高校圖書(shū)館數(shù)據(jù)治理要素,分享了華南地區(qū)某理工科高校圖書(shū)館利用開(kāi)源軟件開(kāi)展數(shù)據(jù)治理工作的案例,以期高校圖書(shū)館能夠有效利用開(kāi)源軟件開(kāi)展數(shù)據(jù)資產(chǎn)管理工作。
關(guān)鍵詞:數(shù)據(jù)治理;高校圖書(shū)館;開(kāi)源軟件
中圖分類號(hào):G258. 6 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1003-1588(2025)01-0071-03
本文系2022年度國(guó)家社科基金一般項(xiàng)目“嶺南瑤族鄉(xiāng)村民俗檔案文化數(shù)字化傳承保護(hù)與創(chuàng)新交融研究”的階段性研究成果之一,項(xiàng)目編號(hào):22BTQ081;也系2023年度廣西哲學(xué)社會(huì)科學(xué)研究課題“數(shù)字人文視域下廣西桂劇非遺的文化基因提取與知識(shí)圖譜構(gòu)建研究”的階段性研究成果之一,課題編號(hào): 23FTQ006。
1 高校圖書(shū)館數(shù)據(jù)治理相關(guān)研究及存在的問(wèn)題
1. 1 相關(guān)研究
數(shù)據(jù)治理是組織中涉及數(shù)據(jù)使用的一整套管理行為[1]。很多學(xué)者在研究初期習(xí)慣使用“數(shù)據(jù)管理”“數(shù)據(jù)監(jiān)護(hù)”“數(shù)據(jù)管護(hù)”等詞匯進(jìn)行描述,其本質(zhì)都是在認(rèn)識(shí)到數(shù)據(jù)資產(chǎn)價(jià)值的基礎(chǔ)上,以數(shù)據(jù)資產(chǎn)為核心設(shè)定操作流程、劃分權(quán)屬職責(zé)等,利用數(shù)據(jù)治理結(jié)果為領(lǐng)域決策提供支持。隨著相關(guān)研究的持續(xù)深入,學(xué)界對(duì)數(shù)據(jù)治理的定義逐漸清晰。包冬梅指出,治理和管理是完全不同的活動(dòng),治理是對(duì)管理活動(dòng)的指導(dǎo)、監(jiān)督和評(píng)估,管理是根據(jù)相關(guān)治理決策執(zhí)行具體的計(jì)劃或建設(shè)、運(yùn)營(yíng)[2]。谷歌公司經(jīng)過(guò)實(shí)踐認(rèn)為,數(shù)據(jù)治理是為確保數(shù)據(jù)安全、私有、準(zhǔn)確、可用和易用所執(zhí)行的所有操作,包括人們必須采取的行動(dòng)、遵循的流程,以及在整個(gè)數(shù)據(jù)生命周期中為其提供支持的技術(shù)[3]。截至目前,高校圖書(shū)館已開(kāi)展MARC編碼、Z39. 50檢索協(xié)議、CALIS保障體系等一系列數(shù)據(jù)治理相關(guān)工作,旨在更好地管理和使用數(shù)據(jù)。隨著數(shù)據(jù)治理概念的普及,高校圖書(shū)館界關(guān)于數(shù)據(jù)治理的研究逐漸豐富。有學(xué)者提出,高校圖書(shū)館的數(shù)據(jù)類型應(yīng)被分為業(yè)務(wù)數(shù)據(jù)、資源數(shù)據(jù)、用戶數(shù)據(jù)、管理數(shù)據(jù)等,旨在通過(guò)明確數(shù)據(jù)類型的方式確定研究主體;高校圖書(shū)館應(yīng)構(gòu)建數(shù)據(jù)專家體系,培養(yǎng)數(shù)據(jù)館員,不斷完善數(shù)據(jù)獲取治理、數(shù)據(jù)共享治理、數(shù)據(jù)重用治理、數(shù)據(jù)加值治理等工作流程。顧立平認(rèn)為,數(shù)據(jù)治理有助于高校圖書(shū)館推動(dòng)智慧圖書(shū)館建設(shè),即以數(shù)據(jù)為核心、以業(yè)務(wù)流為驅(qū)動(dòng),通過(guò)融合數(shù)據(jù)治理體系,構(gòu)建新型智慧圖書(shū)館框架[4]。
1. 2 存在的問(wèn)題
1. 2. 1 理論研究偏多。現(xiàn)有的相關(guān)研究主題主要集中于數(shù)據(jù)治理概念等理論研究方面,實(shí)踐類、應(yīng)用類的研究占比較低。
1. 2. 2 在研究對(duì)象的設(shè)定方面存在偏差。現(xiàn)有研究的對(duì)象設(shè)定主要有高校圖書(shū)館、數(shù)據(jù)治理、大數(shù)據(jù)、科研數(shù)據(jù)、數(shù)據(jù)科學(xué)、數(shù)據(jù)管理等,很多研究直接將高校圖書(shū)館數(shù)據(jù)治理等同于科研數(shù)據(jù)治理、用戶數(shù)據(jù)治理等,針對(duì)作為底層支撐的業(yè)務(wù)數(shù)據(jù)治理、治理框架、治理體系、治理路徑等的研究相對(duì)較少。
1. 2. 3 內(nèi)驅(qū)動(dòng)力不足。目前,高校圖書(shū)館仍沒(méi)有充分認(rèn)識(shí)到數(shù)據(jù)資產(chǎn)的價(jià)值,僅依靠自上而下的政策推動(dòng)相關(guān)研究和工作進(jìn)程,沒(méi)有制定長(zhǎng)遠(yuǎn)的數(shù)據(jù)治理戰(zhàn)略,相關(guān)的數(shù)據(jù)共享機(jī)制不夠健全、責(zé)任界定不夠清晰,沒(méi)有形成長(zhǎng)效的工作保障機(jī)制。
1. 2. 4 缺乏具體的標(biāo)準(zhǔn)規(guī)范。我國(guó)通用的數(shù)據(jù)治理框架側(cè)重宏觀的戰(zhàn)略和管理,無(wú)法滿足高校圖書(shū)館跨部門、跨系統(tǒng)的橫向協(xié)同需求,在缺乏具體標(biāo)準(zhǔn)規(guī)范的情況下,高校圖書(shū)館難以規(guī)范化開(kāi)展數(shù)據(jù)治理工作[5]。
2 高校圖書(shū)館數(shù)據(jù)治理要素
2. 1 數(shù)據(jù)治理觀念
數(shù)據(jù)治理觀念是指高校圖書(shū)館在數(shù)據(jù)資源管理、利用及維護(hù)等方面的理念和認(rèn)識(shí)。在數(shù)據(jù)方面,高校圖書(shū)館須樹(shù)立正確的數(shù)據(jù)價(jià)值、數(shù)據(jù)質(zhì)量、數(shù)據(jù)安全、數(shù)據(jù)標(biāo)準(zhǔn)等觀念。在職能方面,高校圖書(shū)館須改變傳統(tǒng)的部室架構(gòu)和職能框架,以敏捷組織模式組建工作組,全面介入數(shù)據(jù)治理流程。在人才方面,高校圖書(shū)館須培養(yǎng)精通數(shù)據(jù)治理業(yè)務(wù)、技術(shù)的復(fù)合型人才,以人才建設(shè)推動(dòng)數(shù)據(jù)治理體系建設(shè)。
2. 2 數(shù)據(jù)治理主體
在認(rèn)識(shí)論中,主體是指在社會(huì)實(shí)踐中認(rèn)識(shí)和改造世界的人,因此,數(shù)據(jù)治理主體即是在數(shù)據(jù)治理實(shí)踐中認(rèn)識(shí)和改造數(shù)據(jù)的人,其中的“人”泛指具有主觀能動(dòng)性的個(gè)人、部門、機(jī)構(gòu)、團(tuán)體等。在高校圖書(shū)館的數(shù)據(jù)治理過(guò)程中,數(shù)據(jù)治理主體既可以是高校管理層、高校信息化建設(shè)部門、圖書(shū)館管理層、圖書(shū)館技術(shù)部門、圖書(shū)館館員,也可以是相關(guān)機(jī)構(gòu)或積極參與圖書(shū)館管理的用戶等。
2. 3 數(shù)據(jù)治理客體
客體是與主體相對(duì)應(yīng)的客觀事物及外部世界,是主體認(rèn)識(shí)和改造的一切對(duì)象。數(shù)據(jù)治理客體是指在數(shù)據(jù)治理實(shí)踐過(guò)程中,被數(shù)據(jù)治理主體認(rèn)識(shí)和改造的數(shù)據(jù)對(duì)象。對(duì)于高校圖書(shū)館來(lái)說(shuō),數(shù)據(jù)治理客體存在于各類數(shù)據(jù)資產(chǎn)中[6],以業(yè)務(wù)系統(tǒng)、數(shù)字文獻(xiàn)資源、書(shū)目、特色數(shù)據(jù)庫(kù)、教學(xué)資源等形式呈現(xiàn)。
2. 4 數(shù)據(jù)治理邊界
數(shù)據(jù)治理邊界是針對(duì)數(shù)據(jù)治理活動(dòng)的范圍限制,數(shù)據(jù)治理活動(dòng)須在一定的數(shù)據(jù)、流程、人員、系統(tǒng)、策略等范圍內(nèi)進(jìn)行。高校圖書(shū)館的數(shù)據(jù)治理應(yīng)以圖書(shū)館數(shù)據(jù)為基礎(chǔ),與高校網(wǎng)信中心、本科生院、研究生院、后勤服務(wù)中心等部門進(jìn)行主數(shù)據(jù)交換,并對(duì)這些數(shù)據(jù)進(jìn)行治理。
2. 5 消費(fèi)者
數(shù)據(jù)治理的目的是快捷、科學(xué)地進(jìn)行數(shù)據(jù)消費(fèi)。數(shù)據(jù)消費(fèi)者既可以是高校圖書(shū)館的工作人員、研究人員、高校教職員工等內(nèi)部用戶,也可以是其他圖書(shū)館用戶、其他高校用戶、相關(guān)單位等外部用戶。目前,相關(guān)系統(tǒng)、機(jī)器人流程自動(dòng)化(Robotic process automation,RPA)等的數(shù)據(jù)消費(fèi)占比較高,原因是不同系統(tǒng)之間的數(shù)據(jù)交換主要依賴各類自動(dòng)化接口或RPA機(jī)器人。
3 數(shù)據(jù)治理相關(guān)開(kāi)源軟件
3. 1 數(shù)據(jù)收集與清洗軟件
高校圖書(shū)館的數(shù)據(jù)來(lái)源較為復(fù)雜,除常見(jiàn)的業(yè)務(wù)系統(tǒng)、數(shù)據(jù)庫(kù)外,還有各種物聯(lián)網(wǎng)系統(tǒng)、電子資源、紙質(zhì)資源等,只有使用數(shù)據(jù)采集、文字識(shí)別、網(wǎng)頁(yè)解析等多種類型的軟件才能全面收集。具體的數(shù)據(jù)收集方式有以下三種:一是使用NiFi、Sqoop、Kafka、Flume、Pendaho等開(kāi)源數(shù)據(jù)采集軟件,從各類業(yè)務(wù)系統(tǒng)和數(shù)據(jù)平臺(tái)中抽取數(shù)據(jù)。二是使用Tesseract OCR等光學(xué)字符識(shí)別引擎,從圖像中提取文本數(shù)據(jù)。三是使用Scrap、Beautiful Soup等HTML解析引擎,從網(wǎng)頁(yè)提取信息或制作RPA機(jī)器人采集復(fù)雜數(shù)據(jù)集。對(duì)于收集到的數(shù)據(jù)集,高校圖書(shū)館可使用Pandas、SQLAlchemy、GGobi、DataCleaner等數(shù)據(jù)清洗軟件進(jìn)行數(shù)據(jù)清洗和補(bǔ)全,并匯入數(shù)據(jù)湖,構(gòu)成圖書(shū)館數(shù)據(jù)資產(chǎn)基座。
3. 2 元數(shù)據(jù)管理軟件
元數(shù)據(jù)管理是高校圖書(shū)館數(shù)據(jù)治理的核心內(nèi)容,涉及對(duì)數(shù)據(jù)的定義、描述、分類、控制等。Data Catalog具有數(shù)據(jù)目錄和元數(shù)據(jù)管理功能,高校圖書(shū)館可用其創(chuàng)建和管理數(shù)據(jù)目錄,并對(duì)數(shù)據(jù)進(jìn)行元數(shù)據(jù)建模和分類。Magda具有數(shù)據(jù)編目、增強(qiáng)、搜索、跟蹤和排序等功能,高校圖書(shū)館可利用其對(duì)內(nèi)外部數(shù)據(jù)源進(jìn)行處理,以API的形式對(duì)外提供數(shù)據(jù)資產(chǎn)管理服務(wù)。
3. 3 數(shù)據(jù)質(zhì)量監(jiān)控軟件
開(kāi)源數(shù)據(jù)質(zhì)量監(jiān)控軟件能夠幫助使用者保障數(shù)據(jù)質(zhì)量,提高決策準(zhǔn)確度和業(yè)務(wù)開(kāi)展流暢度,方便使用者對(duì)數(shù)據(jù)進(jìn)行追溯,以確定問(wèn)題數(shù)據(jù)源頭。Apache Griffin具有數(shù)據(jù)系統(tǒng)質(zhì)量評(píng)估功能,允許高校圖書(shū)館自定義數(shù)據(jù)質(zhì)量指標(biāo),并對(duì)這些指標(biāo)進(jìn)行監(jiān)控。DataHub具有數(shù)據(jù)質(zhì)量評(píng)分功能,有助于高校圖書(shū)館評(píng)估數(shù)據(jù)的可靠性和適用性。
3. 4 數(shù)據(jù)消費(fèi)軟件
數(shù)據(jù)消費(fèi)軟件具有數(shù)據(jù)分析、匯總、邊界管理、可視化等功能,有助于高校圖書(shū)館用戶直觀地閱覽和操作數(shù)據(jù)集,提高數(shù)據(jù)利用效率。數(shù)據(jù)消費(fèi)軟件可按封裝程度分為自動(dòng)化和半自動(dòng)化兩種類型,自動(dòng)化數(shù)據(jù)消費(fèi)軟件有DataEase、Grafana、Apache Superset、JeecgBoot等,能夠直接對(duì)接數(shù)據(jù)湖,并根據(jù)數(shù)據(jù)結(jié)構(gòu)或時(shí)間序列生成定制化數(shù)據(jù)表格、可視化圖表等;半自動(dòng)化數(shù)據(jù)消費(fèi)軟件有Apache Echarts、D3、AntV、PowerMap等,需要使用者手動(dòng)對(duì)數(shù)據(jù)湖中的數(shù)據(jù)進(jìn)行序列化處理,只有使其符合軟件要求,才能自動(dòng)生成數(shù)據(jù)消費(fèi)界面。
4 高校圖書(shū)館利用開(kāi)源軟件開(kāi)展數(shù)據(jù)治理工作的案例
以華南地區(qū)某理工科高校圖書(shū)館為例,該館利用Pendaho、postgreSQL、JeecgBoot、ApacheEcharts、DataCleaner等開(kāi)源數(shù)據(jù)治理軟件構(gòu)建數(shù)據(jù)湖與數(shù)據(jù)消費(fèi)平臺(tái)。其中,數(shù)據(jù)湖的構(gòu)建依托Pendaho、postgreSQL、DataCleaner等開(kāi)源軟件,從不同業(yè)務(wù)系統(tǒng)、異構(gòu)數(shù)據(jù)庫(kù)、網(wǎng)站服務(wù)器等抽取數(shù)據(jù),經(jīng)過(guò)清洗、質(zhì)量控制等處理后,匯入postgreSQL數(shù)據(jù)湖,并生成業(yè)務(wù)目標(biāo)主導(dǎo)型數(shù)據(jù)集;數(shù)據(jù)消費(fèi)平臺(tái)的構(gòu)建依托JeecgBoot、ApacheEcharts等開(kāi)源軟件,在生成如圖1所示的多維度數(shù)據(jù)集可視化圖表的基礎(chǔ)上,對(duì)多源數(shù)據(jù)集進(jìn)行匯總,生成用戶畫(huà)像等基礎(chǔ)數(shù)據(jù)。

該館組合利用開(kāi)源軟件開(kāi)展數(shù)據(jù)治理工作的方式具有一定的可行性,可滿足大部分高校圖書(shū)館基本的數(shù)據(jù)治理需求,有助于高校圖書(shū)館提升數(shù)據(jù)資產(chǎn)管理成效。
參考文獻(xiàn):
[1] 張寧,袁勤儉.數(shù)據(jù)治理研究述評(píng)[J].情報(bào)雜志,2017(5):129-134.
[2] 包冬梅,范穎捷,李鳴.高校圖書(shū)館數(shù)據(jù)治理及其框架[J].圖書(shū)情報(bào)工作,2015(18):134-141.
[3] 宋懿,黃婕.歐盟政府?dāng)?shù)據(jù)治理:體系建設(shè)及其經(jīng)驗(yàn)啟示[J].現(xiàn)代情報(bào),2023(6):139-148.
[4] 顧立平.數(shù)據(jù)治理:圖書(shū)館事業(yè)的發(fā)展機(jī)遇[J].中國(guó)圖書(shū)館學(xué)報(bào),2016(5):40-56.
[5] 王兆君,王鉞,曹朝輝.主數(shù)據(jù)驅(qū)動(dòng)的數(shù)據(jù)治理:原理、技術(shù)與實(shí)踐[M].北京:清華大學(xué)出版社,2018:19-36.
[6] 熊擁軍,白瀚禎,張廷成.基于數(shù)據(jù)中臺(tái)的圖書(shū)館數(shù)據(jù)資產(chǎn)管理架構(gòu)[J].圖書(shū)館學(xué)研究,2023(8):36-47.
(編校:馮耕)