














摘 要:文章以近幾年我國公共圖書館、文化館、文化站的歷史數(shù)據(jù)為例,借鑒經(jīng)濟(jì)學(xué)中投入產(chǎn)出理論,以公共文化機(jī)構(gòu)服務(wù)能力為主要研究對象,設(shè)計(jì)數(shù)據(jù)重用流程,利用數(shù)據(jù)挖掘技術(shù)對這些公共服務(wù)機(jī)構(gòu)的服務(wù)能力進(jìn)行分析,并從投入產(chǎn)出的角度尋找其影響因素,以期實(shí)現(xiàn)對公共文化機(jī)構(gòu)的歷史數(shù)據(jù)重用。
關(guān)鍵詞:
數(shù)據(jù)重用;數(shù)據(jù)挖掘;服務(wù)能力;投入產(chǎn)出模型;公共圖書館;公共文化
中圖分類號:G250 文獻(xiàn)標(biāo)識碼:A 文章編號:1003-7136(2023)03-0001-09
Data Reuse of Historical Data in Public Cultural Field: Case Study of Service Capacity Data of \"Public Library,Cultural Center and Cultural Station\" in China
ZHANG Ning
Abstract:Taking the historical data of public libraries, cultural centers and cultural stations in China in recent years as an example, this paper draws on the inputoutput theory in economics, takes the service ability of public cultural institutions as the main research object, designs the data reuse process, uses data mining technology to analyze the service ability of these public service institutions, and finds its influencing factors from the perspective of input and output, in order to realize the reuse of historical data of public cultural institutions.
Keywords:data reuse;data mining;service ability;inputoutput model;public library;public culture
0 引言
我國公共文化領(lǐng)域數(shù)據(jù)具有量大且結(jié)構(gòu)復(fù)雜、生成速度快、價(jià)值密度低的特點(diǎn)[1],對于公共文化機(jī)構(gòu)來說,由于各種信息和數(shù)據(jù)處理速度趕不上生成和迭代速度,許多數(shù)據(jù)還沒有發(fā)揮出真正價(jià)值就已經(jīng)成為歷史數(shù)據(jù),被淹沒在新增數(shù)據(jù)中,這無疑造成了數(shù)據(jù)資產(chǎn)的流失和浪費(fèi)。利用數(shù)據(jù)挖掘技術(shù)對公共文化領(lǐng)域歷史數(shù)據(jù)進(jìn)行重用,分析過去忽略或沒有被發(fā)現(xiàn)的規(guī)律,提煉歷史數(shù)據(jù)價(jià)值,是實(shí)現(xiàn)公共文化領(lǐng)域數(shù)據(jù)價(jià)值最大化的一個(gè)重要途徑。
本文以我國公共圖書館、文化館、文化站(以下簡稱:“兩館一站”)近幾年的歷史數(shù)據(jù)為例,以投入產(chǎn)出理論為基礎(chǔ),以公共文化機(jī)構(gòu)服務(wù)能力為主要研究對象,設(shè)計(jì)數(shù)據(jù)重用流程,利用數(shù)據(jù)挖掘技術(shù)對“兩館一站”的服務(wù)能力進(jìn)行分析,并從投入產(chǎn)出的角度尋找其影響因素,從而實(shí)現(xiàn)對公共文化機(jī)構(gòu)歷史數(shù)據(jù)的重用。
1 數(shù)據(jù)重用
1.1 概念及意義
數(shù)據(jù)重用可以理解為對現(xiàn)有或原有數(shù)據(jù)的再次有效利用。隨著數(shù)據(jù)分析技術(shù)的不斷發(fā)展,數(shù)據(jù)重用的廣度和深度也在不斷地發(fā)生變化。廣義的理解,數(shù)據(jù)重用不僅包括數(shù)據(jù)獲取和共享[2],如數(shù)據(jù)拷貝、模數(shù)信息轉(zhuǎn)換、數(shù)據(jù)及結(jié)構(gòu)變換等,還包括數(shù)據(jù)分析與挖掘、潛在規(guī)律發(fā)現(xiàn)等,這也形成了數(shù)據(jù)重用的多個(gè)層次,其中,數(shù)據(jù)共享是基礎(chǔ),數(shù)據(jù)引用是表現(xiàn)形式,數(shù)據(jù)挖掘與分析是手段[3]。
在實(shí)際應(yīng)用中,數(shù)據(jù)重用具有極高的數(shù)據(jù)價(jià)值和實(shí)用意義,尤其是對于公共文化領(lǐng)域歷史數(shù)據(jù)來說,由于時(shí)代技術(shù)和思維的限制,在面對數(shù)據(jù)爆炸式增長的局面時(shí),數(shù)據(jù)還沒有充分利用就被埋沒在新增數(shù)據(jù)中,難以實(shí)現(xiàn)數(shù)據(jù)價(jià)值最大化。因此,對于數(shù)據(jù)擁有者來說,對歷史數(shù)據(jù)的重用具有極高的應(yīng)用價(jià)值,它不但能夠重新分析處理有價(jià)值的數(shù)據(jù),提高數(shù)據(jù)信息的利用率,還能解決人們在實(shí)際工作中的各種問題。
1.2 數(shù)據(jù)重用層次
從應(yīng)用層次上來看,數(shù)據(jù)重用根據(jù)應(yīng)用方式和技術(shù)方法,可以分為不同的層次[4]。
(1)數(shù)據(jù)整理層次。數(shù)據(jù)整理是數(shù)據(jù)重用最直接的利用方式,一般情況下只需對收集的原始數(shù)據(jù)重新排序或組合,并根據(jù)實(shí)際需要合理分配數(shù)據(jù)信息。如對于結(jié)構(gòu)化數(shù)據(jù),按照實(shí)際需要抽取不同的字段重新組織,從而形成全新的數(shù)據(jù)表;對于非結(jié)構(gòu)化數(shù)據(jù),利用數(shù)據(jù)處理技術(shù)抽取關(guān)鍵信息,以結(jié)構(gòu)化的形式進(jìn)行組織和存儲。
(2)數(shù)據(jù)挖掘?qū)哟?。?shù)據(jù)挖掘就是通過數(shù)據(jù)挖掘技術(shù),利用原始數(shù)據(jù)之間的相互聯(lián)系重新建立新的數(shù)學(xué)模型,并以此為基礎(chǔ),分析挖掘新的數(shù)據(jù)和信息,獲取更多潛在的、不為人知的信息,從而更加準(zhǔn)確地把握事物之間的規(guī)律。
1.3 數(shù)據(jù)重用相關(guān)研究
數(shù)據(jù)重用在自然科學(xué)領(lǐng)域和社會科學(xué)領(lǐng)域均有較長時(shí)間的使用歷史,盡管不同學(xué)科對數(shù)據(jù)重用的認(rèn)知存在一定的偏差和不同的理解,但學(xué)者們都試圖從多個(gè)維度對數(shù)據(jù)重用開展相關(guān)研究和展開論述,如數(shù)據(jù)重用過程、可重用性評估、數(shù)據(jù)可信度及重用滿意度、數(shù)據(jù)重用行為影響因素、數(shù)據(jù)重用權(quán)益等[5]。
在諸多維度中,對數(shù)據(jù)重用過程進(jìn)行方法研究,是數(shù)據(jù)重用具體應(yīng)用的一個(gè)重要方面。以公共文化領(lǐng)域?yàn)槔瑢v史數(shù)據(jù)的重用有助于在服務(wù)對象行為、精準(zhǔn)服務(wù)、資源建設(shè)等多個(gè)領(lǐng)域開展深入研究[6-9]和多場景應(yīng)用,如公共圖書館采用數(shù)據(jù)重用的方式,利用圖書館館藏資源數(shù)據(jù)建設(shè)特色資源庫;重用用戶歷史行為數(shù)據(jù),為圖書館個(gè)性化服務(wù)提供數(shù)據(jù)輔助[10];利用歷史數(shù)據(jù)構(gòu)建借閱量估計(jì)模型,對圖書館未來借閱量進(jìn)行預(yù)測[11];構(gòu)建行為元數(shù)據(jù)標(biāo)準(zhǔn),實(shí)現(xiàn)異構(gòu)數(shù)據(jù)重用[12]等。
2 數(shù)據(jù)重用場景設(shè)計(jì)
2.1 場景設(shè)計(jì)思路
數(shù)據(jù)重用的整體思路如圖1所示,主要包括以下幾個(gè)步驟。
(1)以投入產(chǎn)出理論為基礎(chǔ),對公共文化領(lǐng)域投入與產(chǎn)出相關(guān)理論進(jìn)行拓展研究,明確投入產(chǎn)出相關(guān)概念及組成。
(2)分析公共文化領(lǐng)域的投入與產(chǎn)出的基本組成要素,確定投入與產(chǎn)出指標(biāo),并進(jìn)行指數(shù)合成及標(biāo)準(zhǔn)化處理。
(3)設(shè)計(jì)一定的應(yīng)用場景,構(gòu)建相應(yīng)的數(shù)據(jù)重用模型,即公共文化機(jī)構(gòu)服務(wù)能力評價(jià)模型。
(4)針對合成的產(chǎn)出指數(shù),利用數(shù)據(jù)挖掘技術(shù)進(jìn)行描述性分析。
(5)針對投入與產(chǎn)出之間的關(guān)系,利用數(shù)據(jù)挖掘技術(shù)進(jìn)行自變量與因變量關(guān)系分析,找出產(chǎn)出指數(shù)的影響因素。
2.2 模型設(shè)計(jì)理論依據(jù)
(1)投入與產(chǎn)出理論。
投入產(chǎn)出分析是經(jīng)濟(jì)學(xué)中一個(gè)十分重要的理論,主要是模擬真實(shí)的社會經(jīng)濟(jì)結(jié)構(gòu)和社會產(chǎn)品再生產(chǎn)過程,從數(shù)量上實(shí)現(xiàn)對社會經(jīng)濟(jì)結(jié)構(gòu)中各單元之間的依存關(guān)系的深入分析[13]。而投入與產(chǎn)出模型,就是在此基礎(chǔ)上建立的一種數(shù)學(xué)模型,用于分析經(jīng)濟(jì)活動中投入與產(chǎn)出之間的數(shù)量依存關(guān)系[14]。其中,投入主要指經(jīng)濟(jì)活動過程中的各種投入及其來源,包括最初投入和中間投入;產(chǎn)出主要指經(jīng)濟(jì)活動過程中的各種產(chǎn)出及其使用去向,包括中間產(chǎn)出和最終產(chǎn)出[15]。在公共文化領(lǐng)域,投入指為了更好地開展公共文化服務(wù)所進(jìn)行的一系列行為總稱,包括資金、各種軟硬件設(shè)施、文獻(xiàn)資源、人員和服務(wù)方式等,是公共文化服務(wù)供給水平的客觀反映;產(chǎn)出則指因投入而產(chǎn)生的效果,即在進(jìn)行一系列投入的基礎(chǔ)上,提供的專業(yè)化、均等化和高價(jià)值的公共文化服務(wù)和文化產(chǎn)品[16]。在本文中,產(chǎn)出主要指服務(wù)能力,即在一定的時(shí)間范圍內(nèi),公共文化機(jī)構(gòu)向公眾所提供的各種文化服務(wù)中被實(shí)際接受和使用的數(shù)量,是公共文化服務(wù)的實(shí)際使用量。
(2)投入與產(chǎn)出的組成。
公共文化機(jī)構(gòu)投入組成除最初的資金投入外,還存在多種形式的中間投入,主要包括:①服務(wù)方式投入,即為更好開展公共數(shù)字文化服務(wù)所采用的各種方法或手段的集合。在后現(xiàn)代服務(wù)時(shí)期,讀者在服務(wù)方式上的需求主要是“需求多樣化,服務(wù)便利化”[17],常見的服務(wù)方式除閱覽、外借、文化活動外,還包括各種信息化服務(wù)方式等。②文獻(xiàn)資源投入,指公共文化機(jī)構(gòu)對公眾開放和投放的各類文獻(xiàn)資源,包括以數(shù)字形式存在的數(shù)字資源和以紙質(zhì)形式存在的實(shí)體資源。③環(huán)境投入,指為營造一定氛圍的公共文化服務(wù)環(huán)境而建造的各種基礎(chǔ)設(shè)施,包括各類基礎(chǔ)設(shè)施,如場館設(shè)施、網(wǎng)絡(luò)環(huán)境、服務(wù)器、存儲設(shè)備等,也包括各種服務(wù)設(shè)備,如讀者用機(jī)、觸摸屏、閱讀器等。④人力投入,即投入的人力成本,是公共文化服務(wù)能力提升的重要保障,主要包括從業(yè)人員的投入數(shù)量和技能水平等。
公共文化機(jī)構(gòu)服務(wù)能力產(chǎn)出按服務(wù)類型可以分為線上服務(wù)能力產(chǎn)出和線下服務(wù)能力產(chǎn)出。其中線上服務(wù)能力指依托互聯(lián)網(wǎng),通過各種信息化設(shè)備,向公眾提供數(shù)字化資源及服務(wù)所產(chǎn)生的實(shí)際使用量,如訪問量、下載量和播放量等;線下服務(wù)能力指為用戶提供的各種非信息化公共文化服務(wù)中被實(shí)際使用的數(shù)量,如閱覽和外借的人數(shù)與人次、文獻(xiàn)流通的冊數(shù)與冊次、各類活動的參與人數(shù)和場次等。
2.3 數(shù)據(jù)重用應(yīng)用流程設(shè)計(jì)
根據(jù)場景設(shè)計(jì)思路,在公共文化機(jī)構(gòu)投入與產(chǎn)出理論的基礎(chǔ)上,以公共文化機(jī)構(gòu)服務(wù)能力評價(jià)為具體應(yīng)用場景,利用數(shù)據(jù)挖掘技術(shù)對數(shù)據(jù)重用流程進(jìn)行設(shè)計(jì),包括理論應(yīng)用、指數(shù)合成、技術(shù)路徑選擇和結(jié)果分析四個(gè)方面,具體流程見圖2。
(1)理論拓展與應(yīng)用。將投入與產(chǎn)出理論應(yīng)用在公共文化領(lǐng)域并進(jìn)行相應(yīng)的延伸和拓展。其中,投入按照服務(wù)類型可以分為線上服務(wù)和線下服務(wù),涉及資源投入、環(huán)境投入、服務(wù)方式投入、人員投入、資金投入這里的資金投入指的是除資源建設(shè)、基礎(chǔ)設(shè)施建設(shè)、保障服務(wù)方式正常運(yùn)行和人員支出之外,還指與提供文化服務(wù)直接相關(guān)的費(fèi)用,下同。五個(gè)維度。產(chǎn)出根據(jù)服務(wù)類型有所不同:對于線上服務(wù),產(chǎn)出主要指信息化的服務(wù)量;對于線下服務(wù),會因圖書館、文化館和文化站職能和業(yè)務(wù)的差異而存在差異[18-19],其中,公共圖書館的服務(wù)產(chǎn)出主要指文獻(xiàn)資源的流通情況和使用情況,文化館和文化站的服務(wù)產(chǎn)出主要指舉辦各種活動的實(shí)際效果。
(2)標(biāo)準(zhǔn)化指數(shù)合成。為了消除各指標(biāo)在量綱上的差異,可以利用指數(shù)編制及標(biāo)準(zhǔn)化的方法將其合成百分制標(biāo)準(zhǔn)化指數(shù)[20],并將其作為服務(wù)能力定量描述的基礎(chǔ)數(shù)據(jù)。服務(wù)能力標(biāo)準(zhǔn)化指數(shù)包括線上服務(wù)能力指數(shù)、線下服務(wù)能力指數(shù),兩者合并后形成綜合服務(wù)能力指數(shù),如圖3所示。
(3)設(shè)計(jì)技術(shù)路徑。結(jié)合公共文化機(jī)構(gòu)投入與產(chǎn)出理論對具體的應(yīng)用場景進(jìn)行設(shè)計(jì),在引入第三方數(shù)據(jù)的條件下,根據(jù)數(shù)據(jù)重用目的和數(shù)據(jù)的情況,選取不同的數(shù)據(jù)挖掘方法,對數(shù)據(jù)重用的技術(shù)路徑進(jìn)行設(shè)計(jì),制定服務(wù)能力現(xiàn)狀及其影響因素分析方案。
(4)結(jié)果分析。主要包括服務(wù)能力現(xiàn)狀分析和影響因素分析,其中,服務(wù)能力現(xiàn)狀分析重點(diǎn)對各省“兩館一站”的服務(wù)能力進(jìn)行描述,揭示其中隱藏的信息;影響因素分析主要探尋投入指標(biāo)集合與服務(wù)能力指標(biāo)集合之間的聯(lián)系,尋找服務(wù)能力的影響因素。
3 技術(shù)路徑與成果示例
在大數(shù)據(jù)環(huán)境下,利用大數(shù)據(jù)技術(shù)對海量數(shù)據(jù)進(jìn)行挖掘分析,是數(shù)據(jù)重用的一個(gè)有效手段。所謂數(shù)據(jù)挖掘,指的是從數(shù)據(jù)中發(fā)現(xiàn)、獲取有用信息的過程,包括探查數(shù)據(jù)庫并發(fā)現(xiàn)先前未知的有用信息、預(yù)測未來的觀測結(jié)果等,是數(shù)據(jù)庫中知識發(fā)現(xiàn)不可缺少的一部分[21]。在實(shí)際應(yīng)用中,數(shù)據(jù)挖掘的任務(wù)主要分為描述任務(wù)和預(yù)測任務(wù)[22],其中,描述任務(wù)的主要目標(biāo)是尋找、探查數(shù)據(jù)中存在的潛在聯(lián)系;預(yù)測任務(wù)的目標(biāo)是根據(jù)其他屬性值預(yù)測特定屬性的值,即通過自變量來預(yù)測因變量。
3.1 構(gòu)建服務(wù)能力指標(biāo)體系
(1)投入指標(biāo)提取?;趯参幕?wù)體系中對投入概念和內(nèi)涵的理解,以已收集數(shù)據(jù)為依據(jù),將文獻(xiàn)資源、環(huán)境設(shè)施、服務(wù)方式、人力投入和資金投入這五個(gè)維度作為指標(biāo),并根據(jù)衡量的主要目標(biāo)進(jìn)行逐級細(xì)化。值得注意的是,由于公共圖書館、文化館、文化站在線下服務(wù)中具有明顯的差異,因此,在構(gòu)建指標(biāo)時(shí)需要按照不同的機(jī)構(gòu)進(jìn)行分類,詳見表1。
(2)服務(wù)能力指標(biāo)提取。按照服務(wù)能力類型分為線上服務(wù)能力和線下服務(wù)能力兩大類,并基于本文對產(chǎn)出概念和內(nèi)涵的理解,在提取公共文化機(jī)構(gòu)服務(wù)能力定量描述指標(biāo)時(shí),與投入指標(biāo)構(gòu)建的方法相同,詳見表2。
3.2 評價(jià)指標(biāo)的約簡處理
公共文化機(jī)構(gòu)服務(wù)能力評價(jià)指標(biāo)是一套比較完善的評價(jià)指標(biāo)體系,評價(jià)內(nèi)容比較全面,但考慮到業(yè)務(wù)場景的差異性,在實(shí)際評價(jià)過程中,為了提高數(shù)據(jù)重用的可操作性和實(shí)用性,需要根據(jù)具體需求,采用客觀計(jì)算為主、人工修正為輔的方法對評價(jià)指標(biāo)進(jìn)行約簡處理。
(1)基于模糊粗糙集理論的客觀約簡。模糊粗糙集作為一種數(shù)學(xué)方法,主要目的是把近似對象擴(kuò)展到模糊集、等價(jià)關(guān)系擴(kuò)展為模糊關(guān)系,用于處理不確定性和不精確性知識,目前廣泛應(yīng)用于信息處理和數(shù)據(jù)挖掘領(lǐng)域,如人工智能、知識發(fā)現(xiàn)、模式識別、故障檢測等[23]。本文利用該方法對評價(jià)指標(biāo)進(jìn)行屬性約簡,將具有相似屬性特征的指標(biāo)約簡成一個(gè)屬性集合,并用全新指標(biāo)替代該集合,從而得到最簡指標(biāo),如圖4所示。
(2)基于經(jīng)驗(yàn)的指標(biāo)主觀約簡。雖然模糊粗糙集理論可以對部分指標(biāo)進(jìn)行約簡處理并且效果良好,但從業(yè)務(wù)邏輯層面上來說,該方法無法對指標(biāo)的重要性進(jìn)行判斷和識別,可能會存在重要指標(biāo)被剔除,而非重要指標(biāo)被保留的情況,因此,還需要進(jìn)行人工干預(yù)和修正,包括:①從業(yè)務(wù)角度識別比較重要的指標(biāo),找回被客觀約簡掉的重要指標(biāo),舍棄被保留的非重要指標(biāo);②對客觀計(jì)算形成的新屬性集合進(jìn)行業(yè)務(wù)邏輯上的解釋,并定義新名稱替代該集合;③對部分指標(biāo)進(jìn)行降維處理,合并業(yè)務(wù)邏輯一致的指標(biāo),如將書刊文獻(xiàn)外借人次、流動圖書車借閱人次合并為總外借人次;將到館人次、講座參加人次、展覽參觀人次和培訓(xùn)人次合并為總參與人次等。
3.3 服務(wù)能力差異性分析
離散系數(shù)也被稱為變異系數(shù),是統(tǒng)計(jì)變異分析中的一個(gè)重要指標(biāo),主要用于比較不同樣本數(shù)據(jù)的離散程度。一般來說,離散系數(shù)越大,說明數(shù)據(jù)離散程度也越大,數(shù)據(jù)越不穩(wěn)定[24]。利用離散系數(shù),我們可以比較各省之間不同服務(wù)類型的服務(wù)能力的差異。以2018年數(shù)據(jù)為例,分別計(jì)算全國各省“兩館一站”不同服務(wù)類型的服務(wù)能力指數(shù)的平均值、中位數(shù)、標(biāo)準(zhǔn)偏差和離散系數(shù),如表3所示。線上服務(wù)能力指數(shù)離散系數(shù)最大,說明各省線上服務(wù)能力差別最大,發(fā)展最不均衡。
3.4 服務(wù)類型均衡性分析
服務(wù)類型均衡性分析即在計(jì)算各省線上服務(wù)能力和線下服務(wù)能力Z值的基礎(chǔ)上,通過Z值表查詢對應(yīng)的百分?jǐn)?shù),從而推斷各目標(biāo)值在全國總體中的排位,判斷其相對優(yōu)劣情況[25]。同時(shí),利用百分?jǐn)?shù)差值進(jìn)行兩種服務(wù)類型的均衡性判斷:①通過沃德聚類分析法經(jīng)過對比實(shí)驗(yàn)證明,對于服務(wù)能力指數(shù)而言,在事先沒有明確分類的情況下,采用沃德聚類法效果最好。對百分?jǐn)?shù)差進(jìn)行非監(jiān)督分類,根據(jù)計(jì)算結(jié)果的特征區(qū)隔程度將其分為均衡區(qū)和非均衡區(qū)兩類;②由于非均衡區(qū)包含線上服務(wù)占優(yōu)和線下服務(wù)占優(yōu)兩種情況,因此,可以將其繼續(xù)劃分為線上服務(wù)比重大和線下服務(wù)比重大兩類,從而最終得到線上服務(wù)比重較大(A類)、線下服務(wù)比重較大(B類)和服務(wù)較均衡(C類)三種類別,如表4所示。
我們可以發(fā)現(xiàn):①多數(shù)省份線上與線下服務(wù)能力比較均衡,但仍有超1/3的省份存在不均衡現(xiàn)象;②從地理角度考慮,A類省份中,東部地區(qū)占多數(shù),而B類省份中,中西部地區(qū)占多數(shù),因此,可以認(rèn)為在非均衡的省份中,東部地區(qū)更傾向于線上服務(wù),中西部地區(qū)更傾向于線下服務(wù);③從經(jīng)濟(jì)角度考慮,A類省份中有80%的省份人均GPD超過1萬美元,而B類省份中僅有1/3的省份人均GDP超過1萬美元。
3.5 影響因素分析
目前,對于公共文化服務(wù)能力影響因素的分析,前人已經(jīng)做了很多研究,其中以王錳認(rèn)為的主客觀兩方面因素最具有代表性[26],其中客觀因素指向物的因素,包括公共文化機(jī)構(gòu)的資源、基礎(chǔ)設(shè)施、服務(wù)策略等;主觀因素指向人的因素,包括公眾獲取信息的意識和能力、用戶欲望及自身屬性等。在模型構(gòu)建方面,不少學(xué)者根據(jù)實(shí)際需求構(gòu)建了不同的分析模型,如錢丹等構(gòu)建了公共文化服務(wù)平臺可及性評價(jià)模型,從信息意識、社會影響等4個(gè)維度進(jìn)行分析[27];楊秀云等利用回歸方程分析公共文化服務(wù)水平影響因素[28];徐享王等從內(nèi)生提升的角度構(gòu)建了資源與知識互動關(guān)系模型[29];余敏等構(gòu)建了公共數(shù)字文化服務(wù)需求影響因素模型,對影響因素進(jìn)行驗(yàn)證與分析[30]。
在上述研究工作的基礎(chǔ)上,根據(jù)本次研究主體的實(shí)際情況,本文分別針對線上和線下服務(wù)能力,從內(nèi)外兩個(gè)方面對影響因素進(jìn)行分析與探測。
(1)線上服務(wù)能力影響因素分析。
在分析方法的選擇上,由于內(nèi)外部因素與線上服務(wù)能力存在共線性問題,如表5所示,因此,在進(jìn)行實(shí)際分析過程中,我們采用嶺回歸的方法[31]進(jìn)行分析。
①內(nèi)部影響因素分析。在內(nèi)部影響因素探測過程中,以資源投入、環(huán)境投入、資金投入、人員投入為自變量,線上服務(wù)能力為因變量進(jìn)行嶺回歸分析,結(jié)果見表6。可知:R2值為0.687,意味著所選取的四項(xiàng)內(nèi)部影響因素可以解釋因變量68.73%的變化內(nèi)因,其中資源、資金、人員具有顯著的正向影響,而環(huán)境并不會對線上服務(wù)能力產(chǎn)生影響。
②外部影響因素分析。在外部影響因素探測過程中,以人口數(shù)、各省面積、城鎮(zhèn)化率、GDP、GDP增速為自變量,線上服務(wù)能力為因變量進(jìn)行嶺回歸分析,結(jié)果見表7??芍篟2值為0.654,意味著所選取的五項(xiàng)外部影響因素可以解釋因變量65.35%的變化外因,其中GDP具有顯著的正向影響,其余四項(xiàng)不會對線上服務(wù)能力產(chǎn)生影響。
(2)線下服務(wù)能力影響因素分析。
由于公共圖書館、文化館和文化站開展的線下服務(wù)各有側(cè)重,因此,在進(jìn)行線下服務(wù)能力影響因素分析時(shí),需要分開考慮。由表8、表9可知,除了文化館內(nèi)部影響因素不存在共線性問題,可以直接采用線性回歸的方法外,其他因素都存在共線性問題,需要采用嶺回歸的方法進(jìn)行分析,計(jì)算結(jié)果如表10所示。
①內(nèi)部影響因素分析。線下服務(wù)內(nèi)部影響因素考慮的指標(biāo)主要有環(huán)境投入、資源投入、服務(wù)方式投入、人員投入、資金投入五項(xiàng),其分析結(jié)果如下:
對于公共圖書館來說,R2值為0.852,意味著這五項(xiàng)內(nèi)部因素可以解釋服務(wù)能力85.17%的變化內(nèi)因,且這些因素均具有顯著的正向影響。
對于文化館來說,R2值為0.844,意味著這五項(xiàng)內(nèi)部因素可以解釋服務(wù)能力84.4%的變化內(nèi)因,其中服務(wù)方式具有顯著的正向影響,其余四項(xiàng)不會對服務(wù)能力產(chǎn)生影響。
對于文化站來說,R2值為0.817,意味著這五項(xiàng)內(nèi)部因素可以解釋服務(wù)能力81.75%的變化內(nèi)因,且這些因素均具有顯著的正向影響。
②外部影響因素分析。
線下服務(wù)能力外部因素考慮的指標(biāo)主要有人口數(shù)、城鎮(zhèn)化率、GDP、人均GDP、GDP增速、各省面積六項(xiàng),其分析結(jié)果如下:
對于公共圖書館來說,R2值為0.624,意味著這六項(xiàng)外部因素可以解釋服務(wù)能力62.39%的變化外因,其中人口數(shù)、GDP、人均GDP具有顯著的正向影響,其余三項(xiàng)不會對服務(wù)能力產(chǎn)生影響。
對于文化館來說,R2值為0.481,意味著這六項(xiàng)外部因素可以解釋服務(wù)能力48.07%的變化外因,其中人口數(shù)、GDP具有顯著的正向影響,其余四項(xiàng)不會對服務(wù)能力產(chǎn)生影響。
對于文化站來說,R2值為0.637,意味著這六項(xiàng)外部因素可以解釋服務(wù)能力63.70%的變化外因,其中人口數(shù)、GDP具有顯著的正向影響,其余四項(xiàng)不會對服務(wù)能力產(chǎn)生影響。
4 結(jié)論與建議
對于公共文化機(jī)構(gòu)來說,由于過去技術(shù)條件的限制,歷史數(shù)據(jù)的價(jià)值并沒有完全挖掘出來,然而隨著全國智慧圖書館體系的建設(shè),我國公共文化機(jī)構(gòu)開啟了智慧化轉(zhuǎn)型的新篇章[32]。在這個(gè)過程中,利用數(shù)據(jù)挖掘技術(shù)實(shí)現(xiàn)公共文化領(lǐng)域歷史數(shù)據(jù)的重用,是公共文化機(jī)構(gòu)智慧化的核心工作。本文在數(shù)據(jù)挖掘技術(shù)的基礎(chǔ)上,利用投入產(chǎn)出理論,以“兩館一站”數(shù)據(jù)為例,設(shè)計(jì)了公共文化領(lǐng)域的數(shù)據(jù)重用流程,對公共文化機(jī)構(gòu)服務(wù)能力的現(xiàn)狀、影響因素進(jìn)行分析,探討了數(shù)據(jù)重用在公共文化領(lǐng)域的應(yīng)用模式、方法和技術(shù)路徑,為日后的大規(guī)模應(yīng)用提供一定的參考依據(jù)。但同時(shí)也應(yīng)該看到,目前公共文化領(lǐng)域利用數(shù)據(jù)挖掘技術(shù)的數(shù)據(jù)重用雖然在理論和技術(shù)研究方面取得了一定的成果,但在實(shí)踐應(yīng)用上還需要進(jìn)一步地加深和突破,以實(shí)際業(yè)務(wù)和具體需求為突破點(diǎn),逐步擴(kuò)展,取得以點(diǎn)帶面的效果。
參考文獻(xiàn):
[1]嚴(yán)昕.公共圖書館數(shù)據(jù)治理框架構(gòu)建研究[J].圖書館,2020,308(5):58-63.
[2]顧立平.數(shù)據(jù)治理:圖書館事業(yè)的發(fā)展機(jī)遇[J].中國圖書館學(xué)報(bào),2016,42(5):40-56.
[3]尹文辰.國內(nèi)外科學(xué)數(shù)據(jù)重用理論研究與實(shí)踐進(jìn)展[J].山東圖書館學(xué)刊,2022,190(2):7-14.
[4]張瀟月.我國科研人員科研數(shù)據(jù)重用行為影響因素研究:以生物學(xué)領(lǐng)域?yàn)槔跠].北京:中國科學(xué)院大學(xué)(中國科學(xué)院文獻(xiàn)情報(bào)中心),2020.
[5]張若晗.科研人員數(shù)據(jù)重用滿意度影響因素研究[D].哈爾濱:黑龍江大學(xué),2021.
[6]俞錦梅.數(shù)據(jù)挖掘在國內(nèi)圖書館應(yīng)用領(lǐng)域研究綜述[J].圖書與情報(bào),2015,162(2):137-141.
[7]潘小楓.數(shù)據(jù)挖掘技術(shù)及其在數(shù)字圖書館建設(shè)中的運(yùn)用[J].圖書館理論與實(shí)踐,2006(4):105-106.
[8]李默.基于Web的數(shù)據(jù)挖掘技術(shù)在數(shù)字圖書館中的應(yīng)用[J].大學(xué)圖書情報(bào)學(xué)刊,2007,102(4):44-46.
[9]董云鵬.數(shù)據(jù)挖掘技術(shù)在圖書館中的應(yīng)用[J].現(xiàn)代情報(bào),2006(11):131-132.
[10]張寧,李雪.國家圖書館數(shù)據(jù)管理與分析平臺建設(shè)[J].國家圖書館學(xué)刊,2016,25(6):80-89.
[11]楊英.基于數(shù)據(jù)挖掘技術(shù)的圖書館借閱量估計(jì)模型[J].現(xiàn)代電子技術(shù),2020,43(7):99-102,106.
[12]邱春艷.科學(xué)數(shù)據(jù)元數(shù)據(jù)記錄復(fù)用研究[D].武漢:武漢大學(xué),2015.
[13]李燕萍,許穎,吳紹棠.不同省域科研投入產(chǎn)出效率及其影響因素的實(shí)證研究[J].經(jīng)濟(jì)管理,2011,33(2):23-30.
[14]李偉民.金融大辭典[M].哈爾濱:黑龍江人民出版社,2002:11.
[15]李小敏.投入產(chǎn)出視角下福建省文化產(chǎn)業(yè)對經(jīng)濟(jì)增長效應(yīng)的研究[D].福州:福州大學(xué),2018.
[16]邱冠華.公共圖書館提升服務(wù)效能的途徑[J].中國圖書館學(xué)報(bào),2015,41(4):14-24.
[17]郝忠洛.論讀者需求與圖書館服務(wù)方式[J].圖書情報(bào)工作,2007,361(12):135-137,115.
[18]中華人民共和國公共圖書館法[EB/OL].(2017-11-05) [2022-04-10].http://www.gov.cn/xinwen/2017-11/05/content_5237326.htm.
[19]文化和旅游部關(guān)于群眾藝術(shù)館、文化館管理辦法[EB/OL].(2020-01-14) [2022-04-10].http://www.gaozhou.gov.cn/mmgzwhgdj/gkmlpt/content/0/740/post_740895.html?jump=1#3204.
[20]TAN P N,STEINBACH M,KARPATNE A.數(shù)據(jù)挖掘?qū)д摚跰].段磊,張?zhí)鞈c,譯.北京:機(jī)械工業(yè)出版社,2021:39.
[21]馮研,王馨.國內(nèi)圖書館數(shù)據(jù)挖掘技術(shù)實(shí)踐應(yīng)用進(jìn)展分析[J].圖書館學(xué)研究,2011,271(20):2-4.
[22]黃志良.數(shù)據(jù)挖掘技術(shù)在高校圖書館資源利用中的應(yīng)用研究[D].南昌:南昌大學(xué),2020.
[23]黃正華.模糊粗糙集模型的若干拓展[D].武漢:武漢大學(xué),2010.
[24]賈俊平,何曉群,金勇進(jìn).統(tǒng)計(jì)學(xué)[M].第7版.北京:中國人民大學(xué)出版社,2018:85.
[25]FREEDMAN D,PISANI R,PURVES R,et al.統(tǒng)計(jì)學(xué)[M].魏宗舒,施錫銓,林舉干,等譯.北京:中國統(tǒng)計(jì)出版社,1997:100.
[26]王錳,陳雅,鄭建明.公共數(shù)字文化服務(wù)效能的關(guān)鍵影響因素及其機(jī)理研究[J].中國圖書館學(xué)報(bào),2018,44(3):35-51.
[27]錢丹,陳雅.公共數(shù)字文化的一體化服務(wù)效能探析[J].圖書館,2017,273(6):60-64.
[28]楊秀云,趙科翔,蘇祎.我國公共文化服務(wù)水平及其影響因素[J].西安交通大學(xué)學(xué)報(bào)(社會科學(xué)版),2016,36(5):81-88.
[29]徐享王,羅蔚.圖書館服務(wù)能力的內(nèi)生提升研究[J].圖書館建設(shè),2009,186(12):8-11.
[30]余敏,完顏鄧鄧.公共數(shù)字文化服務(wù)需求影響因素研究[J].圖書館,2020,306(3):14-20.
[31]郭鵬妮.嶺回歸與分位數(shù)回歸的研究及結(jié)合應(yīng)用[D].哈爾濱:哈爾濱工業(yè)大學(xué),2014.
[32]饒權(quán).全國智慧圖書館體系:開啟圖書館智慧化轉(zhuǎn)型新篇章[J].中國圖書館學(xué)報(bào),2021,47(1):4-14.
作者簡介:
張寧(1982— ),男,碩士,副研究館員,任職于國家圖書館。研究方向:數(shù)字圖書館、大數(shù)據(jù)分析。