曾淑賢 呂寶桂 洪偉翔
21 世紀是信息爆炸的時代,各行各業都因為信息科技的發展,展開了前所未有的改變與革新,其中大數據一詞更隨著信息科技的發展成為熱門話題與發展趨勢。當前,大數據在生活中已不再是一個陌生的詞匯,事實上大數據的時代已經來臨,而所有人都是貢獻相關數據的其中一員。Intel Data Centric 高峰論壇(2020)指出,從手機、智慧家電到政府與企業的電子系統,各種數據、實時資料不斷地被創造及累積,社會大眾正用難以想象的速度創造海量的數據。2016 年全球民眾共產生1.61ZB 的資料量(1ZB 等于1,000 億GB),而至2025 年更將成長至163ZB,是2016 年的10 倍。有鑒于資料的爆炸式增長,如何更有效地進行資料分析與活化數據資料的應用亦為各界關注的焦點。
圖書館向來在信息處理與信息傳播的環節中扮演重要的角色,隨著時代的演進,圖書館不斷地進行蛻變與轉型,從圖書館1.0、圖書館2.0 逐漸步入圖書館3.0、圖書館4.0。在圖書館4.0 中,強調的是一個可以分析信息,并提供讀者個人化、差別化、智慧化服務的智慧圖書館[1]。在圖書館中,存在著各種不同形式的數據資料,有書目資料、讀者借閱資料、活動參與資料、電子資源使用資料等各式不同的數據資料,美國公共圖書館協會(American Library Association,ALA)、博物館和圖書館服務研究所(Institute of Museum and Library Services,IMLS)、圖書館雜志(Library Journal)等組織,都在積極搜集和分析圖書館數據資料。廣義而言,大數據資料可以是質性的資料或量化的資料;可以是結構化的資料、半結構化的資料或非結構化的資料;亦可以是一手資料(primary)、二手資料(secondary)或是三手資料(tertiary)等[2]。George, Hass 和Pentland 亦指出:大數據資料的搜集系從生活中各種來源而取得,包括網絡信息的點擊、行動載具的交易、使用者產出的內容、社群媒體或是商業交易等,全都屬于大數據資料的來源[3]。隨著各式各樣資料大幅的累積與成長,傳統的資料分析維度與大數據資料的分析結果是不可相比擬的,因此各行各業皆積極的搜集與進行各種大數據資料的分析,期望能藉由大數據的分析,洞悉行業未來的發展趨勢。
在圖書館中,大數據資料的搜集大致可分為五種類型,包括數位存取紀錄(數據庫、電子書、電子期刊、網站登入紀錄等)、流通紀錄(圖書資料借閱、館際互借紀錄等)、工作站使用紀錄(共享空間計算機借用紀錄等)、圖書館利用紀錄(利用教育、工作坊等參與紀錄),以及參考服務紀錄等,上述這些資料皆是圖書館中常見也是圖書館能著手進行搜集與整理的相關資料。本文以圖書館大數據服務平臺的資料搜集、分析與應用為主題,分別就大數據平臺建置,以及數據資料的活化運用與加值分析進行分享。
因應數據分析的趨勢,為了解臺灣民眾的閱讀全貌與閱讀興趣,2020 年起,漢學研究中心(以下簡稱本中心)開始著手進行“圖書館大數據服務平臺建置計劃”(以下簡稱大數據平臺)。大數據平臺以臺灣省22 個縣市,約600 間公共圖書館的讀者去識別化借閱紀錄資料(以下簡稱讀者閱讀興趣資料)為核心,進行臺灣省首個圖書館大數據平臺的建置。為搜集各縣市公共圖書館去識別化之讀者閱讀興趣資料,以Nicholson(2006)提出之書目探勘(Bibliomining)架構為基礎,規劃各縣市公共圖書館讀者閱讀興趣資料提供之格式[4]。
Nicholson(2005)的書目探勘架構,將書目探勘的資料格式區分為三個部分。(1)作品相關資料(data about a work):書名、作者、主題標目等與作品本身相關的資料,可由書目紀錄(機讀格式紀錄)、Dublin Core 信息或內容管理系統等取得。(2)使用者相關資料(data about the user):使用者資料須考量使用者的隱私議題,應以去識別化方式紀錄,并可采取人口統計(demographic surrogate)方式,以地區、區域等統計指標替代個人信息,降低機敏性。(3)服務相關資料(data about the service):此資料為使用者與作品的關聯,包含日期、時間、地點及使用方式等信息。
基于上述Nicholson 的書目探測架構,將讀者閱讀興趣資料定義為三大部分,分別為書目信息、借閱信息與館藏信息,所需資料由各圖書館的書目記錄、館藏記錄與流通記錄中萃取并去識別化,所涵蓋的資料欄位信息內容分別是:(1)書目信息:書名(正題名、副題名)、作者、出版社、出版年、版本、國際標準號碼(ISBN、ISSN、ISRC 等)、分類號,以及作品語言等;(2)借閱信息:借閱者類型、加密ID、出生年、借閱年月日時間,以及歸還年月日時間等;(3)館藏信息:圖書館識別碼、館藏號、館藏地、典藏區域、館藏類型,以及部冊號等。
完成資料格式的訂定后,透過討論會議的方式,邀集各市縣公共圖書館代表針對資料格式的細節進行討論,并于會議中確認由本中心代表與圖書館自動化系統廠商洽談,統籌資料傳輸程序開發事宜,節省重復開發,同時達資料之一致性;另檔案格式與傳輸方式,則以JSON(結構化的文字資料交換格式)作為檔案格式,透過SFTP 加密方式每月以系統排程方式定期傳輸至本中心大數據平臺。
完成大數據平臺建置的基礎工程后,即進入數據資料的清理與整合步驟。ETL 為大數據清整經常規劃的流程,分別代表擷取(Extract)、轉換(Transform)與載入(Load),是為了將多個資料來源的資料整并至一筆資料所進行的程序[5]。參考Bala、Boussaid 與Alimazighi 之大數據資料處理流程[6],在大數據平臺中的ETL程序,由各縣市圖書館上傳的資料(JSON)進行檔案的拆解,并轉入資料暫存區,并依據資料清整規則,進行書目資料的正規化及清理、館藏類型的辨別、圖書分類號的標準化,借閱時間的標準化等轉換程序,最后將清整完成的數據資料載入至大數據平臺數據庫中,以待后續各項分析應用(如圖1 所示)。

圖1 大數據平臺ETL 流程圖
由于大數據平臺搜集之讀者閱讀興趣資料來自各縣市公共圖書館,其資料質量皆各不相同,在資料整并上亦有其困難度。在資料清整流程規劃上,率先處理省轄市立公共圖書館的讀者閱讀興趣資料,作為系統標竿書目,并以標準號碼(如ISBN、ISSN 等)為鍵(Key)值,無標準號碼者由系統建立虛擬號碼代替。資料處理過程,先比對該圖書館該筆書目是否曾完成清整,若曾完成清整即直接對應至系統標竿書目,不再重復處理;若未曾清整則依資料清整規則進行各欄位之正規化處理,并進行ISBN、ISSN 等標準號碼之拆解,其中有標準號碼者,與標竿書目進行比對,決定是否建立新書目或對應至已有書目,而無標準號碼者以書名(100%)、作者(80%)、出版年(100%)的模糊邏輯條件,決定是否建立新書目或對應至已有書目。資料轉入與清整流程如圖2 所示。

圖2 大數據平臺資料清整流程
在資料清整的部分,分別進行了標點符號、標準號碼、部冊號、出版年及分類號等欄位資料的清理,因資料由各公共圖書館之圖書館自動化系統書目紀錄(機讀格式)取得,故可能包含諸多不必要的標點符號,因此在正題名、副題名、作者、出版社等欄位,進行不必要標點符號的清除;在標準號碼與部冊號的部分,進行正規化,讓資料具有一致性;出版年的部分,則確認資料的合理性;分類號進行類號層次的解析,以對應后續圖書分類分析。詳細信息如表1 所示。

表1 大數據平臺資料清整規則簡表
為利于資料之分析,大數據平臺中定義有各項資料代碼,包含圖書館與典藏地、館藏類型、圖書分類、適讀年齡、排行類別定義等之對應,以匯整各縣市不同來源之資料(詳見表2)。在資料轉入部分,于2022 年底,共計轉入讀者閱讀興趣資料6750 余筆,其中去識別借閱資料約6085 萬筆、去識別預約資料約665 萬筆(部分縣市圖書館因自動化系統轉換,資料尚未完全轉入大數據平臺)。

表2 大數據平臺資料代碼對應簡表
Goulub 和Hansson 歸納大數據于圖資領域的數據分析,包含書目計量(bibliometrics)、資料分享(data sharing) 與資料庋用(data curation)三種主要應用類型[7]。Kamupunga和Chunting 透過問卷調查116 位圖書館館員在工作情境中大數據之應用,調查解果顯示公共圖書館適用的數據分析技術包含:協助快速取用資源的應用程序(26.58%)、視覺化(26.04%)、統計(17.95%)、資料探勘(15.28%)及機器學習(14.15%)[8]。Ball 認為在大數據科技的協助之下,可以創造更多有價值與創新的服務,研究透過文獻回顧的方式,將各種圖書館應用大數據的服務與實務案例歸納為資料作為服務(data as sources)、資料分析(data analyses),以及資料視覺化(data visualization)三種類型。相關實務案例如:美國哈佛大學圖書館(Harvard University Library)將該館1200 萬筆的館藏Metadata 發布于網絡上公開取用;英國聯合信息系統委員會(Joint Information System Committee)和英國高等教育統計局(British Higher Education Statistics Agency)合作建置Heidi Plus 大數據平臺,便利各項信息的取得,同時協助回答電子期刊訂閱與使用、學生經常使用的圖書館空間等圖書館相關問題;美國布魯克林公共圖書館使用Tableau 作為資料視覺化工具,取代過時的報表系統,以運用各項資料的分析,進行更好的決策[9]。
Yang 使用大數據技術分析韓國大學圖書館15 年800 萬筆的讀者借閱紀錄,并以杜威圖書分類法(DDC)為架構,分析圖書館讀者使用館藏的情形[10]。Galyani-Moghaddam 和Taheri 為探索公共圖書館讀者的閱讀興趣,研究以伊朗德黑蘭12 至18 歲讀者使用在線圖書館之流通紀錄為研究資料,透過讀者借閱資料的計量分析,了解讀者在不同館藏主題借閱的占比、不同性別的閱讀喜好,以及最受讀者歡迎的圖書借閱排行[11]。
綜觀國際圖書館大數據技術之運用,多為了解圖書館讀者之使用習慣與閱讀興趣。為進一步掌握臺灣民眾的閱讀喜好,本中心運用2022年搜集之大數據資料,進行2022 年臺灣閱讀風貌之分析,分別就全民的閱讀力、不同年齡與不同性別讀者的閱讀興趣,以及各類型圖書的借閱排行榜等項目進行資料之整理與分析。另為增進各縣市政府對于圖書館的建設與重視,也運用相關數據進行縣市整體閱讀力之評量,以了解各縣市的閱讀概況與閱讀力表現。在大數據平臺上,則透過資料視覺化的工具,呈現各種分析結果,讓數據資料可以更為活化的進行呈現與展示。
為呈現全民閱讀力,本中心運用大數據平臺之數據資料,并加入“公共圖書館統計系統”搜集各館之各項營運數據,以呈現民眾于2022年在圖書館進館總人次、借閱圖書總人次、借閱圖書總冊數、累計辦證數、借閱電子書冊數、網站資源使用次數等各項閱讀力指標上之表現(詳見表3)。而透過閱讀興趣資料之分析,則可進一步掌握各年齡層讀者的借閱比例(詳見表4),亦可了解不同性別讀者于各類型圖書的閱讀喜好(詳見表5),強化圖書館在不同年齡層、不同性別的閱讀活動規劃與推動。

表3 近兩年全民閱讀力消長概況

表4 不同年齡層讀者借閱冊數排行

表5 不同性別讀者借閱圖書類別排行
大數據平臺搜集讀者閱讀興趣資料,經過各項資料的清整程序后,即可進行民眾閱讀興趣之分析。本中心依據圖書館給予中文圖書之圖書分類號,篩選、統計圖書的借閱次數,編制總類、哲學類、宗教類、自然科學類、應用科學類、社會科學類、史地類、語言文學類及藝術類等圖書借閱排行榜,并將武俠小說、漫畫書、0~5 歲嬰幼兒圖書、6~11 歲學童圖書及電子書另予立類分析。藉由各類型圖書借閱排行之分析與呈現,可供圖書館及出版社掌握讀者的閱讀偏好,作為圖書館閱讀推廣、館藏采購及出版社策訂出版方向參考。
為提升各地對于圖書館建設之重視,以提升民眾的文化素養,參考圖書館雜志(Library Journal)星級圖書館(Star Libraries,https://www.libraryjournal.com/story/stars-faq)之評比方式,計算各項閱讀力指標每位居民平均擁有或使用數(per capita),以了解各縣市于圖書館事業發展與閱讀素養扎根之推動成果。在縣市閱讀力表現的評比上,分別以各縣市公共圖書館之館藏建設、館藏利用、到館人次、持證比例、投入經費、館舍面積、網站使用與補助爭取等為指標,計算各縣市“人均擁書冊數”“人均借閱冊數”“人均到館次數”“民眾持證比例”“人均資源投入經費”“人均館舍使用面積”“人均網站使用次數”及“縣市補助爭取標準分數”等數值,并以館藏建設占25%、館藏利用占25%、到館人次占15%、持證比例占10%、投入經費占10%、館舍面積占5%、網站使用占5%及補助爭取占5%,加總算出每個縣市的總分,作為檢視圖書館在培育民眾閱讀力的重要指標。
為利于各項數據資料的視覺化呈現,在大數據平臺中,搭配Tableau 視覺化工具,將各項數據資料以可交互式的方式,呈現于大數據服務平臺。開放民眾瀏覽的為借閱類別、借閱年齡與借閱性別的互動報表,可藉由點選地圖上的縣市,進行互動之操作。而大數據平臺之后臺,則開放各縣市公共圖書館進行賬號之申請,登入后可進一步瀏覽該縣市之互動數據,協助縣市了解各區域或各鄉鎮市之借閱情況、各類別之熱門借閱排行榜等信息。同時,另設計有各種交叉分析的互動報表,可以性別、年齡、圖書類別等條件進行交叉分析,各種分析結果可協助圖書館更為了解并掌握縣市讀者的閱讀現狀、分布及喜好。
為擴大數據資料分析的效益與展現各縣市閱讀推動的成果,本中心于2023 年3 月29 日辦理“ 2022 年臺灣閱讀風貌及全民閱讀力年度報告”發布記者會。記者會中由曾淑賢主任解析2022 年臺灣民眾閱讀力及閱讀興趣,并從公共圖書館的營運服務統計分析全民閱讀力。而為鼓勵各縣市于閱讀推動上的努力,也藉由頒發“整體閱讀力表現績優城市”“閱讀力分項表現績優城市”等132 個獎項,來促進各縣市對于圖書館事業之重視與引起各縣市相互激勵之效果。在展示民眾的閱讀興趣與閱讀成果方面,同時于本中心設置常態展覽,同時也出版年度報告書,寄送各縣市公共圖書館,提供典藏閱覽。
因應圖書館運用數據分析之趨勢,本中心與臺灣省各縣市公共圖書館攜手合作,以公共圖書館去識別化讀者閱讀興趣資料為核心,并輔以各項圖書館營運統計數據,建置臺灣省圖書館界第一個大數據服務平臺。藉由閱讀興趣資料之分析,并運用資料視覺化、互動等不同的呈現方式,幫助各縣市圖書館乃至各界,更了解民眾的閱讀需求與興趣,并進一步規劃與發展各項更能貼近讀者需求及創新的服務,同時也將臺灣整體圖書館事業發展與臺灣閱讀的風貌,透過系統平臺的設計,將各項閱讀重要的成果與數據展示給各界參考。
未來,在現有的基礎下,本中心將持續導入各縣市公共圖書館讀者閱讀興趣資料,并進行資料的清整與分析作業的優化。同時,也將導入資料探勘與運用人工智能等技術,開發讀者閱讀資料推薦服務,為讀者推薦閱讀資源,并透過與專家學者合作之方式,進一步運用搜集之資料進行相關研究,為圖書館事業發展與全民閱讀風氣之提升產生助益。