石丹 閆實 付佳
摘 ?要: 數字圖書正在作為一種新型的信息傳播媒體進入人們的日常生活,也不斷的影響著人們的學習習慣和生活習慣。如何評價數字圖書資源成為了數字圖書運營商的主要運營工作,也是支撐數字圖書運營的主要目標之一。數字圖書運營方的方案既需要考慮數據的組織、數據維度的選取,又需要考慮技術的實現。在維度選擇上考慮了從數字圖書資源、數字媒體運營數據、數字媒體消費用戶數據三個立體層面。本文在數字圖書底層資源管理的基礎上,增加了數字媒體運營的數據結構和用于收集數字媒體消費用戶數據的結構,擴展了數字圖書底層的數據結構,便于從多個立體角度建立分析模型。利用云計算可以將資源虛擬化,再通過Hadoop的就近計算原則,實現了大數據環境下數字圖書資源的多維評價。
關鍵詞: 大數據;數字圖書;多維評價;Hadoop
中圖分類號: TP3 ? ?文獻標識碼: A ? ?DOI:10.3969/j.issn.1003-6970.2020.06.016
本文著錄格式:石丹,閆實,付佳. 大數據環境下數字圖書資源多維評價研究[J]. 軟件,2020,41(06):7476+107
【Abstract】: Digital books have been entering daily life of people as a new type of information communication media, and affecting people's learning and living habits constantly. How to evaluate digital book resources has been main operation work of digital book operators, and also one of main objectives of supporting digital book operation. Scheme of digital book operators needs to consider organization of data, selection of data dimensions, and realization of technology. In terms of dimension selection, it is necessary to consider three dimensions: digital book resources, digital media operation data and digital media consumer data. Based on management of digital books' underlying resources, the paper adds data structure of digital media operation and structure to collect data of digital media users, expand data structure of digital books underlying, and facilitate establishment of analysis models from multiple perspectives. Cloud computing can virtualize resources, and realize multi-dimensional evaluation of digital book resources in big data environment through Hadoops nearby computing principle.
【Key words】: Big data; Digital books; Multidimensional evaluation; Hadoop
0 ?引言
數字圖書正在作為一種新型的信息傳播媒體進入人們的日常生活,也不斷的影響著人們的學習習慣和生活習慣[1]。數字圖書除了傳統紙質圖書的閱讀方式,更多的是能夠提供更高效的檢索、記錄、分享等能力。更加重要的是數字圖書和通信網絡的結合,可以讓圖書本身也具有了收集用戶數據的能力。對于紙質圖書,用戶攜帶多少圖書取決于用戶的書包有多大,而數字圖書用戶只用攜帶一個圖書閱讀器,就擁有了一座圖書館用戶可以根據喜好閱讀各種圖書。而隨著用戶數量的增加,數以萬計的用戶使用數字圖書資源產生了大量的數據,如何評價數字圖書資源成為了數字圖書運營商的主要運營工作,也是支撐數字圖書運營的主要目標之一。一方面數字圖書資源的評價是站在數字圖書資源的角度選擇數據維度,另一方面數字圖書由于具有數字媒體的運營屬性,因此可以從數字媒體的維度選擇數據維度,再一方面由于用戶的參與可以比較直觀在數字圖書數據中收集到,并且用戶也是數據的主要生產者。
因此,數字圖書資源的評價是立體的,在多個角度抽取多個數據維度圍繞運營目標進行評價。而立體的數據往往是在數字圖書資源平臺下的數據產物,數據圖書資源平臺往往是建設在云計算和大數據環境下的技術平臺,這就需要采用大數據的處理技術作為分析的技術平臺。本文將從數字圖書資源、數字媒體運營數據、數字媒體消費用戶數據三個立體層面抽取多維數據更為客觀的評價數字圖書資源對于運營的價值,通過大數據技術平臺來支撐多維評價。
1 ?數字圖書資源大數據與數據挖掘
面對數字圖書資源所產生的大量數據,首先要根據數據圖書資源系統的應用情況,分離出業務系統和分析系統,業務系統是與圖書參與者直接交互的數據,而分析系統是通常是離線的數據集。一般分析系統是建設在數據倉庫架構下的多維分析系統,針對數字圖書資源一般以圖書主題來組織建設多維分析模型。就目前的技術發展趨勢而言,傳統的數據倉庫系統建設以及難以滿足大數據系統的建設需求,取而代之的是基于Hadoop的離線大數據分析系統,通過數據集群的透明訪問網關和用于數據分析的BI(Business Intelligence,即商務智能)分析框架構建底層的數據分析系統[2]。
大數據挖掘是從早期的數據倉庫技術產生的,BI框架的本質是從海量的信息中挖掘出有價值的信息和知識,也是早期知識工程的技術產物。BI作為一個數據工程,一般保函數據的抽取、轉換和加載稱之為ETL;構建的信息模型存儲在數據倉庫(DW)內;數據的分析一般采用聯機分析處理(OLAP)和數據挖掘(DM)等過過程。輔助這些工程一般由專門的計算機軟件負責,而構建一套系統則需要硬件服務器、網絡系統、軟件環境、由于數據的來源比較多元,所以通常是異構的系統互聯,還要考慮數據的格式標準,構建異構系統之間的通信。因此,數據挖掘是一項非常復雜的技術綜合體[3]。
由于數字圖書資源的業務系統是數據的生產方也就是數據倉庫的離線數據的數據來源,而數字圖書資源的業務系統,一般包括終端用戶的閱讀數據、數字圖書分享數據、數字圖書資源運營分析平臺數據、圖書分享交流信息平臺等多個業務的業務群,其數據源也是分散在不同的物理環境中。按照常規的數據挖掘的分析系統構建,可以將系統分為數據預處理層、數據倉庫層和數據分析層共三個層次[4]。
數據預處理會定期從業務群的數據源抽取數據,并按數據倉庫的建模標準裝載到數據倉庫中去。一般閱讀數據會產生用戶信息、閱讀記錄、每本書的閱讀詳細信息、閱讀過程中的過程數據;數字圖書分析數據,可以獲取分享的用戶關聯信息、分享源等信息;在數字圖書運營過程中會產生數字圖書資源目錄、摘要、關鍵字、信息檢索信息、數字圖書資源本身的數據等。上述這些數據是分散的,并且數據的結構和模式是差異比較大的,通過抽取、轉化預處理構成標準的數據集模式就可以以統一的結構存儲到數據倉庫中。
在數據挖掘環境構建完成后,就可以在數據倉庫中按主題選擇數據維度,根據分析場景分析數據維度建立多維評價指標[5]。
2 ?數字圖書數據維度選擇
在大數據時代誕生的數字圖書,從一出生就具有了數據屬性和傳統的紙質圖書相比,更加迎合了人們不限時間不限空間的獲取知識的需求。由于數字時代用戶的口味是多元,閱讀習慣也是多元,所以如何評價數字圖書資源挖掘圖書資源的價值對于運營方來說是一個挑戰。如何分析數字圖書資源產品屬于“高質量”、“高水準”、“受歡迎”等評價標準是什么?如何找到這些標準?這就需要利用數字圖書大數據屬性和數據挖掘技術來尋找。雖然數據本身是客觀的,但是并不是所有數據的生產者都是客觀,例如:用戶的評價數據是一個非常主觀的偏好數據。因此多維的評價數字資源需要考慮到主觀數據和客觀數據的差異。在數據維度的選擇上更需要辯證的觀念來選擇。在信息維度的選取上,本文傾向于從客觀和主觀數據的結合、圖書主題與內容的結合、專家評價與讀者評價信息的結合、定量分析和定性評價相結合[6]。
在圖書數字資源評價體系,可以參考期刊的評價方法,通過借鑒并調整的方式進行選擇數據維度。在期刊中通行的做法是計算轉引率等數據,這是一種相對客觀的評價方法。對于數字圖書顯然不能直接使用,因為期刊是在作者編寫的時候引用其他期刊,而數字圖書是一種共享資源,針對數字圖書共享的性質,可以將轉引率調整為分享率。分享率即一套數字圖書被用戶閱讀的過程中分享的次數,S表示分享率,R表示用戶閱讀的總量,RS表示閱讀過該圖書發生分享的數量,可以用以下公式表達。
顯然分享率也是一個概率事件,如果把平臺中所有單個圖書的分享事件綜合來看,還可以發現單套圖書在整個概率事件里的分布情況,如果將圖書進行分類還可以進一步發現更多的概率事件。例如可以將圖書按內容分類分成管理、計算機、金融、文化、文學、小說、基礎科學、科普等類型那么分享率可以進一步按場景進行劃分。
然而,分享率只能表達圖書的關注度,并不能表達圖書的的價值。例如一本專業性很強的圖書,不會比一本暢銷小說的分享率高,但是其價值可能在其專業領域內是非常高的。這就需要從內容來判斷其價值。這種情況以引入專家建議,讓專家建議的權重高于普通用戶,通過評價和打分參考專家評價,并結合普通用戶的評價來綜合判斷。這種評價可以縱向的來評價,即同類型的圖書之間的比較[7]。
上述評價體系,都是基于數值的量化比較,這種方式易于統計建立統計模型從數量關系和概率分布的方式建立評價體系。但是這種方式會忽略待評價圖書的諸多細節,甚至忽視其的本質。皮之不存,毛將焉附?如果過渡的忽略細節,只強調統計意義顯然會讓看似客觀的大廈轟然坍塌,評價的客觀性蕩然無存。這就需要定性分析,從電子出版物本身出發進行定性,例如出版方、發行方的立場、出版物的文學價值、學術價值、審編校質量等多個定性維度進行評價。
3 ?多維評價在Hadoop環境下的構建
只有綜合客觀的數據并引入權威的導向性,再將評價體系建立在統計數值量化和定性分析的信息才更加綜合。那么對于海量的數字圖書資源,除了建立多維綜合評價體系和原則就是要講這種體系和原則轉化為技術實現。由于海量的數據存儲在以HFDS為基礎的數據倉庫中,那么就要通過基于Map/Reduce的離線分布式計算模型實現多維綜合評價體系,這就需要借助Hadoop環境[8]。
其基礎架構是建立在數字圖書資源業務架構的數據模型分離基礎上的。通常現有的數字圖書資源系統采用微服務的架構模式,將系統分解為多個子系統和子模塊,子模塊又是建立在業務相對隔離和自治的微服務。這些業務系統模塊產生的業務數據也是分布式的,分散在各個業務單一。因此,上述章節建立的ETL模型就是用于抽取多數據源的基礎服務。在數據倉庫建設中一方面存儲基礎的數據集,另一方面通過統計和模式化將數據按主題構建到一個框架下。數字圖書資源的數據倉庫建設一般采用分布式結構化存儲,主題一般通過發布及訂閱模式構建。對于圖書資源數據,一般會增加一個ODS(Operation Data Store)中間層,主要用于緩存便于數據分析層優化查詢,提高數據分析的效率,避免直接分析數據源和底層數據。在圖書業務數據的抽取和復制過程,通過ODS層開發客觀和定性的評價模塊,就可以對基礎數據進行整合和過濾,為數據的多維評價提供標準的數據單元。其標準的數據單元由系統的元數據服務進行定義,元數據的設計是建立在上一節綜合客觀的基礎上,既有定量又有定性的邏輯基礎之上的[9]。
再根據此基礎根據業務邏輯建立數據交換模型,數據交換本身提供了一個業務共用的分析模型層,這一層是根據業務場景建立的。例如評價體系可以是圍繞終端用戶為中心的,評價圖書的質量、專業性、內容權威性對這一類用戶的影響,評價體系可以是按圖書目錄分類,也可以是按圖書性質分類,圍繞用戶產生更為客觀的評價。而用戶在上層可以訂閱這一類數據主題,當在多維分析處理完成時可以提供事件通知。供結構化數據和非結構化數據的統一融合存儲,以建立數據資產為核心;以監管數據質量、數據可用性為關鍵;以數據開放、 ? 共享為目的;加快數據技術發展,加速數據價值轉化率。
4 ?結語
數字圖書領域在經過了多年的發展,隨著用戶數量的增長,逐步形成了用戶群體多元、數字圖書資源多樣的綜合性強的系統模式。數字圖書資源由于涉及面廣,運營數字圖書資源就面臨系統的異構、地域的多元、數據的分布、圖書基礎數據差異等問題。如何評價數字圖書資源成為了數字圖書運營商的主要運營工作。這就需要運營方的方案既需要考慮數據的組織、數據維度的選取,又需要考慮技術的實現。在維度選擇上考慮了從數字圖書資源、數字媒體運營數據、數字媒體消費用戶數據三個立體層面。由于數字圖書資源平臺都是采用分布式的解決方案,因此數據是分散在不同的物理位置上的。利用云計算可以將資源虛擬化,再通過Hadoop的就近計算原則,將分散在不同物理位置的數據統一在一個分析框架內是實現大數據環境下數字圖書資源評估的基礎底層技術方案。另一方面,數字圖書資源的底層數據結構建設是數據分析的關鍵,本文在數字圖書底層資源管理的基礎上,增加了數字媒體運營的數據結構和用于收集數字媒體消費用戶數據的結構,擴展了數字圖書底層的數據結構,便于從多個立體角度建立分析模型[10]。
參考文獻
[1] 曾新紅. 基于XML/SOAP實現數字圖書館系統互操作的研究[J]. 現代圖書情報技術, 2003(02): 37-41.
[2] 何奇峰. WebService在數字圖書館互操作中的應用[J]. 廣西教育學院學報, 2004(01): 125-128.
[3] 一哲. 學術期刊是引領學術發展的旗幟[N]. 中國社會報, 2013-07-12(A04).
[4] 孟耀. 學術期刊質量的評價方法與指標分析[J]. 東北財經大學學報, 2013(05): 90-93.
[5] 曹琴仙, 王雯潔, 張凱巍. 加拿大國家圖書檔案館數字資源服務實踐及啟示[J]. 河北科技圖苑, 2019, 32(05): 19- 23+30.
[6] 于景琪, 劉佳. 首都圖書館推進北京市圖書館總分館制建設探索與研究[J]. 山東圖書館學刊, 2018(06): 55-58+63.
[7] 王麗英, 阿貴, 次仁普赤. 西藏高校圖書館教育資源配置研究[J]. 圖書館雜志, 2018, 37(08): 67-75.
[8] 劉麗麗. 三網融合背景下數字圖書館電視服務用戶滿意度研究[D]. 山東大學, 2018.
[9] 李莘. 數字出版環境下圖書館紙質圖書采訪面臨的困境及路徑選擇[J]. 中國中醫藥圖書情報雜志, 2018, 42(01): 39-41+45.
[10] 超星閱覽器SSREADER3.6——全力打造數字圖書閱讀軟件至尊[J]. 軟件, 2002(01): 21-22.