伍 星
(深圳信息職業技術學院圖書館,廣東 深圳 518172)
2019年2月18日,中共中央、國務院印發了《粵港澳大灣區發展規劃綱要》[1]。國家大力推動灣區文化以及灣區行業、產業信息融合不斷深入的大背景下,各圖書館通過建設灣區信息資源庫及創新服務方式,為讀者提供更加豐富和全面的灣區信息資源服務。經過多年積累,粵港澳大灣區各級圖書館在灣區特色館藏及電子資源數據、用戶特征數據、資源及網站訪問日志、用戶檢索及下載記錄等方面都積累了豐富的資源數據量和特色資源評判基礎數據。
這些數據是圖書館重要的信息資源,具有很大的發掘利用價值,通過對灣區資訊數據和行為習慣日志的整合分析可以發現隱藏在數據背后的規律、趨勢和價值,進而為粵港澳大灣區圖書館資源共建共享和服務模式創新和對灣區未來發展趨勢提供分析與預測,為實現更加智能化的信息服務提供數據支持。建設粵港澳圖書館數據平臺的目的就是通過各級圖書館的業務及服務數據共建共享,匯聚粵港澳行業、產業及教育的相關數據,實現粵港澳特色信息資源的多元化采集、主題化匯聚和知識化分析、可視化展示。隨著京津冀、粵港澳、長三角和東北等國家九大戰略發展區域化進程日益深入,對具有區域發展時代特征的圖書館建設提出了新要求。本文將以粵港澳大灣區為例,進行區域數據平臺協同構建的探討。
粵港澳大灣區被認為是我國開放程度最高、經濟活力最強的區域之一,在國家發展大局中具有重要戰略地位[1]。粵港澳三地具有相同的地理環境和歷史背景,而不同的政治、經濟、科學、文化和教育制度使粵港澳三地的圖書館在文獻資源收錄、特色資源庫構建上又各有特點。但是,灣區資源庫由于業務系統各異的關系,存在以下問題(見圖1)。

圖1 粵港澳大灣區資源數據現狀
第一,信息孤島問題。數據無法整合以提供標準化、準確的服務。在進行數據分析、報表填報時,都會重復地投入較多人力去搜集各系統數據,結果也不一定準確。
第二,數據格式問題。粵港澳行業、產業教育資源庫共建共享的過程中,因為數據采集標準及格式不一致,數據的采集、篩選都可能達不到平臺要求的標準,因不具備時效性而降低資訊內容對區域協同科技創新的指導性,不利于開展數據挖掘和進行灣區產業需求、灣區行業熱點、創新創業指導等隱性知識挖掘。
第三,數據存儲問題。云時代大數據的到來給我們帶來了極大方便,可是隨之而來的信息和網絡安全的脆弱性問題也日益突顯。由于粵港澳行業、產業及教育特色資源的保存較為分散,一旦出現數據存儲的安全問題,因數據的唯一和獨立性所造成的損失將無法挽回。根據美國FBI統計,每年因為信息和網絡安全問題所造成的損失高達75億美元,并且該數字還在上升[2—3]。而數據作為信息的表達形式,它的完整性與安全性問題決定了系統是否安全。數據備份技術的應用越來越廣泛,但是數據備份設備、專業人員或委托數據備份公司提供的服務,都需要投入相當多的經費支持,因此,建立粵港澳行業、產業及教育文化資源共建共享平臺,將數據進行匯總,有利于數據的統一保存管理和后續的知識挖掘及溯源。
在粵港澳大灣區社會發展背景下,圖書館館藏資源內容將從傳統通用館藏,擴展到著眼于三地行業、產業和教育的資源庫,廣泛覆蓋三地行業技能知識,行業標準規范、嶺南文化資源等。建設粵港澳大灣區圖書館資源數據平臺,制訂統一的業務標準來匯聚、清洗、整合各業務系統數據,消除一直存在的數據孤島問題。通過對大數據平臺的挖掘分析,定義數據標準,有效地進行數據類目管理,讓數據更直觀、更精準地指導業務。同時,粵港澳大灣區資源數據平臺可搜集分析灣區圖書館館藏數據,形成各館各地區的資源分析報告,為粵港澳大灣區構建網絡化資源空間格局,推動灣區開放型區域協同創新共同體提供資源平臺支持。建設粵港澳大灣區圖書館資源數據平臺,以便篩選灣區數據形成數據分析報表,直觀反映灣區已有行業、產業和教育文化現狀,以便充分發揮粵港澳科技和產業優勢,積極吸引和對接全球創新資源,建設開放互通、布局合理的區域創新體系[3]。
通過對粵港澳大灣區圖書文獻、研究成果、行業數據、標準規范等數據的搜集、整理及分析,確定數據平臺的數據整合范圍及規范,制訂元數據標準,協同開發建設粵港澳大灣區圖書館大數據平臺,實現信息資源的多元化采集及清洗、主題化匯聚、知識化分析、可視化展示,為圖書館依據《粵港澳大灣區發展規劃綱要》實現服務戰略決策提供數據支持。
粵港澳大灣區圖書館資源數據平臺,需依托灣區圖書館自動化系統、網站及資源系統、其他業務系統相關數據,通過數據導入、數據同步及采集等手段和工具,將所有數據進行清洗、轉換和映射,統一存儲在協同數據平臺進行統一管理和維護,建設數據分析、個性化服務等系統,配以定制開發的算法,以數據統計分析及圖形化展示的形式,為粵港澳提供多維網絡化空間格局,匯聚灣區行業、產業、科技、教育及文化資訊資源,為構建粵港澳大灣區開放型區域協同創新共同體提供資源保障,促進信息、技術等創新要素跨境流動和區域融通,協同共建粵港澳大灣區大數據中心和國際化創新平臺[4—5]。系統總體架構如圖2所示。

圖2 粵港澳大灣區資源數據平臺系統架構
粵港澳大灣區圖書館資源數據平臺需提供灣區圖書館業務系統數據到大數據平臺的同步服務,增量定時同步、數據整合、數據清洗、數據統計等多種集成同步服務。
(1)數據庫類型支持問題。目前的主流關系型數據庫類型有Oracle、MySQL、SQL Server、PostgreSQL、Sybase等,基于分布式文件存儲的MongoDB數據庫,支持大數據平臺Hadoop的HDFS、HIVE以及阿里云數據平臺等[5]。此外,協同數據平臺還應支持Excel等結構化文件的同步。
(2)資源增量同步問題。粵港澳大灣區多源數據資源日新月異,協同數據平臺應實現增量數據的自動實時同步。同步的數據包含數據正文、類別、日志及時間等信息,對資源庫實時變化的數據同步上傳至粵港澳大灣區協同共建大數據平臺。
(3)數據傳送安全問題。為保證信息安全可靠地同步傳送,對傳送數據原始明文,通過加密算法進行加密,且不依賴于操作系統和安全環境,盡量采用磁盤加密和驅動級加密技術,以免應用層加密帶來的兼容性和二次開發問題。
(4)支持斷點續傳。避免因網絡不穩定等原因引起的數據同步失敗,在數據同步不成功的情況下,可以自動進行斷點恢復續傳,以避免數據的丟失和重復,保證穩定可靠的數據SSL加密傳輸。
粵港澳大灣區圖書館的館藏文獻資源,既有傳統館藏,也有特色行業、產業資源庫。粵港澳大灣區行業、產業及科技創新優勢所積累的特色資源、行業標準、國際經驗、資格體系等多維特色資源,經過多年標準各異的信息系統建設后,存在于各種不同業務系統中。這些業務系統由不同的軟件開發商或者系統集成商提供,當需要將這些系統的數據進行集中治理的時候,就面臨著業務部門間信息定義不一致的問題,從而影響對數據共享、理解、價值提取的過程。這就需要構建粵港澳大灣區資源數據平臺時,首先建立統一的數據標準體系,利用國家、行業、企業等相關標準,對各類數據進行統一的標準化改造,在平臺中形成統一的數據理解視圖,并在統一標準化數據集成的基礎上,實現數據質量的保證、提升和隱性知識挖掘,形成灣區特定行業領域內的資源整合和專題研究。
數據統一標準管理需要從標準數據元庫及同義詞等關聯信息庫中,清晰描述數據標準分類、要素分類、業務分類,自動建立數據標準各類屬性之間的約束、傳遞、映射、聚合關系。粵港澳大灣區參與協同構建資源數據平臺的圖書館,其采集的數據包括國際、國家、地方以及企業在內的標準數據元,進行統一存儲和管理,形成公共標準知識庫,并對其進行日常維護和管理。同時,平臺實現動態同步更新,提供查詢和追溯功能,為參與協同構建數據平臺的圖書館制訂或擴展已有數據標準提供參考依據,以保障統一標準的實施[6]。
為協同灣區圖書館進行資源數據平臺構建,需要制訂基準數據規則,以便于進一步開展灣區行業、產業、科技、教育和文化資源數據標準化的調研、制訂和集成開發。此外,數據索引庫需支持對數據元分類新增、修改和刪除等基本錄入操作,自動生成維護日記信息。支持標準化模板,使資源平臺協同構建方可以根據自己的業務需要定義模板內容,定制數據元的相關屬性。
3.4.1 內容構建。粵港澳行業、產業、教育及文化資源數據平臺的協同構建,是大灣區發展的重要文獻資源保障,其內容構建可以從三個方面進行。
(1)統計經濟指標,繪制粵港澳行業、產業分布圖。即通過粵港澳大灣區圖書館館藏經濟類電子資源數據庫,如國務院發展研究中心信息網、中國經濟信息網、中國宏觀經濟信息網等大型經濟類數據系統[7],統計粵港澳大灣區“9+2”11個城市的區域經濟和優勢產業集群分布情況。
(2)根據粵港澳行業、產業分布,清點灣區館藏資源收錄情況。對紙質圖書、電子資源數據庫、音視頻多媒體資源等館藏載體進行清點統計策略設計和資源文獻協同匯總,得到粵港澳行業、產業及教育資源支持的資源數量、質量及結構分布情況。
(3)整合引進粵港澳行業、產業教育核心資源。首先,將已有粵港澳館藏資源進行可索引、有清晰入口的行業、產業、教育及文化資源平臺分類;其次,對灣區產業、制造業、服務業、科技教育、文化資源進行需求挖掘,結合粵港澳大灣區圖書館年度紙質圖書、電子資源專項建設工作落地,完成資源內容的協同構建。
3.4.2 框架及技術構建。粵港澳大灣區圖書館資源數據平臺框架和技術實現包括數據平臺開發建設、數據匯聚清洗分類,數據索引存儲計算、數據分析統計和非結構化文檔存儲服務。數據協同平臺還需實現數據的壓縮、備份,以保證數據安全可靠。
(1)數據平臺開發建設。從框架結構層面來看,數據平臺需要提供海量數據的匯聚、清洗、建模、工作流開發以及定時調度的服務。從技術構建層面來看,數據平臺需要提供建表、SQL/MR編寫、算法開發、數據挖掘等數據開發服務,助力灣區圖書館粵港澳數據平臺建設。此外,數據開發平臺可以提供工作流的開發與調度。一個完整的工作流需要完成數據導入、數據清洗轉化、數據庫語言編程、算法開發、結果數據導出等一系列步驟;對于需要定時執行的工作流,可通過配置調度時間周期,讓工作流自動按時執行。工作流的按時調度是保證報表數據準確準時提供的前提條件。
(2)數據索引存儲與計算。基于數據平臺提供的海量資源數據存儲與計算,需要對業務數據進行開發整理,根據粵港澳大灣區高科技創新領域、戰略性新興產業、先進制造業、現代服務業、灣區海洋經濟等相關的灣區數據索引、建模、建倉,通過內置或者自定義算法進行相關數據知識挖掘[8]。
(3)協同數據的分析計算。通過將粵港澳大灣區行業、產業索引存儲后的資源數據進行計算、整理、挖掘后,形成動態監測報告、發展預測報告、專題資訊報告等。這些協同數據的二次分析計算結果,能夠同步至數據實時分析區,直接提供上層應用的查詢服務或者內部直接查詢服務。首先,協同數據的實時分析計算服務需要具有高性能、高可靠性、應用高兼容性、分布式線性可擴等性能。大數據平臺提供海量數據的實時分析能力,百萬級數據的秒級甚至毫秒級返回,能夠滿足灣區圖書館業務系統對數據查詢性能的要求。其次,協同數據平臺應該具有多級計算節點,以保證數據存儲和應用服務的可靠性。任何一個磁盤的損壞,都不會造成數據丟失或者業務中斷。且數據庫接口應具備高兼容性,支持應用系統的遷移[9]。最后,隨著粵港澳大灣區圖書館業務數據量的擴增,基于分布式的架構能夠支持計算節點的橫向擴展,支持性能的線性上升,足以支持粵港澳資源數據的可持續性積累和分析。
(4)非結構化資源存儲。隨著上層應用移動化和智能化趨勢的發展,數據生成的類型正在發生變化。文檔、視頻、圖像、音頻等非結構化數據在各行各業累積數據中占比逐漸增加。據統計,目前超過80%的新增數據是非結構化數據,未來預測這個比例將達到90%以上。作為粵港澳大灣區主要資源數據之一的灰色文獻,其非結構化數據達95%以上。其涵蓋了行業、產業、科技文化相關的會議文獻、科技報告、技術檔案,以及不對外發行的企業文件、產品資料、貿易文件(包括產品說明書、相關機構印發的動態信息資料)和工作文件。而未刊登稿件以及內部刊物、交換資料等因其流通渠道特殊,數據存儲單一,容易絕版,且涉及的信息廣泛,內容新穎,見解獨到,具有特殊的資源價值[10]。因此,粵港澳大灣區資源數據平臺在設計上,應提供非結構化文檔的存儲與管理,如圖書館PDF、CAJ電子文檔、圖片以及一些辦公文檔的上傳、共享、下載、刪除等,并可通過開放接口訪問的方式,對上層應用提供在線閱讀等服務。
在數據采集、清洗、匯總后,粵港澳資源協同構建平臺應進行數據分析,實現最重要的知識加工挖掘功能,如提供灣區行業、產業教育相關的咨詢分析、評估、動態監測、發展預測、專題數據等。為粵港澳大灣區完成數據協同的圖書館提供行業定制化的數據分析報告,輔助圖書館業務分析人員實現對常規業務數據的分析。例如,圍繞粵港澳大灣區發展趨勢和熱點,對接全球創新資源,生成粵港澳創新創業專題研究報告、灣區科研基礎設施資源報告、灣區產學研深度融合報告、灣區科技成果轉化流程及案例匯總、灣區制造業結構報告、灣區專業人才培養方案等。還可通過自行設定時間軸,提供月度、季度、年度的報告分析服務和特定業務場景的數據分析服務,以及定制化的其他業務數據報表等數據分析服務。從多角度進行維度和思路分析,輔助圖書館業務分析人員挖掘數據背后的價值,用于提升圖書館灣區情報供給和數據分析能力。
粵港澳大灣區資源數據平臺,應實現數據交互可視化功能。可以按照圖書館業務分析的要求,對數據分析報表設置范圍、提取條件,從而快速準確地捕捉灣區資源信息,生成分析報表,并以可視化形式直觀展現重要數據,為灣區行業、產業、科技文化發展方向提供依據和支持。數據交互的可視化工具主要面向具備一定技術能力的業務人員,一線圖書館業務分析人員,通過分析軟件完成數據的分析、查詢、篩選。通過資源數據標簽化的方式,改變傳統的以查詢、檢索為主的分析模式,業務人員無須接觸底層的物理表字段,就可以通過拖拉拽等可視化方式快速完成數據提取,從而方便發布自定義數據分析應用。粵港澳大灣區圖書館資源數據協同構建平臺需要提供的數據可視化交互主要功能如下:
(1)將數據轉化為標簽。根據粵港澳大灣區行業、產業的不同維度,資源數據平臺提供標簽自定義功能,通過標簽體系進行灣區大數據歸類提取。業務人員可以按需擴展、定制標簽,支持在簡單的數據標簽基礎上建立復雜標簽模板,支持灣區行業、產業相關數據的求和、取平均值、同比、環比等數學函數計算,并提供折線圖、柱狀圖和條形圖等可視化數據展示。
(2)提供行業業務模板。資源數據平臺的協同構建,應該規劃設置灣區各個行業模板,便于業務人員快速根據模板生成相關粵港澳大灣區研究應用。在基本模板的基礎上,能夠自定義模板,產生數據應用的同時自動生成業務模板,通過模板共享,促進數據分析和應用,提高數據平臺的知識產出效率和精準度。
(3)支持報表的發布和共享。粵港澳大灣區資源數據平臺,需要支持發布獨立的應用。并通過可視化界面,用拖拽的方式產生面向對象的應用,適用于粵港澳行業、產業、科技文化等各個業務場景。此外,平臺支持報表發布,支持邀請成員組成工作群組,共同分析、共享研究成果。
標簽是通過對用戶信息分析而得到的高度精練的特征標識,是畫像最直觀的解釋[11]。通過“打標簽”的方式為所有粵港澳資源數據平臺用戶生成畫像,通過不斷豐富標簽來直觀鮮活地描述用戶相關活動特征。此外,對粵港澳資源數據使用的頻度可以反映灣區行業、產業及科技相關發展熱點,對生成灣區資源相關對象的標簽畫像也非常關鍵。將用戶畫像和資源畫像、活動畫像相結合,可以更好地圈出灣區發展趨勢熱點,推送給符合關注的人群,繼而深化灣區研究的深度,契合灣區發展的方向。
根據粵港澳協同業務的要求(如產業分析、創新創業、文化活動推薦、自定義內容推廣等)來決定用戶標簽畫像,即不同內容所需要的用戶標簽畫像是不一樣的,而這樣的標簽畫像需要大數據管理平臺提供相應的功能進行快速配置并產生,以驅動和提高內容匹配,提高粵港澳大灣區圖書館資源數據平臺的協同構建作用。
通過標簽畫像體系,在數據清洗、轉換,ID匹配等基礎上,積累數據平臺中的內容畫像、用戶畫像和活動畫像。在前期數據和算法模型框架下,根據任務處理的需求,形成實時快速或精準離線的計算任務,通過平臺計算引擎進行處理后,產生不同層次要求的標簽畫像,將處理好的標簽畫像數據存儲到與平臺數據庫對應的內容、業務和活動的標簽畫像數據中。因為產生的標簽具有不同的層次,所以能滿足灣區不同的行業、產業及科技文化資源需求。
粵港澳大灣區圖書館資源數據協同構建平臺可依托智慧圖書館建設,設計提供個性化智能推薦功能,根據用戶的興趣關注點推薦符合需求的灣區資訊。智能化推送可以讓用戶更容易找到所需的灣區資源數據,減少用戶在海量數據中檢索查詢的時間和精力,并且在用戶感興趣的領域進行資訊提醒,有助于提高數據平臺的使用效益。此外,智能推薦功能,讓有意向研究灣區的特定行業、產業、科技文化用戶,集結成興趣共同的群組,有利于創造基于特定主題的良好交流合集空間,使粵港澳大灣區資源數據平臺為更多專業領域人群所用。
粵港澳大灣區的建設發展,在國家發展大局中具有重要戰略地位。協同構建粵港澳大灣區資源數據平臺,是推進“廣州—深圳—香港—澳門”科技創新走廊建設,探索灣區行業、產業、科技文化等資源要素跨境流動和區域融通的方法。本文從粵港澳大灣區資源數據現狀的三個問題出發,分析了灣區圖書館協同構建平臺的需求,制定了智能精準信息平臺建設的目標。從數據集成標準、存儲計算、分析交互和智能標簽聚集等八個方面,給出搭建灣區數據平臺架構的實施方案和可行性建議,以期為粵港澳大灣區資源數據平臺協同建設,特別是圖書館牽頭組織下的區域開放資源建設提供參考和借鑒,協同共建區域大數據中心和創新平臺。