,,
(廣西壯族自治區圖書館,廣西 南寧 530022)
為深入貫徹落實中共中央辦公廳、國務院辦公廳《關于加快構建現代公共文化服務體系的意見》精神,“十三五”期間,文化共享工程擬依托國家公共文化數字支撐平臺,在地級市(區)、縣(區)構建區域性公共文化綜合服務管理平臺(以下簡稱“服務管理平臺”),實現對基層公共文化服務網絡設施及惠民項目的綜合智能管理,實現基本公共數字文化資源的全域共建共享。
服務管理平臺將信息技術、數字技術、網絡技術等現代科學技術和傳播手段應用于公共文化服務體系建設,充分利用與集成文化共享工程等重點文化惠民項目基礎設施與應用平臺資源,構建標準統一、互聯互通的公共數字文化服務網絡,在基層實現共建共享,實現“一站式”服務,為公共文化服務體系提供強有力的數字化支撐,進一步提升公共數字文化資源的服務效能。
本文從技術層面對服務管理平臺的構建進行研究,包括服務管理平臺的體系框架和實現互聯互通、“一站式”服務的關鍵技術路徑。
實現公共數字文化資源的全域共建共享,是服務管理平臺的基本要求。當前各省都普遍存在公共文化信息基礎設施、數字文化資源建設發展失衡的問題。縱向來看,省、市、縣級基礎設施和數字文化資源建設發展水平失衡,縣級的基礎設施不足且老化嚴重,數字文化資源匱乏;橫向來看,同級公共文化機構的發展失衡,圖書館、文化館、博物館等公共文化機構在基礎設施和數字文化資源建設發展水平同樣存在較大差異。服務管理平臺,擬從硬件和數字資源的層面解決基礎設施、數字文化資源建設發展失衡的問題。為此,服務管理平臺將構建一個三層的體系架構,整合各公共文化機構的數字文化資源,為各公共文化機構提供標準統一、互聯互通的“一站式”的公共數字文化服務。如圖1所示。

圖1 服務管理平臺體系架構圖
從整體上來看,服務管理平臺主要分為三個層次,體系框架可概括為“1+6+5”模式,主要包含1個平臺:區域性公共數字文化云支撐平臺;6個系統:統一用戶系統、統一檢索系統、智能推送系統、元數據收割系統、垂直搜索引擎系統、統計分析系統;5個服務平臺:文獻信息服務平臺、知識創新學習平臺、休閑娛樂服務平臺、信息技術服務支持平臺、數字資源智能訂制與推送平臺等。體系框架的三個層次如下:
云計算是一種以數據為中心的密集型超級計算模型,通過虛擬化技術把各層次功能封裝為抽象實體,將IT相關的能力以服務的方式提供給用戶,允許用戶在不了解提供服務的技術、沒有相關知識以及設備操作能力的情況下,通過Internet獲取所需服務。
云管理平臺通過虛擬化技術實現軟件應用與底層硬件的隔離,提高設備的使用效率,簡化軟件的重新配置過程。各公共文化服務機構通過云管理平臺,自主申請計算資源(CPU、存儲、網絡等),安裝系統和部署應用,消除各公共文化服務機構之間的基礎設施差別,實現硬件資源的共建共享。
云計算系統需要并行為大量用戶提供服務,必須具有高吞吐率和高傳輸率的特點,應引入海量數據分布式存儲技術和海量數據管理技術,以保證系統的高可用性、高可靠性和經濟性,為服務管理平臺提供硬件支撐。
中間層通過元數據收割、垂直搜索引擎等技術,對區域內各類型文化機構的結構化數據和非結構化數據進行整合,實現數據資源的共建共享。
服務管理平臺,采用OAI-PMH元數據收割技術和Handle標碼技術,實現對各類型公共文化服務機構的結構化數字資源自動收割、關聯整合、智能定位和分布式云備份,采用垂直搜索引擎技術對各類型公共文化服務機構非結構化數字資源進行智能采集。同時,服務管理平臺與全國公共數字文化支撐平臺與中間層對接,使服務管理平臺能夠利用其豐富的資源。
中間層通過對各類型數據的收割、采集、整理,為服務管理平臺提供數據支撐。
服務管理平臺的應用層包括五大平臺(文獻信息服務平臺、知識創新學習平臺、休閑娛樂服務平臺、信息技術服務支持平臺、數字資源智能訂制與推送平臺)。應用層通過中間層的數據支撐,分別實現五個平臺的數字資源服務和管理,提供“一站式”的公共數字文化服務。
虛擬化技術作為云計算的核心技術,在服務管理平臺的數據中心構造過程中扮演著非常重要的角色。傳統的應用模式中,IT資源互相之間不連通,無法根據業務的變化實現動態調整,利用率較低。云計算把IT資源都變成一個個池子,再基于這些基礎架構的資源池上去建設應用,以服務的方式去交付資源。基于“池化”的理念,區域性公共數字文化支撐平臺應搭建計算池、存儲池、網絡池和安全池,減少設備釆購數量,降低故障點,提高業務系統的可用性,提升整體數據中心的資源利用率。
云計算模式安全風險集中,因此可將整個數據中心的網絡設計分為兩部分:后端是采用云計算相關技術、支持多架構融合的業務資源網,網絡、計算、存儲資源構建成虛擬的資源池;前端則是采用傳統的模塊化數據中心的結構。這樣將前端服務和后端支撐相對分離,保障其安全性。
實現虛擬化關鍵在于,虛擬化層必須能夠截獲計算元件對物理資源的直接訪問,并將其重新定向到虛擬資源池中。虛擬化層可通過純軟件的方法或利用物理資源提供的機制來實現這種“截獲并重定向”,因此虛擬化系統可分為軟件虛擬化和硬件虛擬化兩種。
Intel在服務器處理器領域市場占有率超過90%,其服務器處理器產品線廣泛支持Virtualization Technology(VT)虛擬化技術,可采用通用的x86平臺,在系統管理程序層支持下支持虛擬化,實現較高性能。
當前市場上常見的服務器虛擬化程序包括VMware vSphere、Microsoft Hyper-V、Xen、KVM等。VMwared在虛擬化市場占有較大份額,但VMware的閉源且按照CPU數量授權的特性,使得在大規模部署上存在一定隱患;而Hyper-V成熟度有待提高,虛擬Linux系統存在大量兼容性問題,使用場景受限;Xen是半虛擬化技術,非常依賴于Domain 0虛擬機,比較難以配置和使用,部署會占用相對較大的空間。
相比之下,KVM是基于Linux完全原生虛擬化擴展的x86硬件全虛擬化解決方案,通過可加載的內核模塊支持廣泛的虛擬機操作系統,比如Linux、BSD、Solaris、Windows等。在KVM架構中,虛擬機實現為常規的Linux進程,由標準Linux調度程序進行調度,每個虛擬CPU顯示為一個常規的Linux進程,這使KVM能夠使用Linux內核的所有功能。綜合來看,KVM應該是最佳選擇。
在存儲系統中,同時支持SAN與NAS的統一存儲業已成為主流。統一存儲具有具備規劃整體存儲容量的能力,避免分別對數據塊及文件存儲支持相關的容量利用率方面的問題,存儲資源池配置靈活以及積極支持服務器虛擬化等特點。
由于機械硬盤已經逐漸成為數據中心的瓶頸,為改善核心數據庫與應用系統的響應速度,應引入固態硬盤(SSD)技術,將應用程序中部分I/O壓力較大的數據放置在SSD磁盤上;同時可以將部分SSD空間虛擬成存儲系統緩存,大幅度提升整個存儲系統的緩存命中率,尤其是在虛擬化架構下,效果更加明顯;采用自動分層技術,存儲系統后臺自動調整數據存放位置,優化存儲訪問方式,提升應用訪問效率。此外,還應采用同步鏡像、異步備份等方式對數據進行保護,若有條件可以考慮實現數據異地備份。
數據中心是云計算的核心支撐平臺,隨著云應用的廣泛部署,數據中心的通信模式和業務需求出現了根本性變化。這些變化具體包括:1)數據中心的網絡規模和負載出現了指數級增長;2)主要的流量模式由傳統“南北流量”轉變為“東西流量”;3)更多時延敏感和數據密集型業務在數據中心內運行;4)一些虛擬化技術,如虛擬機實時遷移,需要網絡提供更好的支持。
這些變化對數據中心的交換機提出了更高的性能要求。結合數據中心網絡未來的發展趨勢,在接入層采用10GE交換架構,在核心層采用40GE/100GE交換架構成為一種必然選擇。
在核心層交換機選擇上,應采用數據中心級交換機產品。傳統的園區網交換機一般采用“Crossbar+共享緩存”的交換架構,這種架構限制了設備的可靠性和性能。而數據中心級交換機產品將控制平面與轉發平面物理分離,采用獨立的引擎板和交換網板,同時采用CLOS多級交換架構,多塊交換網板同時分擔業務流量,可實現數倍于單級交換的能力,引擎切換時不影響轉發,可實現零丟包,從而滿足云計算數據中心高可靠性、高擴展性、低時延等需求。
另外,交換機參數還要考慮MAC表項。在云計算數據中心內部,虛擬化以及東西向流量導致更多的MAC表項,4K個Vlan遠不能滿足大規模云計算數據中心的需求,為此數據中心交換機必須支持Vxlan。Vxlan采用24bit的網絡標識,用戶可以創建16M相互隔離的虛擬網絡,這使得大規模多租戶的云環境中具有了充足的虛擬網絡分區資源。
云計算模式下,以分布式計算和虛擬化為代表的技術得到廣泛應用,導致傳統的安全邊界已經消失,數據在數據中心內部之間的交互增加,需要滿足海量數據交互下的安全檢測需求。同時,云計算模式下,用戶可以按需用云端資源,合法用戶可能會利用云端資源進行非法的操作,使得整個云計算環境的內部安全面臨著重大挑戰。
為應對這些安全挑戰,對于業務資源網,應構建大二層的網絡環境,以滿足虛擬化和資源的動態遷移需求,同時將安全策略部署在網絡端口,確保安全策略得到落實;云管理平臺上也應開啟或部署安全虛擬設備套件,如可集成于VMware vCenter Server的VMware vShield、OpenStack中的Security Group等。對于前端管理網,可根據傳統的信息安全等級保護的安全要求,在不同的區域邊界部署安全策略,同時,針對于數據中心出口安全風險集中的問題,采取針對性的安全防御措施。
服務管理平臺建設過程中,業務系統需要從傳統的建設模式遷移到資源池模式的云計算系統里,將形成超大規模的數據中心或多數據中心平臺。云管理平臺需要對龐大的虛擬化計算資源進行智能化的自主管理,實現資源的集中化管理和業務系統的快速交付,不同硬件平臺虛擬化系統的統一調用、管理和監控。云計算基礎設施管理平臺應具備以下功能:資產管理、資源管理、用戶管理、云平臺用戶門戶、云平臺監控等。
服務管理平臺在運行中會產生海量的數據,需要進行大量的計算,一個大數據處理的框架成為必然的要求。鑒于Google相關技術的非開源特性,從運行安全與實施成本考慮,建議選擇Hadoop開發團隊的技術。
Hadoop的框架最核心的設計就是HDFS和MapReduce。HDFS為海量的數據提供了分布式存儲解決方案,它的架構建立在大量普通配置的計算機組成的集群上。而Map/Reduce為海量的數據提供了并行編程模型。
Hadoop有著優秀的數據處理能力,將其搭建在OpenStack上,可以實現私有云與大數據的協作,發揮協作效應,還可以有效地節省網絡帶寬。同時,虛擬化使得Hadoop部署更為簡易,除了主要的NameNode,其他的DataNode完全可以使用OpenStack中Heat云編排功能,通過Cloud Formation實現定制集群,而虛擬化本身的安全與便捷,都可以大大減輕維護團隊的運維壓力。
垂直搜索引擎是針對某一個行業的專業搜索引擎,它相比通用搜索引擎,具有更專業、更準確的特點。管理平臺中的垂直搜索引擎主要將公共文化服務機構的網站的非結構化數據,通過模板化的信息抽取技術,轉換成結構化的數據,存入倉儲。
垂直搜索引擎通過網絡爬蟲對區域內各公共文化服務機構的信息資源進行采集和整合,為用戶提供公共文化信息檢索服務,其流程為:網絡爬行—中文分詞—索引—檢索。
4.1.1 網絡爬行。區域內的公共文化服務機構數量不多,且固定,因此可采用定向采集的策略,使用固定的URL庫,對各公共文化服務機構的網站頁面信息進行抽取。并且,由于其頁面多為網站系統生成,網頁結構固定,在網頁信息抽取方法上,使用模板化的抽取方式比較簡單、準確,維護量也不會太大難以接受。無論從內容還是復雜程度來說,一個簡單的模板化爬蟲就可以滿足對區域內各公共文化服務機的非結構化信息或半結構化信息的爬取。爬取的網頁保存到網頁庫中。
4.1.2 中文分詞。中文分詞是將一個中文序列切分成一個個單獨的詞的過程。中文分詞的準確性,直接影響檢索結果的查全率和查準率。目前,Lucene是個不錯的選擇,Lucene是一個構建具體的搜索引擎工具包,在網絡上得到廣泛的應用,成熟度高。它將構建一個完善的檢索系統功能以Java類和接口的形式向廣大開發者提供,為構建自定義的功能提供了強大的靈活性。通過實現Lucene的Analyzer接口,使用其自帶的org.apache.lucene.analysis.cn中文語言分詞器,可以實現不錯的分詞效果。
4.1.3 索引。經過分詞處理,還需要通過預定義的元數據標準,分析網頁的文檔信息,生成網頁的元數據,然后對提取的元數據信息建立索引。Lucene框架主要包括兩個功能:建立索引和檢索索引。使用Lucene分析索引網頁庫的關鍵詞和網頁的文檔信息,采用倒排索引技術,生成倒排表和索引詞表。通過建立索引可以明顯加快檢索的響應速度。
4.1.4 檢索。檢索功能主要實現為一個接口。接口接收檢索關鍵詞,對檢索關鍵詞進行切詞操作,然后在索引中進行匹配,將匹配的結果以XML流的形式返回。這個接口可以由統一檢索系統調用。
元數據收割系統基于OAI-PMH協議,自動地定期收割各公共文化服務機構的結構化數據,將其存入倉儲,并通過Handle標碼技術實現數字資源的智能定位。
OAI-PMH協議提供了一個基于元數據獲取的獨立于具體應用的互操作框架。在OAI-PMH框架中有兩個級別的參與者,分別是數據提供者DP(Data Providers)和服務提供者SP(Service Providers)。DP以OAI-PMH方式發布元數據,而SP以OAI-PMH為基礎獲取元數據來提供增值服務。SP通過收集器(harvester)發布OAI-PMH請求,向DP的倉儲中獲取元數據。DP響應和處理OAI-PMH協議的六種請求(6個OAI-PMH命令動詞),將元數據發布給SP的收集器。OAI-PMH協議通過這樣一個相對簡單的框架實現了元數據共享。
基于全球統一標碼(Handle)的標碼技術是起源于互聯網、應用于物聯網的一種標識符號。它賦予互聯網上的各種對象文檔、圖像、多媒體等一個唯一、合法、安全和永久的標識,通過這個標識可以實現對被標識對象的解讀、定位、追蹤、查詢、應用等功能。可選取區域內基礎設施和網絡條件較好的公共文化服務機構節點作為SP(同時也是DP),其余節點作為DP。SP部署收割服務器,包含注冊功能模塊、日志統計分析模塊、元數據檢索模塊。收割服務器通過設置收割策略,對各公共文化服務機構發布的元數據進行定時智能的收割,通過Handle標碼技術實現數字資源的智能定位。
4.2.1 收割策略。元數據收割系統在SP的管理系統中提供對收割策略的定制。收割策略包括收割狀態、收割時間和周期。收割狀態分開關閉和開放,決定是否對其進行收割。收割周期可以設置收割的頻率,一般設置為24小時,即每天進行一次元數據的更新。收割時間指開始收割的時間點,各收割輪次盡量避免設置為同一時間,減輕收割服務器的壓力。
4.2.2 服務智能定位。收割的元數據對象是分布式的,可能存在URL因為數字對象物理位置改變,IP更換、系統遷移、網站改版或文件目錄調整導致資源無法訪問的“死鏈”問題。解決這個問題可采用與國際接軌的,全球統一標碼(Handle)的標碼系統(HandleSystem),對各類文化資源依據國際標準逐一進行注冊,注冊系統與全球注冊系統建立對接,負責數字資源地址的解析服務。
智能推送系統通過支撐平臺的Hadoop架構和數據挖掘工具,以用戶系統的數據智能分析用戶的行為,從而推送符合用戶需求偏好的信息。
4.3.1 數據準備。對服務管理平臺進行數據挖掘,首先要做數據準備,分三個階段:1)數據集成。要采集不同的公共文化機構不同系統的用戶數據顯然難度較大且效率低下,因此,服務管理平臺采取從五大平臺和統一檢索、統一用戶功能模塊產生統一的用戶數據,保存到用戶行為數據庫的辦法來完成數據集成。2)數據選擇。從用戶行為數據庫中選取相關數據或樣本,為知識發現的目標搜索和選擇有關的數據,這里不包括同模式數據的轉換和數據的統一和匯總,只需能辨別出需要分析的數據集合即可。3)數據預處理。檢查數據的完整性及一致性,消除噪聲等。對數據進行清理和充實等預處理工作,包括對數據編碼,數據庫中字段的不同取值轉換成數碼形式,這將有利于搜索。
4.3.2 數據挖掘流程。將數據準備完成后,將進行數據挖掘。傳統的數據挖掘流程為:1)確定挖掘目標,即確定要發現的知識類型。2)選擇算法,即根據確定的目標選擇合適的數據挖掘算法。3)數據挖掘,即運用所選擇算法,提取相關知識并以一定的方式表達。4)進行結果表達與解釋,即通過現在的可視化技術,完成模式評估(對在數據挖掘步驟中發現的模式/知識進行評估)以及知識表示(表示相關技術,呈現所挖掘的知識)。
鑒于服務管理平臺的數據內容來源于多個公共文化機構,數據屬性之間相互獨立性大,可以采用樸素貝葉斯算法來進行分類,數據處理可以下放到Map/Reduce中計算完成。例如Hadoop的k-means算法的處理過程主要有兩部分:第一部分是初始聚類中心,并把數據集樣本分為一定大小的數據塊,以便并行處理。第二部分及時啟動Map和Reduce任務進行算法的并行化處理,直至產生聚類結果,將處理結果寫入HDFS,也可放入存儲集群,以供查詢層使用。

圖2 數據挖掘簡易流程圖
統一檢索系統將垂直搜索引擎采集的數據和通過元數據收割系統收割的數據整合,并提供一站式檢索服務。
為了提升用戶檢索體驗,提供智能化、專業化的檢索,應引入領域本體(Ontology)。本體可以是一個表現為樹形結構的知識庫。如頂層類可以是“公共文化”,之下可以有“戲劇”,“戲劇”又可包含“桂劇”“壯劇”等,類似于圖書館使用的分類法,但本體還要構建推理規則。引入本體,是在用戶輸入檢索關鍵詞,進行切詞后,由本體的推理擴展模塊進行擴展,然后將擴展的結果發給垂直搜索引擎和元數據收割系統進行匹配。經過擴展的結果,并不是簡單的原始關鍵詞,而是經過推理的關鍵詞集合,更能準確專業地表達用戶的檢索意圖,因而檢索的結果也更符合用戶的需求。
用于給各系統提供用戶認證服務,使用戶平滑使用平臺的各種服務。目前,對于統一用戶系統,市場上已經有了很多成熟的產品。其主要功能是用戶管理、安全認證、訪問控制、單點登錄服務和日志審計。通過統一用戶系統,為用戶訪問本管理平臺的各個應用平臺提供方便的登錄認證服務。
統計分析系統分別對硬件資源、數字資源進行統計分析,并使用數據挖掘工具產生更豐富的、關聯指向性更強的報表提供給文化部門作為決策輔助信息。在硬件資源方面,通過對區域性公共數字文化支撐平臺的日志進行統計分析,掌握硬件資源的利用情況,及時發現基礎設施的瓶頸,進行有針對性的資源擴展,降低盲目的投資。在數字資源方面,通過元數據收割系統和垂直搜索引擎的日志,統計分析數字資源總量和資源訪問統計。
各類型公共文化服務機構現有的信息系統多為獨立系統,系統平臺各不相同,建設的數字資源也結構不一,為典型的“信息孤島”群體。
服務管理平臺采用元數據收割技術和標碼技術,實現對各類型公共文化服務機構結構化數字資源進行自動收割、關聯整合、智能定位、分布式云備份;采用垂直搜索引擎技術對各類型公共文化服務機構非結構化數字資源進行智能采集,通過統一檢索技術實現同構數字資源和異構數字資源的“一站式”服務。
通過自建和購置,整合優質數字資源和聚集行業資深專家學者,建立以高質量深度數字資源內容研發和系統知識切片為核心,融合先進的用戶行為分析的數據挖掘,為用戶提供針對性個性化服務,進行精于在線學習體驗設計和學習體驗設計的系統與個人的B2C在線知識創新學習平臺。內容包括寫作、外語、美術、音樂、舞蹈和進城務工技能、農業種養技術等,發揮系統構建學習型社會、促進人的素質提高的作用。
以舞臺藝術、電影電視、展覽圖片、音樂歌曲、有聲讀物、動漫連環畫等資源為基礎,提供片花、票務和評論等服務,通過檢索、推薦等應用方式,建立弘揚正能量,寓教于樂,提高個人修養的休閑娛樂服務平臺。
服務管理平臺通過統計分析系統和云管理系統,在信息技術服務支持平臺實現數字資源的使用反饋統計,平臺運行數據的可視化,并提供對業務培訓的技術支持。
數字資源智能訂制與推送平臺通過數據分析各類型公共文化服務機構的相關數據元素,建立統一標準和模型,并利用數據挖掘工具,生成知識數據庫,形成區域內公共數字文化資源關聯的可視化模型,實現信息交互功能和數字資源的個性化定制與智能推送,同時為相關文化主管部門制定發展規劃,有針對性地提高資源利用率提供決策參考。
“互聯網+”時代的到來,使得信息資源的存在和傳播方式發生了根本改變,人們不僅能夠更為便捷地獲取知識,而且獲取文化資源的公平性和文化服務的多樣性也得到了彰顯。區域性公共文化綜合服務管理平臺的成功構建,必將會是形成一個知識信息的集散中心、一個特色資源數據的共建共享平臺、一個文化信息的互動窗口,也必將會帶來一場文化服務模式的變革。
建設區域性公共文化綜合服務管理平臺,利用數字化資源、智能化技術、網絡化傳播,加強公共數字文化資源整合開發,推進文化資源數字化,拓寬公共數字文化資源服務渠道,推廣一站式服務,建設全域共享、互聯互通的公共數字文化服務平臺,將極大改變目前公共文化發展不均衡的問題,特別是西部地區和貧困地區基層公共文化單位服務能力不足的現狀,從而更好地發揮公共文化單位在構建現代公共文化服務體系、推進文化大發展大繁榮、實現中華民族偉大復興中國夢歷史進程中的作用。
[]
[1]劉國樂,何建波,李 瑜.Xen與KVM虛擬化技術原理及安全風險[J].北京:保密科學技術,2015(4).
[2]王曉慶.基于云計算的南京財經大學數據中心建設研究[D].南京:南京郵電大學計算機學院,2013:40.
[3]曉 杉,王 琨,顧華璽,等.云計算數據中心光互連網絡:研究現狀與趨勢[J].北京:計算機學報,2015(7).
[4]李 虎,來慶濤,王維鐵,等.云計算基礎設施的建設與研究[C]∥電力行業信息化優秀論文集2014—2014年全國電力行業兩化融合推進會暨全國電力企業信息化大會獲獎論文,2014.
[5]垂直搜索引擎[EB/OL].[2015-12-25].http:∥baike.baidu.com/link?url=nCIHEUyVNHB1SaDQPdYtrA1jG-Ruc5iuIDwwbEFnI_6NtofN60ptlAFqmcEP78ZySNwlALCHWSY-CnGCGsLhnp4_.
[6]李 進.基于本體的垂直搜索引擎研究[D].長春:長春工業大學,2013.