王戰平 馮揚文 朱宸良
摘 要:[目的/意義]針對目前大數據時代數字資源的非結構化、海量、多類型等問題,設計一套數字資源整合的模型和方法,以滿足信息用戶的實際需求。[方法/過程]以物流行業中的航運信息服務產品集裝箱運價指數為例,提出基于大數據的指數編制思路,以數據倉庫模型為目標數據模式,構建面向海量多源異構信息的數字資源集成模型,設計Web類數字資源獲取和集成流程以及增量數據的處理方法,通過具體實證研究檢驗模型和流程的運行效果。[結果/結論]實證結果顯示,本文提出的數字資源整合模型和處理流程能有效地實現多源異構數字資源的整合,支持基于海量數據對的指數編制模式,為全世界各類指數編制的改變提供理論和技術方面的探索,也為數字資源整合在其他領域的應用提供有益參考。
關鍵詞:數字資源整合;多源異構信息;集裝箱運價指數;數據倉庫;模型;方法;技術;物流行業
DOI:10.3969/j.issn.1008-0821.2019.09.010
〔中圖分類號〕G203 〔文獻標識碼〕A 〔文章編號〕1008-0821(2019)09-0092-09
Abstract:[Purpose/Significance]Aiming at the unstructured,massive and multi-source of digital resources,a set of digital resource integration models and methods were designed to meet the actual needs of information users.[Method/Process]Taking the shipping information service product - container freight index in the logistics industry as an example,this paper proposed formulation methods of container freight index based on big data,designed a set of oriented container freight index multi-sources heterogeneous information integration model and the Web information gathering and integration process.[Result/Conclusion]The model and process supported multi-sources heterogeneous digital information integration,and index formulation based on massive data.The study presented theoretical and technological exploration on different indexes formulation,and also provided a useful reference for the application of digital resources integration in other fields.
Key words:digital resources integration;multi-sources heterogeneous digital information;containerized freight index;data warehouse;model;method;technique;the logistics industry
數字資源整合是指將原本多元異構的、離散的、分布的數字資源通過邏輯或者物理的方式[1],依據不同的模式、策略,對于數字資源系統中的數據對象、功能結構及其互動關系進行融合、類聚和重組,重新結合為一個新的有機整體,形成一個效能更好、效率更高的新的數字資源體系[2]。
數字資源整合的起因是由數字資源的現狀與信息用戶的需求之間的差異造成的。從技術層面來看,不同的數字資源系統的數據結構和語義表達不一樣,不同的系統開發者使用不一樣的數據描述和數據組織標準,數據檢索的方式和方法也不同;從數量上來看,隨著大數據時代的到來,數據資源的種類越來越多,除了電子文檔之外,Web、報文、視頻、音頻、圖形和圖像等類型的數字資源隨著互聯網發展,數字資源的數量呈指數增加的趨勢;從內容上來看,數字資源存在大量冗余信息,內容交叉重復,數字資源之間知識關聯程度很低,真正的數字資源分布在不同的組織等問題[3],這些數字資源的價值密度較低,需要經過整合和處理之后,方能滿足信息用戶的使用需求。
1 數字資源整合研究現狀
關于數字資源整合的研究在國內主要集中在圖書情報領域,通常認為開始于21世紀初,毛玉萃針對企業內部信息和企業電子商務信息的信息整合揭開了數字資源整合研究的序幕[4],此后該領域的研究持續升溫,主要集中在五大方面:一是模式研究,如跨庫檢索[5]、系統和數據整合模式比較[6]等;二是方案策略和方法研究,如目標研究[7]、原則研究[8]、基于本體[9]、基于知識鏈[10]等;三是影響因素研究,如政治、經濟、技術[11]和資源本身的屬性等;四是標準和協議研究,如Web Service[12]等;五是服務研究,如數據庫、檢索平臺[13]等。
數字資源整合中的數據整合技術經歷了30多年的發展,不同的階段,針對的數據對象不同,采用的技術方法和體系結構也不同,一般來說分為物理整合和邏輯整合。
1.1 聯邦數據庫
20世紀80年代,數據整合的對象主要是異構數據庫,多采用聯邦數據庫集成框架和多數據庫語言方法集成架構等技術,聯邦數據庫管理系統通過執行控制和協調來實現對組件數據庫中數據的集成[14]。前期采用緊密耦合的方式,但由于這種方式太脆弱,后期漸漸采用松散耦合的方式[15]。
1.2 數據倉庫
聯邦數據庫模式對于數據的集成是邏輯上的,隨著信息用戶對于決策支持的需要,物化方法(Materialized)開始出現,最常見的就是數據倉庫方法,數據倉庫是一個面向主題的、集成的、相對穩定的、反映歷史變化的數據集合,用于支持管理決策[16]。數據倉庫的特點主要體現在以下3個方面:實現了分析數據與生產線數據的分離;實現多個異構數據源的集成;數據處理和分析能力強。
1.3 Wrapper-Mediator方法
20世紀90年代,隨著面向對象和分布式網絡技術的發展,針對異構數據庫的數據整合研究主要集中在Wrapper-mediator體系結構方面[17]。Wrapper-Mediator方法又被稱為中間件集成法[18],本質上是一種邏輯集成或者模式集成[19]。模式集成方法可以彌補物化方式在數據實時性上的一些不足,同時具備在網絡延時小和參與運算的數據規模小的情況下計算速度更快、支持應用系統的應用模式經常變化、適用于某些特殊的數據源(如保密數據)等優勢。該方法的弱點一是會對數據源所在的系統產生負擔;二是應用系統的效率和結構在很大程度上依賴網絡狀況。
聯邦數據庫方法目前已很少被采用,模式集成的方法適用于數據源所在的系統龐大、數據更新頻率高、目標數據所服務的系統要求數據實時性高且數據應用模式不固定的情況,數據倉庫的方式適用于數據源分布廣且網絡延時較大、數據應用模式變化不多、應用對于數據的實時性要求不高但對系統響應時間要求短等情況,隨著大數據時代的到來、硬件成本的不斷下降以及分布式存儲和計算技術的發展,越來越多的基于大數據的應用傾向于使用數據倉庫的方式;當然也有學者提出了基于上述兩種方法的綜合方案[20]。
本文綜合比較各種方法,在分析物理整合和邏輯整合的基礎上,結合數據倉庫的運價信息提出了新的方法。
2 基于數據倉庫的運價信息集成模型
隨著世界貿易格局的變化和標準化進程的加快,集裝箱船運輸方式在國際海運中所占的比重在逐漸增加,集裝箱運價的變化也一直受到業內人士的關注,研究國際集裝箱運價指數的科學編制體系,及時準確地反映國際集裝箱運價波動的程度和趨勢,提高集裝箱運價預測的能力,成為全球業內人士的共識。按照目前普遍的模式,運價樣本信息的采集是按照如下準則來操作的:由指數編制機構指定若干企業或組織作為信息源提供者,提供者根據指數編制機構給出的信息標準和要求定期向指數編制機構單獨報送信息,編制機構先對信息進行預處理,然后按照既定的算法得出某周期的航運運價指數[21];現行編制體系在理論層面具備科學性,可操作性強,所以被世界范圍內的航運運價指數包括集裝箱運價指數廣泛采用,但其缺陷也長期存在,主要體現在以下兩個方面:
1)運價信息的屬性
目前集裝箱運價指數編制所用的運價信息采集自班輪公司和代理機構,且主要來自班輪公司的報送運價信息,該運價信息并非自由競爭市場的價格。這正是包括波羅的海交易所在內的諸多航運運價指數編制機構一直致力于找到實際市場價格來編制航運運價指數的原因。
2)運價信息的及時性和廣泛性
班輪公司報送的運價信息變化周期長,反映集裝箱市場變化的及時性不夠,在實際操作中容易受到人為因素而影響運價信息的準確性;而且運價信息的來源不夠廣泛[21]。
互聯網和電子商務的浪潮席卷全球,同樣也在深深影響著航運業,全世界范圍內出現了大量航運電子商務平臺,這些平臺將航運服務資源如集裝箱船的艙位作為商品,基于互聯網實現全流程在線交易;隨著這些平臺的運營和發展,越來越多的行業用戶選擇使用在線交易方式代替傳統的紙面交易模式。這種模式表現出業務信息高度集中、實時性強、準確率高以及易于存儲、傳輸和使用等優點。本文認為,集裝箱運價指數編制的信息源完全可以從傳統的使用采樣數據的方法轉變到以從事國際集裝箱艙位交易電商平臺和信息化系統上沉淀的運價信息為基礎,運用信息集成技術整合多個平臺和系統的運價數據,為集裝箱運價指數的編制提供實時的、海量的、真實成交的運價信息[23]。
2.1 運價信息集成模型的基本框架
集裝箱運價指數編制的運價數據分布在處于異構環境中的不同航運電商平臺或系統上,所以運價數據必然是異構的,需要找到一種有效的方法,根據集裝箱運價指數編制的要求對運價這些數字資源進行整合,數據的整合不但要遵循完整性、針對性和動態性等原則[24],且整合后的結果能根據指數編制的模型進行組織和序化,能夠針對指數分析的需求進一步進行多維度、多粒度融合和分析[25]。編制集裝箱運價指數所需要的運價信息是歷史數據,根據集裝箱海運業務的慣例,數據采集的最高頻率為每日1次即可;為了實現運價指數編制的高效,必須實現對異構數字資源的物理集成,通過序化使得結果數據的結構統一,同時為了保證指數結果的可回溯性,必須將運價信息與原業務系統分離,本文設計的基于數據倉庫方法的數字資源整合模型如圖1所示。
其基本思想是:按照指數編制的需求,定義基于數據倉庫的目標數據模式,針對3類異構信息,通過連接或解析或提取等手段操作信息源,再依照規則庫和元數據模型對數據進行映射、抽取、清洗和轉換,然后根據目標數據模式定義的格式將數據裝載到數據倉庫中,作為指數編制和指數服務等應用程序的信息處理對象,設置中間數據作為數據裝載的寫入緩沖。
2.2 實現運價信息集成的關鍵技術
根據圖1,基于數據倉庫的運價數據整合模型要正常運轉,其實現的關鍵技術有3個方面。
1)定義數據倉庫模型
定義多維的、有冗余的數據模型,方便使用上卷、下鉆和切片等方法進行多層次多角度的分析,集裝箱運價指數編制和分析的雪花模型如圖2所示,這些信息以事實表和維表的方式存放在數據倉庫中。
2)整合異構數字資源
異構數字資源的整合首先要建立元數據庫和規則庫。事實表和維表確定元數據庫的屬性,根據指數編制的需求來確定屬性的值域、格式和描述等內容。
在預處理環節,對于不同來源的數字資源采用不同的方法,在本文的研究中,運價數據的主要來源是結構化和半結構化信息,非結構化信息主要用作本體庫和知識庫的完善和擴展;本體庫主要包含與集裝箱海運運價相關的概念以及這些概念之間的關系,隨著數據的不斷增加本體庫將不斷被完善,為了提高準確率,本體庫的更新過程需要行業專家的人工介入,本體庫為知識庫的建立和完善提供概念和關系方面的支持。
在本文的研究中,知識庫采用產生式知識表示方法,采用三元組或四元組的形式表示,根據概念、關系的不同分別采用(關系、概念1、概念2…)或(對象、屬性、值)等表示形式,如(相等、起運港、裝貨港、POL)、(出錯、20GP運價、小于0),知識庫中存放的一條一條的規則,且規則之間不能相互調用[26],在本體庫和知識庫的基礎上,建設和維護規則庫,以形成計算機可執行的指令。
本文討論的結構化數據主要針對關系型數據庫。通過ODBC與原運價數據庫建立數據連接,基于運價表或其他相關數據表創建本地數據副本;也可采用數據庫工具或編寫腳本將運價數據轉換為易于識別的數據模式(如報文等),同時針對屬性設計校驗,對存在明顯錯誤的運價數據記錄實施過濾,以提高運價數據的使用效率。
本文討論的半結構化數據特指Web信息。因運價信息分布在互聯網的各個平臺和系統上,先確定這些數字資源的獲取范圍,獲取后將Web信息存儲在臨時存儲區,然后進行解析[27]。對于以Html、XML、Json等格式存儲在臨時存儲區的運價數據,可采用兩種方式。第一種方式是將文件視為字符流,讀取運價文件的同時讀取知識庫,若文件中有字符內容與知識庫相符,采用堆棧技術,根據特殊字符判斷屬性和內容,并抽取運價內容,讀取規則庫對屬性的數據實施轉換并插入目標數據倉庫,若不相符,則根據特殊字符結合屬性和內容推測,并向用戶提示人工介入,判斷抽取或舍棄該部分數據,同時更新知識庫;第二種方式是采用文檔對象模型(DOM),將XML文件中的運價信息內容解析為文檔樹,讀取文檔樹中的子結點信息即可抽取出運價相關的屬性和值。這兩種方法在實際運用中都可調用開源的API。前者解析速度快,占用內存少,但開發較復雜,后者易于實現,但不適合大型文件的操作,也可以采用JDOM方法實現二者的結合。
Web信息獲取和集成流程如圖3所示。
流程簡要描述如下:
①根據配置好的任務定向獲取運價Web信息,策略為先廣度再深度,直到指定的Web信息源獲取完成;
②以文件形式存儲運價Web信息至臨時存儲區;
③讀取元數據庫、轉換規則庫和知識庫;
④采用相應的方法解析Web信息并抽取需要的運價相關信息以數據倉庫的方式存儲;
⑤錯誤日志在行業專家的介入下更新知識庫和規則庫。
3)處理增量信息
必須設置周期性觸發的定時任務以獲取增量運價信息。對于結構化數據,定時任務自動掃描預定的所有數據庫,若運價數據庫中有Creattime屬性,則直接采用時間戳判斷增量數據,若無時間戳或無法獲取到時間戳字段,則利用數據庫主鍵值判斷新增運價信息,對于分布式數據庫(如RAC),數據庫主鍵可能產生順序混亂而導致增量運價數據無法完整采集的情況,則采取數據對比判斷的方法,根據數據對比后的結果調用任務(Job),實施增量更新。
運價采集程序讀取目標URL,對比URL模式表,如可變化參數部分的內容與目標庫中已有的URL完全一致,則判斷該Web為已存在信息,則放棄,反之則判斷其為增量運價信息;若URL是靜態的,但運價信息持續更新,則提取Homepage或者Startpage中輸入下拉菜單列表中的內容,針對這些內容進行深度和廣度遍歷,獲取所有運價Web,將獲取的信息輸入已定義好的Hash表達式計算得新獲取Web信息的Hash值,將結果與目標庫中已有的URL的Hash值對比,值相同,則舍棄,反之則判斷其為增量運價信息。
非結構化信息通常以文件形式存儲在既定的目錄中,定時任務掃描文件根目錄,按照文件系統的規則確定新文件,只讀取和發送新文件。
3 實證研究
3.1 數據來源與處理
使用某市集裝箱艙位訂艙平臺的后臺運價數據庫信息與某幾個集裝箱艙位訂艙網站的Web運價信息對本文提出的數字資源整合模型進行檢驗。其中該訂艙平臺運價數據庫(如圖4所示)共包含379 314條運價信息,包括起運港、中轉港、目的港、船公司、貨代公司、發布日期、有效日期(有效期起和有效期止)和各箱型運價(4種箱型:20GP、40GP、40HC和45HQ)等13個屬性字段;配置Web信息獲取任務,從多個網站獲取運價信息,各個網站運價數據的屬性都不盡相同,樣例見圖2;在行業專家的協助下建立知識庫和轉換規則庫,經過數據預處理之后,利用數字資源整合模型對這些數據實施抽取、轉換,最后將數據存儲在數據倉庫中,整合后的數據倉庫樣例見圖6。
3.2 數字資源整合的效果
將結構化數據、半結構化數據以及非結構化數據按照上述模型進行整合,作為集裝箱運價指數編制的基礎信息,指數編制系統根據實際業務情況執行數據清洗和運算之后,得出運價指數結果,如圖7所示;指數分析系統從不同的維度和粒度進行數據挖掘,以支撐指數報告等其他服務。
4 結 語
在我國,數字資源整合研究較為關注醫學、圖書館、檔案和博物館等領域[28],在物流領域,國外有學者探討了在供應鏈中生產信息整合對企業發展的作用[29],而在針對航運運價指數領域中,大多數學者進行的是航運運價指數編制模型和應用層面的研究,很少涉及用于編制航運運價指數的基礎信息來源和信息集成的研究。本文從大數據背景出發,面向集裝箱運價指數編制的需要,設計數字資源整合模型,探討其原理和實現技術,并進行了實證研究,結果說明將分散在各航運電商平臺和系統上的運價通過數字資源整合作為集裝箱運價指數編制的可行性,今后研究的重點在于進一步完善針對半結構和非結構化數據的集成模型和算法,以提高其準確度、自動化程度和集成效率。
參考文獻
[1]邢榮華,朱玉珍,韓依辰,等.面向高校利用者的數字資源整合系統設計[J].現代情報,2017,37(2):68-74.
[2]馬文峰.數字資源整合研究[J].中國圖書館學報,2002,28(4):63-66.
[3]趙建平.數字信息資源整合方式比較研究[J].情報科學,2008,26(12):1787-1791.
[4]毛玉萃.試論企業電子商務與企業內信息系統的整合[J].管理信息系統,2001,(5):43-45.
[5]謝寶義.高校圖書館數字資源整合模式研究與實踐——以石家莊鐵道大學圖書館為例[J].圖書館建設,2011,(2):33-35.
[6]張巧娜.海峽兩岸高校圖書館數字資源整合的比較研究[J].圖書情報工作,2012,56(19):43-47.
[7]李紅霞.圖書館館藏數字資源整合方案研究[J].現代情報,2006,26(8):144-145.
[8]趙榮.淺談圖書館服務工作如何應對數字化閱讀的挑戰[J].圖書館工作與研究,2011,(7):99-101.
[9]郝欣,劉英濤.基于本體集成的數字資源整合研究[J].圖書館學研究,2011,(20):55-59.
[10]崔偉,徐愷英,王寧.基于知識鏈的數字資源整合研究[J].圖書館學研究,2010,(15):32-35.
[11]袁村平.圖書館與出版企業數字資源共享影響因素分析[D].湘潭:湘潭大學,2013.
[12]楊晨.基于Web Services的高職院校教務平臺的設計與實現[D].成都:電子科技大學,2014.
[13]邱均平,王菲菲.基于共現與耦合的館藏文獻資源深度聚合研究探析[J].中國圖書館學報,2013,39(3):25-33.
[14]陳海敏.異構信息集成系統研究[J].情報科學,2008,(12):1902-1907.
[15]JM Smith,PA Bernstein,U Dayal.Multibase:Integrating Heterogeneous Distributed Database Systems…-American Federation of Information Processing Societies:National Computer Conference,1981:487-499.
[16]W H Inmon.Building the Data Warehouse.Boston:QED Technical Publishing Group,1992
[17]谷巖,馮華.利用數據倉庫技術解決異構數據庫的集成問題[J].計算機應用與軟件,2005,(6):24-26.
[18]Wiederhold G.Mediators in the Architecture of Future Information Systems[J].IEEE Computer,1992,25(3):38-49.
[19]D Florescu,A Levy,A Mendelzon.Database Techniques for the World Wide Web:A Survey[J].SIGMOD,1998.
[20]陳躍國,王京春.數據集成綜述[J].計算機科學,2004,(5):48-51.
[21]周甫賓.基于EDI的集裝箱運價指數生成與技術分析[J].中國航海,2006,(3):82-86.
[22]Zhao Yifei,Zhang Dali,Tatsuo Yanagita.World Conference on Transport Research WCTR 2016:Container Liner Freight Index Based on Data from E-booking Platforms:Shanghai,2016:10-15.
[23]付東方,趙一飛.集裝箱運價指數數據源及算法分析[J].大連海事大學學報,2015,(3):87-92.
[24]馬大川,楊紅平.信息資源的集成整合研究[J].中國圖書館學報,2004,(3):36-40.
[25]劉平峰,章佩璐,張軍,等.面向主題的Web信息融合模型[J].圖書情報工作,2011,(8):40-43.
[26]徐寶祥,葉培華.知識表示的方法研究[J].情報科學,2007,(5):690-694.
[27]孟小峰.Web信息集成技術研究[J].計算機應用與軟件,2003,(11):32-36,63.
[28]羅書練,鄭萍,陳志強.加強數字資源的整合 提供良好信息服務[J].醫學信息:上旬刊,2005,18(8):940-941.
[29]Devaraj S,Krajewski L,Wei J C.Impact of eBusiness Technologies on Operational Performance:The Role of Production Information Integration in the Supply Chain[J].Journal of Operations Management,2007,25(6):1199-1216.
(責任編輯:孫國雷)