張興旺 鄭聰



摘 要:視覺大數據資源作為大數據的重要組成部分,其價值產生機理與轉換規律具有高度的領域依賴性。文章從數字圖書館移動視覺搜索引擎的領域依賴性分析入手,運用模塊化設計思想對其業務流程進行了分析,在此基礎上,提出了一種領域導向的、自適應的、可演化的數字圖書館移動視覺搜索引擎。最后,分析了該引擎的各功能模塊,并對該引擎的自適應性、可演化等特征進行了探討。
關鍵詞:移動視覺搜索;數字圖書館;搜索引擎;領域導向
中圖分類號: G254.9 文獻標識碼: A DOI:10.11968/tsyqb.1003-6938.2016092
Abstract As an important part of big data, visual big data resources have a high degree of field dependence on the mechanism and the law of the conversion. This article from the digital library mobile visual search engine field dependence analysis, using the modular design of the business process, based on this, puts forward the adaptive evolution of digital library can be a domain oriented, and mobile visual search engine. Finally, the function modules of the engine are analyzed, and the characteristics of the adaptive and the evolution of the engine are discussed.
Key words mobile visual search; digital library; search engine; field oriented
1 引言
隨著互聯網和信息檢索技術的飛速發展,文本、圖像和視頻等不同類型的視覺資源及關聯信息(如評論、描述、用戶行為等信息)更加緊密的融合起來,以一種全新的形式來描述視覺資源之間的語義、主題和事件,并逐漸成為各類數字圖書館重要的信息載體及各種信息搜索引擎、系統與平臺的重點處理對象。據IDC于2012年發布的報告顯示預計到2020年,全球數據總量將超過40ZB(約4萬億GB),其中75%來自于互聯網環境,數據類型主要是文本、圖像與音視頻等。面對如此龐大的視覺資源,如何對其進行有效的組織、描述、表達與處理,使用戶能夠便捷地找到最有價值的信息,自然就成為信息檢索、數字圖書館等領域亟待解決的前沿問題。
視覺資源的價值發現需求與語義檢索、移動互聯網技術的跨界融合有效推動了移動視覺搜索理論、模型與技術的發展。而移動智能終端、移動互聯網及移動應用等軟硬件條件的迅速發展,也為視覺搜索從PC端向移動終端發展提供了軟硬件支持[1]。同時,各類相關技術趨于成熟,也為數字圖書館移動視覺搜索提供了全方面的技術支持。一是FRBR、RDA與BIBFRAME等可為視覺大數據資源語義本體概念模型的構建提供支持;二是鏈接開放數據(Linking Open Data,LOD)、關聯數據(Linking Data)、資源描述框架(Resource Description Framework,RDF)等可為視覺大數據資源的組織、描述與表達提供支持;三是OpenCV、RAVL、ARToolKitPlus與CImg等開源計算機視覺庫可為視覺資源的分析與處理提供支持;四是Web 3.0、移動互聯網、語義檢索與JAVA等可為移動視覺搜索平臺建設提供支持;五是現有的Google知識圖譜、百度識圖、愛奇藝大腦與淘寶拍立淘等成功案例可提供經驗支持。而本文的研究目的是結合已有相關理論、技術與應用成果,提出一種面向視覺大數據資源的自適應的、可演化的數字圖書館移動視覺搜索引擎。
2 數字圖書館移動視覺搜索的領域依賴性與業務分析
2.1 數字圖書館移動視覺搜索的領域依賴性分析
2015年9月,國務院印發了《促進大數據發展行動綱要》,目的是要提升“領域數據資源的獲取和利用能力”、實現“領域信息資源的匯聚整合和關聯應用”,“推動跨領域、跨行業的數據融合和協同創新”[3]。2016年7月,國家自科基金委發布的重大研究計劃《大數據驅動的管理與決策研究》提出,“大數據價值的產生機理和轉換規律具有高度的應用領域依賴性”[4]。2015年7月,國家社科規劃辦將“面向大數據的數字圖書館移動視覺搜索機制及其應用模式研究”列入重大招標課題[5]。視覺大數據資源作為大數據重要組成部分,其價值產生機理與轉換規律也必然具有高度的應用領域依賴性。
移動視覺搜索概念源于2009年12月斯坦福大學主辦的第一屆Mobile Visual Search研討會,在過去的七年里,其理論與應用研究盡管有了較大發展,但受限于移動互聯網環境和技術、視覺處理技術等影響,現有相關研究還具有一定局限性,已有研究重點還是集中在視覺資源處理技術[6-7]、模式探討[8-9]、機制建設[10]、架構分析[11]與標準化問題分析[12]等方面,而忽略了數字圖書館本身的領域特性分析、移動視覺搜索引擎研究與視覺知識庫構建分析等內容的研究。與大數據、互聯網環境中信息資源的泛在化、非結構化或半結構化存在形式不同,各類數字圖書館均有著較強的專業性、領域性和可拓展性,且其在視覺大數據資源的語義組織、描述與表達形式等方面有著先天優勢,能夠較好的滿足視覺大數據資源的領域依賴性處理需求。