湖州師范學院信息工程學院 陳靜雯 成新民 王少陽 周陽 費志高
針對數字化檔案圖像檢索存在的檢索效率差、耗費大量存儲空間等問題,本文以ResNet50 作為主干網絡,將最后一層全連接層替換為哈希層,以端到端的方式輸出檔案圖像的二進制哈希碼,利用漢明距離來衡量圖像間的相似度,有效提高了數字化檔案圖像的檢索效率并降低了所需的存儲空間,為深度哈希方法應用至數字化檔案圖像檢索中提供了一定的理論支持。
隨著數碼照片檔案的不斷普及,數字化檔案已經逐漸取代紙質檔案,成為檔案存儲的主要形式。數字化檔案是指借助文字識別技術、計算機技術以及網絡存儲技術,將傳統的紙質、聲像等類型的檔案轉化為數字形式存儲在數據庫中。檔案的數字化,滿足了當代社會網絡信息的傳輸需求。不僅如此,在檔案信息數字化情況下,人們檢索檔案信息更加方便,能夠實現檔案資源的共享[1]。圖像是記錄檔案的一種重要形式,它鮮活而準確地記錄了事件的發生。理論上,使用圖片來檢索檔案照片不會存在由于標注不準確而造成檢索結果丟失或錯誤,可以大大地緩解館員負擔,便于發現照片檔案間的關聯與網絡組織,有助于利用好重復的信息資源[2]。
數字圖像檔案面臨的一大難題就是如何在圖像數據庫中搜索到目標圖像。傳統的數字圖像檔案一般是通過人工標注的方法,對圖像上的事件、地點、人物等信息標注后進行檢索,這種檢索方法不僅耗時費力,由于人工標注存在的語義偏差,檢索出的圖像也會存在很大的誤差。面對檔案圖像的急速增長,現有的圖像檢索方式已經不足以滿足用戶需求,將基于深度哈希的圖像檢索技術應用于檔案管理,以解決檔案圖像檢索存在的語義偏差問題、提高檔案檢索效率,就顯得日趨重要。深度哈希由于其強大的學習能力和良好的可移植性而被應用于數據檢索[3]。其目的是通過將高維圖像數據轉換為較為緊湊的低維二進制碼,從而在很少的存儲容量內保留更豐富的原始圖像的信息,故目前常將深度哈希方法引入圖像檢索中,達到節省存儲空間并且有效地提升檢索效率的目的。本文基于深度哈希方法的特點,利用端到端的網絡框架生成圖像哈希碼用于圖像檢索,實現一個檔案圖像檢索系統,解決數字圖像檔案的檢索問題。
隨著現代信息化技術的發展,檔案數字化成為當下檔案事業規劃的重中之重。然而,當下大多檔案管理系統仍是以關鍵字作為檔案圖像檢索的主要渠道,這種方法并不能精確地找到目標圖像,給檔案管理帶來了一系列困難,并且容易導致檔案圖像的重復上傳,從而浪費了大量的存儲空間。因此,基于內容的圖像檢索在檔案圖像管理中的應用就顯得尤為重要。
早期所采用的檔案圖像檢索方法大多都是基于文本的圖像檢索,隨著深度學習的發展,利用圖像深層特征來進行圖像檢索并應用于檔案圖像管理中成為了當下檔案數字化發展的流行趨勢。馬雙雙等人[4]提到,檔案工作數字化轉型是適應數字中國發展戰略、提高檔案治理效能、實現檔案事業高質量發展的必然選擇和必經之路。江媛媛[2]等人從多個方面介紹了圖像檢索技術應用在檔案管理中的優越性。任夏荔[5]等人提出了一種基于深度學習特征的主成分分析的圖像檢索方法。趙學敏等人[6]結合照片檔案管理,構建了一個基于Keras 深度學習框架實現,使用深度學習模型為VGG16 網絡模型,使用局部敏感哈希算法進行相似度匹配的照片檔案管理系統。田思等人[7]探討了人工智能技術在檔案圖像檢索領域應用的必要性。李娟等人[8]提出了一種自動標注的檔案檢索方法,提升了數字圖像資源的利用率。
綜上所述,檔案數字化是檔案事業發展的必然趨勢,檔案圖像檢索是檔案管理中的重要環節。而早期檔案圖像檢索方法大多是基于文本的圖像檢索,隨著基于內容的圖像檢索方法的提出,開始采用淺層圖像特征進行匹配,但這種方法未能準確識別出圖像中的高級語義特征,并且生成的高維特征占用較大的存儲空間,從而導致檢索效率低和準確率差等問題。故本文將深度哈希方法應用至檔案圖像檢索中,一方面,深度神經網絡用于提取圖像特征以進行有效的內容表示;另一方面,使用哈希碼代替圖像高維特征能夠有效降低所需存儲空間并進行快速相似度計算。
深度哈希方法將深度學習與哈希技術相結合,通過深度神經網絡獲取圖像的特征表示,進而得到圖像哈希碼。現有深度哈希方法可分為數據相關的和數據無關的哈希方法。數據無關的深度哈希方法中,圖像哈希碼是通過隨機矩陣映射而來。如局部敏感哈希算法(Locality Sensitive Hashing,LSH)[9]通過隨機映射得到哈希碼。但這種方法通常需要較長的哈希碼來提升檢索性能,不能生成緊湊的哈希碼,導致存儲空間的浪費。而數據相關的哈希方法能夠通過訓練數據得到緊湊哈希碼,有效提升檢索效率。
數據相關的哈希方法還可進一步分為監督的哈希方法以及無監督的哈希方法。無監督的哈希方法不依賴數據標簽,僅使用圖像信息來學習哈希函數,如ITQ[10]、SH[11]以及無監督深度哈希DeepBit[12]、HashGAN[13]等,但這種方法通常由于缺少數據標簽而導致圖像語義信息的缺失,不能獲得一個良好的檢索效果。而監督的哈希方法能夠充分利用圖像數據的標簽信息,獲得比無監督哈希方法更好的效果,如HashNet[14]、DPSH[15]、DBDH[16]等都是較為典型的監督深度哈希方法。故為了有效地從檔案圖像集中檢索出目標圖像,本文將監督深度哈希方法應用至檔案圖像檢索中。
現有深度哈希網絡大多以端到端的方式生成圖像哈希碼。如圖1 所示,為使檢索的效率及準確率有所提升,本文采用ResNet50[17]網絡作為主干網絡進行特征提取工作。ResNet 網絡是一種殘差網絡,由多個殘差塊堆疊而成,以一個超深的網絡學習圖像的局部及全局特征。其中,ResNet50 網絡模型由五個部分組成,共包含了49個卷積層和1 個全連接層,第一部分為一個卷積層,第二到第五部分為殘差塊,最后一部分為全連接層。本文將最后一層全連接層替換為哈希層,以端到端的方式直接輸出圖像近似哈希碼。最后通過符號函數將其轉化為圖像哈希碼,提升圖像檢索效率。模型訓練時,損失函數同時考慮成對損失和哈希碼平衡[16],保留檔案圖像間的相似性并將+1 和-1 的出現概率分別保持在50%。具體過程描述如下:

圖1 基于ResNet50 的深度哈希網絡結構圖Fig.1 Deep hash network structure based on ResNet50
對于圖像特征匹配,采用漢明距離衡量圖像間的相似度,具體計算過程如公式(2)、公式(3)所示:
令Oij表示bi和bj之間的內積:
則bi和bj的漢明距離為:
檔案圖像實現圖像檢索功能,給定一張圖像,希望能夠從已有檔案圖像數據庫中檢索出與之相似的圖像。為獲得較好的檢索效果,本文首先訓練深度哈希網絡模型,利用訓練好的網絡模型為檔案圖像進行特征提取以獲得圖像的近似哈希碼,然后使用符號函數將近似哈希碼映射為用于圖像檢索的哈希碼,最后進行圖像特征匹配,并利用漢明距離衡量圖像間的相似度。
本文實驗使用Python 作為編譯語言,采用pyTorch框架實現。
本文從中國檔案資訊網、浙江檔案網、湖州檔案信息網以及以歷史人物景點為關鍵詞檢索等渠道獲取公開的圖像1230 張,考慮到檔案圖像的特殊性,對獲取到的圖像進行灰度處理。之后,對圖像進行裁剪、旋轉等操作進行數據擴增得到共13530 張圖像作為檔案檢索數據集以滿足圖像檢索需求,其中檔案圖像數據集中的部分圖像如圖2 所示。

圖2 檔案數據集中部分圖像Fig.2 Part of the image in the file data set
在將檔案圖像數據集輸入到網絡模型前需要進行數據集的劃分。本文將數據集按6:3:1 的比例將數據集劃分為數據庫、訓練集和測試集。
為能夠準確提取檔案圖像的特征信息,需要對輸入網絡的圖像數據集進行預處理工作。由于本文所獲取到的圖像數據集存在著大小不一致的情況,故首先將對圖像的尺寸進行預處理工作,將它們統一處理成尺寸為224×224 大小的圖像。其次,為提高數據的表現力,對圖像進行數據標準化處理,即去均值、歸一化處理,本文采用ImageNet 數據集的均值和標準差進行標準化。
在訓練時,需要對參數進行微調。本文采用RMSProp(Root Mean Square Prop)算法對網絡進行優化,初始學習率設為5×10-5。圖像的Batch Size 設為128,權重衰減系數設為1×10-5。采用預訓練的ResNet50 作為網絡模型的主干網絡,成對損失和量化損失相結合作為模型訓練的損失函數。訓練結束后,可以得到多個訓練后的網絡模型,根據平均檢索精度(mAP)[18]等指標選擇最優模型,利用該網絡模型對檔案圖像進行特征提取。
要準確地匹配待檢索圖像與數據庫圖像的特征信息,最重要的是對檔案圖像特征的提取。利用訓練后得到的網絡模型,計算檔案圖像數據庫圖像的哈希碼,為每張圖像生成一個圖像特征向量,所有圖像特征向量構成圖像特征庫。
提取到待檢索圖像的哈希碼,與數據庫圖像的特征向量集進行對比,一一計算待檢索圖像哈希碼與數據庫圖像特征向量之間的漢明距離,得到最后的相似圖像序列。漢明距離即比較向量的每一位是否相同,即進行異或操作,求出不同位的個數,用來表示向量間的相似度。漢明距離越小,表示兩張圖像間的相似度越高。
在存儲相同數量的圖像特征時,深度學習方法生成的圖像高維特征占用30.74MB 的存儲空間。而深度哈希方法則僅占用1.97MB,有效節約圖像檢索的存儲成本。具體實現效果如圖3 所示,可以看出,深度哈希方法在檔案圖像檢索中取得了良好效果。

圖3 檔案檢索實現效果Fig.3 Implementation effect of file retrieval
傳統檔案檢索大多都是基于人工手動標注并使用關鍵字來檢索目標圖像,容易存在語義偏差而導致檢索的結果也存在著很大的誤差。故本文將深度哈希方法引入到檔案圖像檢索中,有效提取圖像特征值用于圖像檢索。基于深度哈希方法能夠以較少的存儲容量保留更豐富的原始圖像信息的特點,本文以一種端到端的方式生成檔案圖像二進制哈希碼,并利用漢明距離來衡量圖像間的相似度,得到圖像的相似序列,達到在管理檔案圖像時避免重復上傳而導致的存儲空間的浪費以及提升圖像檢索效率的目的。雖然本文所采用的數據集存在著數據樣本量小、不能完全模擬檔案圖像數據等問題,但一定程度上降低了圖像特征的存儲空間,提高了檢索速度,為深度哈希方法應用至檔案圖像檢索中提供了一定的理論支持。