999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度學習的圖像檢索系統①

2017-03-27 09:36:28胡二雷
計算機系統應用 2017年3期
關鍵詞:深度特征模型

胡二雷, 馮 瑞

?

基于深度學習的圖像檢索系統①

胡二雷1, 馮 瑞2

1(復旦大學計算機科學技術學院, 上海 201203)2(上海市智能信息處理重點實驗室上海視頻技術與系統工程研究中心, 上海 201203)

基于內容的圖像檢索系統關鍵的技術是有效圖像特征的獲取和相似度匹配策略. 在過去, 基于內容的圖像檢索系統主要使用低級的可視化特征, 無法得到滿意的檢索結果, 所以盡管在基于內容的圖像檢索上花費了很大的努力, 但是基于內容的圖像檢索依舊是計算機視覺領域中的一個挑戰. 在基于內容的圖像檢索系統中, 存在的最大的問題是“語義鴻溝”, 即機器從低級的可視化特征得到的相似性和人從高級的語義特征得到的相似性之間的不同. 傳統的基于內容的圖像檢索系統, 只是在低級的可視化特征上學習圖像的特征, 無法有效的解決“語義鴻溝”. 近些年, 深度學習技術的快速發展給我們提供了希望. 深度學習源于人工神經網絡的研究, 深度學習通過組合低級的特征形成更加抽象的高層表示屬性類別或者特征, 以發現數據的分布規律, 這是其他算法無法實現的. 受深度學習在計算機視覺、語音識別、自然語言處理、圖像與視頻分析、多媒體等諸多領域取得巨大成功的啟發, 本文將深度學習技術用于基于內容的圖像檢索, 以解決基于內容的圖像檢索系統中的“語義鴻溝”問題.

基于內容的圖像檢索; 深度學習; 特征提取; 匹配

隨著計算機技術和多媒體技術的快速發展, 大量的數字圖像隨之產生, 在海量的圖像數據庫中如何快速找到特定的圖像就需要使用圖像檢索技術.

傳統的基于內容的圖像檢索系統主要使用低級的視覺特征, 例如顏色、形狀、紋理等, 使用的分類器大多是淺層分類器如svm, 這些系統存在一個最大的問題是無法處理語義鴻溝[1]的問題(即機器從低級的可視化特征得到的相似性和人從高級的語義特征得到的相似性之間的不同). 所以, 盡管在圖像檢索這個問題上提出了一系列技術, 且取得了一定的成果, 但是由于語義鴻溝[1]的存在, 圖像檢索依舊是一個具有挑戰性的難題, 從更高層次分析, 基于圖像內容的檢索屬于人工智能領域的問題, 即有沒有機器可以像人一樣識別圖像的內容. 在現階段的所有的技術中, 機器學習技術是目前解決語言鴻溝這個問題最有前景的技術.

在機器學習中, 深度學習技術近些年得到了快速的發展, 是近十年來人工智能領域取得重要突破的技術. 深度學習技術在計算機視覺、語音識別、自然語言處理、圖像與視頻分析多媒體等方面取得了巨大的成功.

本文嘗試著將深度學習用于圖像檢索, 以判斷深度學習技術能否解決語義鴻溝以及解決的程度. 目前, 國內外使用深度學習技術處理基于內容的圖像檢索才剛剛起步, 還處于快速發展階段.

在圖像檢索系統中, 往往匹配的時間消耗比較大. 對于這個問題, 文中, 我們將每幅圖像對應的(實驗中是20維)維特征向量映射到個數據庫表, 用這種方式來建立索引, 匹配的時候根據用例圖像維中最大值的下標index來確定圖像的類別(softmax分類器得到的維特征向量的每一維代表屬于這個類別的概率,維相加的結果為1), 之后從對應的數據表tables_中檢索, 從實驗結果來看, 利用這種方式可以避免掃描整個檢索庫, 從而可以成倍的提高檢索的效率. 在圖像檢索系統中, 我們主要解決了下面3個問題:

(1) 如何訓練一個好的模型, 將用例圖像分類到正確的類別;

(2) 如何選擇和建立索引, 即確定每個圖像的特征向量;

(3) 如何選擇距離匹配算法, 使得相似的圖像之間的距離盡可能的小, 不同圖像之間的距離盡可能的大.

為了解決上面的問題, 我們使用了開源的深度學習框架Caffe[11], 實驗中, 訓練模型主要使用的數據集是ImageNet[5], 訓練了20個類別, 主要是巴士、擺鐘、包菜、杯子、菠蘿、菜花、草垛、草莓、茶壺、橙子、電視、獨輪車、帆船、鋼琴、海岸、紅酒、無花果、雪山、汽車、珊瑚.

1 相關的工作

我們的工作涉及到深度學習、深度學習框架Caffe、基于內容的圖像檢索、距離度量學習, 在這一節, 主要是介紹這幾個工作.

1.1 深度學習

深度學習[2]是機器學習的一個分支, 深度學習的概念源于人工神經網絡的研究. 含有隱層的多層感知器就是一種深度學習結構. 深度學習通過組合低級特征形成更加抽象的高層表示屬性類別或者特征, 以發現數據的分布特征. 深度學習是多個研究領域交差的產物, 包括神經網絡、圖形化建模、優化、模式識別和信號處理等.

深度學習之所以能在近些年如此快速的發展起來, 主要得益于下面兩個原因:

(1) 計算機硬件的迅速發展提供了強大的計算能力, 使得訓練大規模的神經網絡成為可能, 如高性能的gpu可以集成上千個核.

(2) 海量的被標記的數據的應用緩解了訓練過擬合的問題, 在深度學習中, 數據是“引擎”, Imagenet有上百萬的標注數據.

實驗中我們使用的Alexnet[4]是卷積神經網絡(CNN), 它是諸多深度學習技術的一種. Alexnet神經網絡有8層, 前5層為卷積層, 后3層為全連接層, 其中在第1、2、5卷積層的后面是pooling層. 卷積層通過參數共享來減少神經網絡層之間的參數數量. Pooling層子采樣卷積層的輸出層, 減少下一層輸入數據的大小, 一般采用2*2的窗口來做maxpooling或者avgpooling運算, 這樣可以減少75%的數據.

1.2 深度學習框架Caffe

深度學習框架Caffe是按照Alexnet模型設計的, Alexnet在2012年ImageNet圖像分類比賽中取得了第一名, 它是一種深度卷積神經網絡(CNN).

Caffe是Alexnet的具體實現, Caffe用C++語言編寫, 運算速度快, 模型化好, 有開源社區支持, 在學術界和工業界有大量的用戶. Caffe一共有8層神經網絡, 前面的5層是卷積層, 后面3層是全連接層, 網絡結構如圖1所示.

圖1 Caffe網絡結構

從圖1可以看出, Caffe的第1、2、5卷積層后面是pooling層, 最后一層是softmax層, 也是輸出層.

圖2到圖6分別對應Caffe的前兩層和后三層.

圖 2 第一個卷積層網絡結構

圖 3 第二個卷積層網絡結構

圖 4 第六層全連接層網絡結構

圖 5 第七層全連接層網絡結構

由圖6可知, 經過運算, Caffe最后將圖像變換為有語義特征的維向量. 在下一章的圖像檢索模塊正是使用的該特征向量來建立索引和做匹配計算的.

深度學習的方法很容易陷入過擬合的煩惱, 為了減少過擬合, 我們采用了兩種數據擴展的技巧.

一是將圖像做旋轉、格式轉換、剪切操作作為輸入訓練數據, 提高模型的魯棒性. 二是為了達到光照和顏色的不變形, 在數據集上隨機增加像素的主要成分. 實驗證明, 采用這些方法可以提高模型的魯棒性, 避免過擬合.

圖 6 第8層全連接層網絡結構

在Caffe數據層的后面是卷積層, 在第一層和第二層的后面是歸一化層(normalization)和max pooling層, 第三層、四層的后面則沒有歸一化層和max pooling層, 第五層的后面有max pooling 層. 在卷積層的后面是3個全連接層, 前面兩個全連接層含有4096個神經元, 最后一個全連接層含有的神經元的數量由訓練模型的類別數決定, 在我們實驗中, 最后一層是20個神經元. 整個神經網絡框架的參數數量大于6000萬個. 訓練出的模型就是保存的神經網絡各層之間的參數, 模型占內存大小為227M左右. 一幅圖像測試的過程就是用該圖像, 通過分割, 調用OpenCV轉化為矩陣后, 和各層網絡之間的參數做矩陣相乘運算, 最后得到一個特征向量, 其中最大值的下標就是該圖像對應的類別, 通過和原圖像的label比較就可以得到分類的正確性, 進而得到測試準確率. 由于Alexnet網絡采用了很多不尋常的技巧, 使得Alexnet網絡比其他的深度卷積網絡效果更好.

首先, 神經網絡的輸出函數是非線性的函數: 糾正線性單元(Relu), 而不是傳統的輸出函數tanh, 在采用梯度下降法的訓練方式下, 傳統的輸出函數的訓練時間比Relu方式要長, 根據Hinton的文章[12], 我們稱使用這種非線性函數的神經元為糾正線性單元(Relu), 訓練模型用Relu作為輸出單元比傳統的激活函數作為輸出單元快好幾倍. 圖7是在一個四層的卷積神經網絡上做的測試, 網絡分別使用Relu和tanh作為輸出函數, 在數據集CIFAR-10上訓練, 當達到要求的25%的訓練錯誤率時, Relu比tanh快6倍, 即使用Relu的神經網絡的學習速度更快.

第二, 采用局部響應歸一化, 提高模型的泛化能力. 同時局部相應歸一化可以降低模型的識別錯誤率, 根據Alex的實驗, 采用這種方法可以分別降低Top1和Top5的錯誤率為1.4%和1.2%, 在CIFAR-10上也有2%的提升.

第三, 采用max pooling, max pooling可以提高特征傳輸的不變性, 將不必要的特征去掉, 降低數據的維度, Caffe中使用的是2*2的核, 這樣可以減少75%的數據, 同時保留最主要的特征數據, 降低了過擬合的風險.

第四, 采用dropout, 2012年, Hinton在文獻[9]里面提出, 訓練的時候, 讓一半的特征檢測器停止工作可以提高模型的泛化能力, Hinton稱這種方法為dropout.

Hinton認為[9], 通過阻止某些特征的協同作用能夠緩解模型的過擬合, 在每次迭代的時候, 每個神經元有一半的概率不發揮作用, 在下次迭代的時候又可能發揮作用, 這樣可以提高模型的泛化能力, 從而降低過擬合.

圖7 Relu 和tanh訓練迭代次數比較曲線

1.3基于內容的圖像檢索

基于內容的圖像檢索, 即CBIR(Content-Based Image Retrieval)是近十年計算機視覺研究最多的領域之一, CBIR是通過分析圖像的可視化特征, 使用近似匹配算法, 從檢索庫中檢索出一組最相似的圖像, CBIR從本質上講是一種近似匹配技術, 它融合了計算機視覺、圖像處理、圖像理解和數據庫等多個領域的技術成果.

在過去, CBIR系統主要使用的可視化特征為低級特征, 有全局的顏色特征、邊緣特征、紋理特征、GIST和CENTRIST, 和局部的特征, 如使用局部描述子的(SIFT, SURF)的詞袋模型(Bow). 傳統的CBIR系統使用的距離匹配算法是固定的, 主要是歐幾里得距離公式和相似公式.

基于深度學習的CBIR系統, 使用深度學習提取的特征作為索引, 實驗中, 我們使用的是Alexnet, 共有8層神經網絡, 5個卷積層, 3個全連接層, 最后三層提取的是圖像的高級特征, 前面5個卷積層提取的是圖像的低級可視化特征, 實驗中, 我們使用的是最后一層作為圖像的特征表示, Ji Wan[1]等人的工作表明了倒數后兩層作為圖像的特征檢索的準確率最好, 在Alexnet中, 最后一層為softmax層, softmax是logistic回歸模型在多分類問題上的推廣, 數學表達形式如公式(1)所示, 它計算出一幅圖像屬于每個類別的概率, 實驗中我們訓練的模型有20個類別, 所以最后一層的維度為20維, 20維的和為1.

1.4 度量學習

在機器學習中, 很多算法都依賴于計算兩個樣本點之間的距離, 在圖像檢索中, 度量學習算法(Distance Metric Learning)已經被廣泛的研究. 圖像檢索的性能不僅僅單獨依賴于所提取的圖像特征, 圖像檢索很關鍵的技術還在于所采用的相似度量函數. 相似度量函數直接決定圖像檢索的結果和檢索的效率. 基于內容的圖像檢索與基于文本的圖像檢索不同, 基于圖像內容的圖像檢索主要通過計算查詢示例圖像和檢索庫圖像之間的視覺特征的相似度來決定檢索的結果. 基于深度學習的圖像檢索, 在提取好圖像的特征后, 形成特征向量, 之后基于特征向量來表征對應的圖像. 在圖像檢索中, 判斷圖像之間是否相似主要是通過比較兩幅圖像的特征向量是否相似(距離最小)來進行的, 即把圖像特征向量之間的距離比較看做圖像相似度的比較, 顯然, 一個好的特征向量和合適的距離度量學習算法是圖像檢索的關鍵.

2 系統概述

基于深度學習的圖像檢索系統, 主要使用的技術有Python的Web框架Django, 深度學習框架Caffe, 數據庫Mysql等技術.

2.1 計算機系統環境

由于基于深度學習的圖像檢索系統使用深度學習技術, 對運算速度的要求比較高, 所以要求計算機有高性能的GPU, 一般使用的是Tesla K20 或者更高性能的K40.

其他的要求如下:

系統: Ubuntu系統12.04或者14.04

CPU: Intel i3處理器

硬盤: 200G以上

2.2 軟件開發環境

本系統使用Eclipse作為開發環境, 使用的Web服務器是Python版本的Django作為快速開發工具. Caffe使用的編程語言是C++(90%)和Python(10%), 提供Python和MATLAB接口, 我們使用的是Python接口, 使用的編程語言主要是Python, HTML, JavaScript.

系統需要安裝的軟件如下:

Cuda驅動安裝

Java安裝

Caffe使用的相關軟件的安裝

Caffe安裝

Mysql安裝

Django安裝

2.3 系統的功能和性能指標

2.3.1系統的功能要求

①準確、快速的檢索;

②提供友好的訓練模型接口(用戶只要按照網頁上的提示信息操作就可以訓練出可靠的模型);

③全天24小時穩定工作;

④該平臺基于開放的B/S 架構, 具有良好的人機交互與信息展示功能;

⑤系統的基本信息維護功能, 主要是在系統停止工作時, 恢復系統.

2.3.2系統的性能要求

①系統可靠性: 達到24小時×7天穩定運行;

②檢索的準確率≥80%;

③系統響應時間<1s;

④每秒檢索的圖像數量>10000.

2.4 系統的模塊組成

本系統分為四個模塊: 圖像檢索模塊、圖像檢索庫建立模塊、模型訓練模塊, 系統維護模塊. 系統總體結構如圖8所示.

圖8 圖像檢索系統結構

2.4.1圖像檢索模塊

提取樣例圖像特征, 與檢索庫中的圖像的特征向量逐一匹配, 得到檢索庫中每幅圖像與樣例圖像的距離, 然后從小到大排序, 并按照用戶的顯示要求, 顯示最靠前的結果.

圖像檢索的系統框圖如圖9所示.

圖9 圖像檢索模塊系統框圖

步驟(2)為提取樣例圖像特征, 提取的方法采用深度神經網絡, 經過各層網絡的運算, 最后通過輸出層得到特征向量, 在本文中得到的特征向量是20維向量. 步驟(4)為匹配算法, 本文中使用的是歐幾里得距離:

步驟(5)為逐一與檢索庫中的圖像匹配, 最后對匹配的結果(即距離)排序, 并返回一組最相似的結果.

圖像檢索的工作流程如圖10所示.

圖10 圖像檢索工作流程

用戶在系統界面上單擊“選擇文件”按鈕, 輸入返回結果數量(例如返回最相似的100張圖像), 之后點擊提交(在檢索操作之前, 用戶要建立自己的索引庫, 在圖像檢索預處理界面, 提交文件夾即可構建好索引庫), Caffe服務器經過提取待檢測圖像的特征向量, 匹配索引庫, 最后返回一組最相似的結果.

2.4.2圖像檢索庫建立模塊

檢索庫是圖像檢索系統中, 待檢測圖像所比較的對象, 檢索庫主要存儲每張圖像經過神經網絡運算得到的特征向量.

相似度計算公式:

相似度= 1/(距離+1)

距離計算公式:

(是特征向量的維度)

這樣, 當兩幅圖像的距離為0時, 相似度為100%, 距離越大, 相似度越低.

從上面可以看出, 影響相似度計算最大的因素是圖像對應的特征向量, 歸根結底是訓練的模型是否準確, 如果模型準確, 那么相似的兩個圖像, 在同一維度的值差距(1-1)2就越小, 計算總的距離就越小, 這樣得到的結果就越準確.

圖像檢索庫建立分為兩個步驟:

(1) 提取圖像特征, 如圖11所示. 神經網絡框架是Caffe, 在上一節有詳細介紹.

圖11 提取圖像特征向量

(2) 存入數據庫, 在這一步使用了一個技巧, 由于深度學習框架Caffe最后一層是softmax層, 得到的是屬于每一個類別的概率, 所以, 我們根據得到的特征向量的最大一維的下標(index)建立數據表tables_i, 這樣數據庫建立了個數據表,對應特征向量的維數. 這樣, 檢索的時候, 我們根據樣例圖像的特征向量最大值對應的下標檢索對應的數據表tables_i, 這樣可以避免掃描整個檢索庫, 時間效率會提高約倍. 存入數據庫的架構如圖12所示.

圖12 特征向量存入數據庫

2.4.3模型訓練模塊

用戶輸入一組圖像(每個類別圖像的數量至少大于100張, 類別數大于1類), 訓練出一個對應的模型.

模型訓練影響的因素: 模型訓練就是訓練出一個針對訓練圖像的模型, 最后得到的是一個二進制文件, 里面存儲的是神經網絡各層間的權重參數, 大小約為227M大小.

在模型訓練中, 影響的主要因素是訓練模型時間比較久, 這主要是因為神經網絡的參數巨大(約有6500萬參數), 每層之間的矩陣乘積的操作比較耗時(矩陣乘積運算大約做了上億次的乘積運算), forward和backward在每一層都做矩陣的乘積操作, 所以機器的性能對訓練時間的影響比較明顯, 實驗中, 我們使用GPU并行運算來加速, 所以, GPU的性能是關鍵, 我們搭建的服務器使用的是Tesla K20c的GPU, Tesla K20c 速度大約是Quadro K2100m的700倍, 在性能曲線上的顯示是Tesla K20c的機器的曲線的斜率更小. 圖13是比較的Quadro K2100m 和 Tesla K20c的性能曲線.

圖13 Tesla K20c和Quadro K2100m訓練時間對比圖

圖14 訓練模型架構

圖15 訓練模型操作流程

模型訓練的框架如圖14所示, 由四個部分組成, 瀏覽器、Web服務器、Caffe服務器、數據庫支持. Web服務器將待訓練的圖像發送到Caffe服務器, Caffe服務器經過圖像預處理, 調整參數, 生成訓練數據和驗證數據等操作后, 調用Caffe訓練模型接口開始迭代訓練, 最后將訓練的模型保存到數據庫, 并反饋訓練的信息到客戶端, 告訴用戶訓練的進度.

模型訓練操作步驟如圖15所示. 用戶在系統界面上提交待訓練的數據, 點擊提交, Web服務器將待訓練數據發送到Caffe服務器開始訓練, Caffe服務器實時反饋訓練的進度到客戶機, 告訴用戶訓練的進度, 最后訓練結束后, Caffe服務器返回訓練好的模型的基本信息(訓練人、訓練時間、迭代次數、集內正確率等信息)到客戶端頁面.

2.4.4系統維護模塊

系統里面重要的數據庫, 如模型庫、檢索庫等, 還有服務器訓練的性能(即訓練的迭代次數和時間的關系)等信息, 需要提供接口供用戶使用.

系統維護模塊的結構如圖16所示, 主要有三個部分, 一是索引庫的清空和重建, 二是模型的刪除, 三是得到系統服務器的訓練性能曲線.

圖16 系統信息維護結構

3 實驗

對于圖像檢索系統, 需要建立一個龐大的圖像數據庫, 建立索引庫主要有兩種方式, 在線方式和離線方式, 一般的圖像檢索系統在索引庫的建立上使用的是離線的方式, 因為這一部分對時間的要求不高, 在特征匹配上使用的是在線計算方式, 由于這一部分和用戶的交互密切相關, 所以對時間的要求和用戶體驗的要求都很高. 而我們整個系統使用的都是在線的方式, 這也是我們系統的一大亮點. 我們使用Python的Django Web框架技術和Caffe的Python接口, 搭建了一個圖像檢索系統, 可以在線實時檢索用戶輸入的用例圖像, 同時隨時可以根據用戶的輸入擴大索引庫, 而且在用戶體驗和實時性上, 我們都進行了優化, 使得系統運行非常流暢.

3.1 實驗平臺的搭建

我們使用的服務器是有GPU Tesla K20c的Dell工作站, 服務器訓練一個有20000張訓練素材的模型(fine-tune的方式)大概需要3.5小時的時間. 系統搭建的步驟如下:

①安裝部署Caffe, 并簡單測試;

②安裝部署Djando和數據庫;

③基于前臺和后臺開發程序.

3.2 結果

在模型訓練上, 我們使用的訓練集大小為20000張圖像, 驗證集大小為6000張圖像, 得到的模型信息如表1.

為了評估訓練模型是否可以用于圖像檢索, 我們使用在圖像檢索中廣泛使用的特定范圍的準確率(P@K)來測試, 實驗中, 我們的檢索庫大小為20萬張圖像. 測試結果如表2.

表1 模型信息

表2 測試結果

在時間性能上, 由于我們將檢索庫按照每幅圖像的特征向量最大值的下標映射到了K個表中, 所以, 與其他實驗相比, 我們的檢索效率提高了接近K倍的速度.

下面是圖像檢索排在最靠前的結果: 檢索前十張的平均相似度為80%以上.

由表2可以看出來, 檢索一張的準確率和模型分類的準確率數值相近, 因為, 檢索依據的距離(歐幾里得距離)主要由樣例圖像特征向量的最大值決定, 該最大值即為該圖像分類到該維代表類別的概率, 所以, 檢索一張的準確率和模型的分類準確率相近.

圖17 實驗結果對比圖

4 總結

在本文中, 我們只使用了8層神經網絡, 訓練的樣本數是每個類別1000張, 從測試的結果可以看出: (1)深度學習可以從原始的圖像中學習到高層的語義特征; (2)訓練的模型具有很好的魯棒性, 對于網上下載的圖像, 檢索的結果準確率都很高(大于80%); (3)深度學習是唯一的端到端的系統, 中間不需要人為的參與, 不需要先驗知識, 特別適合處理海量數據. 從現階段看, 深度學習技術是處理語義鴻溝最有前途的技術, 同時, 我們也發現, 深度學習在圖像檢索中的發展方興未艾, 未來有著巨大的空間, 在圖像檢索中正趨向使用更大更深的網絡結構, Alexnet只包含了5個卷積層和3個全連接層, 而GoogleNet[10]的網絡結構超過了20層, 更深的網絡結構使得反向傳播更加困難. 與此同時訓練數據的規模也在迅速增加. 這些都迫切需要研究新的算法和開發新的并行計算系統以更加有效的利用大數據訓練更深的模型.

1 Wan J, Wang DY, Hoi SCH, Wu PC, Zhu JK, Zhang YD, Li JT. Deep learning for content-based image retrieval: A comprehensive study. Proc. of the 22nd ACM International Conference on Multimedia. ACM. 2014. 157–166.

2 Hinton GE, Osindero S, Teh YW. A fast learning algorithm for deep belief nets. Neural Computation, 2006, 18(7): 1527–1554.

3 Rumelhart DE, Hinton GE, Williams RJ. Learning internal representations by error propagation. Nature, 1986.

4 Krizhevsky A, Sutskever I, Hinton GE. ImageNet classification with deep convolutional neural networks.Advances in Neural Information Processing Systems. 2012. 1097–1105.

5 Deng J, Dong W, Socher R, Li LJ, Li K, Li FF. ImageNet: A large-scale hierarchical image database. IEEE Conference on Computer Vision and Pattern Recognition (CVPR 2009). IEEE. 2009. 248–255.

6 Nair V, Hinton GE. Rectified linear units improve restricted biltzmann machines. Proc. 27th International Conference on Machine Learning (ICML-10). 2010. 807–814.

7 Donahue J, Jia YQ, Vinyals O, Hoffman J, ZhangN, Darrell ET. DeCAF: A deep convolutional activation feature for generic visual recognition. ICML. 2014. 647–655.

8 Breiman L. Random forests. Machine Learning, 2001, 45(1): 5–32.

9 Hinton GE, Srivastava N, Krizhevsky A, Sutskever I, Salakhutdinov RR. Improving neural networks by preventing co-adaptation of feature detectors. arXiv preprint arXiv: 1207.0580. 2012.

10 Szegedy C, Liu W, Jia YQ, Sermanet P, Reed S, Anguelov D, Erhan D, Vanhoucke V, Rabinovich A. Going deeper with convolutions.Proc. of the IEEE Conference on Computer Vision and Pattern Recognition. 2015. 1–9.

11 Donahue J, Jia Y, Vinyals O, et al. DeCAF: A deep convolutional activation feature for generic visual recognition. Computer Science, 2013, 50(1): 815–830.

12 NairV, Hinton GE. Rectified linear units improve restricted boltzmann machines. Proc. 27th International Conference on Machine Learning (ICML-10). 2010. 807–814.

Image Retrieval System Based on Deep Learning

HU Er-Lei1, FENG Rui2

1(School of Computer Science, Fudan University, Shanghai 201203, China)2(Shanghai Key Laboratory of Intelligent Information Processing, Shanghai Engineering Research Center for Video Technology and System, Shanghai 201203, China)

Learning effective feature representations and similarity measures are crucial to the retrieval performance of a content-based image retrieval system. In the past, the system works on the low-level visual features of input query image, which does not give satisfactory retrieval results, so, despite extensive research efforts for decades, it remains one of the most challenging problem in computer vision field. The main problem is the well-known “semantic gap”, which exists between low-level image pixels captured by machines and high-level semantic concepts perceived by human. In the past, the content-based image retrieval system only works on the low-level visual features, which cannot solve “semantic gap” issue. Recently, the fast development of deep learning brings hope for the issue. Deep learning roots from the research of artificial neural network. In order to form more abstract high-level, deep learning combines low-level features, finds the regularities of distribution, which is different from other algorithm. Inspired by recent successes of deep learning techniques for computer vision, speech recognition, natural language process, image and video analysis, multimedia, in this paper, we apply deep learning to solve the “semantic gap” issue in content-based image retrieval.

content-based image retrieval; deep learning; feature extracting; match

國家科技支撐計劃(2013BAH09F01);上海市科委科技創新行動計劃(14511106900)

2016-07-10;

2016-09-20

[10.15888/j.cnki.csa.005692]

猜你喜歡
深度特征模型
一半模型
深度理解一元一次方程
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
深度觀察
深度觀察
深度觀察
抓住特征巧觀察
主站蜘蛛池模板: 2021天堂在线亚洲精品专区| 一级毛片免费观看不卡视频| 一本大道无码高清| 国产美女在线观看| 99成人在线观看| 凹凸精品免费精品视频| 男女男免费视频网站国产| 香蕉国产精品视频| 毛片视频网址| 国产乱人免费视频| 亚洲a级毛片| 久久不卡国产精品无码| 日本91视频| 免费国产好深啊好涨好硬视频| 亚洲区一区| 韩日无码在线不卡| 天天躁夜夜躁狠狠躁躁88| 国产高清自拍视频| 91色在线观看| 久久精品这里只有国产中文精品| 亚洲无码精品在线播放| 国产sm重味一区二区三区| 一区二区三区国产| 欧美一区二区丝袜高跟鞋| 国产在线97| 久久9966精品国产免费| 一区二区三区四区精品视频| 国产精品一区二区在线播放| 激情在线网| 免费播放毛片| 免费在线一区| 内射人妻无套中出无码| www.av男人.com| 久久国产拍爱| 超清人妻系列无码专区| 欧美一区二区精品久久久| 永久免费无码日韩视频| 欧美日韩亚洲国产主播第一区| 中文字幕啪啪| 亚洲午夜综合网| 毛片视频网| 亚洲午夜综合网| 青青草原国产av福利网站| 亚洲综合色在线| 国产丝袜丝视频在线观看| 成年人国产网站| 国产视频自拍一区| 免费国产小视频在线观看| 激情综合网激情综合| 亚洲国产成人精品无码区性色| 国产亚洲欧美在线中文bt天堂| 视频一区亚洲| 秋霞一区二区三区| 欧美成人区| 精品综合久久久久久97超人| 免费a级毛片视频| 久久中文字幕2021精品| 丁香六月激情综合| 久久中文字幕av不卡一区二区| 国产精品大尺度尺度视频| 国产高清在线精品一区二区三区 | 在线观看的黄网| 四虎成人在线视频| 国产成人综合久久精品下载| 婷婷久久综合九色综合88| 欧美无遮挡国产欧美另类| 人妻丰满熟妇av五码区| 激情视频综合网| 久久久久88色偷偷| 日韩成人在线网站| 欧美成人一级| 国产女人爽到高潮的免费视频| 欧美97色| 青青草国产免费国产| 熟女视频91| 成人免费午间影院在线观看| 国产精品视频导航| 国产亚洲成AⅤ人片在线观看| 久久人午夜亚洲精品无码区| 国产精品视频白浆免费视频| 免费一级毛片在线播放傲雪网| 国产欧美日韩91|