999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

在線哈希算法研究綜述

2021-04-20 14:07:12郭一村陳華輝
計算機應用 2021年4期
關鍵詞:監督模型

郭一村,陳華輝

(寧波大學信息科學與工程學院,浙江寧波 315000)

0 引言

隨著大數據時代網絡數據不斷增加,大規模的數據集對傳統的機器學習方式提出了重大挑戰。在各種檢索方式中,最近鄰(Nearest Neighbor,NN)檢索[1-3]在多種學習算法如基于標簽的圖像注釋、語義分割、視頻分割、文本檢索[4]、內容檢索[5]、物體識別等領域內得到了廣泛應用。最近鄰檢索的主要任務是對于給定一個查詢點檢索一個語義最近鄰數據集。傳統基于空間劃分的算法[6]雖然能得到比較精確的結果,但是在高維數據集上的學習和檢索的時間效率上都不高,因此對于高維度數據的最近鄰查詢往往使用乘積量化的策略,映射到低維子空間進行近似最近鄰(Approximate NN,ANN)[7]檢索。學習型哈希[8-9]通過將數據表示為緊湊的二進制碼形式,很方便地使用異或運算快速計算數據間相似度,將原樣本空間相似的兩個數據點映射到海明空間里接近的兩個點。學習型哈希不僅能大大減少數據的存儲空間和運算開銷,還能降低數據維度,從而顯著提高大數據學習系統的效率。

在線學習型哈希算法的關系如圖1 所示。本文首先介紹了學習型哈希算法的原理;然后介紹了在線哈希的難點以及在線哈希學習所采取的不同方式,隨后討論在線哈希的各種算法的發展狀況并總結,對在線哈希未來發展方向進行了展望。

圖1 在線學習型哈希算法關系圖Fig.1 Relation chart of online learning to hash algorithms

1 學習型哈希

學習型哈希由數據、哈希函數、目標方程三個基本要素構成。海明距離用來衡量哈希值之間的關聯程度,在海明空間內反映數據的相似性,因此哈希學習的過程就是建立高維度空間到較低維度海明空間的映射關系,并設計合理的目標方程量化損失減少兩個空間分布的差異。也就是說相似的數據在海明空間內的距離足夠接近,在最近鄰檢索數據時盡可能地找到相似數據;與之對應的,不相似的數據在海明空間內的距離足夠疏遠,不同類別數據更容易被區分開。

假設輸入數據為n個d維的向量X∈Rd×n,而學習型哈希模型的目標是要生成對應數量的二進制哈希碼y={y1,y2,…,yk},位數為k。每一位哈希碼都由一個哈希函數進行映射,得到一位哈希碼,依次就可以計算出一個數據樣本x∈Rd的所有哈希碼:

樣本數據被哈希函數映射為一批哈希碼的過程就是向量經過一組線性運算后再進行二值化:

哈希模型可以大致分為數據獨立和數據依賴技術。數據獨立的技術往往設置若干個固定的哈希函數對數據進行映射。在早期位置敏感哈希(Locality Sensitive Hashing,LSH)算法[10]應用中,每一個哈希值當作是一個容器:哈希桶(Hash Bin)。哈希桶被用來構建哈希表,查詢操作相當于列表搜索。原始樣本數據經過哈希函數運算得到一個哈希值,這個哈希值對應與之相似的樣本。數據之間的相似度并不取決于數據本身,如余弦相似度[11],除此之外沒有其他更多的信息。這種數據獨立的方式導致隨著學習的數據增加,會有越來越多的數據哈希值產生碰撞,那些相似的數據共享同一個哈希桶,增加了檢索所消耗的時間。為緩解碰撞則需要增大哈希碼的長度,或者使用多個哈希桶,然而這又添加額外的存儲,并且學習到的模型只適合特定的數據分布,泛化性比較弱。但是在大規模數據集上應用時,學習過程的計算成本至關重要,這種速度緩慢的將大批量數據集中學習的方式很難適應隨著數據增長而變化的數據集以更新哈希學習模型。

為了克服這些問題,近年來的研究重點開始轉向數據依賴的哈希技術。數據依賴型哈希通過分析數據結構特征及分布信息自動學習哈希函數,通常分為無監督方法和有監督方法以及半監督方法。無監督哈希方法[12-14]根據數據原始分布學習哈希函數,無須任何監督信息。與之相比,有監督哈希方法因引入了監督信息顯著地提高了檢索相似度而越來越被受到關注。有監督的學習型哈希方法利用數據標簽來獲得語義相似度對生成的哈希碼進行有效監督[15-17]。查詢時按照海明空間距離反映的相似性進行排序,選取一定數量的相似樣本。雖然在整個數據集中進行檢索成本偏高,但是二進制碼的距離計算十分簡便,并且保持了更多原始空間上的相似性。另外如半監督哈希[18]方式使用有標簽和無標簽的數據學習哈希函數,解決標簽獲取困難的問題,同時避免出現模型過擬合。隨著深度學習快速發展,且深度學習模型往往具備強大的表征能力,于是近年來一些研究將深度學習與哈希學習兩者結合強化模型對數據復雜特征的表示[19]。得益于這些監督或半監督的方法,模型能夠在多媒體數據上學習到共同的哈希函數,可以跨模態對數據進行檢索[20-21]。

2 在線學習型哈希

在線哈希學習是一種特殊的學習型哈希方式,關鍵在于訓練前后對數據的依賴性。離線的哈希學習假設所有數據都是已知的,基于全局優化的目標,數據被重復挑選用來糾正學習初期所產生的偏差。這就帶來了在線哈希學習中最主要的矛盾:即隨著模型更新帶來的“遺忘”問題,因此在線哈希學習的目的是尋找一種變化與保持的平衡策略。

2.1 在線哈希方式

盡管已有的學習型哈希算法已有很好的性能,但是面對大量流數據時,仍然存在很多缺陷:1)當數據集發生變化或擴展時,為適應新的數據分布,必須將全部數據納入計算以重新學習模型所有相關參數,這顯然是十分低效的。在實際的應用中,數據往往以數據流的方式輸入,而模型很難作出頻繁的響應。2)對于許多大規模的數據集,數據以分布式的形式存儲在磁盤中。每次訓練新數據時,需要將所有先前數據調入內存處理,不僅對于現有的內存容量是無法接受的,同時也給中央處理器的調度增加了很大壓力。3)訓練后的數據仍然長期保存以應對多次訓練,耗費大量存儲空間。

針對以上問題,在線學習型哈希進行了相關研究,即哈希模型需要滿足幾個重要的條件:1)在訓練原有數據的基礎上,能夠在數據流中學習哈希函數并且不依賴先前存儲的數據;2)學習到的哈希函數產生的哈希碼分布仍然符合相似性分布,使相似(不相似)數據的哈希碼保持一致的相似(不相似)性,這和傳統的哈希學習方式要求一致;3)學習速度加快,以響應現實中較頻繁的最近鄰檢索。

在線學習型哈希仍然遵循學習型哈希的基本原則,但許多傳統的學習方式并不適合引入在線學習環境。現有的在線哈希算法采用了多種在線學習方式,可以從不同角度對在線哈希方式進行區分。

2.1.1 單次學習與多次學習

單次學習可大幅降低學習成本,數據只被用來訓練一次,所以不必長期存儲使得模型可以應對更廣闊的數據。大部分現有方法如主被動算法、聚類算法等都適用單次學習。一種折中的方法是保留少部分數據作為樣本庫多次學習,緩解模型更新的偏差。

2.1.2 監督和無監督

和離線哈希學習類似,在線哈希學習也可被分為無監督在線哈希和監督在線哈希。無監督哈希學習分析樣本數據之間的關系,分析相似程度,如降維提取特征值和使用自組織映射網絡;監督學習的方式往往利用標簽信息帶來更高的檢索精度,解決語義鴻溝問題。每一個樣本數據都有對應的標簽提供這個數據的類別信息,由此可以計算出數據的語義相似度,比如較早的基于主-被動算法,和后來的基于適應性哈希函數。或者可以采取矢量量化的方式,將標簽直接生成碼本向量,直接對哈希碼進行直接監督。而碼本向量需要針對不同位數的哈希碼做相應的轉換,因此要去除碼本向量之間的相關性以及減少降維運算時產生的誤差來保證監督的可靠性。

2.1.3 數據點、數據對和數據塊

在線哈希在模型訓練時可以按照三種不同的數據劃分層次:數據點、數據對和數據塊(或數據列表)進行參數更新。數據點的形式不需要進行相似度的量化,當一個數據點樣本輸入,模型可以通過標簽生成目標哈希碼進行直接監督,實際上相當于聚類或分類問題。哈希碼作為高維空間向量對數據類別進行劃分(如圖2 所示),局限于標簽所指示的類別數量,不適合類別復雜且多樣的數據。數據對和數據塊的區別在于以一對一還是一對多的方式保持相似性。數據塊在輸入模型時需要計算相似矩陣來指示數據間的相似關系,然而在數據變化較大時很難計算全局的均值做歸一化處理,給模型造成頻繁計算問題。

圖2 二進制哈希碼作為分類向量Fig.2 Binary hash code used as classification vector

2.2 在線哈希算法

本節將回顧在近年來關于在線哈希學習方面表現出檢索效率較高的各種算法,并比較它們的不同。

2.2.1 基于主-被動算法

受到主-被動算法[22]的啟發,Huang等[23]首次提出了哈希函數在線學習方式,將主-被動算法適用于每對新樣本數據的哈希函數。在第t批次數據中,給出新的一對數據和它們的相似性標簽sij∈{-1,+1},模型相應地更新哈希函數,使其能夠正確計算新數據的哈希碼,同時與舊的哈希函數足夠接近。于是目標方程用來約束參數的變化,同時用一個非負變量ξ松弛化約束:

單純使用主-被動算法面臨兩個明顯的問題:1)算法每次以數據對的形式進行優化,使得模型頻繁更新限制了優化效率;2)如果到來的數據越來越多變,則此算法可能會面臨收斂困難的問題。

針對第二個問題可以采用多模型的優化方式[24],分別對兩種情況下的模型選擇采取不同策略。為了控制模型參數更新頻率,引入了閾值來量化損失,如果超過這個閾值,則認為哈希碼得到了相應的匹配,模型參數不變;反之則要更新參數。在兩個數據樣本相似的情況下,海明距離大于閾值α,不相似時海明距離小于閾值βr,產生大于0的損失R(Ht,st):

文獻[25]提出根據當前數據分布采用動態的損失閾值,使優化目標松弛為一個置信區間,同時約束損失函數變化,增強模型的穩定性。

Weng 等[26]在哈希函數的框架基礎上又增加了一個映射函數。或者說將模型分為了兩部分,首先由哈希函數迭代量化(Iterative Quantization,ITQ)[12]映射為哈希碼,再經過映射函數進行調整生成一個新的哈希碼,來適應持續到來的新數據:

為了獲得更好的監督學習效果,使用獨熱(One-Hot)編碼向量的標簽yi,類似的投影生成理想的哈希碼用作監督:

單獨地更新每個映射矩陣中的向量pk,按位與理想哈希碼計算損失:

映射函數旨在優化二進制哈希函數,糾正固定哈希函數帶來的偏差,使哈希碼適應新的數據分布;同時基于主成分分析(Principal Component Analysis,PCA)降維的哈希函數本身帶來的誤差并不能消除,限制了優化上限。

2.2.2 基于矩陣分解技術

Leng 等[27]提出了一個在流數據中學習哈希函數的思想:用一個尺寸更小的數據集模塊,保存數據主要特征,之后在線學習哈希函數,計算哈希函數的過程就會有一個比較低的計算復雜度和存儲空間。

以往的實驗結果表明,哈希碼長度越長,對原有數據相似性擬合度越好。加入平衡約束和不相關約束能在有限的長度內提高哈希碼的表達能力[28]:每一位哈希碼應當有50%的概率為+1 或-1;不同的位之間相互獨立,即1,2,…,n)。

在線概要哈希將上述約束松弛為最大化哈希碼的方差,即最大化協方差矩陣的跡,防止模型優化變成非確定性多項式(Non-Deterministic Polynomial,NP)困難問題。主要任務為求解方程得到最優解W,即解(X-μ)協方差矩陣的前r個最大的特征值對應的特征向量。然而直接使用最優化的矩陣W作為哈希投影將會帶來不平衡的問題,因此需要在訓練之前使數據零均值化。

使用基于矩陣分解的數據塊進行哈希學習和PCA 降維過程類似,實質上是在線求解特征值或奇異值的過程。另外在線概要哈希針對流數據提出一個零均值塊算法彌補了數據的均值變化問題。

文獻[29]通過采用子采樣隨機的阿達瑪變換的方式加快了矩陣分解的進程,加快了學習速度。其后Weng等[30]加入了樣本相似度作為監督信息,提高了檢索精確度。

2.2.3 基于無監督聚類

文獻[31]利用自適應的K均值聚類進行無監督哈希函數學習。但是K均值聚類哈希算法本質上是基于批次的學習模型,具有很高的時間和存儲的復雜性。Chen 等[32]將傳統的自組織映射(Self-Organizing Mapping,SOM)網絡擴展到高維空間,形成網格狀超立方體。聚類中心作為超立方體的頂點,頂點位置信息引導生成二進制哈希碼(如圖3所示)。

圖3 三維空間的自組織映射網絡Fig.3 SOM network of 3D space

使用PCA 將數據降維到與超立方體同一維度,減小量化誤差的同時保持了海明空間與歐幾里得空間之間的親和度。但另外一方面,SOM一次只能針對特定維度的數據進行學習,若數據樣本維度過高,映射到超立方體神經網絡的編碼則可能會超過哈希碼表示的限度,于是模型不得不再次降維而產生二次近似誤差。

2.2.4 基于相似性監督

當一對新數據點{xi,xj}到來時,利用相似性信息sij進行隨機梯度下降找到適應數據變化的哈希函數。損失函數用來保持海明親和度:

通過隨機梯度下降,每次迭代選擇一對數據點進行在線更新:

只針對新數據設計適應性的哈希函數忽略了在線連續學習的情況下,不僅隨著舊數據樣本越來越多模型承受著“退化”的風險,同時相似數據與不相似數據的不均衡也往往會導致相似數據之間并沒有得到充分學習而降低了檢索時的精確度。Lin 等[34]主要關注了在流數據的哈希模型學習中新數據與現有數據對應的相似性分布,以及在線學習中數據的不平衡問題(相似數據與不相似數據的數量不均等),采用了一種新穎的平衡相似性,使得在線學習中使用離散優化成為可能。

在線學習環境中,學習數據不斷增加,將舊數據重新讀取學習是十分困難的,這也違背了在線哈希學習的框架。為解決模型在舊數據上的偏離問題,首先需要對新舊數據樣本分開來討論,生成的哈希碼也被劃為兩部分然后在新舊數據之間根據相似度標簽進行監督學習:

如圖4 所示,新數據在數據集中的相似數據遠少于不相似的。事實上模型訓練的目的是利用相似數據能夠得到較緊密的哈希碼,因為在檢索時所需要的是相似數據樣本而非不相似的,學習時間被大量地消耗在了不相似數據的學習上而致使學習效率降低。最直接的做法就是調整兩式的超參數使之均衡,然而這在實驗上模型很難被優化,且隨著數據流的增加超參數也要實時調整。具有平衡相似度的在線離散哈希提出了平衡相似度的概念,用兩個特征值來平衡相似與不相似時的相似度:

添加平衡相似度后得到能夠平衡學習兩種數據分布的目標方程:

第一,以馬克思主義辯證唯物主義和歷史唯物主義為指導,引導大學生樹立科學的世界觀,從而積極地改造自己的主觀世界;大學生的教育本身就是責任教育與未來教育,因此深入國情和國際環境的愛國主義教育,增強青年的民族自豪感、自信心,提高青年一代的責任承擔意識。

平衡相似度同時調節了訓練過程中相似和不相似數據與新舊數據兩類失衡的問題,防止模型出現退化和遺忘。因此在學習過程中不得不保留一部分舊數據,消耗部分存儲空間維持模型性能,在數據集較大時,舊數據如何表示復雜的原始分布仍然存在挑戰。

圖4 新數據和舊數據構成非對稱圖Fig.4 Asymmetric graph constructed by new data and old data

2.2.5 基于互信息度量

Cakir 等[35]致力于分離不相似的數據在海明空間上的分布,提出了一種新的衡量哈希碼質量的方式,對比一直使用的基于海明距離對數據相似性的度量,互信息基于二進制碼的分布量化哈希函數的質量顯得更加直觀有效。在被哈希函數映射進哈希桶的模型中,考察哈希碼編碼分布往往會各不相同:如圖5 所示,統計某個樣本相似數據的哈希碼分布情況可以得到一個近似的高斯分布,其他不相似的哈希碼又會得到另一個不同的分布。兩種分布重疊的區域可能使得相似和不相似數據的哈希碼產生重復而導致誤差。在理想情況下,這兩種分布盡量疏離,相似的數據緊密分布,那么重疊區域的面積則較小,兩種數據的編碼的重合程度也會較小,海明距離就自然較遠。基于上述對于哈希碼分布的認識,便得出互信息的概念,基于互信息的取值反映模型的性能。

圖5 哈希碼分布指示映射函數質量Fig.5 Hash code distribution indicating quality of mapping function

顯然互信息I(D;C)取值越大時,分布的不確定性就越低,體現出哈希函數Φ能夠將兩種分布映射得更加離散,減少了哈希碼重疊的可能性。在理想的狀態下,互信息足夠大,哈希碼幾乎不發生重疊為獨立分布。利用互信息可以對模型質量進行整體的檢驗:

由于在實際情況下不可能加載所有樣本,因此在流數據中采樣一部分作為樣本庫:

QR可以當作是一個觸發器,新數據和樣本庫中的數據同時被哈希函數映射,如果函數保證了原有的互信息,哈希函數才可以更新,這樣就控制了不同數據間的映射分布在添加新數據后也是離散的,維持了模型性能。另一方面,樣本庫中的數據也不能無限增長,隨著學習到的哈希碼越來越多,樣本庫表示性的下降也是無法避免的。再者算法使用了哈希桶的方式,雖然在進行互信息的優化后不相似的樣本哈希碼得到較好分離,卻又加重相似樣本的哈希碼的重疊程度,增大了檢索時的復雜度。

2.2.6 基于碼本監督

在先前的各種學習方式中,數據都是以批次或數據對的形式進行學習,而無法立刻學習單個數據;又考慮到新到來的數據可能會具有原來未包含的標簽,而產生錯誤分類。于是受通信領域的信號傳輸模型的啟發,Cakir等[36]引入了錯誤糾正編碼(Error Correcting Output Codes,ECOC)來代表每一個新的標簽。

哈希函數可以被用來訓練為空間里的分類器,生成的二進制哈希碼則是指示分類的超平面向量,由錯誤糾正編碼來表示。碼本(Codebook)C是由1 和-1 兩種元素組成的矩陣,其中每一列向量稱為碼字(Codeword)分別代表了一個虛擬類別,同時正交的行向量就代表了類別所處的虛擬區域。假設新標簽的數量是未知的,當帶有新標簽的數據到來時,將會在碼本中為其分配一個新的錯誤糾正編碼來進行監督學習,而不需要對標簽數據的任何先驗信息。另一方面,帶有舊標簽的數據則依據先前已分配的錯誤糾正編碼來學習,那么所有具有相同標簽的數據則會由相同的錯誤糾正編碼緊湊地聚集在同一個類別里而擁有近似的哈希碼。

上述隨機梯度下降的在線監督哈希雖然為哈希學習提供了監督信息,但未明確監督的質量。在構造錯誤糾正編碼的碼本時用隨機的方式使編碼向量離散,這并不能完全保證消除其相關性。Lin等[37]提出編碼矩陣應當滿足以下要求:最大化每行之間的海明距離,從而具有較強的糾錯能力;最大化每行之間的海明距離,確保每個分類器之間保持顯著的差異性。

阿達瑪矩陣滿足以上要求。阿達瑪矩陣是一個n階正交矩陣,行向量和列向量都各自正交,其元素為+1 或-1。高階的阿達瑪矩陣可由低階矩陣推導生成。當帶有新標簽的數據樣本輸入時,將會從阿達瑪矩陣中隨機且非重復選擇列向量構造用來虛擬的表示這個標簽。若標簽已存在,則給出已分配給相同標簽樣本的虛擬標簽。最終把這些向量進行聚合以構成編碼矩陣(如圖6所示)。

圖6 阿達瑪矩陣作為碼本Fig.6 Hadamard matrix used as codebook

值得注意的是,基于阿達瑪矩陣的錯誤糾正編碼的碼本可以離線生成而且采用哈希桶的位置敏感哈希也同樣是數據獨立的方法,在查找時可以用近似線性的復雜度進行查找,同時也緩解了在線學習時所帶來的不穩定性。在此之后,文獻[38]采用了核的方式映射原始數據,并進一步地在多標簽數據輸入的情況下進行了研究。

2.2.7 小結

綜上所述,無監督的在線哈希方式如基于無監督聚類和早期基于矩陣分解的方式無法利用標簽信息而檢索能力較差,目前大部分在線哈希算法如基于主-被動算法、相似性監督、碼本監督、互信息度量等都采用監督學習的方式提高檢索精確度,總結如表1所列。基于主-被動算法的方式限制了更新模型時對舊數據可能出現的偏差,但模型不能學習到參數更新的方向。系統不能分辨哪些特征是前所未有的哪些是已經存在的,在保留原有映射函數的同時針對性地優化部分映射,及損失函數中對參數的約束往往使得模型難以優化。基于相似性監督的方法同時優化相似數據和不相似數據之間的距離損失,然而在數據流中無法保證各類數據是獨立同分布的,尤其是相似的數據獲取困難。要解決這種不平衡問題則必須耗費一些存儲空間來存儲舊數據,例如平衡相似度在線哈希。互信息哈希也同樣面臨此類問題,尤其是一些網絡通信數據,會定期刪除一些歷史流量,在處理時效性較短的數據時面臨挑戰;基于碼本監督的算法和互信息在線哈希把哈希碼學習轉化為分類問題,通過優化分類能夠較好地保持相似哈希碼之間的緊密度,在明確固定類別的數據上表現較好。碼本監督允許數據以單個數據點的更新方式進行分類,更能適應數據流環境下學習哈希碼來應對實時檢索。難點在于固定長度的碼本向量的編碼過程是離線的,如阿達瑪矩陣引導的在線哈希,在轉化為不同長度的哈希碼時產生的誤差導致保證哈希碼之間離散度的問題,并且如果標簽類別改變則要重新生成碼本,導致額外的計算開銷。此外碼本數量也較為固定,不適合處理數據類別有較多增加或減少的在線學習任務,數據的可擴展性較差;部分基于矩陣分解的在線哈希雖然采用了監督學習但未考慮到求解過程中原有數據所內含的語義信息,導致數據尺寸縮小的同時沒有學習到有效特征來擬合優化目標。

表1 在線哈希算法總結Tab.1 Summary of online hashing algorithms

3 未來發展方向

進入到互聯網時代線上數據每時每刻呈爆炸式增長,處理這些大規模流數據的任務顯得至關重要。目前哈希學習方式引入了不少在線算法,但具體到現實應用仍然有一些相關問題值得被探索:1)流數據的一大特點在于其產生的實時性,而數據個體本身可能是高維且復雜的,比如使用哈希碼處理圖片分類任務[39],需要先對數據進行預處理壓縮或提取特征,如提取尺度不變特征轉換(Scale-Invariant Feature Transform)特征[40-41]、梯度直方圖(Histogram of Gradient)特征使哈希碼獲取深層的語義信息。由于深度神經網絡的龐大參數量給整個在線更新過程帶來很大計算壓力而無法完成端到端學習,即遇到數據流中非獨立同分布的特征變化學習能力可能會大打折扣。2)數據流的實時性也體現在即時的反饋結果,如電商平臺根據用戶的商品瀏覽信息提供有針對性的商品推薦,在改善用戶體驗的同時也擴大了平臺市場潛在的交易量。這就需要模型在用戶作出操作行為后快速計算保證結果的時效性。因此算法的復雜度不能太高且收斂速度不能太慢,而現有的在線哈希方式則較少關注這兩項指標。3)最近一些方法逐漸開始關注模型更新后對舊數據的檢索能力,設置彌補措施防止模型在學習過程中傾向遺忘。但長期存儲舊數據的成本較高,往往會刪除一些早期數據,因此模型也應考慮學習過程中的時序性:每個時間步的更新優化都會影響到后續時間步的先驗概率。不僅如此,數據流有時會出現新類型的數據,這些數據是以往學習過程中沒有出現的,模型會面臨“概念演化”(Concept Evolution)的問題。例如在金融大數據運營[42]中出現異常交易或非法交易信息系統能及時對這些結構化的數據進行識別,而非誤判為原有的合法信息,向系統發出警示信號防止資產流失,類似的也可用于其他的異常檢測。因此模型應當能夠學習到新數據的增量特征并且保持原有數據的深層次內聯關系來提高在整個時間線前后的泛化能力。

就上述觀點而言,仍有許多新的技術和方向(如深度學習、強化學習)可以與在線哈希學習進行結合來進一步提高模型的時效性與泛化能力。

4 結語

本文總結了近年來表現較好的幾種在線哈希學習方法,這些方法通過權衡模型更新與保持有效檢索,使得在大規模數據集上進行在線哈希學習成為可能,相較于原有的離線學習帶來了存儲空間更低、學習成本更小以及在新數據樣本上具有更好適應性等優勢。當前大數據的迅猛發展,要求哈希模型能夠在數據流中快速學習以應對檢索,因此在線學習型哈希在面對復雜且多變的未知數據,進一步提高學習效率,增強模型的實時性和準確性上有著非常廣闊的發展前景。

猜你喜歡
監督模型
一半模型
重要模型『一線三等角』
突出“四個注重” 預算監督顯實效
人大建設(2020年4期)2020-09-21 03:39:12
重尾非線性自回歸模型自加權M-估計的漸近分布
監督見成效 舊貌換新顏
人大建設(2017年2期)2017-07-21 10:59:25
夯實監督之基
人大建設(2017年9期)2017-02-03 02:53:31
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
績效監督:從“管住”到“管好”
浙江人大(2014年5期)2014-03-20 16:20:28
監督宜“補”不宜“比”
浙江人大(2014年4期)2014-03-20 16:20:16
主站蜘蛛池模板: 国产成人一区| 九九九精品视频| a级毛片毛片免费观看久潮| 亚洲天堂日韩av电影| 激情综合图区| 国产激情影院| 国产成人a毛片在线| 蝌蚪国产精品视频第一页| 国产美女无遮挡免费视频| 深夜福利视频一区二区| 欧美另类视频一区二区三区| julia中文字幕久久亚洲| 日本午夜影院| 亚洲国产看片基地久久1024| 国内精品久久人妻无码大片高| 国产又大又粗又猛又爽的视频| a级毛片在线免费| 亚洲一欧洲中文字幕在线| 久久视精品| 国产在线自乱拍播放| 五月婷婷丁香色| 色婷婷在线播放| 人妻中文久热无码丝袜| 99re经典视频在线| 99热这里只有精品免费| 日本免费新一区视频| 久久久久青草线综合超碰| 亚洲欧美不卡视频| 亚洲欧洲日产无码AV| 国产精品亚洲专区一区| 色综合天天综合| 极品私人尤物在线精品首页| 欧美丝袜高跟鞋一区二区 | 97国产在线观看| 欧美成人怡春院在线激情| 亚洲成a∧人片在线观看无码| 日韩国产另类| 亚洲一区二区在线无码| 国产二级毛片| 欧洲成人免费视频| 嫩草国产在线| 亚洲人在线| 人人看人人鲁狠狠高清| 国产色图在线观看| 久久人人97超碰人人澡爱香蕉| 国产精品毛片在线直播完整版| 中字无码av在线电影| 激情六月丁香婷婷四房播| 亚洲Aⅴ无码专区在线观看q| 国产一区二区三区免费观看| 88av在线| 色婷婷国产精品视频| av在线手机播放| 亚洲动漫h| 幺女国产一级毛片| 国产91精品久久| 亚洲综合极品香蕉久久网| 欧美一级高清片欧美国产欧美| 久久精品66| 97视频免费看| 日韩经典精品无码一区二区| 日韩高清欧美| 亚洲女同一区二区| 9966国产精品视频| 亚洲黄网在线| 一级一级一片免费| 国产打屁股免费区网站| 中国特黄美女一级视频| 天天色综合4| 亚洲国产日韩欧美在线| 精品丝袜美腿国产一区| 91日本在线观看亚洲精品| 亚洲欧美不卡中文字幕| 国产麻豆精品手机在线观看| 日本午夜视频在线观看| 免费人成网站在线高清| 亚洲精品日产AⅤ| 亚洲a免费| 亚洲Aⅴ无码专区在线观看q| 69av在线| 2020精品极品国产色在线观看| 日日碰狠狠添天天爽|