999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

淺析大數據搜索引擎之圖片搜索技術

2019-03-04 11:05:01孟慶芳
電腦知識與技術 2019年34期
關鍵詞:搜索引擎大數據

孟慶芳

摘要:隨著大數據技術的發展,搜索引擎的關注度越來越高,搜索引擎技術也逐漸發展成為大數據應用最前線的領域,也是最容易產生價值的大數據應用。圖片搜索是目前搜索引擎中搜索流量僅次于網頁搜索的多媒體搜索項目,為了快速精準的實現圖片搜索功能,論文從基于內容的圖片搜索及基于文本的圖片搜索兩個方面進行分析、研究,解決了較高效精準地以圖搜圖的圖片搜索問題。

關鍵詞:大數據;搜索引擎;圖片搜索;算法;相似度

中圖分類號:TP391

文獻標識碼:A

文章編號:1009- 3044(2019)34-0181-02

1 基于內容的圖片搜索

一張圖片包含了亮度變化小的區域是低頻成分和亮度變化劇烈的高頻成分。低頻成分僅提供一個框.架,圖片的詳細細節信息部分主要是由通過高頻成分來體現的。換句話說高頻成分能夠描述圖片的詳細信息。而一張尺寸比較大的內容顯示豐富的圖片有較高的頻率,小圖片都是低頻的,原因在于缺少圖像細節部分。基于內容的圖片搜索主要思想是基于圖片本身擁有的信息進行搜索,在給定查詢圖片的情況下,進行圖片搜索,是“以圖搜圖”的應用搜索。通過圖片搜索獲得相似圖片,主要采用感知哈希算法實現,該算法的核心思想是通過對每張圖片構建唯一指紋,圖片中指紋越相近則說明圖片間的相似度越高。

感知哈希算法是哈希算法的一類,簡稱.PHA,主要可以完成相似圖片的搜索任務。該算法可以分為低.頻的均值哈希感知算法和余弦哈希感知算法兩種。在進行圖片檢索的時候一般采用漢明距離來進行判斷兩幅圖像的相似程度,如果計算得到的漢明距離的數值小于5就表明兩幅圖像是相似的。

1.1 低頻的均值哈希感知算法

基于低頻的均值哈希算法:均值哈希算法面對的主要操作對象是圖片中的低頻信息,其工作過程如下:

①尺寸縮放。將所有圖片數據進行尺寸縮放,能夠最快速的去除高頻和細節,使圖片縮放到64個像素大小,即8x8的尺寸。尺寸縮放的目的在于避免圖片中一些細節及圖片大小對圖片搜索的干擾,只保留結構的明暗。

②色彩簡化。將被縮放后的圖片數據簡化其色彩,所有像素點總共只有64級灰度,從而使得整個圖片中僅包含64種顏色。

③計算灰度平均值。對每幅圖片中的64個像素進行灰度平均值計算。

④灰度比較。把64個像素中每個像素的灰度與平均灰度.值依次比較,大于等于平均灰度值的像素設定為1,小于平均灰度值的像素設定為0。

⑤計算哈希指紋。在灰度進行比較結束以后,得到一個由0或1組成的64位的整數。這就是這張圖片的指紋。其中的整數被視為當前圖片的指紋。

通過上述過程獲得指紋之后,只需將用戶提交的圖片按照同樣的方式獲得哈希指紋之后,就可以對比不同的圖片,進行漢明距離計算,看看64位中有多少位是不一樣的。從而獲得圖片與圖片之間的相似度。通常情況下,如果漢明距離小于等于5則說明兩張圖片很相似,圖譜具有一定的相似度,若漢明距離大于10,則表明兩張圖片之間存在較大的差異。

采用感知哈希算法的過程比較簡單,而且最大的優點是計算速比較度快。而且圖片顏色的改變,對比度及亮度的增加或者減少,對哈希值的影響并不太大。比較兩張圖片的相似性過程實質上就是首先計算兩張圖片的哈希指紋,哈希指紋是由1或0構成的64位的數.值,然后再計算漢明距離。根據計算出來的漢明距離的結果來判斷兩幅圖像的相似情況。但是對于一些模糊的圖譜,或者圖片中存在一些更改情況,則不能很好地識別出相似圖譜。在工程應用中,借鑒感知哈希算法,利用圖片的顏色分布情況及內容特征進行圖片搜索。

1.2 余弦哈希感知算法

與低頻的均值哈希感知算法相比較更健壯的算法叫余弦哈希感知算法,離散余弦變換簡稱DCT,是一種圖像壓縮算法,使用離散余弦變換來獲取圖片中的低頻成分。它將圖像從像素域變換到頻率域。由于圖像中基本都存在很多冗余和相關性,所以圖像從像素域變換到頻率域之后,大部分系數都接近于0,只有很少的一部分頻率分量的系數不為0。

余弦哈希感知算法的工作過程如下:

(1)尺寸縮放:余弦哈希感知算法以小圖片開始,如果圖片大于8*8,32*32是比較理想的。這樣做的目的是能夠簡化DCT的計算。

(2)色彩簡化:將被縮放后的圖片數據簡化其色彩,所有像素點總共只有64級灰度,從而使得整個圖片中僅包含64種顏色,進一步簡化計算量。

(3)計算DCT:計算圖片的DCT變換,得到32*32的離散余弦變換系數矩陣。

(4)縮小DCT的范圍:從上述步驟中得到的32*32的離散余弦變換系數矩陣中,只需要將左上角的包含了圖像中的較低頻.率的8*8的矩陣部分保留下來。

(5)計算平均值:如同均值哈希一樣,計算DCT的均值。

(6)計算hash值:根據8*8的離散余弦變換矩陣,設置0或1的64位的hash值,遍歷像素矩陣,當矩陣的灰度值大于離散余弦變換均值的時候哈希值為1,小于DCT均值的設為0。

為了驗證該算法的性能,進行了一些簡單的測試,測試結果發現非等比例的圖像縮放會使得基于均值哈希算法的圖像檢索出現錯誤,而余弦哈希感知算法對尺度的變化的魯棒性強于均值哈希算法。

均值哈希算法:

string.HashV. (Mat SRC)

{Mat pic,dst;

string rst.. (64,,\0);

double dldex[64];

double mean= 0.0;

int p=0;

if( SRC.channels()= =3)

{cvtColor(SRC,SRC, CV_B GR2GRAY);

pic= Mat_< double>.(SRC);)

else

{ pic= Mat-< double>.(SRC);]

r esize. (pic, pic, Size(8,8));

dct. (pic,dst);

for (int m=0:m<8;++m)(

for (int n=0:n<8;++n)

{dldex [p]= dst at< double>(m, n);

mean+=dst at< double>(m,n)/64;

++p; })

for (int m =O;nK64;++m)

{ if (dldex[m]>=mean)

trstLrrD=,i,;)

Else

{rst[m]=0;))

return rst;}

余弦哈希感知算法:

stringDCTVal (Mat SRC)

{ string rst( 64,'\O');

Mat pic;

if(SRC channels()==3)

cvtColor (SRC,pic,CV_BGR2GRAY);

else

pic=SRC.clone();

resize.( pic,pic,Size(8,8));

uchar *pData;

for(int m=O;m

{ pData= pic.ptr..(m);

for(int n=O;n

( pData[n]=pData[ny4;,}}

int average= ruean (pic).val[0l;

Mat mask= (pic>=(uchar.) average);

int tag=0;

for( int m=0; m<Ⅱiask rows; m++)

{pData= mask.ptr< uchar> (m);

for (int n=O;n

{

if(.pData[nl==0)

rst[tag++]='0' ;

else

rst[tag++]=1';})

return.rst;}

2 基于文本的圖片搜索

基于文本的圖片搜索,是通過獲得圖片附近的文本.信息,這些文本信息和.網頁搜索的文本信息一樣,被建立倒排索引,然后通過對倒排索引的使用獲得對應圖片信息。基于文本的圖片搜索的實質與網頁搜索類似,它們都是對文件建立相關索引,網頁搜索對應的是文檔集合,圖片搜索對應的是圖片的集合。

而對于基于文本的圖片搜索,文本信息主要來自三個方面。

①網頁HTML中的標簽,在HTML標簽“img”中的詞性“alt”包含的信息,是對該圖譜的一種簡短描述。

②圖片周圍的信息。圖片一般嵌套在網頁中某個區域性位置,但是這個區域性位置一般用于講述該圖譜的相關信息,圖中下面一行文字是對該圖片信息的一個描述,一般它們位于同一個HTML的“DIV”標簽或者相鄰“DIV”標簽中。

③圖片本身的文字信息。為了更加準確地分析圖片所描述的信息,學術界一直試圖對圖片進行光學字符識別。

3 結論

綜上所述,大數據搜索引擎中的圖片搜索技術有了一定的發展,但有時搜索到的圖片與原圖片的相似度還有一定的差距,隨著互聯網技術的飛速發展,圖片搜索引擎的功能一定會越來越完善強大,為用戶所提供的服務質量也會越來越高,讓用戶越來越滿意。

參考文獻:

[1]唐俊易.百度官方發布圖片搜索收錄的基礎要求[J].計算機與網絡,2014(7).

[2]王錚,針對百度算法不斷升級網站優化應采取的四點對策[J].計算機與網絡,2014(8)。

[3]徐靜.圖像搜索引擎的進步與應用現狀分析[J].電子商務,2011(5).

[4]謝同.基于文本的Web圖片搜索引擎的研究與實現[D].電子科技大學,2016.

[5]郭升挺,黃唏,柯俊敏,等.基于深度學習與拓展查詢的商標圖像檢索方法[J].網絡新媒體技術,2018(5).

[6]任夏荔,陳光喜,曹建收,等.基于深度學習特征的圖像檢索方法[J].計算機工程與設計,2018(6).

[7]孫奇平.基于深度學習的圖像檢索研究[J].景德鎮學院學報,2018(4).

[8]周力恒,金陽,康軼澤,等.圖像搜索在移動電商領域中的應用與實現[J].科技創新導報,2016(6).

[9]張軍陽,王慧麗,郭陽,等.深度學習相關研究綜述[J].計算機應用研究,2018(4).

【通聯編輯:唐一東】

猜你喜歡
搜索引擎大數據
大數據環境下基于移動客戶端的傳統媒體轉型思路
新聞世界(2016年10期)2016-10-11 20:13:53
基于大數據背景下的智慧城市建設研究
科技視界(2016年20期)2016-09-29 10:53:22
數據+輿情:南方報業創新轉型提高服務能力的探索
中國記者(2016年6期)2016-08-26 12:36:20
網絡搜索引擎亟待規范
中國衛生(2015年12期)2015-11-10 05:13:38
Nutch搜索引擎在網絡輿情管控中的應用
警察技術(2015年3期)2015-02-27 15:37:09
基于Nutch的醫療搜索引擎的研究與開發
廣告主與搜索引擎的雙向博弈分析
知識漫畫
百科知識(2012年11期)2012-04-29 08:30:15
搜索,也要“深搜熟濾”
主站蜘蛛池模板: 视频一本大道香蕉久在线播放| 色婷婷天天综合在线| 成人国产精品网站在线看| 午夜欧美理论2019理论| 亚洲无码精彩视频在线观看| 人妻中文久热无码丝袜| 不卡无码网| 国产91精品久久| 91精品久久久久久无码人妻| 亚洲日韩国产精品无码专区| 亚洲制服丝袜第一页| 99热这里只有精品5| 国产91精品久久| 国产一区二区三区在线观看免费| 一本大道香蕉中文日本不卡高清二区| 亚洲无限乱码| 又猛又黄又爽无遮挡的视频网站| 伊人久久青草青青综合| 亚洲日韩欧美在线观看| 国产亚洲精品91| 久久精品电影| 国产男女XX00免费观看| 国产无码精品在线| 欧美日韩一区二区在线播放| 日韩天堂在线观看| 欧美色99| 欧美啪啪网| 国产清纯在线一区二区WWW| 久久亚洲中文字幕精品一区| 91精品视频在线播放| 亚洲人成网站在线观看播放不卡| 又爽又大又黄a级毛片在线视频| 国产成年无码AⅤ片在线| 91精品国产一区自在线拍| 久久综合五月婷婷| 欧美中日韩在线| 最新国产麻豆aⅴ精品无| 亚洲a免费| 欧美亚洲欧美区| 亚洲资源在线视频| 喷潮白浆直流在线播放| 亚洲综合久久成人AV| 成人国产精品网站在线看 | 天天综合色网| 亚洲精品无码日韩国产不卡| av在线手机播放| 欧美在线视频a| 毛片在线播放网址| 日本精品αv中文字幕| 国产精品刺激对白在线| 久久亚洲精少妇毛片午夜无码 | 欧美伦理一区| 色AV色 综合网站| 又爽又大又光又色的午夜视频| 在线精品亚洲国产| 青青草国产免费国产| 毛片在线区| 99re热精品视频中文字幕不卡| 欧美无专区| 91亚洲影院| AV不卡无码免费一区二区三区| 亚洲欧洲日韩综合| 国产精品私拍99pans大尺度| 在线视频亚洲色图| 天堂网亚洲系列亚洲系列| 婷婷伊人五月| 欧美性色综合网| 国产乱子伦一区二区=| 在线无码av一区二区三区| a免费毛片在线播放| 国产导航在线| 在线免费亚洲无码视频| 午夜爽爽视频| 国产凹凸一区在线观看视频| 亚洲码一区二区三区| 欧洲精品视频在线观看| 老司机精品99在线播放| 日本91在线| 无码高潮喷水专区久久| 欧美视频在线第一页| 日本在线亚洲| 国产在线小视频|