胡皓勇
摘? 要:圖像搜索通常包含基于文本的搜索和基于圖像內容的搜索,兩種圖像搜索技術各有優劣。基于文本的圖像搜索技術的信息準確性有待改進,而基于圖片內容的圖像搜索技術無法有效保證信息的全面性。另外一方面,相比純文本,圖像處理算法具有較大的差異性,其更加復雜多變,使得圖像搜索過程更加復雜。為了解決兩個算法的不足,作者提出一種解決方案,即采取基于文本搜索為主,同時結合基于圖像內容的混合搜索方式,吸納兩者的優勢,一方面使圖像搜索過程高效、迅速,另一方面也使搜索結果更加全面、準確,并在此基礎上作進一步研究和探索。
關鍵詞:文本;內容;圖像;混合;搜索系統
中圖分類號:TP75? ? ? ? 文獻標志碼:A? ? ? ? ?文章編號:2095-2945(2019)07-0121-02
Abstract: Image search usually includes text-based search and image-content-based search. the two image search technologies have their own advantages and disadvantages. The information accuracy of text-based image search technology needs to be improved, but the image search technology based on picture content cannot effectively ensure the comprehensiveness of information. On the other hand, compared with plain text, image processing algorithm has great differences, which is more complex and changeable, which makes the image search process more complex. In order to solve the shortcomings of the two algorithms, the author proposes a solution, that is, text-based search is adopted, and the hybrid search method based on image content is combined to absorb the advantages of the two. On the one hand, the image search process is efficient and rapid. On the other hand, it also makes the search results more comprehensive and accurate, and makes further research and exploration on this basis.
Keywords: text; content; image; mixing; search system
2018年8月,我國互聯網信息中心發布了第42次《中國互聯網絡發展狀況統計報告》,其對國內互聯網行業發展作出了全面評估,數據顯示:截至2018年6月,我國網民規模為8.02億,上半年新增網民2968萬人,較2017年末增加3.8%,互聯網普及率達57.7%。并且這一態勢仍在擴張。
目前來看,網絡在現實生活中已變得觸手可及,人們可以借助互聯網與全球用戶進行信息交流。在信息化時代,交互環節增多的同時,數據量也爆發式增長,這使得信息搜索變得異常復雜。在該背景下,憑借列表查找的方式查找所需的內容變得幾乎不可能,因此搜索引擎技術應運而生,并不斷發展。當前,文本數據作為一種信息傳遞的載體,其優勢性逐漸減弱,越來越多的數字圖像信息開始為人所用[1]。
近年來,人們的信息交互方式更加多樣,各類影視、圖像信息也大幅增長,用戶如何有效定位到自己需要的信息,值得進入深入研究。盡管影視、音頻等多媒體信息泛濫,但無法否認的是,圖像和文字在信息傳遞過程中仍然是主要載體。圖像可以直觀形象地向人們傳遞其內在含義,并且圖像內容易于理解,用戶接收信息速度快,效率高。為有效緩解這一困境,我們引進了圖像搜索引擎,它均有不同于文本搜索的搜索技術和多樣化的標注方式,能夠幫助人們迅速找到所需的網頁圖像[2]。
隨著網絡科技的深入推進,圖像的信息交流作用將逐漸增強,優化圖像搜索技術也將推動我國互聯網的縱深發展。近年來,諸多學者紛紛投入到該領域研究中,并取得了豐碩成果。國內外關于該方向的研究現狀如下:
1 基于文本的圖像搜索技術研究現狀
在各類文本信息的標注方面,許多學者也提出了不同的觀點。圖像上下文信息主要包括以下幾種類型:網頁標題、標題文本、圖像標題、圖像名、標題標記、圖像標記等。對于各類文本信息的標注,學者們提出了以下主要研究思路:
(1)在進行文本數據的候選詞選取時,應遵循規則策略。通常而言,若某一詞語在文章主題表達中的作用越大,其在文本出現的次數就越多,權重就越大。
(2)對不同的文本類型進行分析時,應考慮到圖像所處位置和其標簽的干擾。
(3)當借助DOMTree技術進行文本信息的獲取時,應結合候選詞權重及類型有所區分,并進一步構建加權回歸模型。
現有的研究成果主要集中于對圖像信息標注的研究。在進行圖像文本分析時,許多學者僅考慮到圖像關聯信息所處位置的影響,而鮮有考慮這些信息的權重大小以及其在文本中的重要程度。