周凱++朱一杰++龔松杰++李浩波


摘 要:隨著信息時代的到來,信息多元化程度加深。多媒體信息成為互聯網上主要的信息載體。然而,面對互聯網內海量的多媒體信息,如何快速精確地獲取所需查詢結果是一個很大的技術挑戰。該研究互聯網環境里關鍵的大數據多媒體信息檢索技術,使得用戶能夠精確地檢索所需的多媒體信息。
關鍵詞:大數據 多媒體 信息檢索
中圖分類號:H04 文獻標識碼:A 文章編號:1672-3791(2015)08(c)-0023-02
隨著網絡與多媒體技術的高速發展,在互聯網上的信息,尤其是多媒體信息富含大量的特征。近年來,搜索引擎提供了多種應用向的搜索服務。例如谷歌的圖片、地圖和視頻搜索功能。由于這些技術的迅速發展,使得網絡中的多媒體信息出現爆炸性增長。面對海量的多媒體信息,如何高速的獲取精確查詢結果是國內外學術界聚焦關注的問題。檢索多媒體信息的本質是高維度的矢量相似。同時,它是一種高計算的數據操作,在面對大量的多媒體數據時,搜索效率往往不如人意。盡管如此,隨著一定程度上多維索引技術的提高,使得這些指數索引方法解決了許多有效向量數據的問題。
1 大數據技術
引用“大數據”研究機構Gartner的定義。“大數據處理才能是必要”是新模式,擁有更好的決定力、洞察力和流程的優化能力、高增長率和多樣化的信息資產。
大數據技術的戰略不是擁有龐大的數據,而是把這些數據進行專業化處理。換句話說,如果大數據是一種產業的話,那么使這個產業盈利的鑰匙,就是提高數據處理的能力,通過數據處理實現數據的“附加價值”。
從技術上看,大數據和云計算的關系就像一枚硬幣的正反面一樣密不可分。大數據必然不會使用單臺計算機進行數據處理,必須采用分布式的架構。雖然它的特點是挖掘大量的數據碎片,但是它必須依賴云計算的分散處理、分布式數據庫、云存儲和虛擬化技術。
隨著云時代的到來,大數據也吸引了越來越多的關注。某分析團隊認為大數據通常是形容公司收集大量的非構造化數據和半構造化數據,但對這些關系型數據庫的下載分析將花費大量時間和金錢。隨著大數據的分析和云計算聯系到一起,使得這些數據必須使用大量的計算機進行數據分析工作。
大數據使用特殊技術高效處理某個時間段內的大量數據。因此適用于大數據的技術,包括大規模并行處理數據庫、數據挖掘的電力網、分布式文件系統、分布式數據庫、云計算平臺、互聯網和擴張的存儲系統。
2 互聯網環境下大數據多媒體信息檢索
為了提高檢索效率,需要研究高維索引的多媒體數據機制及基于服務計算的并行檢索與多重查詢的優化方法,如圖1所示。
2.1 數據表示
用戶評分數據可以用一個z×l階客戶-商品評分矩陣表示,z 行代表個z用戶,l 列代表l個項目,第p 行j 列的元素代表客戶p 對商品j 的評分值。
2.2 相似性度量
度量客戶之間相似性的方法有許多種,主要有三種方法:余弦相似性度量公式、修正的余弦相似度量公式和相關相似度量公式的方法。
(1) 余弦相似性
用戶評分看作為n 維項空間上的向量, 如果用戶對其項沒有進行評分, 則將用戶對該項的評分設為0 ,用戶間的相似性通過向量間的余弦夾角度量。公式如下:
(2) 修正的余弦相似性
修正余弦相關性充分考慮了不同用戶的評分尺度問題, 通過減去用戶對項目的評分來實現它的優點。公式如下:
(3) 相關相似度
相關相似度又稱Pearson 相關系數度量, 設用戶i 和用戶j 共同評分過的項目集合用Ii ,j=I1∩I2表示, 則用戶i 和用戶j 的相似度sim(i,j)為:
2.3 推薦產生
根據當前用戶的鄰居對項目的評分信息,預測當前用戶對未評分項目的評分, 產生推薦。通過上面提出的相似性度量方法找到目標用戶的鄰居,之后產生相應的推薦。預測公式如下:
3 結語
隨著在網絡中,大數據和多媒體技術的迅速發展,使得多媒體信息成為互聯網上的主要信息媒體。但是面臨互聯網上大量的多媒體信息,如何快速準確地獲取查詢結果有很大的技術挑戰。而大數據多媒體信息檢索技術則會根據用戶輸入快速、準確地檢索出數據信息。
參考文獻
[1] 莊越挺,潘云鶴,吳飛.網上多媒體信息分析與檢索[M].北京:清華大學出版社,2002.
[2] Gong S, Wang Y. Research on Security Strategy of Electronic Commerce Industry Websites:2015 International Conference on Advances in Mechanical Engineering and Industrial Informatics [C].Paris: Atlantis Press,2015.
[3] Gong S. Research on the Generated Path of Electronic Commerce System Based on Innovative High-skilled Technology, 2015 International Industrial Informatics and Computer Engineering Conference [C].Paris: Atlantis Press, 2015.
[4] Song Jiegong, Li Pingzeng, The Solution of Safety of Electronic Cash in E-Commerce under Cloud Computing Environment [J].Advanced Materials Research,2014,3326(989):4314-4317.
[5] Songjie Gong, Research on the Growth Mechanism of High-Skilled System in Computer Science and Technology [J].Applied Mechanics and Materials,2014,2987(513):2748-2751.