


摘 要:傳統的數據庫數據檢索方法索引次數較多而導致效率受限,為此提出基于哈希學習算法的分布式物聯網數據庫數據檢索方法。首先,提取分布式物聯網數據關鍵詞,構造物聯網數據庫索引結構;隨后,過濾檢索結點,剔除數據庫中的重復數據。在此基礎上,建立哈希學習算法數據檢索模型,利用損失函數強化數據檢索。實驗結果表明,基于哈希學習算法的分布式物聯網數據庫數據檢索方法在不同檢索半徑下的索引次數均最少,檢索效果較好,具有實際的應用價值。
關鍵詞:哈希學習算法;分布式物聯網;數據檢索;物聯網數據庫;數據庫索引;損失函數
中圖分類號:TP39;TN918.4 文獻標識碼:A 文章編號:2095-1302(2024)11-00-03
0 引 言
物聯網設備產生的數據蘊含著豐富的信息和價值,但往往分散在各個結點,具有高度的分布式特性。為了有效地管理和檢索這些數據,已有學者展開了相關研究。比如:時間序列檢索方法適用于需要分析數據的時間趨勢和周期性變化的情況[1]。然而,其應用范圍相對受限,僅限于這類特定的分析需求。位置檢索方法可通過輸入地理位置或者范圍快速地查詢到相關數據。但同樣該方法的適用范圍相對較窄,只適用于查詢特定位置或者范圍的數據[2]。哈希學習算法能夠將復雜的數據映射為簡潔的哈希值,并通過訓練哈希模型來優化數據的檢索和分類效率。因此,本文基于哈希學習算法設計一種分布式物聯網數據庫數據檢索方法,旨在拓寬數據檢索的適用范圍并提高檢索效率。
1 提取分布式物聯網數據關鍵詞
在分類過程中,可以進一步拆分文本、信息等架構,以便更精確地進行數據的分類和提取。但是通過這種方式提取出來的物聯網數據往往夾雜著較多的符號和詞條,無法用來當作文本關鍵詞的代表[3]。因此,可以先通過分析關鍵詞出現頻率,對文本中出現的高頻關鍵詞進行鎖定。計算公式
如下:
(1)
式中:Tij表示被拆分文本中數據詞條i出現的總頻率;nij表示文本中數據詞條i在數據j中出現的次數;nkj表示文本中數據詞條k在數據j中出現的次數。Tij值可以用來衡量數據詞條i的出現頻率,依據此值可以實現對物聯網數據中出現頻率最高的關鍵詞條i的提取。
2 構造物聯網數據庫索引
數據庫的多維檢索流程通常需要考慮到每個維度上的值,并涉及計算多維矢量的歐氏距離,由此可以得到一個表示2個矢量之間相似度的距離值[4],表達式為:
(2)
這個距離值會被用來將N維空間映射到一維空間。為了減少訪問對象的數量,本文引入了New-NB-Tree這種新的索引結構,該結構具有很強的過濾能力[5]。具體結構如圖1所示。
3 過濾檢索結點
在構造物聯網數據庫索引后,需要過濾檢索結點,以便后續更好地進行檢索。在進行檢索結點過濾時,需要考慮數據的時間性和空間性,可以在檢索物聯網數據時更準確地過濾和定位相關信息。因此,本文基于二維信息熵的“編輯距離”分割方法,實現對多類別數據的高效識別,從而建立起“正確”和“誤譯”之間的最大判別結構[6]。
假設ιs'描述長度為ng'的目標結點,W's表示字符串s1和s2之間的編輯距離;T's為從s1到s2的最小運算數。在此基礎上,采用二維信息熵的方法對2個字符串的平均長度進行分析,具體計算公式為:
(3)
式中:dj表示誤譯語句標簽結點。
通過式(4)區別不同類型的邊生成規則的差異性:
(4)
式中:為正則化的邊距;f'w為延伸結點G的子結點集合;gf'為每個結點中的入侵數據;mh'表示用于確定是否形成一條邊的特性記錄的一種屬性;kd'表示各邊的規則特征分布狀態;gg'表示錯誤翻譯的信息記錄的子樹,即子目錄。對NB-Tree結點添加偏置角度,通過深入理解和分析結點的結構信息,去除重復數據。
4 建立哈希學習算法數據檢索模型
在建立哈希學習算法數據檢索模型時,需要通過哈希學習把復雜數據轉化成簡單的哈希值,然后用它來搜索和分類數據[7]。本文針對上文中提取的關鍵詞,采用16、32、64、128比特的哈希編碼對高維數據進行表示。基于哈希學習算法構建的索引模型流程如圖2所示。
在圖2中,將圖片A與數據B進行語義結合,并作為標簽信息,從中提取關鍵詞后轉換為哈希代碼。通過哈希函數對這些代碼進行運算,并應用代碼進行檢索,最后輸出量化的檢索結果。在檢索過程中,數據可用二值形式表示,通過哈希技術把二值權重量化。在哈希求解過程中,數據的精度和細節會受到影響,為避免數據損失,假設P、Q對應的是p、q的哈希代碼,通過哈希代碼進行檢索,計算公
式為:
(5)
式中:Pi、Qi為損失數據;l為距離度量;Spq為損失函數;p、q為數據相似性指標;pi、qi為第i個哈希代碼;s.t.B∈{-1, 1}n×r為二進制約束,在此約束條件下會使二進制表征效率得到提升,有效提高關鍵詞檢索精準度[8-10]。
5 損失函數強化數據檢索
選用加權三元組作為損失函數,每個三元組由一個錨定樣本、負樣本和正樣本構成。當進行物聯網數據庫目標數據檢索時,通常描述三元組為,如果錨定樣本與某個樣本具有相同的標簽時,那么樣本為正樣本,否則為負樣本。語義區間內的相似度具有明顯的排序特征,有別于僅使用{0, 1}對單個標記相似度的刻畫。為此,使用基于權重系數的語義區間多標簽相似性構造方法,對不同模式的數據進行相似度的余弦長度度量,來計算各三元組中樣本之間的相似程度,并將所有三元組的相似度值進行相加處理。通過式(6)表示檢索目標數據時的加權余弦三元組損失函數:
(6)
式中:ω為類似樣本;r為錨記標簽數量;,
其中Z為權重因素實現歸一化的系數,一般狀態rk=0,通過式(7)可計算該系數:
(7)
式中:p為歸一化概率的輸出。總之,通過將加權余弦三元組作為損失函數,能夠提升哈希學習算法數據檢索模型在數據庫目標數據檢索方面的能力,進而提升數據檢索效果。
6 實 驗
為了驗證本文設計的檢索方法的有效性,將本文方法與時間序列檢索方法、位置檢索方法進行對比。
6.1 實驗準備
以某分布式物聯網后臺數據庫作為測試對象,其中包含25 000個文本數據集,其中圖像數據集含有監控拍攝圖像等,文本數據集含有傳感器數據、位置數據以及時間序列數據等。本文從以上數據集中分別選取3 000個圖像數據集和2 000個文本數據集作為實驗對象。本實驗采用Windows 10操作系統搭載2.6 GHz i7 CPU運行。源代碼為GNU Common Lisp-2.6.1。
6.2 實驗結果與分析
分別使用時間序列檢索方法、位置檢索方法,以及本文基于哈希學習算法的分布式物聯網數據庫數據檢索方法在不同的搜索半徑范圍內進行實驗,并比較了3種方法的索引次數,結果見表1。
通過表1可知,在所有的檢索方法中,本文方法的索引次數最少,最多索引90次就能找到需要的內容。由此可知,使用本文檢索方法的索引效果更好。
7 結 語
為提高數據庫數據檢索的效果,本文提出基于哈希學習算法的分布式物聯網數據庫數據檢索方法,不僅為分布式物聯網數據庫的數據檢索提供了一種新的思路和方法,同時也為相關領域的研究和實踐提供了有益的參考。
參考文獻
[1]許自龍,方小平.基于哈希學習的艦船網絡數據庫目標數據檢索方法[J].艦船科學技術,2023,45(17):182-185.
[2]廖祟陽,余少鋒,嚴鑫,等.基于哈希學習算法的非結構化數據檢索方法[J].電氣技術與經濟,2023,12(3):95-97.
[3]張旭東,謝民,黃建平,等.基于數據挖掘的電力自動化系統運行數據中臺資源檢索技術研究[J].安徽師范大學學報(自然科學版),2023,46(2):119-125.
[4]李源,高建軍,王猛,等.基于SSM的智能儀器云平臺異庫數據協同檢索機制研究[J].物探化探計算技術,2022,44(5):665-670.
[5]黃少琪,陸奕奕.通信網絡數據云存儲數據庫可驗證密文檢索研究[J].微型電腦應用,2022,38(2):120-122.
[6]牛佳樂,張毅,鄭劍,等.基于圖數據庫的數據邏輯解析及檢索[J].電子設計工程,2022,30(2):180-183.
[7]魏秀卓,趙慧南.基于Mapreduce的多源多模態大數據檢索方法研究[J].計算機仿真,2021,38(4):422-426.
[8]費倫科,秦建陽,滕少華,等.近似最近鄰大數據檢索哈希散列方法綜述[J].廣東工業大學學報,2020,37(3):23-35.
[9]林悅.基于哈希算法的高維數據的最近鄰檢索[D].杭州:浙江大學,2013.
[10]胡迪,聶飛平,李學龍.基于深度線性判別分析的哈希技術[J].中國科學:信息科學,2021,51(2):279-293.
作者簡介:馬秀梅(1975—),女,回族,甘肅蘭州人,講師,研究方向為中高職計算機課程教學。
收稿日期:2023-12-12 修回日期:2024-01-10