霍玉兵
(華北地質勘查局第四地質大隊, 河北 秦皇島 066012)
隨著工程建筑業的發展,巖土工程勘察也取得了一定的進步,巖土工程勘察也逐漸受到了重視。巖土工程勘察是施工建設中的重要步驟[1],通過巖土工程勘察可以準確地了解施工前待施工場地的部分地理條件[2],施工影響因素等,可以利用巖土工程勘察數據設計具體的施工方案[3],因此,巖土工程勘察對施工來說十分重要。在巖土工程勘察的過程中,為了保證勘察的有效性,需要記錄很多的勘察數據[4]。在大量勘察現場生成了眾多數據,匯聚形成了復雜的數據庫,在復雜的數據庫中查找有用的信息十分困難,因此需要進行數據庫模糊檢索。例如施工地的地形特點,自然環境變化數據,穩定性數據等,并進行數據整合[5],將所有勘察到的數據輸送到勘察數據庫中,因此,在巖土工程勘察的過程中[6],往往會涉及眾多的數據報表,為了增加報表的數據處理效率,提高數據安全性[7],研究人員設計了巖土工程勘察數據庫。該數據庫可以儲存各種各樣的勘測數據,實現數據的統一記錄。隨著計算機技術發展[8],巖土工程勘察技術也得到了進步,各種圖形勘察數據也紛亂錯雜,匯總到巖土勘察數據庫后,相關人員在調用時遇到了困境,因此需要根據關鍵詞進行模糊檢索,挖掘需要使用的數據。
在這種情況下,相關的研究人員提出了巖土勘察數據庫模糊檢索方法[9]。但經過一段時間的實踐發現傳統的模糊檢索方法檢索速度慢,檢索數據不準確。因此本文提出基于云計算設計新的巖土工程勘察數據庫模糊檢索方法。因云計算技術可以利用計算機將數據庫進行分格運算,大大增加了數據檢索效率,對巖土工程勘察的工作具有一定的現實意義。
在巖土工程勘察數據模糊檢索的過程中,為了增加檢索的準確度,需要對基于云計算的勘察數據庫模糊檢索框架進行設計,基于此構建的檢索框架如圖1所示。

圖1 時態檢索框架
由圖1可知,為了保證模糊檢索的效率,該框架在啟動階段即生成了勘察數據檢索模型,將模型中輸出的數據傳輸到關系數據庫中,保證此時數據的安全性,進行模糊檢索操作。在模糊檢索的初期,為了確定用戶檢索的關鍵詞狀態,需要預先進行用戶時態查詢,保證此時的時態元組在標準的檢索范圍內,然后需要使用檢索算法,找到符合時態約束條件的關鍵字節點,并將其用作時態數據映射搜索的輸入節點[10],得到該時態檢索的結果,再根據時態排序機制,對檢索的結構相似性和內容相似性對進行排序,并將輸出的時態檢索結果返回給用戶。
時態信息檢索模型是時態信息檢索過程的模擬和抽象代表。該時態信息檢索模型使用了有限長單位沖激響應濾波器 (finite impulse response,FIR) 信息收集技術,搜索目標是獲取與時間范圍內與關鍵詞密切相關的信息。為了更好地滿足用戶檢索的時態需求,時態信息檢索模型需要解決以下問題,即如何定義時態查詢、如何定義搜索結果、如何計算搜索結果的依賴關系、如何定義檢索到的數據模型等。
根據數據庫信息檢索的特點,以及對大量時間相關系統應用程序的需求,本方法選擇將大量的時態數據存儲在數據庫中。因此,數據庫中實體和實體之間的關系呈時態相關。傳統的數據映射將每個實體建模作為一個節點,并將實體之間的連接作為建模邊緣。這種建模方法很好地說明了實體之間的關聯性,但是無法區分時態和實體之間的關聯關系。因此,對實體之間聯系的理解容易被誤導,可能出現檢索不理想的情況。因此,為了更好地表達存儲于數據庫的實體時態特性信息,還需要采用基于云計算設計巖土勘察數據檢索加密算法。
由于巖土工程勘察數據庫具有特殊性,因此為了保證檢索的準確性,需要對基于云計算技術的檢索加密算法進行設計。云計算技術可以根據分布式計算法則,將巖土工程勘察數據庫中的數據分解成無數個小的數據程序,利用數據處理系統分別處理并反饋,即利用云計算網格作用,在短時間內高效檢索巖土勘察數據庫中的數據。計算初始查找時間,計算公式如式(1)所示。
(1)
式中,T代表初始查找時間;n代表檢索系數;TDP代表解密時間。根據該公式可以進行數據的轉換,檢測此時的檢索元祖,公式如式(2)、式(3)所示。
式中,G代表初始檢索元祖;G0代表優化后的檢索元祖;N代表錯檢元祖數量;f代表屬性值。使用式(1)~式(3)實現檢索數據加密,生成48位的子密鑰。
根據上述設計的數據庫加密算法,可以生成巖土工程數據庫加密秘鑰。將明文不斷變換成密文,利用搭建的密文轉換系統進行實時加密變換,保證巖土工程數據加密的安全性。采用云計算技術保護數據通信和數據儲存,保證加密數據的傳輸穩定,實現秘鑰的實時生成。本文選取交易密鑰(tradekey,TK),生成索引初級秘鑰,需要將加密的數據秘鑰輸入到數據字典中,在使用MK函數進行秘鑰更換,保證秘鑰生成的穩定性,為了避免秘鑰更換后的隨機性,需要根據管理員的IP重新生成索引秘鑰,保證秘鑰與索引數據之間始終具有對應關系。最后,需要將秘鑰生成的數據庫取值設置在標準范圍內,保證秘鑰的有效性,實現檢索秘鑰的有效加密。
為了保證基于云計算的巖土工程勘察數據檢索的實時性,還需要繪制檢索的時態數據圖。為了保證時態數據圖的準確性,要確認此時的檢索初始節點,如果數據庫包含部分時態實體,并且實體之間包含時態連接,則必須設置時態數據映射,并且每個實體和實體之間的連接不必是時態。除此之外,還需要保證時態數據圖中的各個檢索數據具有時態特性,避免存在離散的數據節點,便于時態區間的連接,設計的檢索時態數據圖如圖2所示。

圖2 時態數據圖
由圖2可知,在時態數據圖中,由幾個分布不均勻的節點相互連接,保證時態數據圖的數據時態關聯性,除此之外,為了保證時態數據圖中各個節點的時態能與檢索的時態呈對應關系,需要搭建臨時的關系數據庫。在臨時關系數據庫中,特定時間的約束下相互關聯的臨時元組形成了一個集合,該集合可以根據數據庫中關系模式的默認外鍵關系,連接時態元組,方便進行元組集合。時態搜索的結果不是單個相關的時態元組,而是相關連接的時態元組集合,可以根據集合建立時態元組連接樹,時態元組連接樹中的元組集合包含所有的檢索關鍵詞。對于整個元組樹,如果刪除該元組樹中的一個節點,就無法保證檢索集合完整。因此,臨時元組連接樹中每個元組的連接都必須遵守時間限制。
為了檢驗本文設計的基于云計算的巖土工程勘察數據庫模糊檢索方法的有效性,搭建了實驗檢測平臺,將其與傳統的數據庫模糊檢索方法進行對比。
為了保證實驗的準確性,避免實驗出現誤差,需要在現有的基礎上,增加特殊的密文索引,增加數據庫的索引效率。因此,需要在現有的基礎上對實驗平臺進行數值化索引改造,將所有索引樹種的關鍵詞識別節點改造成設計的密文索引,為了增加密文索引的適用性,本文選用了B+型密文索引樹,對不同的關鍵詞進行特征記憶,不間斷地進行檢索,直到找到滿足查詢條件的所有節點為止,此時設計的密文索引示意圖如圖3所示。

圖3 密文索引示意圖
由圖3可知,為了保證整個密文索引實驗的完整性,在進行實驗之前,首先需要進行密文索引匹配,記錄此時符合密文匹配要求的節點數值。如果此時經過檢驗后發現B+樹的內存比現有的數據文件小,則此時需要進行鍵位順序排列,保證B+樹的處理效率,如果此時B+樹無法進行數據排序識別,則需要根據此時B+樹不斷進行有序性加密,保證加密后的數據符合原有的加密順序。因此在進行數據加密前一定要驗證此時B+樹的儲存狀態。
為了提高索引的效率,首先需要在B+樹中查詢快速加密的明文,如果此時查詢到了加密明文,則證明此時系統存在潛在風險。狡猾的攻擊者可以從系統最薄弱的部分開始攻擊,因此必須對B+樹進行二次加密,以保持敏感信息的安全。加密B+樹時,需要根據現有的方案,在保存時加密整個B+樹。查詢時,首先需要解密B+樹,然后根據B+樹找到數據文件的加密記錄,解密符合標準的記錄。對索引文件使用節點加密法,無須解密整個索引文件,只需要解密幾個節點即可查詢索引文件,從而快速提高系統的查詢性能。因此,可以根據B+樹的結構特點,進行后續的模糊檢索實驗,此時各個節點的參數如表1所示。

表1 節點參數
由表1可知,對于Enc-node,查詢B樹所花費的時間代價不會增加。這主要是因為對B+樹查詢的結點數一般為B+樹的深度,那么需要解密的結點數也為B+樹的深度,并不會隨著葉結點的增加而增加。
根據實驗準備中表1的節點參數的節點參數以及密文索引示意圖,繪制出此時B+數的深度變化性能示意圖,如圖4所示。

圖4 深度變化性能示意圖
由圖4可知,此時的測試平臺的深度加密狀態符合測試需求,因此分別使用本文設計的巖土工程模糊檢測方法和傳統的模糊檢測方法進行模糊檢測,設置1~10個不同關鍵詞,根據關鍵詞個數,進行10次測試。使用不同方法進行檢索,檢驗不同方法檢索耗時的多少。耗時越少,說明該方法性能越好,效率越高。檢索耗時結果如表2所示。

表2 實驗結果
由表2可知,在關鍵詞個數逐漸增加的情況下,本文設計的模糊檢索方法耗時與傳統的模糊檢索方法耗時也都在逐漸增加;本文設計的模糊檢索方法在連續10次的測試中,檢索耗時都低于傳統模糊檢索方法的耗時;在關鍵詞最多為10個的情況下,傳統的模糊檢索方法耗時為6.865 s,而本文設計的模糊檢索方法耗時為1.591 s,是傳統模糊檢索方法耗時大約1/4的時間,遠遠低于傳統模糊檢索方法的耗時,說明本文設計的模糊檢索方法實際應用性能較好,檢索工作效率較高,驗證了本文設計的方法在能夠實現成功檢索的基礎上,具有一定的省時性。
綜上所述,在巖土工程勘察的大數據時代,掌握巖土工程勘察數據模糊檢索方法對提取重要的巖土工程數據,實現高精度檢索有重要意義,因此本文解決了傳統的巖土工程勘察數據模糊檢索的耗時長、準確率低的問題,設計了新的巖土工程勘察數據模糊檢索方法,進行實驗證明,設計的檢索方法能實現成功檢索,且連續幾次的檢索耗時均較低,因此本文設計法檢索方法具有省時性,有一定的應用價值。