999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于屬性提取的水利防災信息檢索模型

2023-03-14 06:01:08
水利技術監督 2023年2期
關鍵詞:信息檢索水利用戶

楊 丹

(北京東華合創科技有限公司,北京 110190)

當前,越來越多防災防汛部門意識到現代化信息技術能夠為防汛抗洪帶來巨大的幫助,適當的采用信息技術有利于設計出高效、可靠的水利防災信息檢索模型,可以在發生洪水等災難時,迅速地掌握災情狀況,并預測關于暴雨、洪水等災難的信息,以便更加科學、有效地制定防汛抗洪方案,提前發布警報,在有限的工程條件下減少災難帶來的損失。目前已存在大量信息檢索方法用于水利防災領域[1]。文獻[2]基于貝葉斯網絡的信息檢索方法是通過對檢索關鍵詞代表的所有主題領域進行泛化訓練,將得到的訓練模型與自然語言模型相結合,構建雙重信息檢索模型;文獻[3]基于關聯規則挖掘的信息檢索方法通過數據匹配,挖掘檢索數據與數據庫中信息的關聯度,將具有相似語義的信息整合在一起,構成具有邏輯關系的內部數據庫,進而實現信息檢索。但上述兩種方法是否適用于多尺度、大規模的信息檢索中還需進一步研究。本文提出的基于屬性提取的水利防災信息檢索模型,結合信息屬性參數和映射連接關系,完成水利防災信息的屬性提取。以數據信息屬性為基礎,采用二叉樹算法構建信息檢索模型。基于檢索模型,將用戶檢索行為發生的時間作為檢索控制標準,輸出最佳檢索結果,為當今大數據時代的檢索任務提供了一種可行的解決方案。

1 水利防災信息快速檢索方法設計

1.1 水利防災信息屬性提取

若想實現信息的快速檢索,則需要對系統數據庫中的信息進行屬性提取,包括信息的主鍵、索引字段以及索引類型等,按照水利防災屬性數據庫檢索方式,按照信息屬性對關鍵詞、代表領域等進行劃分[4]。水利防災屬性數據庫及主要信息見表1。

表1 水利防災信息屬性數據庫及主要信息

服務器后臺數據庫共由19個表組成,假設在計算機中,數據庫中的信息數據均處在多維度的空間內,在此基礎上,提出了一種基于二進制的方法,并對其進行了逆向表示;在系統中,通過使用本體庫來替代用戶在搜索過程中所輸入的關鍵字,用來描述系統內的大量信息[5]。在此基礎上,利用服務器上的索引信息,對數據進行連接映射處理。處理過程中,可以通過在資源信息終端和接收端間建立鏈表以實現初始檢索。資源信息與接收端口的映射連接如圖1所示。

圖1 資源信息與接收端口的映射連接圖

水利信息與接收端通過關系組連接,由于信息來源是多渠道的,數據信息結構也不相同,因此,利用節點平滑公式對多源信息的節點進行平滑化,計算公式如下:

(1)

式中,τ—檢索信息時的時延,s;X—檢索信息的字節長度;p—在檢索過程中受到節點變化的影響參數;n—用戶檢索信息時提供的端口數量;i—端口序號。

通過以上計算與處理過程,結合信息屬性參數和映射連接關系,實現水利防災信息的屬性映射和信息屬性數據的提取。

1.2 基于二叉樹算法構建信息檢索模型

本文以數據信息屬性為基礎,參照信息檢索框架,建立信息檢索模型。信息檢索框架如圖2所示。

圖2 信息檢索框架

在信息檢索系統中,話題根據不同文檔的屬性特征進行隨機組合,組合后的話題依據文檔中的先驗知識生成信息源,因此,本文利用二叉樹算法根據第一層的信息源建立信息檢索模型。二叉樹算法示意圖如圖3所示。

圖3 二叉樹算法示意圖

根據圖3,隨著系統中信息源上的窗口隨機滑動,下面的信息解析層和信息表現層也隨之改變。當信息源當前窗口中有8個數據時,信息解析層就包含4個數據,信息表現層就包含2個數據[6]。而窗口的滑動會造成數據越界情況發生,因此,該模型將各層滑窗的分解結果暫存在臨時數組中,當信息源窗口有新信息進入時,對應的臨時數組也隨之更新,由此一來,就防止了數據越界對模型的干擾。

根據二叉樹在臨時數組中對數據的存儲結構,可以得知,當二叉樹分解出j個分支時,在下一層上就包含2j個分支,同時也表示該層的信息數據共有2j組合方式。

水利信息的對象層包括道路層、居民地及地名注記層、行政區劃層、等高線層、風險地帶層、水工程層、水庫層、河流層和水情測報站層。以上9層的位置始終保持不變,當用戶進行信息檢索時,可以自行決定是否對單一圖層進行裝載與是否標注關鍵信息。當用戶選擇需要檢索的圖層時,當前選中記錄集會產生相應的變化,此時,信息解析層根據時間順序依次讀取檢索記錄,生成檢索字段的值,并將更新的值插入到原隊列中,取代原有字段,以保證用戶在下次檢索時,查詢到的信息是代表當前檢索環境的信息[7]。另外,用戶在查找信息記錄時,當找到表現層中對應的信息記錄時,可以根據該記錄信息的位置與范圍將圖層定位到包含該信息的位置。

在對信息檢索的過程中,檢索到的主題和文件所表達的信息也是不確定的。對于其中的每一個詞項,信息檢索模型所產生的詞項都是一種隨機的事件,其產生的幾率可以表示該種可能的大小。同時,在信息檢索模式中,查詢主題中的詞項是互相獨立的[8]。因此,利用二叉樹算法對信息數據進行解析后構建的信息檢索模型可表示為:

P(w|D)=(1-λ)τPLM(w|D)+

λPLM(w|coll)τ+PLightLDA(w|D)

(2)

式中,PLM(w|D)—檢索關鍵詞w在文檔D中出現的頻率;PLM(w|coll)—檢索關鍵詞w在整個信息數據集中出現的頻率;λ—加權系數;τ—信息接收的延遲時長(s);PLightLDA(w|D)—在主題信息下的文檔表示。

PLightLDA(w|D)的計算同樣是利用二叉樹算法,同時結合數據并行化和模型并行化技術,對于某篇文檔PLightLDA(w|D)的生成過程如下:

在系統中的數據庫中從超參數為α的信息數據分布中隨機抽取部分數據,構成名為di的文檔,該文檔服從多項式分布θi;在話題組合中再次隨機抽取部分數據生成詞項文檔,文檔中的第k個詞對應的話題zik;在從超參數為β的信息數據分布中抽取數據構建話題zik對應的索引詞分布φzik;在φzik中采樣最終得到詞項wik。重復以上步驟,將上述分布主體與分布詞項進行整合,即可生成所需文檔PLightLDA(w|D)。生成PLightLDA(w|D)的圖模型結構如圖4所示。

圖4 生成PLightLDA(w|D)的圖模型結構

圖4中,α表示整個信息數據集的線性組合系數,通常通過人工選擇確定;β表示信息在窗口內滑過的點數;Z表示文檔中檢索的主題;φ表示詞項的多項式分布;K表示文檔中包含的主題數量;θ表示主題的多項式分布;w表示某一個詞項;N表示信息數據集中包含的文檔數量;Nd表示該文檔中包含的詞項數量。

對信息檢索進行建模,PLightLDA(w|D)的生成是信息檢索的關鍵部分,在信息主題容量較大的情況下,通過調節文檔相關參數,既可以使模型精確地表示出不同話題組合,也可以提高檢索性能。

1.3 信息檢索輸出

基于構建的信息檢索模型,本文根據用戶進行檢索時利用的信息檢索關鍵詞出現的頻數,將其看作用戶檢索的感興趣方向,并根據頻率高低賦予其相應的權重。故為實現信息檢索輸出結果的準確性和具有代表性,需要對系統中信息數據進行歸類,明確其中的分布規律[9]。在歸類過程中,信息應當遵循這樣的規律,即假設Q表示系統中的全部信息內容,T代表用戶在檢索時輸入的關鍵詞,因此,在出現的第一個信息數據Q1,T在里面屬于第一價值信息;在Q2與Q3信息中,T屬于中間價值信息;而在Qn信息中,T屬于不重要信息。所以,參照上述規律,可將系統中信息數據按照價值重要性進行歸類描述,具體計算公式如下:

(3)

式中,M—按照重要性排序的信息構成的數據集;S—用戶輸入的關鍵詞中索引類型的排列;t—滿足條件可執行快速檢索行為發生的時間,s;i—用戶檢索次數;P(w|D)—信息檢索模型。

則水利防災信息數據檢索輸出結果可表示為:

Tcg=M×(ko)+Z(zf,zt)bf

(4)

式中,M—信息綜合特征參數,ko={0,1,…,x};Z—文檔中檢索的主題;(zf,zt)—信息數據適應度參量;bf—最小化增量拉格朗日函數。

根據以上分析與計算過程,將用戶檢索行為發生的時間t作為快速檢索控制標準,對檢索關鍵詞進行優先級排序,當排序完成后,執行信息檢索操作[10]。利用信息檢索模型在系統中檢索所需主題下的所有相關文檔,將系統中檢索出的多種資源信息進行疊加,并以此作為依據,將重疊數據置亂重構,作為尋找到的信息集合的參考項,輸出信息檢索結果[11- 12],進而完成對水利防災信息的快速檢索。信息檢索流程如圖5所示。

圖5 信息快速檢索流程圖

在檢索的整體過程中,若檢索結果沒有滿足用戶的需求,用戶可以在上述的結果中選擇感興趣的文檔,然后系統通過對該文檔進行分析,獲得用戶的偏好,并對此進行存檔,以豐富系統信息主題內容,對用戶的需求進行進一步的優化,然后再次利用優化后的需求進行檢索,直到檢索結果滿足用戶的需求,將結果輸出。

2 實驗論證

為證明本文設計的水利防災信息快速檢索方法能夠滿足實際應用需求,分別采用文獻[2]基于貝葉斯網絡的信息檢索方法(方法1)、文獻[3]基于關聯規則挖掘的信息檢索方法(方法2)與所提方法進行實驗對比分析。

2.1 實驗準備

本實驗選擇了某水利部門的防旱防澇單位作為實驗對象,其工作原理是利用江河流域的自動監測站收集水位數據,再發送給數據通信衛星,由衛星將數據傳輸給防汛抗旱指揮部,在通過衛星數據接收設備轉換后傳送到計算機數據庫服務器,并保證系統每隔10s對數據庫進行一次訪問,以獲取最新的數據并對數據進行分析和處理,最后使用GIS技術將結果以多種形式表示出來。以上各項功能均可在內網企業網內進行,并可利用Internet網遠程或實地利用無線網絡進行實時查詢水災或災難情況。選用服務器數據庫中的5個數據集,在這些數據集中,查找數據庫中水利防災話題的標題,借助TREC檢索會議系統搜索出相關文檔集合,并進行相關性判斷。若在一個數據集中,某個檢索項在相關文檔集合中沒有所屬文檔,則在該數據集中剔除該檢索項。數據集的統計信息見表2。

表2 數據集統計信息

在實驗中,采用Windows Server 2008 R2 Enterprise服務器2臺。1臺主要用于訓練主題信息;另1臺主要用于做檢索模型實驗。采用Java語言的軟件環境,Lucene開源項目與微軟開源的LightLDA。在此平臺上進行信息檢索模型測試,可以有效驗證本文方法的實用性。

2.2 實驗說明

由于實際檢索時,用戶往往只輸入少量的關鍵字進行檢索,對此,在上述實驗平臺的基礎上,本實驗只采用查詢信息中的標題作為查詢關鍵詞來檢索文檔。在預處理過程中,我們采用了通用的停用詞集合,詞干則采用Porter Stemmer算法。

實驗前經過數據訓練以及計算,確定本文設計的檢索模型中的加權系數λ取為50,數據集線性組合系數α取為0.01,主題數目K取400,訓練主題信息時的迭代次數為500。因為很多關鍵詞具有不同的特征,所以實驗中的信息檢索主要為多尺度查詢,查詢示例如圖6所示。

圖6 多尺度查詢主題匯總信息文件中的內容

如圖6所示,文檔開頭的“0”沒有任何實際的含義,之后按照文檔,主題,詞項信息等從0開始依次遞增。在此實驗中指定了400個主題,因此在結束后的最后一個編號是399,這個文檔記錄的是從0,1,2,…到399是對應的被標記詞項的總數。

2.3 信息檢索查準率實驗分析

在信息檢索、分類、識別等領域中,查準率是評價檢索方法性能優劣的最基本的指標,即輸出的檢索結果中與檢索相關文檔的信息數量與檢索到的所有信息數量的比值(%),查準率越高,表明該方法信息檢索準確率越高。為了直觀地比較出3種檢索方法在不同數據集上的查準率,分別將3種方法應用于上述5種數據集,得到的統計結果及對比如圖7所示。

圖7 實驗對比結果

由圖7可以看出,在不同類型的數據集上,方法1的檢索準確率均相對較低,主要成因是該方法建立的檢索模型對參數的敏感性較高,初始參數的設置對模型的穩定性會產生一定影響,該方法在實驗前需要進行多次主題信息訓練,以獲取Markov鏈的最佳值,從而確定模型相關參數,計算量較大,不利于檢索容量較大的信息數據集;方法2的檢索準確率較于方法1有明顯提高,雖然整體呈上升趨勢,但是在數據集4上準確率較低,主要是因為該數據集是網頁性質的水利防災信息數據集,存在一定噪音,且數據稀疏,話題分散,因此說明方法2不適用于質量較低的數據集檢索中;而本文方法在5種實驗數據集上的檢索準確率均高于其他2種方法,檢索性能優勢比較明顯,驗證了所提方法在信息檢索中的可行性。

3 結語

在上述數據信息屬性的基礎上,進行節點平滑處理,并采用二叉樹算法根據第一層的信息源建立信息檢索模型。基于構建的信息檢索模型,根據用戶進行檢索時利用的信息檢索關鍵詞出現的頻數,根據頻率高低賦予其相應的權重。最后輸出最佳檢索結果,實現信息快速檢索。利用對比實驗對所提方法進行了性能驗證,結果表明,本文設計的信息檢索方法的檢索準確率更高,在信息檢索應用中是可行有效的,能夠滿足實際需求。但在許多方面還不夠完善,例如如何提高用戶的檢索效率,和提高用戶對檢索結果的可讀性,是本文需要結合相關技術進一步研究的方向。

猜你喜歡
信息檢索水利用戶
為奪取雙勝利提供堅實水利保障(Ⅱ)
為奪取雙勝利提供堅實水利保障(Ⅰ)
水利工會
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
醫學期刊編輯中文獻信息檢索的應用
新聞傳播(2016年18期)2016-07-19 10:12:06
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
基于神經網絡的個性化信息檢索模型研究
如何獲取一億海外用戶
創業家(2015年5期)2015-02-27 07:53:25
水利
江蘇年鑒(2014年0期)2014-03-11 17:09:39
主站蜘蛛池模板: 国产精品专区第一页在线观看| 国产视频一区二区在线观看| 一区二区在线视频免费观看| 欧美日韩免费观看| 日本高清成本人视频一区| 视频二区国产精品职场同事| 亚洲欧美色中文字幕| 91精品国产自产在线老师啪l| 午夜少妇精品视频小电影| 国产91成人| 真人免费一级毛片一区二区| 国产精品va免费视频| 国产91丝袜在线观看| 免费看黄片一区二区三区| 毛片在线区| 中文无码精品a∨在线观看| 国产成人精品在线1区| 国产剧情国内精品原创| 成人另类稀缺在线观看| 午夜三级在线| 九九九国产| 久一在线视频| 久久久久国产一区二区| 香蕉在线视频网站| 中文字幕亚洲第一| 男人天堂伊人网| 亚洲欧美另类中文字幕| 国产高清无码麻豆精品| 亚洲欧美日韩成人在线| 免费无码又爽又黄又刺激网站| 色亚洲成人| 国产精品手机在线观看你懂的 | 国产区精品高清在线观看| 中国国产A一级毛片| 美女扒开下面流白浆在线试听| 丁香五月激情图片| 777国产精品永久免费观看| 国产成人综合网| 亚亚洲乱码一二三四区| 国产精品午夜福利麻豆| 999国产精品永久免费视频精品久久| 色天堂无毒不卡| 超碰91免费人妻| 亚洲高清在线天堂精品| 91久久国产成人免费观看| 日韩精品中文字幕一区三区| 久久精品最新免费国产成人| 香蕉国产精品视频| 国产乱子伦精品视频| 狠狠躁天天躁夜夜躁婷婷| 欧美午夜在线播放| 亚洲欧美成aⅴ人在线观看| 久久综合一个色综合网| 亚洲一级毛片在线观播放| 真人免费一级毛片一区二区 | 日本成人不卡视频| 亚洲第七页| 国产精品精品视频| 亚洲最新网址| h视频在线播放| 自拍偷拍欧美| 伊人五月丁香综合AⅤ| 无码精油按摩潮喷在线播放 | 亚洲综合色吧| 欧美亚洲一区二区三区在线| 精品国产三级在线观看| 亚洲成人www| 毛片基地美国正在播放亚洲 | 欧美成人aⅴ| 波多野吉衣一区二区三区av| 色妞www精品视频一级下载| 日韩不卡高清视频| 乱人伦中文视频在线观看免费| 香蕉国产精品视频| 亚洲男人的天堂久久香蕉网| 国产情侣一区| 国产亚洲精品无码专| 亚洲看片网| 日日拍夜夜操| 91久草视频| 亚洲中文无码av永久伊人| 日本亚洲成高清一区二区三区|