摘 要:現有的數據資源智能檢索方法的檢索排序質量較低,檢索結果文檔排名順序和文檔之間的相關性較低,為此提出基于自然語言處理的社區人口數據公共信息智能檢索方法。對物聯網檢索問題進行分析,引入自然語言處理方式對社區人口數據公共信息進行映射處理,以信息在公共語義空間環境的分布位置為基礎提取特征,將與社區人口數據公共信息檢索請求特征擬合度最高的信息作為檢索輸出結果,實現社區人口數據公共信息智能檢索。在測試結果中,所設計檢索方法的NDCG值未受到并行檢索請求數量的影響,NDCG值處于較高水平,表示檢索結果的排序質量較高,文檔排名順序和文檔之間的相關性較高,說明設計方法能夠有效地對檢索結果進行排序,具有較高的性能。
關鍵詞:自然語言處理;社區人口數據公共信息;智能檢索;映射處理;公共語義空間;特征擬合度
中圖分類號:TP39;U464 文獻標識碼:A 文章編號:2095-1302(2024)05-0-03
0 引 言
隨著大數據時代的到來,數字經濟得到快速發展,其不僅在極大程度上顛覆了人類原有的生產方式和生活方式,降低了相關活動開展的難度[1],同時也使得信息呈現大規模“井噴”。在檢索目標信息時,無論是以搜索引擎為基礎的網頁信息搜索過程[2],還是以個人計算機系統為基礎的文件信息查找過程,如何快速篩選出與用戶信息需求匹配的內容和服務成為了備受關注的業務執行效果優化方向之一[3]。在此基礎上,對信息檢索的主要任務進行分析可以發現,其執行的核心是以用戶查詢文本對象為基礎的,對應的搜索范圍大多是大規模非結構化的數據集,通過定位滿足用戶信息需求的文檔信息,實現對最符合要求信息的檢索[4]。一般情況下,以處理數據規模為基礎對信息檢索進行分類,可以劃分為3個主要級別,分別為大規模信息檢索、中等規模信息檢索以及小規模信息檢索[5]。其中,大規模信息檢索大多是以Web搜索的形式存在的;中等規模信息檢索大多是由數臺服務器提供檢索服務;小規模信息檢索的執行載體大多為個人計算機。
國內有相關領域的研究專家就信息的智能檢索展開了研究。潘敏等人[6]提出了基于ConceptNet語義的偽相關反饋信息檢索方法。但是檢索結果的優劣排序與實際檢索需求還存在一定的誤差,檢索排序質量不能滿足實際需求。傅曉菲等人[7]基于數據中臺,針對多級調度管理業務數據資源檢索方法展開了研究。但是檢索結果文檔排名順序與文檔之間的相關性較低,影響最終檢索結果的有效性。
為解決上述方法存在的不足,本文提出基于自然語言處理的社區人口數據公共信息智能檢索方法;并通過設置對比測試環境,分析驗證了設計方法的實際應用效果和性能。
1 社區人口數據公共信息智能檢索方法設計
1.1 物聯網檢索問題分析
在物聯網體系內,考慮社區人口數據公共信息特征以及用戶對信息完整性、獨立性的需求,需要在社區人口數據公共信息和用戶應用之間構建一個統一的信息處理模型,向上接收用戶所需的檢索請求,向下協調物聯網各個傳感器設備進行社區人口數據公共信息源的采集,進行有效的信息交流。物聯網信息檢索體系中,檢索結果與用戶需求的相關程度是信息檢索系統的核心標準,標志著反饋給用戶的檢索結果是否滿足用戶需求。物聯網檢索體系的主要目標是盡可能全面地檢索出海量社區人口數據公共信息與用戶檢索關鍵字之間相關的所有信息,能夠為數據處理和分析提供有力的支持。
1.2 社區人口數據公共信息自然語言映射處理
考慮到查詢請求、社區人口數據公共信息文檔和社區人口數據公共信息分類文本在存在形式上表現出的不同,首先對物聯網檢索問題進行分析,即因社區人口數據往往來自不同的數據源,包括統計數據、調查數據、公共部門數據等[8],導致信息格式、標準、精度等可能存在差異,需采用自然語言處理方法進行映射處理,再實施智能檢索。在保證社區人口數據公共信息獨立性基礎上,需要引入自然語言處理的概念[9],實現對信息屬性特征的獲取及信息檢索。
對自然語言檢索任務進行分析可以發現,其影響檢索性能的最主要原因是查詢請求語言、社區人口數據公共信息文檔和社區人口數據公共信息分類文本的存在形式不同。為此,本文首先通過預訓練的方式,對輸入的查詢請求、檢索請求和社區人口數據公共信息文本分類文檔中存在的自然語言進行映射處理,使對應的自然語言向量處于同一個公共語義空間環境中[10]。其中,自然語言向量具體的映射方式為:
(1)
式中:vim為信息查詢請求中自然語言向量在公共語義空間環境的映射結果;vjn為公共信息中自然語言向量在公共語義空間環境中的映射結果;vkc為公共信息文本分類文檔中自然語言向量在公共語義空間環境中的映射結果;wordvecm(wmi)為查詢請求語言詞向量子;wim為公共信息查詢請求中的第i個詞匯;wordvecn(wnj)表示社區人口數據公共信息語言詞向量子;wjn表示社區人口數據公共信息中的第j個詞匯;wordvecc(wck)表示社區人口數據公共信息分類文本使用的跨語言詞向量子;wck表示社區人口數據公共信息文本分類文檔中的第k個詞匯。
1.3 社區人口數據公共信息智能檢索
按照上述方式,實現對社區人口數據公共信息檢索全過程中自然語言的映射處理,并以此為基礎,對輸入的查詢請求、檢索請求和社區人口數據公共信息文本分類文檔特征進行提取[11]。在具體的實現階段,以信息在公共語義空間環境的分布位置為基礎,具體的提取方式為:
(2)
式中:z表示查詢請求、檢索請求和社區人口數據公共信息文本分類文檔特征提取結果;σ表示物聯網Bi-GRU單元的文本特征提取器;λ表示物聯網 Bi-GRU單元的編碼器;β表示物聯網Bi-GRU單元的學習模型;γ表示物聯網Bi-GRU單元的軟共享參數。根據提取結果,將擬合度最高的數據信息作為檢索的輸出,其中對應的輸出結果為:
(3)
式中,f(x)表示匹配vim社區人口數據公共信息查詢請求的社區人口數據公共信息輸出結果。
按照上述方式實現對社區人口數據公共信息的有效檢索。
2 應用測試
2.1 測試環境
在對本文設計的基于自然語言處理的社區人口數據公共信息智能檢索方法實際應用效果進行分析時,以A地區的實際環境為基礎,開展了對比測試。其中,參與測試的對照組分別為文獻[6]提出的以ConceptNet語義為基礎的信息檢索方法,以及文獻[7]提出的以數據中臺為基礎的資源檢索方法。
對測試環境的基本情況進行分析,其中A地區為所在城市的經濟中心區域,具有交通、科技發展水平較高的特點,具有明顯的金融中心屬性。對測試地區的總面積情況進行分析,約為64.20 km2,其中共包含11個小區。對測試區域的人口占比分布情況進行統計,以第七次人口普查結果為基礎,3歲及以下人口占比為15.2%,3~18歲人口占比為27.2%,18~40歲人口占比為42.6%,65歲及以上人口占比為15.0%。以上述數據信息為基礎,分別采用三種檢索方法開展對比測試。在對具體的檢索效果進行分析時,本文將歸一化折損累計增益(Normalized Discounted Cumulative Gain, NDCG)作為具體的評價指標。NDCG值的范圍在0~1之間,越接近1代表排序質量越好。具體的計算方式可以表示為:
(4)
(5)
式中:DCG@κ表示文檔數排名在前κ時的截斷累積增益;re表示排名在第e位的文檔的相關性得分,re={r1, r2, ..., re};I×DCG@κ表示理想情況下的累積增益。
以上述研究為基礎,對三種不同信息檢索方法的性能做出客觀評價。
2.2 測試結果與分析
結合上述測試環境,本文設置了不同的并行檢索請求數量,對應的檢索結果如圖1所示。
結合圖1所示的測試結果,對三種不同信息檢索方法的性能進行分析可以發現,在ConceptNet語義信息檢索方法下,對應的NDCG值隨著并行檢索請求數量的增加呈現出逐漸下降的發展趨勢,其中,當并行檢索請求數量由5個增加至35個時,對應的NDCG值由0.542 2下降至0.401 7,降幅達到了0.140 5。在數據中臺信息檢索方法下,NDCG值受并行檢索請求數量的影響并不明顯,但是NDCG值的整體水平始終處于相對偏低的狀態,最大值僅為0.462 4。相比之下,在本文設計的信息檢索方法的測試結果中,不僅NDCG值未受到并行檢索請求數量的影響,而且具體的NDCG值始終穩定在較高水平,其中最大值達到了0.856 6,比ConceptNet語義信息檢索方法高0.314 4,比數據中臺信息檢索方法高0.394 2;最小值也達到了0.852 1(并行檢索請求數量為35個時),比ConceptNet語義信息檢索方法高0.450 4,比數據中臺信息檢索方法高0.419 8。
3 結 語
為了實現對目標信息的快速獲取,有效的信息檢索方法成為了研究熱點之一。本文提出基于自然語言處理的社區人口數據公共信息智能檢索方法,通過對社區人口數據公共信息自然語言進行映射處理,實現了社區人口數據公共信息智能檢索。希望借助本文關于公共信息智能檢索方法的研究,為實際的檢索工作提供有價值的參考,最大限度地提高檢索的性能。
參考文獻
[1]李輝,黃祖源,田園,等.基于隱私信息檢索的大規模用電增信查詢方法[J/OL].山西大學學報(自然科學版):1-11[2024-04-08].https://doi.org/10.13451/j.sxu.ns.2023117.
[2]陳佳,張鴻.基于特征增強和語義相關性匹配的圖像文本檢索方法[J].計算機應用,2024,44(1):16-23.
[3]李葉,毛伊敏,陳志剛.基于Winograd卷積的并行深度卷積神經網絡優化算法[J].信息與控制,2023,52(4):466-482.
[4]岳雷,崔展齊,陳翔,等.基于歷史缺陷信息檢索的語句級軟件缺陷定位方法[J/OL].軟件學報:1-20[2024-04-08]. https://doi.org/10.13328/j.cnki.jos.006980.
[5]孫志強,鄭杭彬,呂超凡,等.基于神經渲染的數字孿生資產快速場景幾何建模與檢索方法[J/OL].計算機集成制造系統:1-21[2024-04-08]. http://kns.cnki.net/kcms/detail/11.5946.TP.20230818.1726.010.html.
[6]潘敏,劉宇,裴全力,等. 基于ConceptNet語義的偽相關反饋信息檢索方法[J]. 湖北師范大學學報(自然科學版),2023,43(2):28-37.
[7]傅曉菲,陳涵,陳磊,等. 基于數據中臺的面向多級調度管理業務數據資源檢索方法[J]. 現代計算機,2023,29(9):98-102.
[8]劉思源,毛存禮,張勇丙. 基于領域知識圖譜和對比學習的漢越跨境民族文本檢索方法[J]. 南京大學學報(自然科學),2023,59(4):610-619.
[9]王湘玲,沙璐,楊雯婷. 國際譯者信息檢索行為研究現狀和趨勢分析(2000-2022)—基于R語言Bibliometrix的可視化分析[J]. 湖南大學學報(社會科學版),2023,37(4):98-105.
[10]侯慧太,藍朝楨,徐青.基于衛星影像全局和局部深度學習特征檢索的無人機絕對定位方法[J].地球信息科學學報,2023,25(5):1064-1074.
[11]胡侃,王明莉,魏曉倩. 融合橋梁建設知識圖譜" 建立多元數據檢索方法—實現橋梁工程內業資料數字化創新應用[J]. 四川檔案,2023,41(2):34-35.
作者簡介:孔越峰(1982—),男,廣東汕頭人,碩士研究生,信息技術工程師,研究方向為人工智能、大數據及其智能化應用。
收稿日期:2023-10-31 修回日期:2023-11-27