何 晨
(數(shù)字廣東網(wǎng)絡(luò)建設(shè)有限公司,廣東 廣州 510000)
隨著信息技術(shù)的快速發(fā)展和互聯(lián)網(wǎng)的廣泛應(yīng)用,政務(wù)服務(wù)平臺(tái)已成為政府為民服務(wù)的重要窗口。目前,雖然已經(jīng)有許多學(xué)者對(duì)政務(wù)服務(wù)平臺(tái)的信息檢索方法進(jìn)行了深入研究,但是大多側(cè)重于傳統(tǒng)的信息檢索技術(shù),傳統(tǒng)的信息檢索方法在處理海量數(shù)據(jù)時(shí),難以保證檢索的準(zhǔn)確性和效率[1]。因此,本文引入大數(shù)據(jù)技術(shù),對(duì)政務(wù)服務(wù)平臺(tái)的信息檢索方法展開了研究。本文首先應(yīng)用大數(shù)據(jù)技術(shù)提取政務(wù)服務(wù)平臺(tái)中的關(guān)鍵信息特征,根據(jù)政務(wù)服務(wù)平臺(tái)海量的信息特點(diǎn),實(shí)現(xiàn)對(duì)資源信息的映射處理;再計(jì)算查詢關(guān)鍵詞在檢索過程中的權(quán)重,對(duì)不同模態(tài)進(jìn)行加權(quán)求和,實(shí)現(xiàn)政務(wù)服務(wù)平臺(tái)中的信息檢索。通過引入大數(shù)據(jù)技術(shù),本文方法能夠更好地處理海量數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),提高信息檢索的準(zhǔn)確性和效率,進(jìn)而滿足公眾對(duì)政務(wù)信息的需求。
大數(shù)據(jù)技術(shù)專門用于處理海量、多樣、快速變化的數(shù)據(jù)集合[2],而政務(wù)服務(wù)平臺(tái)則是一個(gè)集合了多種政府服務(wù)的綜合性平臺(tái),旨在為廣大群眾和企業(yè)提供高效、便捷、透明的政務(wù)服務(wù)[3]。在這個(gè)平臺(tái)上,信息類型豐富多樣,數(shù)據(jù)量龐大。通過建設(shè)和應(yīng)用這樣的服務(wù)平臺(tái),文章所提方法能夠?qū)崿F(xiàn)政務(wù)服務(wù)的高效化、便捷化和智能化,從而顯著提升政府的服務(wù)水平和效率,促進(jìn)政府治理體系和治理能力向數(shù)字化和現(xiàn)代化邁進(jìn)。因此,運(yùn)用大數(shù)據(jù)技術(shù)對(duì)政務(wù)服務(wù)平臺(tái)中的信息進(jìn)行特征提取顯得尤為重要,這為后續(xù)的信息檢索提供了關(guān)鍵支持。
本文在設(shè)計(jì)政務(wù)服務(wù)平臺(tái)中的信息內(nèi)容快速檢索方法時(shí),遵循數(shù)據(jù)預(yù)處理、映射信息組構(gòu)建、敏感數(shù)值抽取、最大相似度計(jì)算等步驟,得出政務(wù)服務(wù)信息的各項(xiàng)特征。具體步驟如下。
本文方法對(duì)采集到的政務(wù)服務(wù)平臺(tái)中的大量信息進(jìn)行預(yù)處理,得到相關(guān)的信息特征集合。
本文方法通過構(gòu)建鏈表的方式對(duì)重要信息進(jìn)行檢索,充分利用政務(wù)服務(wù)平臺(tái)海量信息的特點(diǎn),完成資源信息的映射處理[4]。該過程通過構(gòu)建映射信息組,計(jì)算多途徑收集的政務(wù)服務(wù)平臺(tái)中海量數(shù)據(jù)和節(jié)點(diǎn)信息?,如式(1)所示。
(1)
其中,?i代表政務(wù)服務(wù)平臺(tái)中的數(shù)據(jù)接收產(chǎn)生的延遲時(shí)間長(zhǎng)度,單位為s,n表示安全檢索行為中的引起平臺(tái)影響的數(shù)量,α表示該信息數(shù)據(jù)所屬的類型,m代表用戶接收平臺(tái)信息時(shí)的網(wǎng)關(guān)端口數(shù)量。
本文方法利用該特征集合、敏感數(shù)據(jù)庫(kù)之間的信息特征相似性,從特征值集中抽取敏感數(shù)值。獲得文檔輔助信息的主、輔信息特征數(shù)據(jù)向量,基于抽取的信息相似性對(duì)各特征數(shù)據(jù)的敏感性進(jìn)行量化,再對(duì)各數(shù)據(jù)特征n和敏感數(shù)據(jù)之間的相似度進(jìn)行計(jì)算,其取值范圍為[0,1][5]。
針對(duì)敏感數(shù)據(jù)庫(kù)中的多個(gè)敏感數(shù)據(jù),本文方法對(duì)其進(jìn)行遍歷,得到最大相似度為:
j=max(j1,j∈q)
(2)
其中,j代表政務(wù)服務(wù)平臺(tái)中的最大信息相似度,q表示敏感數(shù)據(jù)庫(kù)。
在計(jì)算信息數(shù)據(jù)的過程中,本文方法隨機(jī)選擇搜索項(xiàng)目作為關(guān)鍵詞,以搜索關(guān)鍵詞作為文本分量,以獲得搜索行為的權(quán)重值[6]。在政務(wù)服務(wù)平臺(tái)中數(shù)據(jù)信息的重疊范圍內(nèi)抽取相應(yīng)數(shù)據(jù),按照信息規(guī)律進(jìn)行排序。
當(dāng)政務(wù)服務(wù)平臺(tái)在進(jìn)行查詢匹配時(shí),本文方法首先會(huì)對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,這一過程依賴于經(jīng)過政務(wù)專業(yè)知識(shí)訓(xùn)練的政務(wù)行業(yè)模型,旨在提取并轉(zhuǎn)換出長(zhǎng)文本中的主要關(guān)鍵詞,利用大數(shù)據(jù)技術(shù)進(jìn)行匹配檢索[7]。
在查詢階段,政務(wù)服務(wù)平臺(tái)可以提取相應(yīng)關(guān)鍵信息特征中的關(guān)鍵詞,在已建立的文本索引結(jié)構(gòu)上進(jìn)行檢索[8],該查詢關(guān)鍵詞在檢索過程中的權(quán)重為:
o=RT×FG
(3)
其中,RT代表查詢?cè)~頻,FG表示平臺(tái)的信息詞條查看頻率。
該關(guān)鍵詞描述內(nèi)容的表達(dá)式為:
(4)
其中,φ表示信息詞條數(shù)量,FG(u)代表該信息詞條的特異性。
本文方法在政務(wù)服務(wù)平臺(tái)中設(shè)置一個(gè)檢索窗口,以檢索后得到的返回結(jié)果為基礎(chǔ),建立目標(biāo)函數(shù),以此表示該返回結(jié)果的信任度。為得到最終的檢索結(jié)果,將根據(jù)不同模態(tài)檢索結(jié)果的權(quán)重進(jìn)行加權(quán)平均處理,選取p個(gè)正例[9]。設(shè)定該結(jié)果空間為η,不同維度代表不同模態(tài)的檢索結(jié)果。模態(tài)檢索后得到v(d),設(shè)定y為文獻(xiàn)結(jié)果均值,r為正例結(jié)果均值。計(jì)算兩者的權(quán)重l(l=y-r),對(duì)不同模態(tài)進(jìn)行加權(quán)求和,得到最終檢索結(jié)果,如式(5)所示。
(5)
其中,ed代表模態(tài)權(quán)重,v(d)表示最終檢索結(jié)果。
借助大數(shù)據(jù)技術(shù),政務(wù)服務(wù)平臺(tái)的信息檢索功能得以實(shí)現(xiàn)。當(dāng)用戶輸入關(guān)鍵詞后,政務(wù)服務(wù)平臺(tái)會(huì)搜索相關(guān)的信息詞條,按照相似程度進(jìn)行排序。在高級(jí)搜索功能的使用中,可以通過調(diào)節(jié)參數(shù)來獲取不同的檢索結(jié)果。通過以上步驟,完成了對(duì)基于大數(shù)據(jù)技術(shù)的政務(wù)服務(wù)平臺(tái)信息檢索方法的設(shè)計(jì)。
為了驗(yàn)證本文提出的基于大數(shù)據(jù)技術(shù)的政務(wù)服務(wù)平臺(tái)信息檢索方法的準(zhǔn)確性,本章進(jìn)行實(shí)驗(yàn)測(cè)試。首先,本文收集政務(wù)服務(wù)平臺(tái)上的各類數(shù)據(jù),進(jìn)行去重、清洗、分類等整理工作。然后,文章搭建一個(gè)實(shí)驗(yàn)環(huán)境,包括所需的硬件設(shè)備、軟件工具和網(wǎng)絡(luò)配置,選擇適合的大數(shù)據(jù)存儲(chǔ)和處理技術(shù),將本文方法和傳統(tǒng)方法代入該仿真環(huán)境進(jìn)行對(duì)比測(cè)試。該實(shí)驗(yàn)中的各項(xiàng)參數(shù)設(shè)置如表1所示。

表1 實(shí)驗(yàn)環(huán)境參數(shù)
該政務(wù)服務(wù)平臺(tái)的實(shí)驗(yàn)集群結(jié)構(gòu)包括2個(gè)主控節(jié)點(diǎn)和6個(gè)工作節(jié)點(diǎn),主控節(jié)點(diǎn)負(fù)責(zé)信息數(shù)據(jù)存儲(chǔ)和管理,同時(shí)監(jiān)控工作節(jié)點(diǎn)狀態(tài),各工作節(jié)點(diǎn)共同參與集成化檢索。
基于以上實(shí)驗(yàn)準(zhǔn)備,文章對(duì)2種方法進(jìn)行測(cè)試,在該政務(wù)服務(wù)平臺(tái)中的信息數(shù)據(jù)集的行數(shù)共有350萬(wàn)行,使用2種方法分別進(jìn)行信息檢索,測(cè)試結(jié)果如表2所示。根據(jù)表2所示實(shí)驗(yàn)結(jié)果顯示,相較于傳統(tǒng)方法,基于大數(shù)據(jù)技術(shù)的信息檢索方法能夠更快地返回查詢結(jié)果。

表2 不同檢索條件下2種方法的實(shí)驗(yàn)結(jié)果對(duì)比 單位:ms
文章選取高頻的1041個(gè)關(guān)鍵詞,使用2種方法分別進(jìn)行信息檢索,通過對(duì)各項(xiàng)指標(biāo)進(jìn)行評(píng)估,得到的實(shí)驗(yàn)結(jié)果如表3所示。根據(jù)表3的實(shí)驗(yàn)結(jié)果可以看出:前5個(gè)結(jié)果的準(zhǔn)確率提升了10個(gè)百分點(diǎn);前10個(gè)結(jié)果排序準(zhǔn)確率提升了9個(gè)百分點(diǎn);同時(shí),前10個(gè)結(jié)果的平均準(zhǔn)確率也提升了近8個(gè)百分點(diǎn)。

表3 不同指標(biāo)項(xiàng)下2種方法的實(shí)驗(yàn)結(jié)果對(duì)比
以上結(jié)果表明,應(yīng)用本文方法對(duì)政務(wù)服務(wù)平臺(tái)進(jìn)行信息檢索能夠?yàn)橛脩籼峁└咝У姆?wù)體驗(yàn),使其在更短的時(shí)間內(nèi)搜索到更加準(zhǔn)確的信息詞條。由此可以證明:基于大數(shù)據(jù)技術(shù)的政務(wù)服務(wù)平臺(tái)信息檢索方法可以顯著提高信息檢索的效率和準(zhǔn)確性,為政務(wù)服務(wù)提供更強(qiáng)大的支持。
基于大數(shù)據(jù)技術(shù)的政務(wù)服務(wù)平臺(tái)信息檢索方法為政務(wù)服務(wù)提供了更加高效、準(zhǔn)確的檢索體驗(yàn),極大地提高了信息利用的效率和政務(wù)服務(wù)的質(zhì)量。在政務(wù)服務(wù)中,確保信息檢索的準(zhǔn)確性、全面性和及時(shí)性至關(guān)重要。然而,大數(shù)據(jù)技術(shù)在實(shí)際應(yīng)用中仍面臨一些挑戰(zhàn)和限制。數(shù)據(jù)安全、數(shù)據(jù)質(zhì)量、成本以及技術(shù)的可持續(xù)發(fā)展等問題,都是應(yīng)用基于大數(shù)據(jù)技術(shù)的政務(wù)服務(wù)平臺(tái)信息檢索方法時(shí)需要充分考慮的因素。隨著技術(shù)的進(jìn)步和應(yīng)用經(jīng)驗(yàn)的積累,基于大數(shù)據(jù)技術(shù)的政務(wù)服務(wù)平臺(tái)信息檢索方法將發(fā)揮更加重要的作用,為政務(wù)服務(wù)帶來更多的創(chuàng)新和價(jià)值。