高峽 吳濤 高月仁



摘 要:傳統檢索方法查準率和查全率相對較差,導致自動檢索精準度較低。為此,提出了基于云計算平臺的政務大數據系統自動檢索方法研究。在云計算平臺下,利用CiteSpace軟件對政務大數據系統中的關鍵詞進行統計分析,獲取相關資源。在電子政務聯機模式下,揭示政務大數據系統中資源相關屬性,在MapReduce挖掘模型支持下,進行政務大數據系統數據挖掘,實現政務大數據系統自動檢索。實驗驗證分析,該方法檢索查準率和查全率較高,具有高效檢索效果。
關鍵詞:云計算平臺;大數據系統;自動檢索
中圖分類號:TP393????? 文獻標識碼:A
Research on Automatic Retrieval Method of Government
Big Data System Based on Cloud Computing Platform
GAO Xia1,WU Tao2 ,GAO Yue-ren3
(1.Tangshan Caofeidian Development Investment Group Co., Ltd,Tangshan,Hebei 063200,China;
2. North China University of Science and Technology, Tangshan,Hebei 063200,China;
3.Tangshan Caofeidian Liancheng Technology Co., Ltd, Tangshan,Hebei 063200,China)
Abstract:The accuracy and recall of traditional retrieval methods are relatively poor, which leads to low accuracy of automatic retrieval. In response to this problem, a research on automatic retrieval methods for government affairs big data systems based on cloud computing platforms is proposed. Under the cloud computing platform, CiteSpace software is used to perform statistical analysis on keywords in the government's big data system to obtain related resources. Under the online mode of e-government, the resource-related attributes in the government's big data system are revealed. With the support of the MapReduce mining model, data mining of the government's big data system is performed to realize automatic retrieval of the government's big data system. The experimental verification analysis shows that the method has high retrieval accuracy and recall, and has an efficient retrieval effect.
Key words:cloud computing platform; big data system; automatic retrieval
隨著信息時代的到來,云計算和大數據技術為人們提供了豐富的信息資源,具有真實性高、多元化和實時性的特點,在人類社會的生產和生活中發揮著重要的作用[1]。據互聯網數據中心統計,每天被創建和復制的數據總量為1.8ZB,而生成這樣規模的信息量只需10分鐘。如此龐大的數據信息,給云計算平臺集成數據的檢索管理帶來難度,尤其面對互聯網政務服務體系,公共服務信息集成的數據占社會總量的90%以上,大大增加了云計算平臺的政務大數據系統檢索的工作量[2]。由于政務部門數據的類型復雜多樣,半結構化數據和非結構化數據較多,如何有效進行采集、存儲、分析、處理等一系列數據的挖掘管理,需要建立新技術的大數據自動檢索方法,以提高大數據信息的檢索工作。目前已有相關研究,文獻[3]根據Lucene索引原理,改進緩沖區索引容量,并優化磁盤文件索引書寫頻率。通過對單進程Lucene索引安插并行Map Reduce計算模塊,構建并行Lucene全文檢索引擎,實現大數據的檢索。文獻[4]提出考慮了云服務器可信狀態,在支持用戶在密文上提出多關鍵詞語義排序搜索技術,通過引入域加權評分概念,結合數據信息權重對關鍵詞進行擴展,提升數據查全率,在此基礎上創建的文檔向量分塊,過濾檢索過程中無關信息,提升查詢效率。
但上述方法無法在保證高查全率的同時,提升系統查準率,為此,提出基于云計算平臺的政務大數據系統自動檢索方法。這種新技術的政務大數據自動檢索方法是通過對數據特征和信息內容的分析,采取與之相關聯信息的挖掘整理,在云計算環境下實現對政務大數據的自動檢索工作。這種基于云計算平臺的政務大數據系統自動檢索方法的研究與應用,改變了傳統數據檢索技術的準確性差、效率低的缺點,提高了數據檢索的精準性和高效性。
1 基于云計算平臺政務大數據系統資源抓取與整合
云計算平臺通過對政務數據進行集中抓取和整合管理模式,明確政務各主體之間的關系,并對數據信息采取計算、分析和優化處理,配置和調用大數據系統中反復出現頻率最高的關鍵詞,保障了政務大數據系統的統一性和準確性[5]。通過對CiteSpace軟件的關鍵詞進行統計分析,獲取政務相關的熱點關鍵詞知識圖譜。
云計算平臺通過對政務大數據系統資源的關鍵字自動搜索,并將搜索的結果保存到數據庫中,根據獲取的網頁數據使用Jsoup解析網頁,自動提取所需信息并存入資源庫之中[6]。
1.1 資源抓取
對數據資源進行檢查、清洗,排除存在的殘缺數據和廢棄數據,抓取有價值的數據資源。全部數據清洗整理完成后,對數據特征進行特定條件的匹配,經過格式化處理進行數據的存儲,提高了后續數據處理的速度和效率[7]。云計算平臺政務大數據系統資源的抓取,具有良好的一致性、完整性和準確定,保障了數據資源的質量[8-10]。
XML格式文檔中各字段基本信息說明如表1所示。
在政務大數據系統資源的抓取過程中,需將上述說明信息導入excel格式文件之中才能進行[11]。
1.2 資源整合
由于抓取的數據資源種類繁多、信息資源規模巨大,必須對海量數據進行整合處理,以保證政務大數據系統能夠容納大量的信息資源[12]。通過對不同位置、不同來源信息資源進行挖掘、存儲、整合管理,使信息資源清晰明確、有序規范,有利于用戶在對信息資源檢索時快速準確地獲取信息資源[13]。針對政務大數據系統信息資源的廣泛性和多元性,在云計算技術的支持下開展信息檢索方式、協議標準和技術等方面的資源整合[14]。
(1)對分散的不同位置、不同來源的數據信息進行整合管理,形成一個有序的數字資源體系,方便數據資源的搜索與查找[15]。
(2)改變原始資源庫存在的信息資源繁瑣、多樣化狀態的管理方式,進行新的資源整合,使資源庫信息結構形成統一、規范的信息系統,提高資源的管理。
(3)通過對網絡通信協議的標準整合,采用先進的技術方法,能夠在同一界面內完成不同資源庫資源的檢索[16]。
2 政務大數據挖掘
在數據挖掘技術中,需要針對數據屬性的表層信息、內在關系和隱含信息等進行挖掘提取。而政務大數據信息規模龐大、類型多樣、內容復雜,如果從這些海量數據當中挖掘提取出隱性潛在的信息資源,來滿足用戶不同概念和模式、不同規律規則的信息資源,需要采取創新分布式并行挖掘新技術。這種先進的分布式并行數據挖掘技術,改變了傳統串行數據挖掘算法存在的耗時長、效率低并且只能適用于小規模的數據處理的缺點,發揮了精準性、時間短、高效率的優點,并能進行大規模數據的處理工作。
基于云計算的政務大數據挖掘技術,采用分布式并行數據挖掘方式對系統中集中存儲的全部數據集,進行分別的任務拆分并交由每一個單獨機器進行處理。任務分解處理完成后,再把處理好的數據資源進行集中匯總起來,其中,集中匯總將采用模糊C均值聚類算法進行,則其表示為:
JFCM=∑Ni=1∑Rj=1uij(Di-vj)2(1)
式中,uij表示聚類系數;Di表示分解前任務數量;vj表示分解后任務數量;N、R均為實數。這種分布式并行數據挖掘算法的設計,不僅極大地提高計算效率,同時保證了計算集群擴展性。計算方法采用在MapReduce云計算環境中的挖掘模型,開展大規模數據集的挖掘計算提取,程序員對Map(映射)函數中各分塊數據指定處理過程,并對Reduce(規約)函數中分塊數據指定處理的中間結果進行挖掘,則挖掘輸出為:
W(s)=JFCM4(1-14)m-1λ(2)
式中,λ表示數據挖掘強度;m表示各分塊數據數量。通過模型計算結果表明,分部式并行挖掘計算方法在政務大數據中的應用,不僅有效提高了數據挖掘效率,還發揮了計算集群的良好擴展性。
3 政務大數據系統自動檢索
3.1 字典建立
隨著政務信息種類不斷的擴展,系統自動檢索集成先進的中文自然語言處理技術,建立一個字典來滿足檢索需求。在業務數據資源逐漸增多的發展中,由于字典單詞的有限性,在進行單詞的智能擴展搜索中,需要對字典單詞進行實時的更新和維護,通過對字典進行分類管理,實現擴展增加單詞、刪除單詞的管理,并對詞典類別進行分類展示、批量導人和搜索。利用elastic search默認分詞詞庫構建基本分詞詞庫,主要包括主詞典詞庫、介詞詞庫、量詞詞庫、姓氏詞庫等,擴展增加了基本分詞詞庫的內容,可以進行自動完成或手動添加的方式。
3.2 信息索引機制建立
為了以最快的速度得到搜索結果,建立了信息索引機制。存儲服務器在進行并行分布式檢索時,可以采取標題、關鍵字等進行信息的廣度索引,也可以對所需的重要信息進行優先索引。檢索完成后的結果收錄在Index Repository中,網頁收錄在搜索引擎的索引,搜索過程在Index Repository進行。這兩種采用廣度優先算法和深度優先算法的檢索方式,實現了信息挖掘的個性化服務,提高了檢索服務的質量。根據存儲器在并行分布式檢索中的工作流程,建立牽引機制圖形,以用戶提出請求的搜索過程進行信息搜索,如圖1所示。
信息索引機制的工作原理,就是采用廣度優先搜索或個性化深度優先搜索,把索引存儲器中的倒序索引列表或頁面內容抓取到本地數據庫,通過關鍵字或標題等信息采取不同的檢索技術。
3.3 自動檢索方案實現
根據用戶提出的查詢要求,把頁面內容或關鍵字提交給檢索請求代理,索引存儲器將檢索代理發送的關鍵字或頁面內容信息進行匹配,并按照檢索結果進行查詢相關度的排序后,把檢索結構返回給用戶,完成整個檢索工作流程。自動檢索方案的實現,不僅極大地提高了檢索速度,還有效增加了查詢的實時性和準確率。如圖2所示。
自動檢測過程通過對數據資源的統一整合,采取對數據進行檢查清洗,去除重復破損等信息過濾的技術手段,開展數據的分析、排序、挖掘和提取,并采取不同的檢索方法,最后對檢索結果進行處理,完成自動檢測過程。
4 實驗研究
為了驗證基于云計算平臺的政務大數據系統自動檢索方法研究合理性,需先設計實驗環境,在該環境下對數據查準率、查全率進行驗證分析。
采用Matlab7.0軟件,進行檢索系統的仿真,得到檢索仿真軟件,其檢索界面如圖3所示。
4.1 實驗數據選取
以“政府開放數據”數據庫為例,在上述云計算實驗平臺下,通過對動態信息庫的訪問,創建任務檢索目標,選取某政務動態信息為研究對象,設置數據選取流程,如下所示:
①根據URL地址獲取原始政務信息資源;
②依據獲取的信息資源,進行篩選與剔除處理,選取最為合適的資源信息;
③根據XML格式文檔,建立相應數據模型;
④依據信息選取路徑,獲取相關政務內容;
⑤將上述選取的兩種政務信息資源Q1、Q2內容存儲到文檔之中,并保存。
4.2 查準率對比結果與分析
將傳統方法與基于云計算平臺檢索方法的查準率進行對比分析,結果如圖4所示。
Q1:在實驗次數為2次時,基于云計算平臺檢索方法的查準率比傳統方法要高45%;在實驗次數為4次時,基于云計算平臺檢索方法的查準率比傳統方法要高52%;在實驗次數為6次時,基于云計算平臺檢索方法的查準率比傳統方法要高53%;在實驗次數為8次時,基于云計算平臺檢索方法的查準率比傳統方法要高42.5%;在實驗次數為10次時,基于云計算平臺檢索方法的查準率比傳統方法要高62%;在實驗次數為12次時,基于云計算平臺檢索方法的查準率比傳統方法要高71%;在實驗次數為14次時,基于云計算平臺檢索方法的查準率比傳統方法要高63%。
Q2:在實驗次數為2次時,基于云計算平臺檢索方法的查準率比傳統方法要高45%,與Q1查準率一致;在實驗次數為4次時,基于云計算平臺檢索方法的查準率比傳統方法要高55%;在實驗次數為6次時,基于云計算平臺檢索方法的查準率比傳統方法要高53%,與Q1查準率一致;在實驗次數為8次時,基于云計算平臺檢索方法的查準率比傳統方法要高72%;在實驗次數為10次時,基于云計算平臺檢索方法的查準率比傳統方法要高73%;在實驗次數為12次時,基于云計算平臺檢索方法的查準率比傳統方法要高66%;在實驗次數為14次時,基于云計算平臺檢索方法的查準率比傳統方法要高63%,與Q1查準率一致。
4.3 查全率對比結果與分析
將傳統方法與基于云計算平臺檢索方法的查全率進行對比分析,結果如表2所示。
在Q1政務大數據資源下,采用兩種文獻方法在實驗次數為2次時,查全率達到最高為76%。而所研究方法在實驗次數為2、8、10次時,查全率達到最高為96%。
在Q2政務大數據資源下,采用兩種文獻方法在實驗次數為2次時,查全率達到最高為77%。而所研究方法在實驗次數為12、14次時,查全率達到最高為98%。
5 結 論
隨著科技的快速發展,依據云計算平臺和大數據技術的基礎上,實現了基于云計算平臺的政務大數據系統自動檢索方法的研究。通過對政務大數據信息資源的抓取和整合,實現了數據信息的統一規范的管理;對數據信息的挖掘、排序和提取,建立信息自動檢索機制和方案。采取廣度檢索和深度優化檢索的不同檢索方式,不僅提高了自動檢索的速度和準確率,同時還滿足了用戶個性化訪問檢索的需求。
大數據檢索技術具有速度快、準確率高的優點,還可以實現海量、大規模數據檢索的請求,適用于各業務系統的數據信息的檢索。隨著智能型、多媒體產品的增多,在圖形、聲音和視頻等許多大數據的檢索技術中,應需進行不斷的研究和創新,以促進未來大數據檢索技術的快速發展。
參考文獻
[1] 江國文. 基于云計算的船舶大數據并行調度算法研究[J]. 艦船科學技術, 2018, 3(20):142-144.
[2] 劉建鑫. 智能化媒體發展的引擎——基于大數據和云計算技術的應用觀察[J]. 青年記者, 2018, 2(1):50-51.
[3] 劉永花, 楊麗娜, 王靜宇. 基于MapReduce的增量式全文Lucene引擎并行檢索[J]. 控制工程, 2018, 7(8) :1540-1546.
[4] 楊旸, 劉佳, 蔡圣暐, 等. 云計算中保護數據隱私的快速多關鍵詞語義排序搜索方案[J]. 計算機學報, 2018, 41(6) :1346-1359.
[5] 蘇鈺雅. 基于云計算的高校財務績效動態評價模式研究[J]. 會計之友, 2019, 4(8) :147-150.
[6] 周雪輝, 李浩宇. 云計算下基于激光虛擬的遠程實驗室系統設計與實現[J]. 激光雜志, 2018, 6(10):165-170.
[7] 胡伏湘. 基于大數據的智慧職教——內涵、平臺設計與應用[J]. 中國職業技術教育, 2017, 7(3):85-91.
[8] 楊露. 大數據背景下農業企業電子商務商品圖像特征提取檢索的方案設計[J]. 電視技術, 2018, 5(11):82-86.
[9] 陳建平, 賈志杰, 徐彬. 地質數據本體構建及其在數據檢索中的應用[J]. 地質通報, 2018, 37(5):945-953.
[10]賈賀, 艾中良,賈高峰,等. 基于Solr的司法大數據檢索模型研究與實現[J]. 計算機工程與應用, 2017, 53(20):249-253.
[11]王華樹, 張成智. 大數據時代譯者的搜索能力探究[J]. 中國科技翻譯, 2018, 31(4) :26-29.
[12]毛萬華. 鐵路客運電梯安全物聯網大數據平臺構建研究[J]. 鐵道運輸與經濟, 2018, 5(12) :71-75.
[13]宋相龍, 李楠, 肖克炎, 等. 礦產資源潛力評價成果數據信息管理系統設計與實現[J].地學前緣,2018, 25(3):196-203.
[14]蔡晨, 羅可. 融合BTM和圖論的微博檢索模型[J]. 計算機工程與科學, 2019, 7(8) :1512-1518.
[15]李默. 數字政務大數據系統個性化移動視覺搜索機制研究[J]. 政務大數據系統理論與實踐, 2019, 6(2) :107-112.
[16]張建坤, 禹思敏. 面向混合型位置大數據的差分隱私聚類算法[J]. 計算機工程與設計, 2019, 6(9) :2451-2455.