










[摘 要]為解決石油信息資源在共享傳輸中存在的丟失問(wèn)題,引進(jìn)數(shù)據(jù)挖掘技術(shù),設(shè)計(jì)一種針對(duì)石油信息資源的全新共享系統(tǒng)。開發(fā)石油信息資源共享系統(tǒng)架構(gòu),在云平臺(tái)中建立石油信息資源倉(cāng)庫(kù),將多個(gè)數(shù)據(jù)表與資源池建立連接,并按照連接規(guī)則,進(jìn)行前端倉(cāng)庫(kù)訪問(wèn)控制;引進(jìn)數(shù)據(jù)挖掘技術(shù),將資源池中的石油信息資源導(dǎo)入極限學(xué)習(xí)模型,對(duì)資源進(jìn)行多次迭代與訓(xùn)練學(xué)習(xí),實(shí)現(xiàn)對(duì)石油信息資源的聚類;采用分布式技術(shù)設(shè)計(jì)不同網(wǎng)格在空間中的連通節(jié)點(diǎn),建立石油信息資源有效通信信道,實(shí)現(xiàn)對(duì)信息資源的分布式傳輸與共享。實(shí)驗(yàn)結(jié)果證明,設(shè)計(jì)的資源共享系統(tǒng)可以在確保資源共享傳輸具有較高穩(wěn)定性的同時(shí),降低傳輸中的信息丟失量。
[關(guān)鍵詞]數(shù)據(jù)挖掘;資源聚類;資源倉(cāng)庫(kù);系統(tǒng);資源共享;石油信息
doi:10.3969/j.issn.1673-0194.2023.05.043
[中圖分類號(hào)]TP315 [文獻(xiàn)標(biāo)識(shí)碼]A [文章編號(hào)]1673-0194(2023)05-0161-04
[作者簡(jiǎn)介]陳立萍(1985— ),女,重慶人,工程師,主要研究方向:數(shù)據(jù)建設(shè)與管理。
0" " "引 言
為助力我國(guó)石油產(chǎn)業(yè)的快速發(fā)展,應(yīng)將現(xiàn)代化技術(shù)與信息化技術(shù)作為支撐,建立石油信息資源共享系統(tǒng),通過(guò)對(duì)產(chǎn)業(yè)最新技術(shù)成果、學(xué)術(shù)成果、研究成果的共享與公開,為相關(guān)地區(qū)的石油單位建設(shè)提供技術(shù)支撐[1]。現(xiàn)階段,我國(guó)石油化工單位已經(jīng)認(rèn)知到了此項(xiàng)工作的重要性,并開發(fā)了基于大數(shù)據(jù)技術(shù)、基于云端存儲(chǔ)技術(shù)的石油信息資源共享系統(tǒng),但現(xiàn)有的共享系統(tǒng)在應(yīng)用中,普遍存在交互性差、無(wú)法為共享信息資源安全提供保障等問(wèn)題。因此,本文將在此次設(shè)計(jì)研究中,嘗試引進(jìn)數(shù)據(jù)挖掘技術(shù),設(shè)計(jì)一種針對(duì)石油信息資源的全新共享系統(tǒng)[2]。相比現(xiàn)有共享系統(tǒng)在建設(shè)中的其他集成技術(shù),數(shù)據(jù)挖掘技術(shù)具有歸納性強(qiáng)、動(dòng)態(tài)執(zhí)行水平高等優(yōu)勢(shì),可以實(shí)現(xiàn)對(duì)大量、異構(gòu)數(shù)據(jù)的深度挖掘。
1" " "石油信息資源共享系統(tǒng)架構(gòu)
目前,石油產(chǎn)業(yè)在云端資源共享建設(shè)方面的研究仍處于起步階段,為確保開發(fā)的石油信息資源共享系統(tǒng)可以在實(shí)際應(yīng)用中發(fā)揮預(yù)期的效果,需要在開發(fā)系統(tǒng)前,明確系統(tǒng)的實(shí)際構(gòu)成,通過(guò)在系統(tǒng)內(nèi)合理部署傳輸信道、通信接口,實(shí)現(xiàn)對(duì)資源在云端的動(dòng)態(tài)共享。根據(jù)石油企業(yè)的共享需求,設(shè)計(jì)基于三層架構(gòu)的石油信息資源共享系統(tǒng)[3]。系統(tǒng)架構(gòu)如圖1所示。
本文開發(fā)的系統(tǒng)采用三層結(jié)構(gòu),由上到下分別為服務(wù)層、中間層與存儲(chǔ)層。
系統(tǒng)的最底層為石油信息資源存儲(chǔ)層,其中包括資源倉(cāng)庫(kù)與資源池,資源池中涉及大量的結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù),也可以將此層作為系統(tǒng)資源的整合層,主要負(fù)責(zé)聚類各種資源,使石油信息資源以統(tǒng)一、規(guī)范的格式存儲(chǔ)在系統(tǒng)中,為資源共享等協(xié)同工作的實(shí)施提供幫助。
中間層是石油信息資源共享系統(tǒng)的核心結(jié)構(gòu)層,主要負(fù)責(zé)對(duì)各類石油信息資源進(jìn)行協(xié)同管理,此結(jié)構(gòu)層中集成了高新調(diào)度算法與安全加密技術(shù),通過(guò)算法與技術(shù)的應(yīng)用,為存儲(chǔ)、傳輸、共享石油信息提供安全保障。
系統(tǒng)的首層為服務(wù)層,此層主要負(fù)責(zé)提供石油信息資源共享接口,保證系統(tǒng)在運(yùn)行中的高交互性[4]。用戶可以在輸入正確信息進(jìn)入系統(tǒng)后,根據(jù)個(gè)人需求,在檢索功能欄中輸入檢索信息,此時(shí)可視化窗口與界面將主動(dòng)創(chuàng)建一個(gè)資源共享傳輸路徑,用戶可以選擇此路徑進(jìn)行資源信息的共享與交互。按照上述方式,完成對(duì)石油信息資源共享系統(tǒng)架構(gòu)的設(shè)計(jì)。
2" " "石油信息資源倉(cāng)庫(kù)建立
本文在傳統(tǒng)系統(tǒng)硬件的基礎(chǔ)上,對(duì)系統(tǒng)軟件進(jìn)行了優(yōu)化設(shè)計(jì)。在云平臺(tái)中建立石油信息資源倉(cāng)庫(kù),通過(guò)此種方式,為系統(tǒng)使用者提供數(shù)據(jù)庫(kù)運(yùn)行界面。同時(shí),用戶在登錄時(shí)可以直接上傳和瀏覽數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù),從而提高數(shù)據(jù)共享的效率[5]。資源倉(cāng)庫(kù)由腳本文件、資源表等構(gòu)成,將多個(gè)數(shù)據(jù)表與資源池建立連接,并按照連接規(guī)則,進(jìn)行前端倉(cāng)庫(kù)訪問(wèn)的控制。此過(guò)程如公式(1)所示。
公式(1)中:A表示前端倉(cāng)庫(kù)訪問(wèn)控制;O表示腳本文件;w表示資源表;f表示連接規(guī)則;p表示資源池中的數(shù)據(jù)。按照上述方式,建立石油信息資源倉(cāng)庫(kù)與用戶端的訪問(wèn)控制連接。在此基礎(chǔ)上,設(shè)計(jì)石油信息資源倉(cāng)庫(kù)中資源表構(gòu)成[6]。具體內(nèi)容如表1所示。
按照上述格式,進(jìn)行信息資源表的填充,以此完成對(duì)石油信息資源倉(cāng)庫(kù)的建立。
3" " "基于數(shù)據(jù)挖掘的石油信息資源聚類
完成上述設(shè)計(jì)后,引進(jìn)數(shù)據(jù)挖掘技術(shù),對(duì)石油信息資源進(jìn)行聚類處理,以此實(shí)現(xiàn)對(duì)石油信息資源在共享前的封裝與打包。為滿足數(shù)據(jù)的封裝聚類需求,引進(jìn)極限學(xué)習(xí)模型,將資源池中的石油信息資源導(dǎo)入極限學(xué)習(xí)模型,對(duì)資源進(jìn)行多次迭代與訓(xùn)練學(xué)習(xí),通過(guò)
此種方式,構(gòu)建針對(duì)石油信息資源的模糊函數(shù)。函數(shù)表達(dá)式如下:
公式(2)中:P表示石油信息資源模糊函數(shù)表達(dá)式;m表示極限學(xué)習(xí)模型;n表示迭代與訓(xùn)練學(xué)習(xí)次數(shù)。在上述內(nèi)容的基礎(chǔ)上,對(duì)模糊數(shù)據(jù)進(jìn)行隨機(jī)采樣,以此種方式掌握數(shù)據(jù)在空間中的分布方式與結(jié)構(gòu),為石油信息資源聚類提供參照。石油信息資源隨機(jī)采樣處理過(guò)程,可用公式(3)表示。
公式(3)中:B表示石油信息資源隨機(jī)采樣處理;N表示數(shù)據(jù)在空間中的分布方式;b表示數(shù)據(jù)分布密度;i表示隨機(jī)采樣次數(shù)。通過(guò)公式(3),明確不同類型石油信息資源的融合中心。將此中心作為聚類中心,提取資源信息的屬性,構(gòu)建屬性集合,對(duì)數(shù)據(jù)進(jìn)行分類。分類過(guò)程如公式(4)所示。
公式(4)中:F表示石油信息資源分類;k表示石油信息資源的融合中心;a0表示屬性集合。參照線性回歸方程,根據(jù)屬性數(shù)據(jù)的時(shí)空分布,進(jìn)行資源的分段挖掘,以此掌握數(shù)據(jù)在空間中的集成規(guī)律,如公式(5)所示。
公式(5)中:D′表示石油信息資源的分段挖掘;d表示時(shí)空分布特征;e表示挖掘處理過(guò)程;j表示聚類中心。按照上述方式,實(shí)現(xiàn)基于數(shù)據(jù)挖掘技術(shù)的石油信息資源在空間中的聚類處理。
4" " "信息資源分布式傳輸與共享
在上述設(shè)計(jì)內(nèi)容的基礎(chǔ)上,引進(jìn)分布式技術(shù),進(jìn)行信息資源傳輸與共享的設(shè)計(jì)。在此過(guò)程中,引進(jìn)語(yǔ)義計(jì)算網(wǎng)格,設(shè)計(jì)不同網(wǎng)格在空間中的連通節(jié)點(diǎn),建立石油信息資源有效通信信道。此過(guò)程如公式(6)所示。
公式(6)中:K表示石油信息資源有效通信信道;γ表示網(wǎng)格空間;U表示連通節(jié)點(diǎn);L表示傳輸距離。為避免石油信息資源在傳輸過(guò)程中出現(xiàn)丟失等問(wèn)題,需要在信道傳輸節(jié)點(diǎn)進(jìn)行資源的重構(gòu)。通常情況下,節(jié)點(diǎn)在接收數(shù)據(jù)后,會(huì)打亂數(shù)據(jù)在空間中的秩序,進(jìn)行信息的重組,重組后的信息將根據(jù)離散信息所表達(dá)的語(yǔ)義發(fā)生互連。即具有相同語(yǔ)義或表達(dá)相同內(nèi)容的資源將在空間中以集成狀態(tài)呈現(xiàn),反之,具有不同語(yǔ)義或表達(dá)不同內(nèi)容的資源將在空間中以分散狀態(tài)呈現(xiàn)。石油信息資源的集成與互聯(lián)過(guò)程可用公式(7)表示。
公式(7)中:α表示石油信息資源的集成與互連過(guò)程表;Y表示資源充足;G表示信息語(yǔ)義;h表示集成狀態(tài);Q表示分散狀態(tài);y表示數(shù)據(jù)在空間中的秩序;z表示傳輸共享節(jié)點(diǎn)。當(dāng)前端發(fā)生檢索行為或發(fā)送石油信息資源共享請(qǐng)求時(shí),系統(tǒng)將主動(dòng)建立對(duì)端的通信連接,從而在指定的網(wǎng)絡(luò)鏈路或信道中進(jìn)行石油信息資源的共享傳輸。此過(guò)程如公式(8)所示。
公式(8)中:β表示石油信息資源的共享傳輸;χ表示網(wǎng)絡(luò)鏈路;J表示頻帶資源;μ表示信道可重復(fù)使用性;s表示信道總數(shù)。按照上述公式,完成對(duì)石油信息資源的分布式傳輸與共享設(shè)計(jì),實(shí)現(xiàn)基于數(shù)據(jù)挖掘技術(shù)的石油信息資源共享系統(tǒng)的開發(fā)。
5" " "對(duì)比實(shí)驗(yàn)
上文完成了基于數(shù)據(jù)挖掘技術(shù)的石油信息資源共享系統(tǒng)設(shè)計(jì),為實(shí)現(xiàn)對(duì)該系統(tǒng)在實(shí)際應(yīng)用中功能與性能的檢驗(yàn),下面將采用設(shè)計(jì)對(duì)比實(shí)驗(yàn)的方式,對(duì)系統(tǒng)展開測(cè)試。
為確保系統(tǒng)的穩(wěn)定、連續(xù)運(yùn)行,應(yīng)在設(shè)計(jì)實(shí)驗(yàn)前,搭建系統(tǒng)可視化測(cè)試環(huán)境,在測(cè)試終端部署服務(wù)器。測(cè)試環(huán)境具體技術(shù)參數(shù)如表2所示。
完成對(duì)實(shí)驗(yàn)環(huán)境的設(shè)計(jì)后,在通信終端部署傳感器,建立對(duì)端石油信息資源共享傳輸信道,使用本文開發(fā)的系統(tǒng),進(jìn)行共享設(shè)計(jì)。在此過(guò)程中,先在資源層與數(shù)據(jù)存儲(chǔ)層搭建一個(gè)云平臺(tái),在云平臺(tái)內(nèi)建立石油信息資源倉(cāng)庫(kù),對(duì)多渠道、不同類型的信息資源進(jìn)行格式的歸一化處理。在此基礎(chǔ)上,引進(jìn)數(shù)據(jù)挖掘技術(shù),對(duì)存儲(chǔ)在終端的石油信息資源進(jìn)行聚類,根據(jù)對(duì)端共享與通信傳輸請(qǐng)求,進(jìn)行信息資源分布式傳輸與共享設(shè)計(jì)。將石油信息資源在共享傳輸中的CPU占有率變化情況作為評(píng)價(jià)該系統(tǒng)可行性的關(guān)鍵指標(biāo)。根據(jù)該系統(tǒng)在運(yùn)行中的技術(shù)指標(biāo),明確在穩(wěn)定傳輸共享狀態(tài)下,系統(tǒng)CPU占用率應(yīng)在20%~45%范圍內(nèi)。如果CPU占用率超過(guò)45%,說(shuō)明系統(tǒng)處于負(fù)載運(yùn)行狀態(tài),即系統(tǒng)運(yùn)行已經(jīng)處于負(fù)荷狀態(tài)。參照上述標(biāo)準(zhǔn),統(tǒng)計(jì)在對(duì)端傳輸過(guò)程中系統(tǒng)CPU占用率的變化情況,將其作為系統(tǒng)運(yùn)行測(cè)試結(jié)果,如圖2所示。
從圖2所示的實(shí)驗(yàn)結(jié)果可以看出,信息共享過(guò)程中系統(tǒng)CPU占用率穩(wěn)定在20%~45%范圍內(nèi),說(shuō)明系統(tǒng)共享傳輸穩(wěn)定、無(wú)異常現(xiàn)象。
在上述內(nèi)容的基礎(chǔ)上,引進(jìn)基于MapReduce的石油信息資源共享系統(tǒng),使用本文系統(tǒng)與傳統(tǒng)系統(tǒng),進(jìn)行石油信息資源的共享傳輸。將共享傳輸距離作為變量,對(duì)比兩種系統(tǒng)在傳輸相同石油信息資源時(shí)的丟失量。以此種方式,評(píng)估并檢驗(yàn)系統(tǒng)在實(shí)際應(yīng)用中的可行性,丟失量可以用“傳輸量-接收量”計(jì)算得到。按照上述方式,統(tǒng)計(jì)對(duì)比實(shí)驗(yàn)結(jié)果,如表3所示。
從表3所示的實(shí)驗(yàn)結(jié)果可以看出,本文系統(tǒng)在信息共享過(guò)程中的資源丟失量少于傳統(tǒng)系統(tǒng)在信息共享過(guò)程中的資源丟失量。同時(shí),隨著共享傳輸距離的增加,傳統(tǒng)系統(tǒng)丟失量呈現(xiàn)顯著增加趨勢(shì),而本文系統(tǒng)在共享傳輸過(guò)程中的信息丟失量并未隨著距離的增加出現(xiàn)顯著增多的趨勢(shì)。綜上所述,得出此次對(duì)比實(shí)驗(yàn)的最終結(jié)論:相比基于MapReduce的共享系統(tǒng),本文設(shè)計(jì)的基于數(shù)據(jù)挖掘的石油信息資源共享系統(tǒng),可以在確保資源共享傳輸具有較高穩(wěn)定性的同時(shí),降低傳輸中的信息丟失量。
6" " "結(jié) 語(yǔ)
本文通過(guò)建立石油信息資源倉(cāng)庫(kù)、石油信息資源聚類、信息資源分布式傳輸與共享,完成了基于數(shù)據(jù)挖掘的石油信息資源共享系統(tǒng)設(shè)計(jì)研究。完成設(shè)計(jì)后,引進(jìn)基于MapReduce的共享系統(tǒng),設(shè)計(jì)對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果證明,本文設(shè)計(jì)的系統(tǒng)可以在確保資源共享傳輸具有較高穩(wěn)定性的同時(shí),降低傳輸中的信息丟失量。相比傳統(tǒng)系統(tǒng)而言,本系統(tǒng)的共享傳輸效果更佳,應(yīng)用本系統(tǒng),不僅可以提高傳輸共享的穩(wěn)定性,還可以為資源信息的安全性提供全面的保障。
主要參考文獻(xiàn)
[1]王韻哲,潘世萍,史愛(ài)麗,等. 企業(yè)登記檔案信息資源共享利用研究:以北京市市場(chǎng)監(jiān)督管理局為例[J]. 北京檔案,2022(5):30-33.
[2]宋婷,完顏鄧鄧. 面向農(nóng)民工的公共數(shù)字文化資源建設(shè)與服務(wù)研究:基于文化共享工程省級(jí)分中心網(wǎng)站的調(diào)查[J]. 圖書館工作與研究,2022(6):12-19.
[3]李艷飛,孫悅,李健. 系統(tǒng)架構(gòu)層次 共享信息資源:構(gòu)建城市內(nèi)澇防治智慧應(yīng)急體系路徑探析[J]. 中國(guó)應(yīng)急管理,2022(6):44-47.
[4]儲(chǔ)雯,馬文卓,勾鑫曄,等. 基于數(shù)據(jù)標(biāo)準(zhǔn)的科技信息資源共享架構(gòu)研究與設(shè)計(jì)[J]. 科技創(chuàng)新與應(yīng)用,2022,12(19):54-57.
[5]從丹. 遼寧省高校圖書館資源共享模式的思考:以遼寧省高校數(shù)字圖書館建設(shè)為例[J]. 內(nèi)蒙古科技與經(jīng)濟(jì),2022(5):101-103.
[6]蔣蓉,張弘. 宿遷地區(qū)職業(yè)教育信息化教學(xué)資源區(qū)域共建共享標(biāo)準(zhǔn)的研究:以中職語(yǔ)文課程為例[J]. 職業(yè),2022(6):25-27.