王凱月 黃珊 王逸飛 孫紅軍 蘇雪松 延偉
摘 要:本論文開展油田環保安全標準關聯性監測技術研究,針對油田環保安全標準相關國內外動態信息(如:標準動態、政策法規、智庫報告、情報產品、熱點欄目)進行油田環保安全標準領域自動化關聯性監測,遵循“油田環保安全領域標準數據需求識別、油田環保安全領域標準數據源的確定依據、油田環保安全領域標準關聯數據自動抓取、油田環保安全領域標準關聯監測內容分析”的研究思路,利用大數據分析與知識關聯技術,實現對所需監測數據基本內容的自動化統計與分析,動態可視化地展示或分析所需監測數據的內容,及時跟蹤與推送油田環保安全標準前沿與熱點內容,支持用戶便捷了解油田環保安全標準領域最新發展動態,為開展油田環保安全領域標準知識庫建設提供多元數據支撐。
關鍵詞:油田環保安全,標準數據,關聯性監測,機器學習
DOI編碼:10.3969/j.issn.1674-5698.2024.02.008
0 引 言
以新一代信息技術為代表的新一輪科技革命和產業變革加速演進,經濟社會數字化轉型成為時代趨勢。標準作為經濟活動和社會發展的技術支撐,以及國家基礎性制度的重要方面,無論在深度還是在廣度上都將受到這一趨勢的影響。標準數字化轉型已成為新時代我國標準化事業發展的重要戰略方向,對增強我國科技發展的標準化互動支撐能力、影響全球標準化生態變革具有重要意義。隨著人工智能、開源、區塊鏈等技術的持續發展,標準化領域受其影響,出現了多種標準數字化相關概念、標準形式與制定方式。2019年國際標準化組織(ISO)和國際電工委員會(IEC)提出SMART(Standard Machine Applicable,Readableand Transferable)標準的概念,將標準數字化能力劃分為5個階段,該模型在國際層面已經形成共識。2021年10月,中共中央、國務院發布《國家標準化發展綱要》,要求“推動標準工作向數字化、網絡化、智能化轉型”。隨著我國社會不斷發展,油田行業也逐漸發展起來。同時,油田行業的經濟基礎也與日俱增,油田行業的環保安全意識日益增強,而油田環保安全領域標準對于規范和引導油田行業安全生產、綠色發展和效率提升具有重要作用。在數字化時代,油田行業對于安全環保標準智能化應用和服務要求更高。當前,油田環保安全領域標準面臨尚未形成標準動態數據源分析與監測方法,具體問題如下。
油田環保安全領域系統化和一體化的標準動態數據源尚未建立。在高質量發展新時代,標準數字化既是經濟社會發展、數字技術變革,也是實現國家質量基礎設施數字化轉型的關鍵內容。隨著標準數字化的發展,標準的普及與使用更加廣泛,在標準數字化發展過程中,油田企業高質量發展對標準動態數據質量提出了更高要求,尚未形成高相關、系統化、一體化的標準動態數據源分析與監測方法,無法及時跟蹤全球有關油田環保安全領域標準數據、政策法規、戰略規劃、科技成果等,不能實時跟蹤與推送前沿與熱點內容,自然無法滿足支持用戶便捷了解科技標準的最新發展動態。同時,油田環保安全領域各標準管理平臺在標準數字內容來源、加工、更新、管理和存儲格式等方面都有所區別,形成了“各自為政的局面”,亟待建立統一的標準數據“源”。
因此,為有效支撐國家和國家標準數字化戰略有效實施,本論文開展油田環保安全標準關聯性監測技術研究,針對油田環保安全標準相關國內外動態信息(如:標準動態、政策法規、智庫報告、情報產品、熱點欄目)進行油田環保安全標準領域自動化關聯性監測,及時跟蹤與推送前沿與熱點內容,支持用戶便捷了解油田環保安全標準領域最新發展動態。
1 研究綜述
標準關聯性監測(Association Monitoring)是指圍繞某一領域標準通過對多個相關事件或數據點之間的關聯進行實時監測和分析,以發現新的關聯模式、趨勢或異常情況的過程。這種監測技術在不同領域中都有廣泛的應用,如:市場分析、金融風控、社交媒體挖掘等。
數據源關聯監測相關技術的發展可以追溯到互聯網的興起和數據爆炸的時代。數據源關聯監測是指對數據源進行實時或定期的監測和分析,以識別數據的變化和趨勢。在互聯網和大數據時代,數據源的規模和多樣性迅速增加,對數據源關聯監測的需求也日益增加。隨著技術的不斷發展,相關技術在過去幾十年發生了巨大變化。
在數據源關聯監測的發展歷史中,最早應用的技術之一是網絡爬蟲[1, 2]。網絡爬蟲技術最早出現在20世紀90年代末,用于搜索引擎的數據收集和索引。當時的搜索引擎如:Altavista和Excite都使用了網絡爬蟲技術來抓取互聯網上的網頁。隨著互聯網規模的迅速擴大,網絡爬蟲技術也得到了進一步的發展和改進。現在,網絡爬蟲已廣泛應用于各種領域,如:輿情監測、新聞采集和金融數據收集等。另一個重要的技術是文本挖掘[3],在20世紀90年代末至2000年初開始得到關注和發展。當時,研究者開始使用自然語言處理和機器學習技術,對大規模文本數據進行分析和挖掘。這為數據源關聯監測中的文本分析提供了基礎。通過文本挖掘技術[4],可以從數據源中提取關鍵詞、主題和情感等信息,以便判斷數據源的變化和趨勢。隨著計算能力和數據量的增加,機器學習技術也開始應用于數據源關聯監測。機器學習[5,6]是一種通過算法讓計算機從數據中學習和提取模式的技術。在數據源關聯監測中,機器學習可以用于構建模型并預測數據的變化和趨勢。研究者可以使用機器學習算法如:支持向量機、決策樹和神經網絡等來構建模型,以自動識別異常行為和趨勢,并提供預測結果。統計分析[ 7 ]也是數據源關聯監測中的重要技術之一,是一種用于分析和解釋數據的技術。在數據源關聯監測中,統計分析技術常用于比較和分析不同時期的數據。通過統計分析,可以檢測數據的趨勢、方差和相關性等統計指標,幫助用戶理解數據源的動態變化。
此外,隨著人工智能和大數據技術的快速發展,數據源關聯監測也融合了一些新興的技術。例如:自然語言處理和語義分析技術可以進一步提高文本數據的理解和處理能力。深度學習技術[7]的應用可以幫助處理復雜的模式和結構。同時,云計算和分布式處理技術可以加速數據源關聯監測的速度和效率。區塊鏈技術的引入可以保證數據的安全性和可信度。
數據源關聯監測相關技術在過去幾十年中取得了長足的發展。網絡爬蟲、文本挖掘、機器學習、統計分析和數據可視化等技術的進步不僅提高了數據源關聯監測的效率和準確性,還為決策者和研究人員提供了更好的數據分析和洞察力。隨著新興技術的不斷涌現,比如:自然語言處理、深度學習和區塊鏈等,數據源關聯監測將進一步發展和創新。這些技術應用于油田環保安全領域標準數據源關聯監測,也將促進油田環保安全領域標準數字化的發展。
目前已經開始對標準關聯性監測進行探索,中國標準化研究院通過監測國內外相關網站實現實時追蹤抓取國內外相關標準化信息情報,在此基礎上形成標準輿情化產品。國家科技圖書文獻中心(NSTL)建成了科技標準重點領域信息門戶,該門戶聚焦標準化與科技創新互動、資源環境標準化、質量研究、農業食品標準化、高新技術標準化等領域,跟蹤全球有關科技標準的政策法規、戰略規劃、科技成果等,實時跟蹤與推送前沿與熱點內容,支持用戶便捷了解科技標準的最新發展動態。目前門戶已經監測了國內外183個相關標準化機構。但是上述嘗試均是基于全領域標準開展相關關聯性監測研究,鑒于此,本論文也將開展油田環保安全標準關聯性監測技術研究。
2 油田環保安全領域標準關聯性監測技術的主要內容
2.1 油田環保安全領域標準數據需求識別
針對公司對油田環保安全領域相關業務標準數據需求模糊、不明確等問題,開展大規模跨部門的實地調研與專家研討,明確不同部門對標準數據及其來源需求的關鍵要點,繪制不同部門標準數據需求清單,并對業務相關標準數據需求數據進行聚類組織和處理,并反饋給各個業務部門,通過不斷迭代優化,最終精準識別不同業務標準數據需求。上述工作方案的關鍵在于如何開展大規模的實地調研與專家研討,本論文的具體方案如下所示。
實地調研確定需求的方案流程如下。
(1)確定調研目的。明確標準數據源范圍調研的目的,為了了解不同業務部門對不同標準數據源需求情況。
(2)制定調研計劃。設計一個調研問卷或面談指南,包括一些開放性問題和封閉性問題,以便業務部門可以詳細描述他們對標準數據的需求。
(3)選擇合適的受訪人員。選擇每個部門中的關鍵人員,包括管理層、業務分析師和其他涉及數據使用的員工。
(4)進行調研。采訪被選擇的受訪人員,確保問卷或面談過程中能夠深入探討他們的需求和期望。
(5)整理和分析數據。將調研數據整理和分析,找出各部門的共同需求和特定需求。這可能需要使用一些統計方法和數據分析工具。
專家研討確定需求的方案流程如下。
(1)召集專家組。邀請各個部門的專家,包括業務領域的專家和數據分析專家,參與研討會議。
(2)明確定位議程。制定會議議程,確保在會議中全面涵蓋各個部門的需求,并確定確切的問題,以便專家們能夠提供有針對性的意見。
(3)組織研討會議。進行研討會議,鼓勵專家分享他們的見解、經驗和建議。
(4)記錄和整理意見。記錄專家的意見和建議,包括可能的解決方案和實施策略。
(5)綜合分析。將實地調研和專家研討的結果綜合起來,尋找共同點,確定優先級,制定數據需求的詳細計劃。
(6)反饋和確認。將綜合分析的結果反饋給相關部門,確認他們的需求是否被準確理解,如果有誤會或遺漏,及時進行修正。
(7)制定實施計劃。基于綜合分析的結果,制定數據需求的實施計劃,包括數據收集、處理、分析和報告的具體步驟和時間表。
2.2 油田環保安全領域標準數據源的確定依據
針對油田環保安全領域業務標準數據源范圍確定規則或依據缺乏的問題,研究面向不同業務需求的標準數據源范圍確定的規則和框架要點,提出集“戰略目標、問題導向、業務流程、前沿熱點、重點任務、權威可信”等多維度為一體的標準數據源確定依據,并制定參照指標,采用多維評價指標體系等方法綜合確定標準數據源。
通過建立符合標準源規則或框架要點的標準數據源篩選依據,并采用多維評價指標體系等方法對標準數據源重要程度進行打分,最終建立具有重要度評價的標準數據源頭體系。當前標準源的評價研究大多采用單一或幾個指標數據來進行測算,由于標準數據源是一個多元復雜系統,所以采用單一或幾個測量指標無法準確表征標準數據源應有內涵。鑒于此,后續本文將采用多維指標體系方法來評估標準源重要水平。在多維指標體系下,其中一個重要問題就是對指標設置權重,根據設置權重方法不同,可將標準源常用測度方法劃分為主觀權重法、客觀權重法、綜合計量法。主觀權重法包括綜合加權法和層次分析法,客觀權重法包括主成分分析法和熵值法,綜合計量法包括隨機前沿分析法(SFA)和數據包絡分析法(DEA)。綜合計量法更適用于包含投入和產出要素的績效評估方法,即評估對象如何以較少的資源投入獲得較多產出結果的多屬性評估,這種方法要求指標體系中指標之間存在明顯或嚴格的投入—產出關系。同時,由于熵值法是根據各項指標數值的變異程度來確定指標權數的,避免了人為因素帶來的偏差,但該方法忽略了指標本身重要程度,有時確定的指標權數會與預期的結果相差甚遠,同時熵值法不能減少評價指標的維數。鑒于此,本文后續將采用主觀和客觀相結合的方法從不同維度對標準數據源重要程度進行打分。
2.3 油田環保安全領域標準關聯數據自動抓取
針對油田環保安全領域標準關聯信息自動化抓取水平較低的問題,聚焦上述確定的油田環保安全領域標準數據的國內外相關數據源,采用大規模關聯數據自動化抓取技術,自動搜集、挖掘和揭示相關領域或機構發布的標準相關新聞、政策、法規、報告、項目、成果等標準情報資源。其中,大數據關聯數據自動化抓取是通過各種技術手段自動從不同數據源中提取數據并將其整合到一個數據存儲中,以便進一步分析和處理。本論文制定的自動化抽取技術方案如下。
(1)Web 抓取和爬蟲技術
爬蟲框架:使用像Scrapy(Python)、ApacheNutch(Java)或者其他開源爬蟲框架,能夠自動化地從網頁上抓取數據。
數據解析:使用H T M L 解析庫(比如:BeautifulSoup、Jsoup)或正則表達式從網頁中提取所需數據。
(2)API 調用
A PI 抓取:很多網站和在線服務提供A PI接口,可以通過API調用直接獲取數據。使用工具如:Requests(Python)來進行API調用。
認證和授權:如果API需要認證,應確保擁有正確的A PI密鑰或令牌,并且了解API的限制和配額。
(3)數據庫連接和查詢
數據庫連接:使用數據庫連接庫(例如:JDBC、ODBC)連接到數據庫系統。
SQL查詢:編寫SQL查詢語句來選擇和提取所需的數據。對于非關系型數據庫,可以使用相應的查詢語言(例如:MongoDB的查詢語言)。
(4)日志文件監控
日志分析:對服務器日志文件進行實時監控,并分析其中的數據。使用工具如:Apache Flume可以用來收集、聚合和移動大量的日志數據。
(5)消息隊列
消息隊列:使用消息隊列系統(例如:ApacheKafka、RabbitMQ)來收集和傳輸數據。生產者將數據放入消息隊列,消費者從中獲取數據。
(6)數據倉庫抽取(ETL)
ETL工具:使用ETL工具(例如:Apache NiFi、Talend、Apache Air f low)來提取、轉換和加載數據。這些工具通常提供可視化界面,方便配置數據流程。
(7)實時數據流處理
流處理框架:使用實時數據流處理框架(例如:Apache Storm、Apache Flink、Apache Kaf kaStreams)來處理數據流,可以在數據抵達時進行實時處理。
(8)機器學習和自然語言處理
NLP 技術:如果需要從文本中抽取信息,可以使用自然語言處理(NLP)技術。工具如:NLTK(Python自然語言處理庫)可以幫助處理文本數據。機器學習模型:利用機器學習模型(例如:文本分類、命名實體識別)來自動從非結構化數據中抽取結構化信息。
(9)數據爬蟲和機器學習結合
自動化學習模型:利用自動化學習模型(例如:AutoML工具)來構建能夠適應不同網站結構的數據爬蟲,從而實現智能化的數據抓取。
在選擇合適的技術時,需要考慮數據源的類型、數據量、抓取頻率、數據的格式等因素。綜合運用這些技術,可以實現高效、穩定和自動化的大數據關聯數據抓取過程。
2.4 油田環保安全領域標準關聯監測內容分析
針對公司不同業務對標準數據分析和應用能力較差的問題,利用大數據分析與知識關聯技術,分別從區域、時間、發布機構、關鍵詞、摘要、單位合作網絡、被引用頻次等方面開展相關自動化識別,實現對所需監測數據基本內容的自動化統計與分析,實時、動態、可視化地展示或分析所需監測數據的內容。
自動化采集的標準信息可以通過各種機器學習和數據分析技術進行深入分析。本論文將綜合采用以下大數據分析技術嘗試進行監測數據分析。
(1)文本挖掘(Text Mining)
自然語言處理(NLP):使用NLP技術,如:分詞、命名實體識別、情感分析等,對文本進行處理和理解。
主題建模:使用主題建模算法(如:L a t e n tDirichlet Allocation)發現文本數據中的主題和關鍵詞。
文本分類:使用文本分類算法(如:樸素貝葉斯、支持向量機)對文本進行分類,例如:垃圾郵件過濾、新聞分類等。
(2)數據挖掘(Data Mining):
聚類分析:使用聚類算法(如:K均值聚類、層次聚類)將數據分成不同的簇,揭示數據的內在結構。
關聯規則挖掘:使用關聯規則挖掘算法(如:Apriori算法)找出數據中的關聯規律,例如:購物籃分析。
異常檢測:使用異常檢測算法(如:孤立森林、LOF算法)找出數據中的異常點,用于欺詐檢測、設備健康監測等。
(3)可視化分析
使用可視化工具(如:Matplotlib、Seaborn、D3.js)將分析結果以圖表、圖形的形式呈現,幫助用戶直觀理解數據。
利用地理信息系統(GIS)技術,將數據可視化在地圖上,用于地理空間分析。
(4)實時分析
使用流處理技術(如:Apache Kafka、ApacheStorm)進行實時數據分析,對持續產生的數據進行快速處理和響應。
在進行機器分析之前,需要進行數據預處理,包括數據清洗、缺失值處理、特征工程等步驟,以保證分析結果的準確性。選擇合適的算法和工具,結合領域知識,可以更好地發現數據中的模式和規律。
3 研究結論
本文聚焦油田環保安全領域標準關聯性監測技術研究,針對我國油田環保安全領域相關業務標準數據需求模糊、結構化處理需求差異較大、標準數據分析和知識關聯能力較弱等問題,采用專家研討和總結歸納等方法,繪制不同部門標準數據需求清單,精準識別不同業務標準數據需求。研究面向不同業務需求的標準數據源范圍確定的框架要點,提出集“戰略目標、問題導向、業務流程、前沿熱點、重點任務、權威可信”等多維度為一體的標準數據源篩選依據,采用多維評價指標體系等方法綜合確定標準數據源。采用大規模關聯數據自動化抓取技術,自動搜集、挖掘和揭示相關領域或機構發布的標準相關新聞、政策、法規、報告、項目、成果等標準情報資源。利用大數據分析與知識關聯技術,實現對所需監測數據基本內容的自動化統計與分析,實時、動態、可視化地展示或分析所需監測數據的內容。研發標準數據源監測狀態提示與預警技術,對標準源狀態(如:采集中、待審核、暫停、異常、新增數據量、采集時間等)進行提示或預警,及時優化和調整相應標準源。利用標準重點相關內容的關聯技術,將獲取的標準信息關鍵詞或重點內容與關聯知識進行大數據匹配,從而將與標準信息相關的創新成果、技術、評價等類型信息或數據納入監測數據源中,實現多類型、高關聯的標準數據監測,為開展標準知識庫建設提供多元數據支撐。
參考文獻
S. Brin,L. Page. The anatomy of a large-scale hypertextualWeb search engine[J]. Computer Networks and ISDN Systems,1998,30(1-7): 107-117,.
M. Najork, J. L. Wiener. Breadth-first crawling yields highqualitypages[C]. In Proceedings of the 10th InternationalConference on World Wide Web, 2001.
C. Aggarwal. Data Mining: The Textbook[M]. Springer, 2015.Y. Huang, S. Zhang, J. Chen. A novel web data monitoringapproach based on deep learning[C]. In Proceedings of the19th International Conference on Big Data Analytics andKnowledge Discovery, 2017.
Hastie, T., Tibshirani, R., Friedman, J. The Elementsof Statistical Learning: Data Mining, Inference, andPrediction[M]. Springer, 2009.
唐亮,段建國,許洪波,等. 基于信息論的文本分類模型[J].計算機工程與設計, 2008,29(24):6312-6315.
尹江,尹治本,黃洪. 網絡爬蟲效率瓶頸的分析與解決方案[J]. 計算機應用, 2008(05):1114-1116+1119.