劉 鑫, 高 珅, 張高娜
(湖北省國土測繪院,湖北 武漢 430010)
邁爾-舍恩伯格(2013)提出:世界的本質就是數據。自古至今,科技進步都離不開數據這個本質,用數據“說話”、挖掘數據的有用信息一直是科學研究的核心。大數據時代的開啟,使得政府職能發生轉變,能夠提升政府治理能力,大數據新理念與新技術可以對數據進行加工和挖掘,從而創造新的價值,并提高政府決策的科學性,在助力社會經濟發展的同時,為公眾提供更加便捷的政務服務品質[1]。
對地質行業而言,將大數據作為地質行業新興增長點進行培育和挖掘,用大數據實現地質工作和信息技術的深度融合,充分發現未知數據,根據需求有效地提取信息、挖掘有用的知識并且應用到政府決策、管理服務和科學研究中,才能擁有未來的信息財富,否則,即便是面對更為龐大的數據,沒有明確需求的大數據挖掘將被湮沒在海量數據之中。在這種經濟背景下,從數據中獲得有用的洞察力至關重要。滿足用戶需求除了收集數據且以正確的方式豐富數據,還要進一步使用行業及相關的多源數據,最終并以與用戶目標相一致的方式呈現結果信息[2]。
大數據的到來,給地學領域帶來的變革之一是服務觀念的改變,即根據實際需求,提供相關領域的服務。大數據服務與應用的發展,給地質行業帶來的最大變革是使地質行業以數據分析為基礎進行地質過程演化推理、應用等,通過對大數據技術的不斷積累完善,需要什么服務就應用相應技術,不再孤立地形成信息孤島,使地質大數據各領域數據化水平提高,能夠進一步進行定量分析,將數字地球科學的研究向前推進。
地質大數據的研究目前尚處于起步階段,但它所具有的重大意義和發展前景是可以肯定的。①以新的視角看待“數據”,它包括熟悉的傳統數據和不被知曉的各種數據,甚至是再造發現的新數據。數據充滿著信息,數據承載著知識,數據創造新價值。②以新的思維方式應用“數據”,所謂大數據時代的到來就是要改變經驗的傳統思維方式“憑數據說話”和“從數據中找答案”則是政府決策、國家管理和科學研究的主旋律。③用數據描繪世界,用數據記錄科學,用數據構建整個人類社會,誰擁有了無與能比的“數據”,誰就擁有了未來。
傳統的地質事業單位信息系統設計,有的側重于利用系統提供良好的人機界面,可以很好地管理和使用這些數據和成果[3];有的是為了把分散的地質信息資源,由計算機進行管理,實現科學化管理[4];主要是結合生產實際,運用軟件工程和數據庫理論,給出地質信息管理與小構造處理的設計步驟和實現方法。突出的是查詢和描述性分析地質信息的能力和各種報表輸入輸出功能以及相關圖形繪制[5]。顯然,以上設計沒有考慮到大數據的發展,也沒有滿足主動式管理的要求。
近期王小丹等[6]將地理信息系統、遙感、數據庫、評價模型建模及三維可視化等技術手段,嘗試構建地質管理信息系統,實現數據管理維護、數據分析評價和三維建模,實現數據的統一管理和應用。該方法切合大數據的處理手段,但該方法需要大量的數據作支撐,耗資大周期長,對于數據處理能力不強的事業單位而言很難支持或者獲得好的投入產出比。
基于以上地質大數據發展的分析和地質事業單位管理信息系統的狀況,本論文不對數據框架和平臺做深入的研究,而是瞄準地質大數據服務應用和管理,以此分階段組織數據,以數據驅動的地質事業單位信息系統設計為例,用數據驅動系統的集成應用,以此來避免更多的投入來獲得豐富的應用價值[7]。
依據數據生命周期理論,數據驅動信息化建設流程包括如下五個階段:
(1) 第一階段:發現研究。學習業務領域—評估可用資源—設定問題—采訪分析發起人—形成初始假設—明確潛在數據源。
(2) 第二階段:調查采訪和數據準備。準備分析沙箱—執行ETL—研究數據—數據治理—調查和可視化。
(3) 第三階段:探索和模型規劃建立。數據探索和變量選擇—模型的選擇—模型設計階段的工具選擇。
創建用于訓練、測試和生產環境的數據集—模型是否在測試數據上有效且準確?—模型的輸出和行為是否有意義?—模型的參數值在業務背景下是否有意義?—模型是否足夠精確?—模型是否避免了不可容忍的錯誤?—是否需要更多輸入數據?—是否有輸入需要進行轉換或刪減?—所選擇的模型是否滿足運行要求?—是否需要用模型的另一種形式來解決業務問題?—將建模的成果與之前建立的成功與失敗的衡量標準進行比較。
(4) 第四階段:溝通結果研討會。確定項目是否成功達到既定目標—要確定結果是否有統計上的顯著意義和有效性—確定哪種或哪些模型可以最佳地解決分析挑戰—對項目的某些發現有所認知—思考項目遇到的阻礙和可以改進的方面—記錄從分析中得出的重要發現和主要見解—闡述結果、方法論和發現的商業價值。
(5) 第五階段:實施和建議。言傳項目的好處—建立一個試點項目以可控的方式來部署項目成果—將成果應用到整個企業或者用戶生態系統。
數據驅動信息系統應用的目的是為了對過去發生的現象進行評估和分析,找尋事物存在的證據,并在這個基礎上對未來事物的發生和發展做出結論并形成能夠指導未來行為的知識或者依據。如果沒有記錄,則企業的經歷就不能積累和沉淀為“經驗”,企業就不可能真正積累“經驗”,當人才流失后,企業“經驗”會隨著這些人才的流失而流失了。這還是比較不錯的情況,更為可怕的是,這些“經驗”有可能會成為競爭對手的“經驗”。數據驅動信息系統應用主要包括監控、追溯、洞察和預測四個方面(見圖1)。
企業在記錄數據的基礎上會進行數據分析和處理,形成一定的過程控制指標和管理指標,最終形成績效評價指標。這些指標可以讓企業的各層級管理者能夠隨時查閱相關任務的執行情況,從而對出現的問題和情況能夠第一時間知道并采取相應的措施。數據指標的建立可以讓各級管理者即時地觀測和掌控當前業務運營狀況,能夠隨時根據企業當前的運行狀況調整策略。監控的目的是為了保證業務的發展能夠按照計劃的軌道行進。監控是為了控制整個公司的業務流程,按照既定的方向和目標而執行,而不是走偏了方向。
在數據對企業越來越重要,數據記錄越來越方便,形式越來越多樣的時代,數據記錄與否只是管理問題,而管理問題的根源在于管理者的思維,管理者只有認識到數據的重要性才能讓數據記錄更加完善和健全,有了數據才會有數據分析,才會有對過去的追溯。如果覺得記錄數據是一個可有可無的程序,那么肯定不會有數據的積累,也就不會有對歷史行為的追溯,出現問題就不會有人負責。特別是當執行者不夠自信或者不敢擔當責任的時候,更會讓這些執行者拒絕記錄數據,這也是在大多數情況下在企業中推進數據記錄時遇到的阻力。
所謂的洞察,就是理解事物為什么會發生,找到事物發展的規律,并對未來事物的發展進行預測。商業洞察就是對商業邏輯的探尋,尋求商業現象背后的邏輯和因果關系,從而為商業決策提供依據。人類的洞察力來自于對外部世界的敏銳觀察,并將觀察到的信息經過大腦加工形成對外部世界萬物的認知,基于這些認知做出更加正確的決策,從而能夠獲得更好的收益。
前面提到“數據”是數字化的證據,而在日常管理上,數據的價值更加在于其是“數字化的依據”,是決策的依據。而如果要作為依據,那么數據就必須對未來的狀況做出判斷,即要對未來做出預測。數據分析是為經營和管理決策服務的,最終還是要指導未來的實踐,所以預測是數據價值最能發揮力量的地方。預測是我們認識客觀世界的基本技能,也是自然科學研究的基本出發點。通過分析歷史數據能夠掌握事物的規律,從而就可以推導未來的事物變化,從而做出更好的應對策略。

圖1 數據驅動信息系統應用圖Fig.1 Application of data-driven information system

圖2 技術路線圖Fig.2 Technical route
以數據驅動的地質事業單位信息系統在實際執行當中涉及到的主要環節包括計劃、實體、決策、主題和模型五個層次(見圖2)[9]。
地質事業單位信息系統建立的計劃目標是構建覆蓋地質全流程全生命周期的數據鏈,可以分解為幾個小的具體計劃目標。
實體數據源包括:第一類來自企業生產經營相關的業務數據,主要是企業信息系統累計的大量產品生產研發數據、客戶信息數據、生產數據、物流供應數據及環境數據;第二類設備物聯數據,指生產設備物聯網運行模式下,傳感器實時收集的涵蓋設備運行參數、工況狀態參數、運行環境參數等評估地質考察設備運行狀態、產品運行狀態的數據;第三類外部數據,指與地質生產活動相關的互聯網上產業鏈相關企業外部互聯網來源數據。數據攝取主要實現工業各環節數據的收集與集成,打通現有信息系統的數據連接。
決策就是數據處理和數據管理。數據處理和數據管理是地質信息系統的核心環節,其關鍵目標是實現管理智能化以及服務智能化等的數據處理和數據管理。通過數據建模、數據處理、數據分析,實現數據結果和服務場景的可視化,對數據質量、能力成熟度、數據資產管理、數據開放共享等進行數據管理。
主題是數據的應用場景,主要是基于數據處理和數據管理結果,可視化描述、控制、決策等不同應用,從而實現網絡化協同、智能化服務和個性化定制等典型的智能模式。
模型是將主題的計算及結果以規范化數據形式存儲下來,最終構成從物聯設備層級到控制系統層級、生產管理層級、企業經營層級、產業鏈上企業協同運營管理的持續優化閉環。
以數據驅動的地質事業單位信息系統解決方案包括八個步驟,具體見圖3。


圖3 以數據驅動的地質事業單位信息系統解決方案圖[10]Fig.3 Solution of data-driven geological institution information system
以數據驅動地質事業單位信息系統的分析模型主要包括以下三個分析矩陣[10],見圖4。

圖4 以數據驅動的地質事業單位信息系統數據分析模型圖Fig.4 Data analysis model of geological institution information system based on data-driven
某地質測繪院綜合信息系統流程設計見圖5。

圖5 某地質測繪院綜合信息系統流程設計圖Fig.5 Flow design of integrated information system for a geological surveying and mapping institute
某地質測繪院綜合信息系統的績效分析子系統在充分利用信息系統工作中產生的數據,按照策略、關鍵實體、關鍵決策確定的步驟進行(見圖6)。確定這些核心問題后,確定要分析的主題,給出分析計算模型和相應的數據源[10](見圖7)。

圖6 績效策略、實體和決策圖Fig.6 Performance strategy,entity and decision-making

圖7 績效計算模型及數據源圖Fig.7 Performance calculation model and data source

圖8 辦公子系統圖Fig.8 Office subsystem

圖9 績效子系統圖Fig.9 Performance subsystem
某地質測繪院綜合信息系統所有的流程和分析結果都要做到可視化展示[11],以便用戶更好的參與決策,主要包括三個模塊,分別是辦公子系統(見圖8)、績效子系統(見圖9)和興趣主題分析子系統(見圖10),其中數據分析子系統做到了靈活添加指標和修改權重,并可以自由選擇線圖、柱形圖等多樣化的圖形進行展示,為今后的產品升級和推廣打下了良好基礎。
本論文探討了如何設計以數據驅動的信息系統,方法是以數據驅動信息系統的集成應用,通過分階段組織數據來避免更多的投入而獲得豐富的應用價值;標準化是本設計工作的一個根本要求,如果不能做到從策略、實體到決策的標準化處理,后續的數據計算模型就失去了應用價值;靈活性也是本設計的一個特點,數據驅動的信息系統和數據分析系統是未來的趨勢,只有做到靈活性才能把握這種方向;領導支持和全體員工參與是本系統的根本保障,也是本系統存在的實際價值和設計方向的驅動力。

圖10 主題分析子系統
Fig.10 Thematic analysis subsystem