彭建怡,吳湘寧,羅勛鶴,劉遠興
(中國地質大學(武漢),武漢 430074)
理論教育和實踐教育構成高等教育的主體.實驗室是實踐教育的主要載體,是新形勢下培養高素質人才、出高水平成果、為經濟建設服務的主要場所.近年來,高校進行了大量實驗室投資建設,配置大量實驗室設備,用以滿足開展實踐教學和科研的需要,但在建設與管理過程中也存在建設論證不充分、設備管理維護更新不及時、實驗室共享開放不足等問題[1,2].針對這些問題,相關學者也開展了研究.高俊敏、姜麗偉等從制度層面提出了實驗設備建設與使用方面的優化措施,給后續工作提供指導參考[2,3].RFID 及WiFi 等技術在實驗室應用,給實驗室設備信息化管理方面帶來長足進步[4–7].而這些傳感器和新型設備投入,使得實驗室建設與管理相關數據來源也越來越多.課程開設與變更、實驗設備性能參數、價格與生命周期,以及實驗場地使用、水電使用等過程無不產生大量數據.
數據帶來價值,同樣數據量增加給實驗室建設管理提供了更多的方法和思路.例如學生實驗數據和設備數據能夠準確衡量某一部分知識學生掌握情況,供教學參考;設備使用數據結合維護數據,可以更好預測設備生命周期,便于進行設備更新換代;設備使用、智能插座和門禁系統結合可以有效評價實驗室使用率和開放率,對實驗室評估起到有效支撐作用.但目前實驗室管理系統一般都是基于現有設備來實現項目管理,偏重結果,實驗過程數據采集與處理較少涉及,沒有有效利用起來,且系統擴展性不強.
本文從實驗室管理實際出發,研究了實驗室管理模型,提出數據驅動的實驗室智能管理流程和邏輯架構;依據大數據思想,采用標簽系統將實驗室相關數據和實驗室評估GBDT 等等機器學習模型進行分類存儲;構建以標簽系統為條件的實驗室智能管理平臺,實現了實驗室管理功能,應用廣泛,擴展性強.
實驗室服務于教學科研工作,其管理對象包括人、事、物、信息、經費等.涉及實驗室申報、建設、實驗教學的全部活動,主要包括:實驗室建設規劃、設置,實驗室管理模式與運行機制,實驗室儀器設備配置與使用,實驗材料與低值易耗品管理,實驗室基本信息管理與檔案管理,實驗教學隊伍建設與培訓,實驗教學與科研實驗管理,實驗室的經費使用與檢查等[8,9].由此可見,實驗室管理工作較為繁雜,涉及很多方面,但這些工作又可以細分成各個具體工作,從一個具體項目角度來說,管理工作基本模型如圖1所示.
從圖1可以看出,不論管理內容有多少,對于某一具體項目管理工作來說,可以概括成兩步:“選擇”和“動作”.“選擇”就是選擇管理內容,“動作”就是進行合適處理后,形成報告、郵件等管理結果.“選擇”管理內容操作,實際上就是限定內容滿足一定要求,比如在某實驗教師進行實驗課程管理時,按照選擇實驗1 成績80 分以上,并且理論課程成績80 分以上,不是補考重修學生等這些條件,篩選出指定學生,推送選修實驗課程.這個過程是對具體實驗對象限定,可以包含多個條件,其細分模型如圖2所示.

圖2 選擇管理內容細分模型
從圖2可以看出,通過多個條件的邏輯組合,可以選擇管理對象,再對該對象進行相應“動作”,其中“選擇”是基礎,“動作”是根據實際需要進行操作.而“選擇”主要依據來源于各種數據.
根據實驗室管理模型,要實現“選擇”動作,需要合理利用數據來制定規則,但各個管理角色具體要求可能不一樣,規則制定也不一樣,對于實驗教師、實驗技術、系統管理人員來說,其管理流程如圖3所示.
實驗室管理平臺分為前端和后端,前端使用Web頁面,供用戶操作,后端為邏輯計算,為前端展示提供邏輯和數據支持.對于數據驅動的實驗室管理平臺,前端供業務部門的業務人員使用,如實驗教師和實驗技術人員;后端的責任人為IT 部門的數據工程師和系統開發工程師.根據實驗室管理模型,數據驅動的實驗室智能管理平臺邏輯框架如圖4所示.

圖4 數據驅動的實驗室智能管理平臺邏輯架構
管理人員登錄管理平臺,首先創建一個新的實驗室管理,設置管理名稱、所屬責任人、時間范圍和運行頻率等信息,然后在此實驗室管理下創建一個或多個規則,每個規則下創建不同的條件組合,最后為創建完成的規則設定一個動作.這樣就完成了一個基本的數據驅動實驗室管理配置.
要實現上述管理平臺實現智能管理,另外一個重要環節就是活動規則的條件設置,我們通過標簽系統實現.標簽,指數據標簽,是對實體屬性(entity)的描述,標簽的值標記了實體的一個信息.例如,對于學生,“性別”是其一個標簽,“男性”是這個標簽的值,它標記了該學生的性別信息.標簽系統是根據一定的規則,計算和存儲標簽的集合,它按照既定的邏輯對標簽進行類管理,并根據規則進行標簽值的計算和更新,通過預計算的標簽解決數據訪問問題,降低了數據使用門檻[10–13].
標簽系統是一系列標簽的集合,可分為實驗課程、實驗設備、場地、學生、教師、管理員等主題,這些主題按數據更新方式分為基礎標簽,行為標簽和衍生類標簽,具體見表1.

表1 實驗室各種數據標簽
從表1中可以看出,標簽主題分為基礎標簽、行為標簽和衍生類標簽等.基礎標簽的值一般固定不變,或者更新周期很長,采取增量更新的方式刷新標簽值,每次僅更新值改變的標簽或者插入新增加的客戶基礎標簽;行為標簽用于描述歷史行為,總是處于變化之中,采用周期性全量更新或實時(消息隊列+流處理)定點更新;衍生類標簽是其他標簽之間的邏輯組合,它本身并不存儲標簽值,而是存儲標簽之間的計算邏輯,在被調用時才實時計算出標簽值,是一種特殊的動態標簽.這樣實驗數據均能化為標簽數據,標簽系統和管理系統一樣也要分為前端和后端兩部分,如圖5所示.
標簽管理員通過標簽系統前端(管理)頁面,配置標簽與數據后臺的映射關系,配置信息存儲在標簽映射表中.當標簽用戶在標簽系統前端(査詢)頁面輸入查詢條件后,系統首先通過標簽映射表定位標簽的物理位置,然后從標簽數據后臺讀取對應的標簽值,返回頁面端顯示.標簽映射表關聯著標簽系統的前端和后端,它存儲了標簽系統中除標簽值外的所有屬性,包含對標簽層次結構的全部描述信息,系統后端存儲所有標簽的值,通過關系型數據庫表或者HBase 表進行存儲,標簽映射表見表2,可根據存儲在標簽映射表中的信息序可以智能定位到對應標簽的值.

圖5 標簽管理示意圖
在實驗室建設論證、課程效果評估、實驗室效益評估等實際管理過程中,如何有效利用數據對進行評分評價,是各方都非常關心問題.本文采用GBDT (Gradient Boosting Decision Tree)回歸算法對前期實驗數據進行建模[14–18].但在GBDT 建模階段需要大量的計算,因此建模過程是在后端通過離線計算完成,并將建好的GBDT 模型轉換為標簽,供在線使用.下面以新建實驗室效益評估為例,創建模型標簽和調用流程圖如圖6.

表2 標簽系統層次結構與數據后端的映射表

圖6 新建實驗室效益評估流程圖
在GBDT 建模階段,在服務器后端,根據前期存儲的學生實驗數據、成績情況、設備購置價格及更新、設備使用數據、實驗室用電、門禁等數據,分別建立課內實驗評分、開放實驗評分、設備使用效益評分、設備共享評分、設備折舊率評分、場地運行效率評分等模型,將這些模型以標簽數據形式存儲在起來.當對一個新實驗室進行效益評估時,在Web 端調用這些模型,輸入新建實驗室申報數據,即可快速得出相應評分,供評審專家參考.
實驗室評估采用GBDT 算法實現,歷史實驗數據作為訓練數據,采用GBDT 算法訓練后,模型函數存儲為標簽,供在線調用,其偽代碼如圖7所示.
實驗室智能管理平臺是通過配置管理規則來實現實驗室管理.下面以向優秀學生推送選做實驗為例來說明基于標簽系統的管理過程,該項管理活動條件與標簽對應表見表3.
為了配置該規則,管理人員需要將表3中3 個標簽:iEX_Score1、iTH_Score、bRE_EXA 設置對應條件,并以AND 連接,可以通過手工編輯邏輯關系進行調整,圖8展示了規則設置這個關鍵頁面.由此可見,標簽系統需要提供盡可能多的公用標簽,以滿足盡可能多的規則(條件)設置要求.一旦標簽用戶發現條件需要的某個標簽不存在,就需要向標簽管理人員提交新增標簽需求,當標簽管理人員將新的標簽增加到標簽系統之后,標簽用戶就可以在管理平臺的上述頁面看到并使用該標簽.

圖7 實驗室評估GBDT 算法

表3 條件與標簽對應表
規則設置頁面提交時,規則對應的邏輯關系保存至后臺數據庫,其中標簽以標簽ID的形式進行保存,通過標簽ID 可以進一步尋找標簽所在的事實表,并取得對應的標簽值.最終的邏輯關系值如果是true,則表明該學生滿足該規則;如果結果為false,則表明該客戶不滿足該規則,因此不推薦該項選修實驗.
界面中運行頻率選項是“每天”,指的是該規則通過頁面轉換成了條件之間的邏輯組合,將條件解析成SQL 語句,進行后臺批量處理,結果存放在一個結果表中,后續的管理動作階段將根據結果表,產出不同的格式的作業文件,或生產報告或Email 作業文件等過程.
除了批處理外,還可以選擇基于場景的管理,管理活動可以基于場景的實時處理,例如某生做完實驗1,系統評價分數80 分以上后,可以直接給他進行實驗推薦.這就要將批處理改為“實時處理”,管理過程其實是一致的,只在技術上需要引入“消息隊列”,根據這些消息完成管理.圖9展示了實驗提交后推薦實驗效果圖.

圖8 管理平臺規則設置頁面

圖9 基于場景的推薦實驗頁面
數據帶來價值,數據帶來新思路.隨著新型設備和物聯網在實驗室的應用,各種實驗相關數據來源越來越多,可供管理依據也越來越多.據此,本文從實驗室管理實際出發,研究了實驗室管理模型,對于實際管理工作,主要分為“選擇”和“動作”兩種操作,提出數據驅動的實驗室智能管理流程和邏輯架構;依據大數據思想,采用標簽系統將實驗室相關數據和實驗室評估GBDT 等算法模型進行分類存儲;構建以標簽系統為條件的實驗室智能管理平臺,實現了實驗室管理功能,應用廣泛,擴展性強.這種基于數據驅動的實驗室智能管理平臺在實驗室論證建設、建設流程管理、實驗教學與開放使用、運行管理與維護、實驗效果評估等實驗室全生命周期里發揮作用,能促進實驗室發揮最大效能,為后期建設立項提供有力支撐.