摘 要:由遠程協同故障診斷與網格技術的有機結合所形成的故障診斷網格,把廣域分布的專家知識、檢測設備、分析軟件等定義為診斷資源,而診斷資源的組織和優化調度是系統有效運轉的關鍵。從而提出了故障診斷網格中任務調度的體系結構,分析了故障信號分解、分配至診斷資源的工作流程,并通過Gridsim結合多種調度目標進行模擬仿真,驗證了該任務調度模型的可實施性。
關鍵詞:故障診斷網格; 任務調度; Gridsim仿真
中圖分類號:TP277;TH166 文獻標志碼:A
文章編號:1001-3695(2010)03-1002-04
doi:10.3969/j.issn.1001-3695.2010.03.053
Research on task scheduling model in fault diagnosis grid
ZHANG Jian-jun1, FENG Jing1, ZHANG Li2, XU Juan2
(1.Engineering Research Center of Safety Critical Industrial Measurement Control Technology, Ministry of Education, Hefei 230009, China; 2.School of Machinery Automobile Engineering, Hefei University of Technology, Hefei 230009, China)
Abstract:Fault diagnosis grid was the organic integration of the remote collaborative fault diagnosis and grid technology. This paper defined the wide-area distribution of expertise, test equipment, analysis software as diagnosis resources. And the organization and optimization scheduling of the diagnosis was a key to system operation effectively. It presented the task scheduling architecture in fault diagnosis grid and the analysis of the process of the fault signals decomposition and allocation to the diagnosis resources. And through Gridsim simulation combined with a variety of scheduling targets, the validity of the task scheduling model can be implemented.
Key words:fault diagnosis; task scheduling; Gridsim simulation
網格技術是一種新興技術,具有在動態的、多機構的虛擬組織中實現資源共享和協同解決問題的能力[1]。故障診斷網格是故障診斷技術發展的新階段,為遠程協同故障診斷的實現提供了一種新思路。它通過網格將分散在不同企業和社會群體(包括高等院校、研究院所、專家、服務機構)中的管理、信息、技術、智力、硬件和軟件資源通過封裝和集成,屏蔽資源的異構性和地理分布性,為設備用戶提供故障診斷服務,體現了遠程協同故障診斷系統集中管理和分布式計算相結合的廣域分布式資源共享的故障診斷思想。
目前國內外對此展開了很多的研究,在歐洲建立的DAME系統[2],它在飛行器引擎故障診斷中引入網格技術,將引擎傳感器的數據快照理性引擎模型進行比較,使系統盡早地發現偏離正常運行引起的偏差數據信號,提供包括引擎數據服務、數據存儲與挖掘、引擎建模、基于案例的推理支持等在內的各項服務,兼具故障診斷及故障預警的雙重功能。在國內,清華大學自動化系、國家CIMS工程技術研究中心領導承擔了“211工程”相關子項目——貴重儀器設備網上共享與管理分系統,在研究與開發過程提出了基于仿真網格的設備網格框架模型[3]。
本文提出了故障診斷網格中的任務調度模型,其中故障分解組件把診斷任務分解成不同領域專家的子任務;資源管理組件對廣域范圍中的資源進行維護和管理;任務調度組件按照任務的類型、所需資源、可用資源等情況安排運行日程和策略,負責任務的調度和分派;任務管理組件適時與資源管理組件交互,確保作業安全進行。針對任務調度模型設計了多種調度目標,用Gridsim仿真工具進行了模型的驗證。
1 故障診斷網格
1.1 現代大型復雜裝備的遠程協同故障診斷
遠程協同故障診斷的數學描述可表示為p=TE-TP(OP,UP,CP,PP)。
表1 遠程協同故障診斷數學描述各變量含義
變量名稱變量含義變量名稱變量含義
TE期望診斷狀態UP協同診斷人員
TP當前診斷狀態CP當前診斷所受約束
OP當前診斷目標PP當前協同診斷過程
其中:p為TE與TP之間的差距,當其能夠被指導設備維護和維修的技術人員所接受時,則對此故障的協同診斷可以結束。然而現代裝備日趨復雜,其大型化、自動化的程度不斷提高,使用客戶在地理上廣泛分布,現有的故障診斷模式已經難以滿足當前的故障診斷要求,即由于函數p=TE-TP(OP,UP,CP,PP)中各變量發生了變化,如下所列,從而使得期待診斷狀態與當前診斷狀態之間的差距過大無法被接受,由此導致了整個故障診斷過程的失敗。
a)OP現代復雜裝備規模大、自動化程度高、系統復雜,難以進行及時準確的診斷,確定故障所在和原因。
b)UP依靠維修工人、個別技術人員難以很快發現并解決故障,需要眾多技術人員進行聯合工作,遇到嚴重的故障時還需要多領域的專家參與指導。
c)CP:(a)診斷方法。經驗估計法在大型復雜設備的故障診斷中存在局限性。(b)診斷知識。往往是針對一種特定型號的裝備,通用性差,知識庫難以得到及時更新。(c)診斷資源。存在各自為政、響應遲緩、成本高昂等弊端。
d)PP由于地域、行業及部門之間的限制,設備客戶、制造廠家、研究機構之間結合不緊密,使得實際技術力量顯得十分不足。
現代大型復雜裝備,一旦發生故障而停產停工,其所造成的經濟損失和社會影響都要比過去呈數十倍的增加,因此為確保裝備安全有效地運行,提高其可靠性和安全運轉率,必須提高故障診斷技術的水平。除了在設備發生故障或異常后能及時準確地進行診斷,確定故障原因,提供維修決策與建議,迅速排除故障,更重要的是擁有對故障的預報預警能力,可以預測故障的發展和潛在的危險,及早確定應采取的對策。適用于現代大型復雜裝備的故障診斷系統應具有以下功能:
a)主動的故障診斷和預報。由診斷系統采集的海量數據,通過先進的能夠處理海量數據,又能滿足故障診斷和預報所要求響應時間的模式匹配和數據挖掘方法對采集來的數據進行分析,如果發現異常情況,及時預警。
b)先進的資源共享和集成能力。實現廣域范圍內的資源共享,將分散的診斷資源集成起來,有效整合,充分發揮整體優勢和綜合解決問題的能力。
c)全面的協同工作能力。通過構建遠程協同故障診斷環境,跨越地域、行業及部門之間的限制,使得裝備使用客戶、制造商、研究機構之間的結合愈加緊密,既可解決基層單位裝備維修保障專業人員相對較少的問題,又有利于研究機構更準確有效地得到裝備運行的第一手資料,充實理論研究。
1.2 故障診斷網格的概念
故障診斷網格是網格技術和遠程協同故障診斷技術的有機融合,是一類具有特定功用的服務網格,它繼承了網格技術的特點,如海量數據存儲處理、異構資源整合、跨區域、行業人員協同工作等,為遠程協同故障診斷技術的發展提供了新思路。
它的最終目標是把分布于廣域網絡,來自于不同設備用戶、制造商、研究所和高等院校診斷資源,如貴重儀器、檢測設備、分析軟件、智力資源以及現有的各種故障診斷系統等進行統一整合,形成一個高性能服務環境。用戶只需提交診斷任務,服務平臺自動對任務進行分類,并分解為若干個子任務,通過動態、分布式調用協作范圍內的有效資源,獨立或協同的解答用戶請求。通過充分共享、共同協作,以低成本、高質量地完成復雜設備的故障診斷任務。目前對故障診斷網格的研究,著重于如何利用網格技術來實現故障診斷的理論和方法,包括:診斷資源的表示與服務化封裝、診斷任務的調度優化和診斷知識的獲取與統一表達。本文所研究的是故障診斷網格中的任務調度問題。
2 故障診斷網格任務調度模型
2.1 任務調度系統
故障診斷網格任務調度模型(圖1)包括以下四個功能組件:a)故障診斷任務分解FDTD(fault diagnosis task decomposition)設備在結構和功能上具有分布性和層次性。這樣的性質保證了整個系統的故障可分解為各個子系統的故障[4]。主要功能是:接收設備用戶的診斷請求,利用歷史數據庫中的知識,把任務分解為可以被資源節點所處理的子任務,如表2所示,對獲取自FMS(flexible manufacture system)的故障信號按電壓、電流、功率、振動和溫度的類型來分解,則整個系統的故障診斷任務將由多個具有不同領域知識的專家系統來協作完成。
b)故障診斷資源管理FDRM(fault diagnosis resource ma-nagement) 對整個故障診斷網格中的資源進行管理和動態調度,接收任務分解組件的處理結果,并根據其特點進行資源的分配,實現資源節點的優化調度。主要功能有:與診斷網格中的資源進行互動,提供資源注冊服務,定期收集資源狀態信息;接收由任務分解模塊提交的作業,根據任務類型和要求分配資源執行任務;當任務執行有誤,對其進行再調度。
c)故障診斷任務調度FDTS(fault diagnosis task scheduling) 故障診斷網格其任務調度的實質就是將n個相互獨立的任務分配到m個異構可用資源上,使得總任務的完成時間最小以及資源得到充分利用。主要功能包括:根據資源管理組件傳來的信息判斷任務的可執行性;結合任務調度目標對診斷任務進行調度優化。
d)故障診斷任務管理FDTM(fault diagnosis task management)監視執行情況,根據情況進行作業調整,確保用戶作業的安全進行,將結果返回給資源管理模塊及通知用戶。主要功能有:接收任務調度組件提交的作業,建立任務隊列;將任務執行情況定期返回給資源管理組件;注意各任務執行情況,適時進行調整,對運行結果進行優化分析后,確定故障原因,及時反饋給設備用戶。
2.2 系統工作流程
圖2為系統的工作流程,總體分為以下四個階段[5]。
a)診斷任務的分解。診斷中心接收設備客戶的診斷請求,包括任務要求、狀態說明以及設備狀態數據等,利用知識庫中有關設備層次結構、功能原理、故障機理以及歷史分解方式等知識定義,對請求的任務進行分析和判斷,將復雜任務分解成一系列面向子系統的簡單任務,提交給資源管理與任務調度組件進行處理,以便于進行故障的快速定位。
b)診斷資源的動態管理。根據FDTD的處理結果,將零散的資源節點集合起來形成資源域,以提供不同的診斷服務。通過動態分配并優化調度系統內已注冊的診斷資源(以服務形式),系統平臺可以適應不同的診斷任務請求,具有靈活的可擴展性。
c)故障診斷任務的調度。根據任務性質、資源節點當前運行情況進行調度,形成調度最優方案,并監視任務執行情況,當執行有誤時啟動備用方案。
d)診斷任務解的形成。對各子任務的結果進行優化和分析,通過基于知識的信息融合處理過程,經過分析評價獲得最終診斷結果,確定故障發生的部位及故障產生的原因。
3 實例分析
3.1 實例描述
分布于FMS主軸、三向(X、Y、Z)進給軸上的傳感器監測著電壓、電流、功率、振動(X向、Y向、Z向)和溫度等靈敏信號,如表2所示。這些故障信號經過采集匯總后發送至診斷中心,經分解、歸類后劃分為若干個任務組,再根據任務性質調用網格中的各種資源如軟件分析軟件、檢測設備等資源對其進行綜合處理。
表2 FMS故障信號分解
部位電壓電流功率X向Y向Z向溫度
主軸 Um ImPmaxmaymazmTm
X軸Ux IxPxaxxayxazxTx
Y軸UyIyPyaxyayyazyTy
Z軸UzIzPzaxzayzazz Tz
根據表2構造故障信號矩陣,在矩陣中用行的不同來區別故障發生的部位,用列的不同來區別故障信號的類型,則可以對組成矩陣的各個列向量分配特定的資源域來進行作業,避免了對單個診斷信號一一指定分配資源這樣的重復工作,既提高了任務調度的效率,又提高了診斷資源的利用率。在本實例將對子任務電壓信號的診斷結合多種調度目標進行模擬仿真,以驗證任務調度模型的實用性。
F=UmImPaxmaymazmTxUxIxPaxxayxazxTyUyIyPaxyayyazyTyUzIzPzaxzayzazzTz(1)
T=(T1j T2j T3j T4j)T(2)
3.2 任務調度算法
任務調度算法描述[6]如下:
a)FDRM得到FDTD處理構成的故障信號矩陣形成任務列表。
b)依據各子任務的不同,在已注冊的網格資源中搜索,找到合適可用的資源,形成資源域。
c)對各子任務作資源域標記。
d)FDTS把當前子任務提交給相應的資源域,并在子任務列表中將其刪去。
e)判斷當前任務與已分配的上一任務是否屬于同樣的資源域。
(a)如果是,就直接把該任務分配到這個資源域,轉向f)。
(b)如果不是,轉向d)。
f)判斷用戶所有任務是否全部分配完成。
(a)如果是,轉向g)。
(b)如果不是,轉向a)。
g)將各任務組發送到指定資源域執行。
h)FDTM返回任務執行情況,統計結果。
3.3 仿真分析
由于網格的異構性、動態性等特點,構建一個真實的網格系統是非常復雜的過程,而且費用很高,本文將以網格仿真工具Gridsim[7]為手段進行模擬。相對于現實世界的多樣性、復雜性,文中所建立的仿真模型只能是對現實的簡化和盡可能的貼近,如在仿真模型中把各種資源對于故障診斷任務的處理能力抽象簡化為CPU的計算速度、任務的困難程度以任務長度這樣的概念來表示等。
1)實例設定
(1) 實例參數如表3所示。
表3 實例參數名稱表
名稱含義 名稱含義
gridlet故障診斷任務MIPSmillion instruction per second
length任務平均長度cost per second使用資源每秒所需費用
resource資源節點scheduling satrategy調度策略
architecture資源系統架構process_time運行時間
OS操作系統
process_cost運行費用
(2) 資源信息。使用仿真工具Gridsim生成診斷資源R1~R5,具有足夠的離散性,由這五個資源形成資源域resource01,則故障診斷任務將在這個資源域中運行。
表4 資源信息表
resourcearchitectureOSMIPS cost per second
R1SGI Origin Irix 200100
R2SGI Origin Irix 150200
R3Compaq OSF1 200300
R4 Intel Pentium Linux500200
R5Sun Ultra Solaris 300150
(3)任務信息。仿真是針對FMS主軸、三向(X、Y、Z)進給軸上電壓信號的,將通過逐步增加電壓故障信號的數量,結合三種不同的調度策略[8]MET(minimum execution time)、MCT(minimum cost time)、OTC(optimise time and cost),比較最終的process_time和process_cost來驗證任務調度系統的可行性。
2)結果分析
本文在模擬實驗中分別使用了三種不同的目標函數進行仿真實驗,且任務數量依次取為200、400、600、800和1 000,平均任務長度設為100MI,在圖4、5中對任務的完成時間和運行費
用進行比較。
分析結論如下:
a)本文所提出的任務調度模型是可行的,模型中各組件及其相互之間的關系在仿真中都得到了很好的模擬。
b)如圖3所示,采用MET目標所花費的時間明顯小于其他兩種;如圖4所示,采用MCT目標所花費的費用明顯小于其他兩種。
c)在任務數量較少時,采用OTC目標與其他兩種在花費時間、費用上相差不大,但隨著任務數量的增加,有明顯差異。
根據以上分析,本文所提出的故障診斷網格的任務調度模型是可行的,從三種調度目標來看各有優點和缺點,且任務數量越多,運行時間和運行費用之間的差異越大,越能體現各種策略的特點。
4 結束語
任務調度模型是故障診斷網格的重要組成部分,本文提出了一種故障任務調度的模型,并通過仿真的方式討論了該模型的可行性,為下一步對調度算法的優化打下了基礎。進一步的研究可以從兩方面來展開:a)在真實網格環境中實現該模型;b)改進模型使其從當前的靜態結構轉向可以適應即使加入緊急任務的動態調度模式。
參考文獻:
[1]FOSTER I,KESSELMAN C. The grid: blueprint for a new computing infrastructure[M].CA, USA:Morgan Kaufmann Publishers,1998.
[2]RUSSELL D, DEW P, DJEMAME K. Service-based collaborative workflow for DAME[C]//Proc of IEEE International Conference on Services Computing.2005:139-146.
[3]王躍宣,吳澄,倪晚成.設備網格服務鏈共享技術與方法研究[J].華中科技大學學報,2005,33(Z1):15-17.
[4]陳培林,史鐵林,余佳兵,等.分布式故障診斷系統中控制的組織方法[J].華中理工大學學報,1996,24(6):41-43.
[5]韓彥嶺.面向復雜設備的遠程智能診斷技術及其應用研究[D].上海:上海大學,2004.
[6]MUTHUVELU N, LIU Jun-yang, SOE LIN N, et al. A dynamic job grouping-based scheduling for deploying applications with fine-grained tasks on global grids[C]//Proc of Conferences in Research and Practice in Information Technology Series.2005:41-48.
[7]BUYYA R, MURSHED M. GridSim: a toolkit for the modeling and simulation of distributed resource management and scheduling for grid computing[J].Journal of Concurrency and Computation: Practice and Experience,2002,14(13):1175-1220.
[8]周維,羅澤,南凱,等.以策略為機制的網格調度模型研究[J].計算機工程,2007,33(7):89-91.