羅 安
(北京和利時系統工程有限公司,北京 100176)
論數字化自動化設備的可靠性
羅安
(北京和利時系統工程有限公司,北京100176)
摘要:可靠性一直是自動化設備最重要的指標之一。在科學技術高速發展的今天,自動化設備也從一個由硬件構成的產品發展為由硬件、軟件和網絡構成的復雜系統。相應地,可靠性問題也從單一關注硬件,發展到必須同時關注硬件、軟件、網絡通信及其相互作用等各個方面。信息安全問題也對自動化設備的可靠性產生了不可忽視的影響。
關鍵詞:自動化設備數字化可靠性硬件軟件網絡通信信息安全驗證與確認現場總線
0引言
對于自動化設備來說,可靠性是一個非常重要的關鍵性指標。自動化設備的一個重要作用,就是保證生產設備(即受控設備)的正常運行,在生產過程中保證安全,不出生產事故。而要做到這一點,自動化設備本身就不能出現故障,尤其是不能出現導致生產設備運行狀態達到危險程度的故障。另外,自動化設備還起著提高生產設備的運行效率和產品質量的作用。因此,如果自動化設備出現故障,將導致生產設備運行狀態產生波動,甚至停止運行,這就意味著產品質量的下降和經濟損失。自動化設備的可靠性關系到工業生產的安全性、經濟性以及產品質量。長期以來,工業界在可靠性方面有著巨大的投入,有關可靠性的技術、方法、管理、維護等各個方面都已經形成了比較完善的體系。
1技術進步帶來的新問題
近半個多世紀以來,自動化設備技術取得了長足的發展。在上世紀五六十年代,自動化設備基本上采用的是模擬技術,無論是采用機械原理,還是電子元器件,自動化設備均由硬件設備組成,如流程行業中使用的電動單元組合式儀表、制造行業中使用的繼電器組合邏輯控制器。當時的控制器利用機械聯動、繼電器組合、硬接線、電子元件(如電阻、電容、電感)組成運算電路的方法實現控制算法。這樣,控制器的可靠性完全取決于這些硬件的失效率以及隨時間、環境變化而產生的機械、電氣等性能和參數的改變。
近年來,在電子技術的基礎上,數字技術和信息技術飛速發展,帶動了自動化設備的巨大改變。首先,以模擬技術構成的控制器逐步被以微處理器構成的控制器所取代,以往由硬件原理實現的控制算法逐步由軟件方法實現。這一改變使得自動化設備的功能得到極大的提升,原來很難實現的復雜控制功能,現在可以很方便地完成,控制的精確度也大大提高;原來很難解決的問題,如大滯后環節的控制,都可以很好地完成。進入21世紀以來,在自動化設備中,尤其是在那些要求高、功能復雜、規模較大的控制設備中,控制功能的實現方法已經從依靠硬件技術為主逐步轉變為依靠軟件技術為主。除了以上的優越性外,由軟件實現控制功能的設備所具有的最大優勢在于:幾乎不存在生產制造方面的差異,只要設備中的軟件設計是正確、沒有缺陷的,那么所有生產出的設備均具有同樣的運行特性和控制性能,而且這種性能基本上不隨時間和環境的變化而改變。
在控制功能由硬件技術轉變為軟件技術實現之后,自動化設備的可靠性問題發生了極大的改變,包括可靠性設計、生產環節的質量保證,可靠性檢驗,與可靠性相關的運行維護等。在數字化的自動化設備中,軟件的設計對可靠性的影響可以說是關鍵性的,也就是說,一個數字化的自動化設備,其可靠性的最大保證來自于設計正確、功能完善、工作穩定,能夠在各種工況下正常工作的軟件系統。如果軟件的設計有任何小的缺陷,那么其造成的設備失效是確定的,并且是可復現的。但隨著軟件規模的日益龐大,軟件結構的日趨復雜,軟件缺陷越來越難以被發現和排除。一般來說,我們只能通過嚴格地檢查與測試,發現軟件系統存在的缺陷,但我們無法證明某個軟件系統是沒有缺陷的。這就形成了一個非常矛盾的局面,為了完善控制功能,必須設計更加復雜、龐大的軟件系統;而隨著軟件系統的擴大,軟件缺陷的數量也在不斷上升。因此,與硬件可靠性完全不同的軟件可靠性問題已經越來越嚴峻地擺在了人們面前。
2“系統性失效”與“隨機失效”
由軟件缺陷造成的失效被稱為“系統性失效”;而由硬件故障引發的失效則被稱為“隨機失效”。如上所述,系統性失效是一種系統固有的、僅在某種特定的運行狀態下發生的失效;而隨機失效則是一種概率性發生的失效,其失效概率一般遵循“浴盆曲線”。
對于隨機失效,在設計階段主要考慮元器件選用、設計裕度、抗干擾措施、保護電路等方面;在試制階段,主要通過型式試驗來驗證設計及生產工藝能否完全實現設計目標;在生產階段,則通過嚴格的質量控制、工序檢驗、出廠檢驗等手段保證生產過程的一致性。必要時,可通過“老化”的工藝手段,篩除早期失效的產品。如果生產過程、生產工藝發生變化,或產品設計(如元器件的選用)發生變化,則需要重新進行型式試驗和驗證。在產品交付使用前,由于在生產后還存在包裝、儲運等環節,因此還要進行交收檢驗,以確保交到用戶手中的產品完全符合質量要求。
而對于系統性失效,則有不同的質量保證措施。在軟件的生命周期中,設計階段是需要時間長、占用資源最多的關鍵階段;而需求分析又是軟件設計階段中最為關鍵的步驟。多年來,軟件產業的實踐證明,很多不成功的軟件設計都是由于沒有進行充分的需求分析所致。雖然,在一般人看來,一個自動化設備對于軟件的需求是簡單而明確的,似乎只要有一個明確定義的功能要求和性能指標要求就可以了。但實際上,一個數字化自動化設備的軟件涉及到方方面面的問題,如操作方面(人機界面),包括操作的方式方法、操作的時機、操作對運行的影響、操作的條件、操作涉及的工具設備及資源等。只要有一個環節出現疏忽,就會導致軟件運行發生問題,甚至導致運行期間設備的失效。除需求分析外,軟件設計還包括架構設計、模塊設計、編碼等步驟[1-3],每執行一步,都要進行驗證與確認(verification and validation,V&V)。
設計階段完成后,即可進入測試驗證階段。測試驗證可以看成是設計階段的反過程,即按照代碼測試、模塊測試、組合測試、系統測試的順序逐步完成。同樣,每個測試步驟也都需要進行V&V。除此之外,如果在任何一個設計步驟或測試步驟中發現問題,就需要返回到上一設計步驟進行設計更改。如果上一級的設計更改還不能解決問題,則要繼續向上一設計步驟進行回溯,直至最初的需求分析。這樣的迭代過程很有可能要進行多次,才能夠確保軟件產品的設計缺陷最小化。
與隨機失效的“故障-失效”模式不同,系統性失效往往是因一個軟件缺陷而直接導致的,而不會經歷一個由故障而發展為失效的過程。因此,消除軟件缺陷,也就是我們通常所說的Debug,是一項非常重要,也是相當困難的工作。而且隨著軟件的日益龐大和復雜,Debug一般都會貫穿于軟件的整個生命周期。由于在軟件的生命周期內,不可避免地需要對軟件進行修改以消除缺陷,這就產生了另一個不可忽視的重要軟件管理問題,即配置管理。實際上,配置管理是一種貫穿于軟件全生命周期的管理手段。由于軟件的龐大與復雜,一個大型軟件系統都會劃分為一個個小的構件。這些構件之間的接口關系、其運行如何協調、各個構件之間如何進行數據的交換及如何保證數據的一致性,這些都必須進行嚴格的定義,并在軟件系統的全生命周期內保持前后一致,任何構件因消除缺陷而進行的修改都不能違反這些定義。因此,所有的軟件更改或更新都需要進行嚴格的測試和V&V,以確保配置管理的正確性。
軟件的工作特點是其需要依照程序一步步執行,每一步的執行都依賴于前一步的執行結果,即各個程序步之間的耦合是非常緊密的。這意味著任何程序步的微小誤差都會被后續的程序步繼承并放大,最終導致失效。為避免這種情況的發生,在軟件設計中需要采用容錯技術。最經典的容錯技術是使用兩套運行于不同硬件平臺,且最好由不同軟件開發團隊設計的軟件。這兩套軟件執行同樣的功能,并在某些關鍵點進行比較,當結果一致時才可繼續執行,結果不一致時則進入出錯處理程序。但這樣做的代價很大,一般只用于最關鍵的功能。除此之外,還有很多容錯技術。如何使用這些技術,則應根據需要和成本進行決策。
3網絡通信成為可靠性的新問題
除了軟件技術對自動化設備的改變以外,網絡技術也使自動化設備發生了巨大的變化。進入21世紀以來,現場總線發展迅猛,網絡技術的發展不可避免地改變著自動化設備的面貌。以往各自獨立的測量控制設備,最終都將通過網絡連接成為一個完整的系統[4-6],大大加強自動化系統的功能和規模。網絡技術在對被控生產過程的覆蓋程度方面取得長足進步的同時,也帶來了嚴重的信息安全問題。在運行方面,網絡通信的正常與否,將直接影響控制設備的可靠性。而網絡通信是否正常,不僅與網絡硬件和與之相關的軟件有著密切的關系,還與網絡的運行環境有著密切關系。網絡的優勢在于其開放性,但恰恰是開放性給網絡安全帶來了巨大的威脅。以往我們所關注的可靠性問題主要來源于硬件和軟件,而事實上,網絡的威脅主要來源于人為因素。
由于網絡的互通性極強,任何無意的違規操作都有可能通過網絡對關鍵的控制回路產生影響、甚至破壞。如果有諸如黑客等懷有特定破壞目的的人入侵到控制網絡中,其后果更是不堪設想。因此,我們在關注可靠性的同時,也不得不關注信息安全。信息安全是一個比較新的問題,如何通過有效的技術手段和管理規程來保證信息安全,還需要作很多研究。
4結束語
總之,我們在討論自動化設備的可靠性問題時,至少應該考慮3個方面。第一是硬件可靠性。這是傳統的可靠性研究所關注的方面。第二是軟件的正確性與容錯性。這在近年來已經進行了比較深入的研究,也取得了一定的成果。第三是網絡安全對可靠性的影響。這是一個比較新的問題,對該問題的研究也處在進行過程中。
與應用于商業和信息服務業的系統不同,自動化設備中所用的信息技術主要服務于性能、安全性和可靠性,對其強大的功能及廣泛的開放性則需要有所約束。對于在自動化設備中使用的軟件,應追求其結構簡單、運行效率高、運行路徑的確定性和容錯性。而對于在自動化設備中使用的網絡,應盡量簡化其通信規約,提高網絡通信的確定性和透明度,在關鍵控制回路盡量采用專用規約,以最大限度地提高信息安全。
目前,對于數字化的自動化設備,衡量其可靠性的標準還很欠缺。以往我們有比較成熟的與設備可靠性相關的指標及標準,如失效率、平均故障間隔時間和平均修復時間、可用率、電磁兼容性、抗惡劣環境指標、溫度漂移和長時間運行漂移指標等。但這些標準主要是針對硬件的可靠性,針對軟件及通信所帶來的可靠性問題仍缺乏完整的、成熟的指標和標準。對于自動化設備的生產廠家、工程應用企業和運行維護服務企業來說,盡快制定完善自動化設備的可靠性標準,使其適應新技術發展的要求,將是我們要下功夫努力去完成的重要任務。
參考文獻
[1] IEC 60050-191:1990,International Electrotechnical Vocabulary-Chapter 191: Dependability and quality of service.
[2] GB/T 18268-2000 測量、控制和實驗室用的電設備電磁兼容性要求.
[3] GB 6833-1987系列標準 電子測量儀器電磁兼容性試驗規范.
[4] ISO 9001:2008 Quality management systems - Requirements.
[5] GB/T 20438-2006系列標準 電氣/電子/可編程電子安全相關系統的功能安全.
[6] IEC 62443-2010系列標準 工業過程測量和控制安全-網絡和系統安全.
[7] 陽憲惠.現場總線技術及其應用.2版.北京:清華大學出版社,2008.
Discussing about the Reliability of Digitization Automation Equipments
Abstract:Reliability has been one of the most important index of the automated equipment.In today′s rapid development of science and technology,automated equipment is growing up from the hardware-based products to complex system consisting of hardware,software and network.Correspondingly,the issue of reliability is not only related to hardware,it becomes the comprehensive subject composed of hardware,software,network communication and their interactions.Further,information security also produces negligible impact on the reliability of automated equipment.
Keywords:Automated equipmentDigitizationReliabilityHardwareSoftwareNetworkCommunicationInformation securityVerification and validation(V&V)Fieldbus
中圖分類號:TH86;TP23
文獻標志碼:A
DOI:10.16086/j.cnki.issn1000-0380.201605001
修改稿收到日期:2016-03-24。
作者羅安(1946-),男,研究員級高級工程師;長期從事自動化控制系統的研究和應用工作,在能源、城市軌道交通、先進制造等自動化控制領域取得多項科技成果。