吳德發
(廈門宏發開關設備有限公司,福建廈門 361021)
框架式斷路器動作特性測試系統的核心是配置英特爾賽揚處理器、2.4 GHz 主頻、單條512 MB 內存、80 G 西數硬盤的凌華科技工控機,上面運行著設備廠家開發的特性測試軟件,用來檢驗UEW5/6 系框架式斷路器四段保護動作特性,即過載長延時保護、短延時保護、短路瞬時保護和接地故障保護功能的準確性。測試過程工控機顯示屏會間斷性出現藍屏,當時用手機瞬間拍下顯示的內容(圖1)。

圖1 工控機顯示器藍屏
***STOP:0x000000D1
(0xFEH41000,0x00000002,0x00000000,0xEB8DCDA3)
DRIVER_IRQL_NOT_LESS_OR_EQUAL
***Address EB8DCDA3 base at EB8DC000,DataStamp 399ca4d0 -A821.sys Beginning dump of physical memory.
界面提示:發生藍屏時程序停止的地址及驅動器中斷請求時程序段的地址及所在驅動文件,并開始把調用所指向物理內存數據存儲成文件保存到硬盤上。
但工控機從開機自檢到桌面登陸,再到點開桌面快捷方式啟動動作特性測試程序,過程一切正常,只要不進行測試產品就不發生藍屏。
A821.sys 是工控機內插模擬量采集卡臺灣泓格A821PGL的硬件驅動,此卡的規格特征:AD 最大采樣率大約在45 kSa/s;軟件可設置輸入范圍;ISA 接口;A/D 觸發方式有軟件觸發、脈沖觸發;16 通道單端或8 通道差分12-bit 模擬量電壓輸入信號帶中斷數據處理功能;1 通道12-bit 模擬量電壓輸出信號;可編程輸入增益1,2,4,8 倍;輸入范圍:±5 V、±2.5 V、±1.25 V、±0.625 V;輸入過壓范圍:單通道連續輸入電壓70 Vp_p;輸出電壓范圍:0~5 V,0~10 V;輸出驅動電流±5 mA;16 位數字TTL輸入信號及16 位數字TTL 輸出信號。
該驅動程序最近沒有升級更新過,點工控機Windows 桌面上“我的電腦”,按鼠標右鍵選屬性點硬件選設備管理器(圖2)。展開DAQCard 目錄,點中ICPDAS A-281 Analog/Digital Card 即泓格模擬量采集卡驅動此項雙擊點開(圖3),查看常規項下設備狀態顯示“此設備當前工作正常”,資源項下沖突設備列表顯示“沒有沖突”。采集卡硬件驅動安裝及開機啟動后運轉情況,在設備管理器中排查無異常。

圖2 設備管理器界面

圖3 模擬量采集卡驅動界面
排查采集卡硬件。卡表面電阻電感元件無變色開裂、電容無冒漿、芯片無擊穿、銅箔無燒斷、無燒焦異味等現象,排除硬件的電子電路引起此故障,從概率上講發生電子電路故障可能性極低。生產線上其他工控機沒有發生過類似現象,打開機殼外蓋查看工控機電源風扇和CPU 風扇運轉正常,母板上±5 V、±12 V、+3.3 V 電源指示燈正常,初步認為采集卡與插槽間可能接觸不良。
對準母板上插槽及側邊卡槽手動重插幾次板卡,用橡皮擦清潔采集卡的金手指以排除因接觸不良引起的故障。清除機內四周灰塵及前面板擋塵海綿,插回工控機繼續生產測試產品。測試過程有時二三天運行正常,有時一天出現三四次藍屏。故障未消除提示基本一致,只是Address,at,DataStamp 后面數值不同。用Debugging Tools for Windows(x86 32 bit)即Windbg 微軟調試工具軟件打開系統藍屏時保存的內存映象文件C:WINNTMINIDUMPDUMP(Windows2000 系統保存的目錄,若是Windows XP 或Win7 是在C:WINDOWSMinidump 下)文件顯示無法讀取,數據已損壞,包括系統裝備以來發生的DUMP 文件都無法打開,因此判斷藍屏發生時此內存數據已被破壞。此時故障定位仍未明確,還要繼續深入分析。
啟動工控機進入CMOS 設置,按DEL 進BIOS ADVANCED SETUP FEATURES(BIOS 高級設置項),選第一啟動盤為USBCDROM(外置光驅啟動系統),按F10 回車退出。一重啟就出現報警顯示:NO FLOPPY DRIVE(無軟盤驅動器),機內蜂鳴器急促鳴響。該機沒有設置成軟盤啟動操作系統,出現此項報警信息,跟設置內容毫無關聯。設置參數無法正確保存,無法啟用外置光驅里工具光盤引導Windows 系統。懷疑CMOS 電池有問題,斷電用萬用表測量CMOS 電池電壓2.8 V,電壓不算過低。為確保正常工作,更換一塊全新CR2023 3.0V 電池,故障依舊,基本可排除CMOS 電池問題。
排查內存條。用氣槍清潔內存條上灰塵再排查電接觸情況,重新拔插幾次內存條后故障依舊。剩下的可疑點一是CMOS 參數無法正確讀取,二是內存條又沒接觸不良,綜合以上兩點及逐一排查情況,判定內存條本身故障可能性最大,替換完好的內存條,試機跟蹤一個月,故障現象沒有出現。
工控機主板、母板、中央處理器、內存條都屬于不易發生故障的電子部件,此次內存條故障原因比較隱蔽,若沒進入CMOS 設置更改參數保存后退出,系統每次都能正常通過開機內存自檢。故障內存條的存儲芯片不是主流大品牌廠家生產,芯片生產工藝、功耗、性能穩定性、抗干擾度等不如主流廠家產品。當測試程序采集數據內存發生頻繁大量數據變換時,內存條整體功耗超標或部分地址指向存儲單元中信息易產生丟失或不準,從而產生數據存取越界引發操作系統保護機制動作。追根溯源是在前期工作中工控機系統電子部件選型時考慮不周到。為預防類似疑難故障再現、同時減少設備維護難度及成本,提高設備的生產測試有效利用率,質量與價格綜合衡量才是選型的首要因素。如果在安全級別比較高的測控環境中應用,設備選型的每個細節都不能疏忽,甚至應定制專機,采用雙機冗余備份,使用錯誤檢查和糾正功能的內存條,確保系統安全運行。
工作實踐中要勤于思考,不斷積累經驗,先易后難。排查中遇有診斷困難,除外觀檢查、應用比對、邏輯分析外,可試用備件替換解決。復雜繁鎖的安全系統工程可用故障樹分析法,甚至編成程序計算機輔助計算分析。完工后做好必要的維修記錄,詳細描述故障的機臺、開始結束時間、故障現象、解決措施、更換備件及型號,對提升問題解決能力、后續技術改進會有很大的幫助。