翁 磊,劉聯(lián)峰
(中檢集團計量(溯源)有限公司,北京 100028)
實驗室作為科學研究、第三方檢測的重要場所,扮演著記錄和分析數(shù)據(jù)的關鍵角色。實驗室環(huán)境通常需要細致的記錄保存,以確保科學實驗的可靠性和結果的再現(xiàn)性。傳統(tǒng)的記錄保存方法在很大程度上依賴于手工輸入和手寫文件,這帶來了人為錯誤和文書差異的風險。
這些風險包括:①人為誤差:操作人員可能會在記錄數(shù)據(jù)時犯錯,如寫錯數(shù)字、跳過某些數(shù)據(jù)或錯過關鍵細節(jié)。這可能導致數(shù)據(jù)記錄不準確或不完整。②數(shù)據(jù)量大:有些實驗可能涉及到大量的數(shù)據(jù),例如在輻射量實驗中,每個樣本可能會產(chǎn)生十多個的數(shù)據(jù)點。在人工處理數(shù)據(jù)量時,容易出現(xiàn)遺漏或混淆數(shù)據(jù)的情況。③時間壓力:在實驗室中,有時可能存在時間限制,需要在規(guī)定的時間內(nèi)完成實驗并記錄數(shù)據(jù)。這種情況下,可能會感到緊迫或趕時間,容易出現(xiàn)匆忙或粗心的錯誤。
機器視覺是一門涉及人工智能、神經(jīng)生物學、心理物理學、計算機科學、圖像處理和模式識別等諸多領城的交叉學科[1]。機器視覺(Computer Vision)主要關注計算機對于人類視覺系統(tǒng)所需解釋能力的模型化與實現(xiàn)。這些技術已經(jīng)被廣泛地應用于醫(yī)學、自動化制造、安全控制和智能家居等不同領域。在安全防護上,機器視覺技術已經(jīng)成為一種關鍵的安全保護手段。利用視覺監(jiān)控系統(tǒng)在人員通道、重要地帶及交通路口等實施實時觀察,能夠有效地防止和應對盜竊、搶劫及火災等意外發(fā)生。在智能制造領域,機器視覺技術同樣發(fā)揮著關鍵作用。通過使用視覺檢查技術在自動化生產(chǎn)線上進行快速的零件檢查和分類,生產(chǎn)效率和產(chǎn)品質(zhì)量能得到顯著提升。醫(yī)學影像方面也是機器視覺技術的重要應用領域。經(jīng)由對影像數(shù)據(jù)的處置和剖析,可以助力醫(yī)生迅速找到病變位置,并提高疾病檢測的準確性和正確率。
在實驗室檢測領域,目前機器視覺應用較少,且主要集中在自動化程度較高、檢測設備較為精密的高端實驗室中,但在大部分的已有檢測實驗室中以及新導入的檢測設備中,各檢測設備或系統(tǒng)整合性不強,存在較多人工讀取設備數(shù)據(jù)或手工抄錄多個設備系統(tǒng)中數(shù)據(jù),然后再整合進統(tǒng)一的數(shù)據(jù)采集系統(tǒng)并進行檢測報告的生成,檢測工作效率較低、準確性稍有欠缺。本應用項目的主要目的是展示將深度學習視覺技術集成到實驗室記錄保存中的多種優(yōu)勢。具體而言,我們的目標是利用深度學習計算機視覺算法幫助準確捕捉和準確解析檢測結果,同時減少與傳統(tǒng)記錄保存實踐相關的時間和精力。
在智能制造領域,機器視覺檢測技術表現(xiàn)出時效性好、準確性高、適用面廣的特性,廣泛應用于目標檢測工作中[2]。在工業(yè)相機采集高分辨率圖片數(shù)據(jù)基礎上,實現(xiàn)多目標物體識別、位置檢測,并關聯(lián)目標物體的位置信息。機器視覺目標檢測算法由目標特征提取器、目標分類與目標位置區(qū)域搜索方法構成。
1)模板匹配方法。模板匹配是一種高級的計算機視覺技術,可識別圖像上與預定義模板匹配的部分。它是在整個圖像上移動模板并計算模板與圖像上被覆蓋窗口之間的相似度的過程。此方法過程較為復雜,需要構建多個模板,同時若采集到的目標變形、旋轉(zhuǎn)等情況。會造成檢測目標字符難以被識別,準確率較低。
2)基于機器學習的字符識別。機器學習是將采集到的圖片經(jīng)過矯正處理、定位分割,最后將分割后的單個字符使用LSSVM算法識別目標字符[3]。機器學習的方案比模板匹配方案有更好的識別率和準確性。
3)基于深度學習的字符識別。隨著計算機視覺技術的發(fā)展,基于深度學習的目標檢測方法逐漸成為主流。目前常用的目標檢測深度學習算法有YOLO系列和R-CNN系列算法。YOLO算法在大目標、輕量化的場景中具有較好的檢測效果,同時具有較快的檢測速度。R-CNN網(wǎng)絡在檢測的精度方面具有較好的效果[4]。本文主要針對深度學習的方法用于字符識別開展應用研究。
針對機器視覺在工業(yè)儀器設備檢測中場景梳理,可以確定其AI模型的相關屬性及識別的復雜程度。實驗室工業(yè)儀器設備檢測中除了檢測設備數(shù)顯儀表讀數(shù)外,還有設備型號、設備編號、設備樣品編號及設備廠家圖標等信息,都需要機器視覺進行拍攝后并識別出結果。同時實驗過程一般還需要記錄溯源實驗的溫度、濕度數(shù)據(jù),以及對實驗設備的自動化操作控制記錄等。需要對不同的實驗室檢測設備進行不同的實際模型分類及邏輯控制。通過對實際案例中檢測需求的梳理分類發(fā)現(xiàn),形狀、尺寸、一次檢測數(shù)量及待檢測設備擺放角度等對機器視覺的識別都有一定識別精準性影響;因此,需要針對某個品牌型號和類型的待檢測設備進行單獨的建模訓練。
以對γ射線輻射計量設備的計量讀數(shù)智能視覺OCR識別為例,通過傳統(tǒng)計量過程計量度數(shù)采集方法與基于深度學習的機器視覺OCR識別方法進行比對分析,對實現(xiàn)過程進行表述。
當前實驗過程主要是通過人工操作放射源設備,根據(jù)檢定規(guī)程按要求發(fā)射伽馬射線,同時待被檢測設備讀數(shù)穩(wěn)定后,通過視頻監(jiān)控人工讀取數(shù)據(jù),并進行記錄。實驗過程需按要求反復執(zhí)行多次,并記錄數(shù)據(jù)。計量實驗室-計量設備計量數(shù)據(jù)采集作業(yè)現(xiàn)有模式架構圖如圖1所示。

圖1 計量實驗室-計量設備計量數(shù)據(jù)采集作業(yè)現(xiàn)有模式架構圖
為提升實驗室自動化水平、提高檢測效率,自動原始記錄的主要需求:①自動識別被檢儀器,采集被檢設備的的品牌、型號、設備樣品編號的信息;②自動根據(jù)檢測要求,聯(lián)動操作放射源設備,如:工作臺、濾片位置等;③對接現(xiàn)有監(jiān)控視頻,采集視頻;④根據(jù)檢測要求,自動讀取和記錄儀器儀表數(shù)據(jù)、記錄溫度濕度;⑤記錄數(shù)據(jù)可以對接導出其他三方系統(tǒng),如Excel、實驗室管理系統(tǒng)Lims等。
經(jīng)過改造利用人工智能識別技術、物聯(lián)網(wǎng)及信息化技術,實現(xiàn)設備的數(shù)字OCR(Optical Character Recognition,光學字符識別)人工智能識別,從而降低人工查看記錄設備數(shù)據(jù)的工作量,提升實驗工作效率和準確性。通過該方案,將實驗設備的數(shù)字信息(如設備表盤讀數(shù)、設備樣品序列號等)自動提取和識別,并一體化控制實驗設備參數(shù),減少人為錯誤和時間成本。
結合目前人工智能識別技術應用及方案目標,實現(xiàn)方案架構如圖2所示。

圖2 計量實驗室-計量設備計量數(shù)據(jù)采集作業(yè)-人工智能化采集模式架構圖
目標檢測是指在圖像或視頻中自動地檢測出感興趣的目標區(qū)域,并識別出這個目標的類別。在人工智能的應用領域中,目標檢測具有廣泛的應用價值。基于深度學習的目標檢測算法使用的是卷積神經(jīng)網(wǎng)絡(Convolutional Neural Networks,CNN)學習特征的方式,這種特征學習方式能自動發(fā)現(xiàn)檢測及分類目標所需要的特征,同時通過卷積神經(jīng)網(wǎng)絡將原始輸入信息轉(zhuǎn)化成更抽象、更高維的特征,這種高維特征具有強大的特征表達能力和泛化性,所以其在復雜場景下的性能表現(xiàn)較好,可滿足工業(yè)界的大部分應用需求。
本項目中對目標區(qū)域的識別檢測包括收集和整理設備數(shù)據(jù)集、訓練模型和部署模型三個步驟。數(shù)據(jù)準備主要是收集、標注、劃分數(shù)據(jù)集;訓練模型即使用訓練數(shù)據(jù)對模型進行訓練,使用測試數(shù)據(jù)對模型進行測試,評估模型性能,對模型進行優(yōu)化,提高檢測精度和速度;部署模型即編寫模型調(diào)用api,便于其他系統(tǒng)集成使用。基于人工智能算法的圖像目標區(qū)域識別工作流程如圖3所示。

圖3 基于人工智能算法的圖像目標區(qū)域識別工作流程
OCR識別的工作原理通常是通過將圖像或掃描文檔送入OCR算法,然后分析圖像中的像素以識別不同的字符。這些字符可以是數(shù)字、字母和符號等。一旦字符被識別出來,它們就可以被轉(zhuǎn)換為計算機可讀的文本格式,比如Word文檔或文本文件。
為了保證識別的準確度,會對圖像進行一系列的處理。首先將目標檢測算法得到的結果進行處理,得到設備屏幕,進一步處理獲取有效數(shù)據(jù)區(qū)域。在對圖像進行差值處理,提高圖片內(nèi)文字的區(qū)分度,最后通過數(shù)字OCR識別算法,得到數(shù)字文本進行記錄。電子顯示屏文本信息的定位與OCR識別如圖4所示。

圖4 電子顯示屏文本信息的定位與OCR識別
一體化控制是對實驗室檢測設備和實驗室管理軟件的集成,使得智能檢測與現(xiàn)有控制軟硬件形成一體化的流程,進一步實現(xiàn)自動化控制。一體化控制作業(yè)流程圖如圖5所示。

圖5 一體化控制作業(yè)流程圖
在此場景下應用了基于深度學習的機器視覺算法后,對實驗操作流程準確性和效率有顯著的提升,對于單設備計量的檢測數(shù)據(jù)采集,平均每設備檢測數(shù)據(jù)采集時間由原來的20min減少到10min,采集效率提升100%。對于單次多設備檢測,平均每設備檢測數(shù)據(jù)采集時間由原來的8min 減少到2min,采集效率提升300%,同時,數(shù)據(jù)的可訪問性大大提高。實驗室檢測自動識別模型如圖6所示。

圖6 實驗室檢測自動識別模型
1)提高準確性。計算機視覺算法有可能顯著減少記錄和減少實驗室結果時的人為錯誤。通過自動化檢測和處理,可以有效消除手動數(shù)據(jù)輸入產(chǎn)生的錯誤,確保數(shù)據(jù)完整性,降低誤解風險。
2)提高效率。通過計算機視覺技術實現(xiàn)數(shù)據(jù)采集和文檔記錄的自動化,使實驗室人員能夠?qū)r間和專業(yè)知識分配給更關鍵的任務。人工數(shù)據(jù)輸入和轉(zhuǎn)錄容易出錯且耗時,可以用計算機視覺工具取代或增強,從而減少記錄保存所需的總時間。
3)提高數(shù)據(jù)可訪問性。計算機視覺技術允許創(chuàng)建易于搜索和訪問的數(shù)據(jù)庫,借助于一體化控制技術,與實驗室現(xiàn)有管理軟硬件集成。這使研究人員能夠高效地檢索和分析數(shù)據(jù),加快研究人員科學研究和數(shù)據(jù)報告的產(chǎn)出效率。
人工智能(AI)和機器學習(ML)算法在計算機視覺技術中的集成為推進實驗室記錄保存帶來了巨大的希望。這些技術有可能提高檢測的準確性,優(yōu)化數(shù)據(jù)管理,并促進實時分析。人工智能和機器學習技術使實驗室自動化系統(tǒng)能夠自動調(diào)整實驗參數(shù)以達到最優(yōu)結果。通過不斷學習和調(diào)整,可以提供更高的實驗成功率和效率,提高效率。
融合了人工智能和機器學習技術的實驗室自動化系統(tǒng)可以根據(jù)其內(nèi)部學習模型和規(guī)則進行自主決策,以解決實驗中的問題。它能夠識別并解決常見的錯誤和挑戰(zhàn),提供實驗室工作人員更具創(chuàng)造性和戰(zhàn)略性的思考空間。
物聯(lián)網(wǎng)可以通過連接儀器、設備和傳感器,實現(xiàn)設備的智能化和自動化。傳感器可以收集實驗數(shù)據(jù)和環(huán)境信息,將其傳輸?shù)皆贫耍瑥亩鴮崿F(xiàn)實時監(jiān)測、遠程操作和數(shù)據(jù)分析。這可以大大提高實驗室的運行效率和數(shù)據(jù)質(zhì)量,并減少人為錯誤。
5G技術的高速傳輸和低延遲特性可以提供更穩(wěn)定和可靠的通信。這意味著實驗室可以實時傳輸大量數(shù)據(jù),并迅速響應遠程操作。此外,5G技術還支持更多設備的連接,為實驗室的擴展和升級提供便利。
這種融合還可以實現(xiàn)實驗室的遠程訪問和協(xié)作。實驗室人員可以通過互聯(lián)網(wǎng)連接到實驗室設備,實時監(jiān)控和操作實驗過程。這樣,在一些室外場景也可以實現(xiàn)自動化檢測,可以幫助實驗室實現(xiàn)更高效、更智能的運作。
本研究成功地融合了基于深度學習的人工智能識別技術、物聯(lián)網(wǎng)技術和信息化技術,實現(xiàn)了工業(yè)儀器實驗設備自動識別。融合創(chuàng)新技術不僅提高了工業(yè)儀器和實驗設備的操作速度,更加精確地實現(xiàn)了對數(shù)據(jù)的把握和控制,從而極大提高了實驗的效率和準確性。同時,解決了數(shù)據(jù)溯源、錯誤糾正和實驗重復性等復雜問題,實現(xiàn)了科學實驗的信息化和智能化。
這一融合創(chuàng)新在科研、工業(yè)生產(chǎn)和醫(yī)療保健等領域具有潛在的廣泛應用前景,在數(shù)據(jù)驅(qū)動背景下,將為提高數(shù)據(jù)管理和實驗操作水平做出重要貢獻,進一步優(yōu)化和提高各領域的運作效率和準確性。隨著本領域研究的不斷深入和技術的不斷進步,有望更好地滿足社會和科學的需求。期待通過基于深度學習機器視覺和信息技術的不斷發(fā)展,為工業(yè)智檢貢獻力量。