







摘" 要:電力工程設計中鐵塔設計圖紙的自動識別與信息提取是一項急需解決的問題。該文提出一種基于深度學習和光學字符識別(Optical Character Recognition,OCR)技術的鐵塔設計圖紙智能識別系統。該系統由分段結構識別、文本識別和關鍵信息提取3個主要模塊組成。分段結構識別模塊采用改進的U-Net卷積神經網絡模型;文本識別模塊基于Tesseract 4.0進行優化,提高字符識別準確率;關鍵信息提取模塊則使用基于規則的解析引擎,從識別出的分段結構和文本中抽取關鍵信息。實驗結果表明,該系統在鐵塔圖紙識別的準確性、泛化性和效率方面均達到較高水平塔形結構識別F1值為96.35%,字符識別準確率為99.10%。該系統可有效支持電力工程設計和管理的數字化、智能化轉型,具有廣闊的應用前景。
關鍵詞:鐵塔圖紙;深度學習;光學字符識別;關鍵信息提取;U-Net;Tesseract
中圖分類號:TP39" " " 文獻標志碼:A" " " " " 文章編號:2095-2945(2025)02-0020-06
Abstract: Automatic identification and information extraction of tower design drawings in power engineering design is an urgent problem to be solved urgently. This paper proposes an intelligent recognition system for tower design drawings based on deep learning and optical character recognition(OCR) technology. The system consists of three main modules: segmented structure recognition, text recognition and key information extraction. The segmented structure recognition module adopts an improved U-Net convolutional neural network model; the text recognition module is optimized based on Tesseract 4.0, which improves the accuracy of character recognition. The key information extraction module uses a rule-based parsing engine to extract key information from the identified segmentation structures and texts. Experimental results show that the system achieves a higher level tower structure recognition F1 value of 96.35% and a character recognition accuracy of 99.10% in terms of accuracy, generalization and efficiency in tower drawing recognition. The system can effectively support the digital and intelligent transformation of power engineering design and management, and has broad application prospects.
Keywords: tower drawing; deep learning; optical character recognition (OCR); key information extraction; U-Net; Tesseract
隨著電力工程的不斷發展,輸電線路建設規模日益擴大,鐵塔作為其中的關鍵設施,其設計和施工質量直接影響到整個電網的安全穩定運行[1]。電力需求的持續增長導致電塔施工項目的規模和復雜性也在不斷上升,傳統的手工處理方法已經無法滿足對施工效率和精度的高標準要求。在鐵塔施工方案編制過程中,設計圖紙是技術人員獲取塔型結構、分段參數、材料用量、高度重量等關鍵信息的主要來源[2]。施工前,技術人員需要仔細閱讀和分析圖紙,提取相關參數,并根據這些信息制定施工方案,指導現場作業[3]。然而,由于鐵塔圖紙內容復雜,涉及多種視圖和符號,人工閱讀和理解非常耗時耗力。據統計,一名有經驗的技術人員完全理解一張鐵塔圖紙平均需要30 min以上[4],時間較長;同時,培養一名有經驗的技術人員耗費的資源更多,時間成本更高,通常需要2~3 a[5]。因此,亟需開發一種自動、高效、準確的圖紙信息提取技術,以解決上述問題,提升鐵塔施工的智能化水平。
近年來,人工智能技術在圖像識別領域取得了長足進步,為解決復雜工程圖紙信息提取問題提供了新的思路。國內外學者針對鐵塔圖紙信息提取問題開展了一系列研究,取得了一定進展,但仍存在不足之處。
在分段結構識別方面,傳統方法主要采用模板匹配、特征提取等技術,但難以適應鐵塔圖紙的多樣性和復雜性。卷積神經網絡(Convolutional Neural Network,CNN)憑借其強大的特征學習能力,在目標檢測、語義分割等任務中表現出色[6]。畢含嘉等[7]針對輸電線路巡檢中多類缺陷檢測問題,提出改進YOLO v7方法。通過空間金字塔池化增強特征提取,注意力機制提升關鍵區域感知,在金具脫落等缺陷檢測中表現優異。葉力鳴等[8]提出級聯式絕緣子缺陷檢測方法,結合語義分割和目標檢測技術。先用分割網絡粗定位,再用檢測網絡精細識別。余添添等[9]提出改進YOLOv5的違規施工監測方法。通過改進backbone網絡和特征金字塔結構提升小目標檢測能力,實現對違規行為的實時監測,支持施工安全管理。
綜上所述,現有研究在目標檢測和文字識別方面均取得了一定進展。然而,這些方法在鐵塔圖紙信息提取領域仍存在以下局限:一方面,目標檢測算法主要針對實際場景中的設備缺陷識別,未充分考慮工程圖紙中的結構特征;另一方面,現有研究往往將圖形識別和文字識別割裂開來,缺乏有效的信息融合機制,難以滿足鐵塔施工方案編制對結構化信息的需求。為此,亟需設計一種能夠同時處理圖形結構和文本信息,并實現兩者有機融合的綜合性方法,以提高鐵塔圖紙信息提取的準確性和自動化水平。
因此,本文面向鐵塔施工方案編制過程中的實際需求,提出了一種基于深度學習和OCR的鐵塔圖紙關鍵信息智能提取算法。該方法首先采用改進的U-Net模型對圖紙中的鐵塔分段結構進行定位和分割,然后利用優化的Tesseract模型提取鐵塔分段編號、分段高度等關鍵文本信息,最后,通過基于規則的方法解析圖形和文本,整合結構化的鐵塔施工關鍵信息。
本文的主要貢獻如下:①針對復雜鐵塔圖紙場景,改進U-Net網絡結構,提高了鐵塔圖形的識別精度;②優化Tesseract的字符識別模型,提升了文本提取的準確率;③在真實鐵塔圖紙數據集上進行了實驗,驗證了所提方法的有效性和優越性。
1nbsp; 鐵塔分段結構識別
鐵塔分段結構識別的整體技術路線如圖1所示。首先,對鐵塔設計圖紙進行歸類整理,并進行預處理和標注,構建訓練數據集。然后,采用改進的U-Net模型對圖紙進行語義分割,識別出鐵塔的各個結構部分。最后,對分割結果進行后處理,生成鐵塔的分段結構表。
1.1" 數據集預處理
為了訓練U-Net模型,需要構建鐵塔圖紙語義分割數據集。本文收集國家電網浙江省電力有限公司提供的1 309張鐵塔設計圖紙,涵蓋了各種常見的鐵塔型號和設計風格。具體包括了110~500 kV的單雙回路及四回路的各類鐵塔設計圖,涵蓋直線塔、耐張轉角塔、換位塔、直線轉角塔與終端塔共5種類別,具體的塔形包括了上字型、干字型、酒杯型、貓頭型與羊角型等。
我們首先對原始圖紙進行以下預處理:將圖紙統一調整為1 024×1 024像素大小;轉換為灰度圖像;進行直方圖均衡化,增強圖像對比度;使用高斯濾波器降噪。
預處理后,需要對圖紙進行標注。本文定義了6個語義類別:塔身、橫擔、塔腿。標注過程中,使用Make Sense工具,由3名有經驗的工程師對每張圖紙進行多邊形標注,并通過多數投票確定最終的標注結果。將標注多邊形柵格化為與原圖大小一致的語義分割圖,每個像素的值對應其類別標簽。
最終,按照8∶1∶1比例,隨機選取1 047張圖紙作為訓練集,131張作為驗證集,131張作為測試集。將圖紙和標簽數據劃分為256×256像素的圖塊。
1.2" U-Net模型
U-Net是一種經典的語義分割模型,廣泛應用于醫學圖像、遙感影像等領域[10]。它采用編碼器-解碼器架構,可以同時提取圖像的高層語義特征和低層細節特征,生成像素級別的分割結果。考慮到鐵塔設計圖紙具有以下特點:背景復雜,含有文字、符號等干擾信息;鐵塔結構呈現多尺度特征,需要融合局部和全局信息;不同部件邊界清晰,像素類別不平衡。
U-Net恰好能夠應對這些挑戰。它的編碼器通過卷積和池化操作提取多尺度特征,解碼器通過上采樣和跳躍連接恢復空間細節,最后通過Softmax層輸出每個像素的類別概率。因此,本文選擇U-Net作為鐵塔圖紙語義分割的基本模型。
1.3" U-Net模型的改進
針對鐵塔分段結構識別任務的特點,本文對U-Net模型進行了以下改進。
1.3.1" 引入注意力機制
在編碼器和解碼器的每個卷積塊后,加入通道注意力和空間注意力模塊,使模型能夠自適應地關注重要的特征通道和空間區域,如圖2所示。通道注意力通過全局平均池化和兩層全連接學習通道權重,空間注意力通過卷積層和Sigmoid激活學習空間權重。將2種注意力權重相乘,并與原始特征圖逐元素相乘,得到增強后的特征圖。
1.3.2" 采用深度可分離卷積
將標準卷積拆分為深度卷積和逐點卷積。深度卷積對每個輸入通道單獨進行卷積,逐點卷積用1×1卷積對深度卷積的輸出進行線性組合。這種分解可以大大減少模型參數量和計算量,提高訓練效率。
1.3.3" 損失函數改進
針對鐵塔圖紙中前背景類別不平衡問題,在交叉熵損失函數中引入Focal Loss[11],降低易分類樣本的權重,強調困難樣本。Focal Loss的定義如下
," (1)
式中:pt是模型預測的真實類別概率,γ是聚焦參數,用于調節樣本難易程度的權重。
此外,還在損失函數中加入了Dice Loss ,直接優化分割結果與真實標簽的重疊度。Dice Loss的定義如下
式中:pi和gi分別是第i個像素的預測概率和真實標簽,N為像素總數。
最終的損失函數為Focal Loss和Dice Loss的加權和
Loss=α·FL+(1-α)·DL , (3)
式中:α為平衡因子,本文取0.5。
2" 關鍵文本信息提取
在鐵塔設計圖紙中,文本信息承載了大量關鍵數據,如分段號、分段高度、材料標注等。準確提取這些文本對于實現圖紙信息的自動化處理至關重要。我們將重點探討如何優化OCR技術,以適應鐵塔圖紙的復雜環境,提高關鍵文本信息的識別準確率。
2.1" 光學字符識別
OCR是一種將圖像中的文本內容轉換為可編輯的電子文本的技術。OCR的一般流程包括圖像預處理、布局分析、字符分割、特征提取和字符識別等步驟[12],如圖3所示。
鐵塔設計圖紙具有以下特點:圖形符號眾多,如線條、箭頭、標注等;文字種類豐富,包括漢字、數字、字母和特殊符號等;版式多樣,有橫向文本、豎向文本、傾斜文本等;字體風格不一,由CAD導出的字體種類與通用標準字體具有差別。
這些特點給OCR帶來了巨大挑戰。傳統OCR技術主要基于模板匹配和特征工程,泛化能力有限,難以準確提取鐵塔圖紙中的文本信息。
近年來,隨著深度學習的發展,OCR技術取得了長足進步。基于深度學習的OCR可以自動學習文本特征,適應多種字體、語言和場景,大幅提升了識別精度和效率[13]。因此,本文采用了先進的深度學習OCR技術,并針對鐵塔圖紙的特點進行了優化和改進,以期獲得高質量的關鍵文本信息提取結果。
2.2" 面向鐵塔圖紙的Tesseract OCR優化
Tesseract是一款由Google維護的開源OCR引擎,支持多種語言和平臺,識別精度和速度均處于業界領先水平[14]。但是,Tesseract對于復雜背景下的文本識別效果有待提高。為了適應鐵塔圖紙的特點,本文對Tesseract進行了以下優化。
2.2.1" 預處理優化
噪聲去除:采用自適應中值濾波算法,根據圖像局部區域的灰度分布,自動調整濾波窗口大小,有效去除背景噪聲和圖形干擾[15]。
傾斜校正:利用霍夫變換檢測圖像中的直線,計算整體傾斜角度,通過仿射變換進行校正,確保文本水平或垂直[16]。
二值化:采用自適應閾值分割算法,根據圖像局部區域的灰度分布,自動計算二值化閾值,提高前景文本與背景的對比度[17]。
2.2.2" 版面分析優化
文本行檢測:采用基于深度學習的場景文字檢測 (Connectionist Text Proposal Network,CTPN)算法[18],通過卷積神經網絡提取文本行候選框,再用循環神經網絡優化文本行坐標,準確定位傾斜和彎曲的文本行。
表格檢測:采用基于圖像分析的表格結構識別算法,通過提取表格線和交叉點,構建表格拓撲結構,實現表格與文本的分離。
關鍵區域定位:根據鐵塔圖紙的布局特點,設計啟發式規則,快速定位包含關鍵信息的區域,如標題欄、參數欄等,減少無關文本的干擾。
2.2.3" 字符識別優化
特征提?。翰捎肎oogleNet預訓練模型[19],在ImageNet數據集上進行遷移學習,提取字符圖像的深層語義特征。
字符分類:采用CTC(Connectionist Temporal Classification)損失函數[20],將字符識別建模為時序分類問題,利用LSTM網絡學習字符序列特征,提高識別準確率。
后處理優化:引入鐵塔專業詞典和規則約束,對識別結果進行糾錯和優化,提高關鍵文本信息的識別精度。
綜合以上優化策略,本文構建了一個適用于鐵塔圖紙的OCR系統,在復雜背景下取得了良好的關鍵文本信息提取效果。該系統可以準確識別鐵塔型號、設計參數、材料標注等關鍵信息,為后續的信息解析與應用奠定了基礎。
3" 實驗結果分析
為了全面評估所提出方法的有效性,本文在真實的鐵塔圖紙數據集上進行了大量實驗,并與現有方法進行了比較。同時,為了探究不同改進策略的貢獻,還設計了消融實驗。
3.1" 實驗環境與訓練策略
3.1.1" 實驗環境
實驗在以下硬件和軟件環境中進行,具體見表1。
3.1.2" 數據集介紹
本文使用國家電網浙江省電力有限公司提供的1 309張鐵塔設計圖紙進行實驗,其中涵蓋了多種塔型和設計規格。每張圖紙均有專業人員標注的塔型號、設計參數、材料標注等關鍵信息。我們將數據集按照8∶1∶1的比例隨機劃分為訓練集、驗證集和測試集。
3.1.3" 評價指標
對于鐵塔分段結構識別任務,采用像素級別的精確率(Precision)、召回率(Recall)、F1分數和IoU(Intersection over Union)作為評價指標。對于關鍵文本信息提取任務,采用字符級別的精確率(Precision)、召回率(Recall)、F1分數和字符錯誤率(Character Error Rate,CER)作為評價指標。
3.1.4" 訓練策略
具體訓練策略及參數設置見表2。
3.2" 改進U-Net實驗結果
3.2.1" 消融實驗
為了驗證本文提出的各項改進策略的有效性,設計了以下消融實驗(表3)。
Baseline:原始U-Net;
+Attention Gate(AG):在編碼器和解碼器間添加注意力門控機制;
+Depthwise Separable Convolution(DSC):將標準卷積替換為深度可分離卷積;
+Dice Loss(DL):在損失函數中引入Dice Loss;
Ours:本文改進的組合。
從表3可以看出,單獨引入AG、DSC和DL均可提升分割性能,綜合所有改進策略后,模型在各項指標上均取得了最優表現,F1分數和IoU系數分別達到了96.35%和92.87%,相比Baseline分別提升了3.17和6.62個百分點??偟膩碚f,改進U-Net在鐵塔分段結構識別任務上取得了較好的性能。
3.3" 優化OCR實驗結果
為了分析不同優化模塊對OCR識別性能的影響,設計了以下消融實驗。
Baseline:標準Tesseract OCR;
+Adaptive Median Filter(AMF):自適應中值濾波噪聲去除;
+CTPN:基于CTPN的文本行檢測;
+GoogleNet+CTC:基于GoogleNet和CTC的字符識別;
+Post-processing(PP):引入鐵塔專業詞典和規則約束的后處理優化;
Ours:本文改進的組合。
從表4可以看出,各項優化策略對OCR性能提升均有貢獻。其中,AMF通過去除背景噪聲,提高了Precision;CTPN準確定位了文本行,使Recall大幅提升;GoogleNet+CTC增強了字符特征表示和序列識別能力,全面改善了各項指標;PP利用先驗知識對識別結果進行糾錯,進一步提高了Precision和F1分數。綜合各項優化后,系統在字符級別的F1分數達到98.84%,較Baseline提升5.73個百分點,CER也降低到了0.79%,實現了對鐵塔圖紙關鍵文本的高精度識別。 綜合以上實驗結果,本文提出的基于改進U-Net的鐵塔圖紙分割和優化OCR的關鍵文本提取方法是有效可行的。改進U-Net通過引入注意力門控、深度可分離卷積、Dice Loss等,提高了鐵塔結構分割的精度,優于主流語義分割模型。優化OCR系統在預處理、版面分析、字符識別等多個環節進行了鐵塔圖紙場景適配,并利用領域知識進行后處理優化,大幅提升了關鍵文本信息提取的準確率,優于傳統和基于深度學習的OCR方法。這為后續的鐵塔設計圖紙智能解析與應用奠定了堅實基礎。
4" 結論
本文針對鐵塔設計圖紙的自動化信息提取問題,提出了一種融合改進U-Net和優化OCR的解決方案。通過大量實驗驗證了方法的有效性,主要結論如下。
1)提出了一種改進的U-Net模型,通過引入注意力門控機制、深度可分離卷積和Dice Loss,有效提高了鐵塔結構分割的精度。與原始U-Net相比,改進模型在F1-score和IoU上分別提升了3.17和6.62個百分點,達到了96.35%和92.87%的水平。
2)針對鐵塔圖紙的場景特點,對Tesseract OCR系統進行了多方面的優化,包括自適應中值濾波降噪、基于CTPN的文本行檢測、基于GoogleNet和CTC的字符識別,以及利用鐵塔專業詞典的后處理糾錯。優化后的OCR系統在字符級別的F1-score達到98.84%,較標準Tesseract提升了5.73個百分點,CER降低到0.79%。
3)研究中發現,復雜背景、字符粘連斷開、手寫體等因素仍然對圖紙信息提取構成挑戰。未來工作將探索小樣本學習、數據增強等策略,進一步提升模型的泛化性能和魯棒性。
4)本文研究彌補了鐵塔設計圖紙自動化解析的空白,為鐵塔行業的數字化轉型提供了關鍵技術支撐。所提出的方法可以大幅提高圖紙信息提取的效率和準確率,減少人工錄入的成本和錯誤,具有顯著的應用價值。同時,文中對U-Net和OCR的改進優化思路,也可為其他工程圖紙、手寫文檔等場景的信息提取任務提供有益參考。
5)后續研究建議從以下幾個方面深入:①探索將知識圖譜、數據挖掘等技術與圖紙信息提取相結合,實現鐵塔設計圖紙的語義理解與智能應用;②研究新型的小樣本學習方法,減少深度學習模型對大規模標注數據的依賴;③將圖紙信息提取與鐵塔設計智能化、全生命周期管理等業務場景相融合,創新行業應用模式。
綜上所述,本文在鐵塔設計圖紙智能信息提取領域進行了積極探索,取得了有益研究成果。提出的融合改進U-Net和優化OCR的技術方案,可以高效準確地提取圖紙關鍵信息,為智能化鐵塔工程設計奠定基礎。隨著人工智能技術的不斷發展,鐵塔行業數字化轉型升級將持續深化。未來,圖紙智能解析、設計自動優化、運維感知預測等智慧應用場景值得期待,必將推動行業邁向更加高效、精準、綠色、安全的智能時代。
參考文獻:
[1] 張文亮,劉壯志,王明俊,等.智能電網的研究進展及發展趨勢[J].電網技術,2009,33(13):1-11.
[2] 田一丁.基于主成分回歸的架空輸電線路工程項目成本控制研究[D].南昌:南昌大學,2024.
[3] 陳鵬,王海波,李明,等.輸電線路鐵塔結構計算與校核系統的研究與應用[J].電力勘測設計,2016(3):111-115.
[5] 宋璇,于麗,蔡維鋒.輸電線路鐵塔安裝質量控制分析[J].模具制造,2024,24(3):200-202.
[6] 謝從珍,馬康,盧偉民,等.基于GWO改進神經網絡的風致輸電桿塔響應計算方法[J].科學技術與工程,2023,23(31):13407-13414.
[7] 畢含嘉,楊楚睿,王小雨,等.基于改進YOLOv7的輸電線路多類缺陷目標檢測[J/OL].電子科技:1-11[2024-05-06].https://doi.org/10.16180/j.cnki.issn1007-7820.2025.04.003.
[8] 葉力鳴,陳蔚文.一種結合語義分割和目標檢測的級聯式絕緣子缺陷檢測方法[J].計算機與現代化,2023(6):82-88.
[9] 余添添,吳松,唐芝青,等.利用鐵塔視頻圖像和改進YOLOv5的違規施工監測[J].地理空間信息,2024,22(4):45-48.
[10] 蔡強.基于深度學習的電力標識牌缺陷檢測系統研究與實現[D].西安:西安電子科技大學,2022.
[11] KONG S, YANG L, HUANG H,et al.MAF-Net: A multi-attention fusion network for power transmission line extraction from aerial images[J].Expert Systems With Applications, 2024:250.
[12] 竹夢圓,張昀瑋,楊澤昆.通信行業工程圖紙智能識別與重構[J].郵電設計技術,2023(7):31-36.
[13] 劉立,陳玉輝,劉曉婷.一種工程圖紙類文檔識別分類的技術研究[J].電子設計工程,2020,28(12):89-94.
[14] 章安,馬明棟.基于Tesseract文字識別的預處理研究[J].計算機技術與發展,2021,31(1):73-76,174.
[15] 高立鵬,徐振佳,劉寶華,等.基于機器視覺的輸電鐵塔聯結板加工特征測量方法[J].河北電力技術,2023,42(3):65-69.
[16] 周仿榮,馬儀,沈志,等.雙通道卷積神經網絡模型電力設備圖像識別[J].云南電力技術,2019,47(2):69-73,77.
[17] 萬書亭,孫瑞濱,賈東亮,等.基于VMD-MD的輸電鐵塔螺栓松動檢測方法[J].中國工程機械學報,2023,21(1):79-84.
[18] HUANG, M., LAN, C., HUANG, W., et al. Natural scene text detection based on multiscale connectionist text proposal network[J]. The Journal of Engineering,2020.
[19] MAHADEVKAR S, PATIL S, KOTECHA K. Enhancement of handwritten text recognition using AI-based hybrid approach[J]. MethodsX,2024(12):102654.
[20] 沈濤,徐玉龍,陳亞峰,等.通信工程設計中的圖紙自動化生成方案研究[J].郵電設計技術,2022(11):86-92.
基金項目:國家自然科學基金(62072410);浙江省基礎公益研究計劃項目(LGG22F020014)
第一作者簡介:鄭林(1984-),男,工程師。研究方向為電力建設工程設計。
*通信作者:毛科技(1979-),男,博士,副教授。研究方向為智能計算與圖像識別。