999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度學習的CAD表格識別算法設計

2024-09-27 00:00:00方靖宇韓文濤應成才何天祥徐瑞吉毛科技
科技資訊 2024年16期

摘要:隨著工程和設計行業的快速發展,計算機輔助設計(Computer-AidedDesign,CAD)系統在生產設計圖紙方面發揮著不可或缺的作用。然而,傳統CAD系統在表格數據管理和提取方面存在局限性,尤其是在處理大規模的工程圖紙中的表格數據時。為了解決這一問題,提出了一種新的自動化方法來提取CAD圖紙中的大型表格數據。通過將原始CAD文件轉換為圖像格式,并應用先進的圖像處理技術和深度學習模型(SAHI算法和Cycle-CenterNet模型),該方法能夠有效地提高表格數據的識別準確率和處理效率。實驗結果顯示,對比直接提取表格數據,使用該方法能顯著提高數據提取的精確度、召回率和F1分數,驗證了其在自動化提取大型CAD表格數據方面的有效性。未來的工作將集中在優化模型架構和提升其在不同類型圖紙中的通用性和效果。

關鍵詞:計算機輔助設計表格檢測表格結構識別表格信息提取表格分割圖像處理深度學習卷積網絡

中圖分類號:

DesignofCADTableRecognitionAlgorithmBasedonDeepLearning

FANGJingyu1HANWentao1YINGChengcai2HETianxiang3XURruiji3MAOKeji3*

1.ConstructionBranchofStateGridZhejiangElectricPowerCo.,Ltd,Hangzhou,ZhejiangProvince,310000China;2.ZhejiangHuayunInformationTechnologyCo.,Ltd,Hangzhou,ZhejiangProvince,310000China;3.ZhejiangUniversityofTechnology,Hangzhou,ZhejiangProvince,310000China

Abstract:Withtherapiddevelopmentoftheengineeringanddesignindustries,Computer-AidedDesign(CAD)playanindispensableroleinproducingdesigndrawings.However,traditionalCADsystemshavelimitationsinmanagingandextractingtabulardata,especiallywhendealingwithlarge-scaleengineeringdrawings.Toaddressthisissue,thispaperintroducesanewautomatedmethodforextractinglargetabledatafromCADdrawings.ByconvertingoriginalCADfilesintoimageformatsandapplyingadvancedimageprocessingtechniquesalongwithDeepLearningmodel(SAHIalgorithmandCycle-CenterNetmodel),thismethodcaneffectivelyimprovetheaccuracyandefficiencyoftabledatarecognitionandprocessing.Experimentalresultsshowthat,comparedtodirectextractionoftabledata,usingthismethodsignificantlyenhancestheprecision,recall,andF1scoreofdataextraction.Futureworkwillfocusonoptimizingthemodelarchitectureandenhancingitsapplicabilityandperformanceacrossvarioustypesofdrawings.

KeyWords:CAD;Tabledetection;Tablestructurerecognition;Tableinformationextraction;Tablesegmentation;Imageprocessing;DeepLearning;Convolutionalnetwork

在各種工程和設計行業中,計算機輔助設計(Computer-AidedDesign,CAD)軟件被廣泛應用于產品設計、建筑規劃、工程制圖等多個領域。CAD系統能夠提供精確的繪制工具,輔助設計師高效地創建復雜的設計圖紙。這些圖紙內嵌了大量的設計信息,包括幾何圖形、尺寸標注、附帶的表格數據等,特別是表格數據,通常用于詳細記錄設計參數、物料清單、規格說明等關鍵信息,表格規模較大。如何從繁雜的CAD圖紙中準確和快速地提取出表格數據對于提高設計分析、項目管理及成本估算的效率至關重要。

盡管CAD軟件提供了強大的設計和繪圖功能,但在表格數據管理和提取方面卻相對薄弱。傳統的表格數據提取需要人工進行操作,操作者需要在眾多圖層和復雜的圖紙之間進行切換,手動查找和記錄表格數據,這個過程不僅費時費力,而且容易出現疏漏和錯誤。隨著項目規模的擴大和工作流程的數字化轉型,自動化的數據提取方法變得尤為重要。

在此背景下,探索高效的CAD表格數據自動提取技術不僅可以提升工作效率,還有助于減少人為錯誤、保證數據的準確性和一致性,這對于確保設計質量、加速項目進度、優化資源分配等方面意義重大。

1相關工作

近年來,隨著計算機視覺和機器學習領域的快速發展,表格提取技術取得了顯著進展[1],表格提取技術也應用于各個領域如財務報表[2]、科技文獻[3]、工業數據[4]等。然而,大多數研究集中于標準大小的文本和表格數據提取,而對于CAD大型工程圖紙中的大型表格提取的研究則相對較少。工程圖紙中的表格通常包含設計參數、物料清單、規格說明等關鍵信息,表格規模較大,直接使用深度模型訓練對算力的要求很大,而縮放為標準尺寸后分辨率較低,模型準確率較低,難以滿足工程使用的需求。

KOCIE等人[5]采用了一種基于圖的方法對電子表格進行結構識別,通過將單元格分類并構建標簽區域圖,將表格結構識別(TowardsStructureRecognition,TSR)問題轉化為子圖分割任務。SIDDIQUISA等人[6]針對文檔圖像中表格位置和大小的多樣性提出了一種基于可變形卷積網絡的表格檢測方法,將表格結構識別視為對象檢測問題,通過引入偏移向量和可變形的ROI-pooling層來適應不同區域的表格行和列檢測。XUEWY等人[7]將表格結構識別問題重新定義為表格圖重構問題,通過結合ResNet50+FPN的特征提取和兩個并行處理分支——單元格檢測和單元格邏輯定位,利用分割方法生成單元格分割圖以確定位置,并應用圖卷積網絡(GraphConvolutionNetwork,GCN)學習表格圖表示,將其視為有序節點分類問題,同時,采用focalloss處理不平衡問題,最終實現對每個單元格空間位置及起始行列的準確預測。SHENHW等人[8]提出了一種創新的基于圖像到文本的表格結構識別方法,通過級聯的兩步解碼器架構,有效緩解了錯誤積累問題,其中,第一步解碼器以非自回歸方式預測HTML表格行標記,第二步以半自回歸方式預測單元格標記,該方法不僅更適合圖像數據的二維結構,而且在處理大型表格(長序列預測)時表現更優。

這些研究不僅展示了深度學習技術在表格數據提取方面的巨大潛力,而且提供了重要的技術路線圖,為進一步開發高效和可靠的CAD表格提取技術提供了參考。但是,相關研究中,關于CAD中大型表格數據的自動提取的研究較少。如何有效提取CAD中的大型表格數據需要進一步的研究。

2研究方法

整個表格提取的過程如圖1所示。首先,將CAD圖紙中的表格轉換為圖片形式;然后,進行預處理,提升圖片質量。由于表格規模過大,直接提取的準確率較低,因此,采用SAHI(SlicingAidedHyperInference)算法對表格進行分割,把表格分為大小相同的分片,并記錄各個分片的坐標,對分片使用Cycle-CenterNet進行數據提取,提取后的數據根據分片的坐標和數據在各分片中的相對坐標將其還原為原始表格。

2.1預處理階段

在處理CAD表格數據的預處理階段,首先,將原始CAD文件(如DWG或DXF格式)轉換成圖像格式,這有助于圖像處理算法的應用。為了提高后續步驟的處理質量和效率,采用高斯濾波去除圖像中的噪聲,并通過閾值處理技術OTSU算法去除非表格部分。整個預處理流程旨在優化圖紙質量,為接下來的數據提取和分析提供準備,確保后續步驟的準確性和效率。

2.2表格分割

CAD工程圖紙中的表格通常規模較大,無法直接識別,需要進一步進行分割。采用SAHI算法[9]對表格進行分割。SAHI是一種用于對象檢測的算法,通過將大圖像分割成小塊,單獨對每個小塊進行推理,來解決圖像縮放后細節丟失的問題,從而改進物體的檢測效果。將表格分割為1024×1024的分片,如圖2所示,(a)為原始圖片,(b)為處理后的部分分片。記錄每個分片在表格中的坐標根據每個分片在表格中的坐標,可以重新組合分片,恢復表格的全貌。

2.3內容提取

對于分割后的表格分片,需要進行文本提取和分析。使用Cycle-CenterNet[10]表格結構識別模型來提取表格數據。該模型是以自底向上的方式:(1)基于單元格中心點回歸出到4個頂點的距離,解碼出單元格bbox(boundingbox);同時,基于單元格頂點,回歸出到共用該頂點的單元格的中心點距離,解碼出gbox(groupbox);(2)基于gbox,將離散的bbox拼接起來,得到精準完整的電子表格。

3實驗與結果

3.1實驗數據

該研究中的數據來源于國家電網浙江省送變電工程有限公司的施工圖紙,包括1309張鐵塔設計圖紙,涵蓋了各種常見的鐵塔型號和設計風格。具體包括了110~500kV的單雙回路及四回路的各類鐵塔設計圖,涵蓋直線塔、耐張轉角塔、換位塔、直線轉角塔與終端塔共5種類別,具體的塔形包括了上字型、干字型、酒杯型、貓頭型、羊角型與鼓型塔,數據分布情況如表1所示。

對施工圖表格進行預處理后,我們按照廣泛使用的ICDAR2013[11]和ICDAR2019[12]的標準對數據進行標注。

3.2評估指標

模型性能根據準確率(Precision)[13]、召回率(Recall)和F1分數進行評估。

準確率:被提取的數據中正確提取的數據的比率。召回率:所有所需提取的數據里被正確提取的比率。F1分數:對準確率和召回率的綜合評估。三項評估指標的計算方式為

其中,TP為正確提取的數據,FP為錯誤提取的數據,FN為未能提取的數據。

這些評估指標是針對每個表格文件計算的,每個表格中的每個分片被視為子對象,對這些分片計算精確度和召回率,并對給定表格的所有分片取平均值,作為整個表格的評估指標。

3.3實驗設置

實驗使用SAHI算法分片,然后使用Cycle-CenterNet網絡提取表格數據。實驗環境如下表2所示。

實驗采用的主要配置如下。

實驗數據:使用國家電網1309施工圖紙中的表格數據進行實驗,以8∶1∶1的比例劃分為訓練集、驗證集和測試集。

優化器:使用Adam優化器,初始學習率設為0.001,帶有學習率衰減策略。

損失函數:結合了位置損失(邊界框的定位)和識別損失(單元格內容的識別)。

訓練周期:模型經過100個epochs的訓練,使用驗證集進行模型性能的定期評估。

3.4實驗結果

實驗結果揭示了分片處理在提升表格識別性能方面具有顯著優勢,尤其是在處理大型或復雜表格數據時。具體地,將采用了SAHI分片技術加上Cycle-CenterNet模型的組合與直接使用Cycle-CenterNet模型進行表格識別比較。測試結果如表3所示。

如表3所示,采用SAHI分片的方法使Cycle-CenterNet模型的表現得到了全面提升,分片加模型的組合表現出了97.5%的準確率和96.6%的召回率,F1得分達到了97.0%,反觀僅使用Cycle-CenterNet模型的情況,準確率為80.2%,召回率為81.1%,F1得分為80.6%,這組對比數據清晰地展示了分片技術在提高識別準確性、減少遺漏及平衡準確率與召回率之間關系的重要作用。

通過分片處理,每個小片段都得以保持較高的圖像質量和詳細信息,這為深度學習模型提供了更精確的輸入數據,故而能有效地提高模型在識別表格時的準確性和可靠性。此外,分片還限定了每個處理單元的數據范圍,降低了模型處理的復雜度,使得模型可以更集中地識別和處理每一部分的具體特征,進而提高整體的識別效果。

3.5總結

綜上所述,通過分片的方法提取CAD圖紙表格具有優勢,適合用于大型表格的識別。然而,分片過程可能會引入新的問題,如表格跨片斷裂等問題,未來的工作可以探索更智能的分片策略,如基于內容的自適應分片技術,以減少對表格內容完整性的影響;進一步深化模型架構,如引入更深的殘差網絡或使用更先進的圖像分割技術,也可能提高模型在處理極其復雜圖紙的性能;此外,增強數據的多樣性和量化,如加入不同行業的施工圖紙,可能會提高模型的泛化能力和魯棒性。通過這些策略,未來研究將能更全面地應對工程圖紙中表格信息提取的各種挑戰,進一步推動自動化和智能化的工程信息處理技術的發展。

4結語

本文中提出了一種高效的CAD工程圖紙大型表格提取方法,該方法使用表格分割技術和深度學習技術,有效提高了從復雜圖紙中自動化提取表格數據的準確率和效率。實驗結果表明,相較于傳統的手動提取方法,使用該方法不僅顯著減少了所需的時間和人工成本,而且還提高了數據的準確性與可靠性。由于工程圖紙的復雜多樣性,該方法還需通過實際案例測試來不斷調整和完善技術,確保其在不同類型的工程圖紙和行業環境中的通用性和有效性。

參考文獻

[1]高良才,李一博,都林,等.表格識別技術研究進展[J].中國圖象圖形學報,2022,27(6):1898-1917.

[2]羅小清,賈網,李佳靜,等.一種面向證券信息披露長文檔的表格分類方法[J].中文信息學報,2023,37(5):70-79.

[3]黃佳妮,于豐暢.基于表格檢索和機器學習二階段的文獻表格相關文本自動識別[J].數字圖書館論壇,2022(11):34-42.

[4]方浩東,鮑敏.工廠檢測檢驗用手寫表格的識別及數字化處理方法[J].軟件工程,2023,26(5):20-23,10.

[5]KOCIE,THIELEM,ROMEROO,etal.Agenetic-basedsearchforadaptivetablerecognitioninspreadsheets[C]//2019InternationalConferenceonDocumentAnalysisandRecognition(ICDAR),Sydney,NSW,Australia,2019:1274-1279.

[6]SIDDIQUISA,FATEHIA,RIZVISTR,etal.DeepTabStR:Deeplearningbasedtablestructurerecognition[C]//2019InternationalConferenceonDocumentAnalysisandRecognition(ICDAR),Sydney,NSW,Australia,2019:1403-1409.

[7]XUEWY,YUBS,WANGW,etal.TGRNet:Atablegraphreconstruction&hDURKVz6yT6+BXXOTlJxMhxMngaF7rWaVU3Z95cKCw4=nbsp;networkfortablestructurerecognition[C]//2021IEEE/CVFInternationalConferenceonComputerVision(ICCV),Montreal,QC,Canada,2021:1275-1284.

[8]SHENHW,GAOX,WEIJ,etal.Dividerowsandconquercells:Towardsstructurerecognitionforlargetables[C]//ProceedingsoftheThirty-SecondInternationalJointConferenceonArtificialIntelligence,2023:1369-1377.

[9]AKYONFC,ALTINUCSO,TEMIZELA.Slicingaidedhyperinferenceandfine-tuningforsmallobjectdetection[C]//2022IEEEInternationalConferenceonImageProcessing(ICIP)Bordeaux,France,,2022:966-970.

[10]LONGRJ,WANGW,XUEN,etal.Parsingtablestructuresinthewild[C]//2021IEEE/CVFInternationalConferenceonComputerVision(ICCV),Montreal,QC,Canada,2021:924-932.

[11]KARATZASD,SHAFAITF,UCHIDAS,etal.ICDAR2013robustreadingcompetition[C]//201312thInternationalConferenceonDocumentAnalysisandRecognition,Washington,DC,USA,2013:1484-1493.

[12]GAOLC,HUANGYL,DéJEANH,etal.ICDAR2019competitionontabledetectionandrecognition(cTDaR)[C]//2019InternationalConferenceonDocumentAnalysisandRecognition(ICDAR),Sydney,NSW,Australia,2019:1510-1515.

[13]SHAHABA,SHAFAITF,KIENINGERT,etal.Anopenapproachtowardsthebenchmarkingoftablestructurerecognitionsystems[C]//Proceedingsofthe9thIAPRInternationalWorkshoponDocumentAnalysisSystems.2010:113-120.

主站蜘蛛池模板: 亚洲欧美成人在线视频| 久久综合色视频| 黄片在线永久| 欧美精品啪啪一区二区三区| 狠狠亚洲五月天| 国产一国产一有一级毛片视频| 国产青榴视频| 日韩国产一区二区三区无码| 97精品伊人久久大香线蕉| 亚洲日韩高清在线亚洲专区| 欧美日韩中文字幕二区三区| 99久久精品国产自免费| 91精品国产自产在线观看| 精品乱码久久久久久久| 久久精品无码一区二区日韩免费| 毛片网站在线看| 国产成人h在线观看网站站| 色妺妺在线视频喷水| 久久99国产视频| 国产成人一级| 亚洲三级影院| 国产精品久久久免费视频| 久久亚洲AⅤ无码精品午夜麻豆| 国产女人综合久久精品视| 婷婷综合在线观看丁香| 免费Aⅴ片在线观看蜜芽Tⅴ| 欧美天堂在线| 国产免费人成视频网| 99性视频| 另类欧美日韩| 色成人亚洲| 免费人成黄页在线观看国产| 亚洲一区波多野结衣二区三区| 国产精品美人久久久久久AV| 亚洲国产精品成人久久综合影院| 中文字幕乱妇无码AV在线| 日本三级欧美三级| 亚洲狼网站狼狼鲁亚洲下载| 欧洲亚洲欧美国产日本高清| 在线观看无码av免费不卡网站| 亚洲国产日韩一区| 免费无遮挡AV| 亚洲第一中文字幕| 99久久精品视香蕉蕉| 国产欧美日韩在线一区| 欧美丝袜高跟鞋一区二区| 色香蕉影院| 亚洲女同一区二区| 亚洲清纯自偷自拍另类专区| 在线播放真实国产乱子伦| 欧美成人综合在线| 欧美成人看片一区二区三区 | 国产成人综合日韩精品无码不卡| 欧美精品在线免费| 日韩精品无码免费专网站| 亚洲VA中文字幕| 欧美成人区| 无码专区第一页| 91精品国产无线乱码在线| 日韩视频福利| 久久天天躁狠狠躁夜夜2020一| 国产成人区在线观看视频| 国产精品流白浆在线观看| 午夜无码一区二区三区| 免费视频在线2021入口| 99久久这里只精品麻豆| 一级做a爰片久久免费| 狠狠v日韩v欧美v| 亚洲永久视频| 日韩在线2020专区| www.亚洲天堂| 欧美日韩精品一区二区在线线| 免费不卡视频| 高清乱码精品福利在线视频| 全裸无码专区| 国产毛片不卡| 亚洲中文字幕在线观看| 欧美五月婷婷| 影音先锋亚洲无码| 久久精品亚洲热综合一区二区| 精品无码专区亚洲| 青青草国产精品久久久久|