許永宏
(中鐵第四勘察設計院集團有限公司信息中心,武漢 430063)
勘測設計一體化平臺的圖簽欄識別設計與實現
許永宏
(中鐵第四勘察設計院集團有限公司信息中心,武漢 430063)
針對鐵路勘測設計一體化平臺的電子審簽圖紙簽名與歸檔信息獲取問題,本文提出了一種圖簽欄信息識別方法。該方法通過分析工程圖形文件中圖簽欄的樣式與結構特征,應用特征識別方法識別出圖簽欄區域,并利用匹配關鍵字模板,實現不同樣式工程圖簽欄信息的自動提取與識別,方便圖紙電子審簽與歸檔信息入庫的實現,實際工程應用驗證了該方法的有效性。
鐵路勘測設計;圖簽;信息提取
AutoCAD是繪制工程圖紙的基礎環境,而勘測設計一體化平臺系統[1](以下簡稱一體化平臺)遠遠超過了工程圖紙繪制的范圍,它不僅包含工程圖紙文檔,還包括所有其他設計文檔,是對整個設計流程管理的統一工作平臺。勘測設計一體化平臺流程管理有大量的圖檔需要歸檔管理,包括圖紙分類、信息收集、表格填寫等典型問題[2-3],雖然一般流程管理系統平臺解決了圖紙審查的流程及審查單上的簽字,但是要徹底地實行電子審圖流程,使平臺正確地處理所有AutoCAD多種實體,需要一體化平臺自動識別出圖紙關鍵信息[4-5]。
本文提出了一種圖簽欄信息識別技術,它能夠對圖紙審簽欄準確定位,自動識別電子圖紙的圖簽欄,完成圖紙電子審簽與歸檔信息入庫。
工程設計圖紙的圖框右下角或一側會有一個圖簽欄,反映明確的工程信息,如項目工程名稱、階段、圖紙名稱等,而且作為設計產品標識,必然有設計人及各級審查責任人的有效簽名欄。圖簽欄在圖紙上通常以二維表的形式存在,形式上以線段和字符串構成。構成圖簽欄的線段將該區域劃分成多個簡單矩形,矩形中存在著表示設計信息的關鍵字,在該矩形左右或上下對應著實際工程信息。典型的圖簽欄如圖1所示。

圖1 鐵路圖簽樣式
分析工程設計院圖簽欄的各種形式,可歸納出工程設計圖具有如下特點:
(1)整個圖簽欄是由水平線和垂直線相交圍成的一系列矩形組成的框架,矩形大小,排列不同。整個圖簽欄區域依托在圖框上,在圖框下部或側面,與設計內容分離。
(2)矩形單元格一般可分為關鍵字單元格與值單元格,值單元格與對應的關鍵字單元格存在左右或上下相鄰的相對關系。
(3)作為工程圖的簽字區,至少包括圖紙設計者及復核人員的簽字。按照工程習慣,鐵路工程圖紙,必須包括“設計”欄與“復核”欄,公路工程圖紙,則必須包括“設計”欄與“審核”欄。
對于各種的圖簽欄式樣,需要建立不同樣式的模板,通過與要識別的工程圖紙匹配,才能識別提取的信息。本文模板不限制使用固定的圖框塊屬性記錄信息[2],也不采用在CAD中繪制固定圖簽欄做模板的方式[3],而是采用文本描述圖簽欄內各單元之間固定關系的簡潔方式。由于各類工程圖簽的變化形式有限,為簡化操作與提高效率,沒有采用將圖簽欄內容映射為虛擬表格的方法,而是提出將圖簽內所有單元排序成一維數組的方法,按照從左至右,從小到大,從下往上的方式排序,然后對每個單元格進行定義,很容易通過XML文本的方式增加模板。例如,圖1的排序結果如圖2所示。
根據排序好的所有單元格,就可以對工程中所用圖簽欄進行簡潔的文本模板定義,定義中包括總單元格數,圖簽類型(用于確認關鍵字集合),每個單元格內容等等。圖2所示的圖簽欄模板定義為:

圖簽欄區域識別基于工程圖圖形特征的方法,即根據所總結的工程圖圖簽形式與特點進行提取分析,基于模板匹配進行識別。

圖2 圖簽單元格順序
(1)原始數據提取
在AutoCAD圖形中,構成圖簽欄的實體實際上有很多種,情況很復雜,有可能是線段和文本,有可能是塊實體,有可能是參照,有可能有多義線,有可能文本為塊的屬性信息,有可能繪制在模型空間,也有可能繪制在圖紙空間等等。所以首先要解析并得到CAD圖形中所有水平和垂直線,以及文字對象。
(2)線段和文字的數據處理,根據圖簽欄的特點,圖簽欄由水平和垂直線圍成的許多矩形組成。首先是利用計算幾何算法,識別出圖中所有矩形,識別出所有水平、垂直線及其組成的矩形,并且去掉不規則的。在處理當中還需要注意,工程設計人員人機交互手工繪制圖簽欄,有一些圖紙經放大后會出現制表線不相交,以至于識別矩形單元格時會出現錯誤。所以在計算處理之前,要預處理線段,我們取垂直最大線段的千分之一與一個長度單位相比較的最大值作為閥值,在這個閥值距離內均視為相交。
此外,還要處理圖紙上用于識別圖簽欄的最關鍵特征字,一些關鍵字中間有空格,可以過濾掉。但一些關鍵字,在圖紙中繪制成多個字,如”設計”繪制成“設”和“計”,都存在于一個單元格內,在這里要將單元格內的文字合并,根據文字角度從左至右,或從下至上合并。
(3)根據特征識別方法找出圖簽欄的區域。圖簽識別首先要在圖紙中識別出圖簽欄的區域,雖然存在一定的規范要求,但公路、鐵路、市政等不同類型的工程圖紙其圖簽區域與位置樣式卻不相同,這就要求不論哪種樣式的圖簽都要能迅速識別出圖簽欄所在區域。
查圖簽欄區域左上角頂點,可從關鍵字“設計”所在單元格作為初始查找單元格入手,查找右下角、左下角、右上角為該單元格左上角頂點的單元格,如圖3。如能找到,繼續將找到的單元格做為關鍵單元格,循環繼續查找其左上角單元格,直到不能找到新的單元格。所找到的單元格左上角即為圖簽欄區域左上角。

圖3 圖簽欄區域查找的圖例
與此類似,查區域右下角頂點,從“設計”開始或附近的關鍵字“復核”或“審核”開始,循環查找與其鄰接的單元格,左上角、右上角、左下角與初始查找單元格右下角頂點相同的單元格,直到不能找到新的單元格,即為圖簽欄右下角單元格。
(4)基于關鍵字模板進行匹配,在圖簽欄區域內的矩形組成的表格與模板對比。按照模板要求的順序,將圖簽欄區域內的矩形排序。首先比較總單元格數量,依照不同圖簽類型從不同關鍵字表中取關鍵字,找出圖簽中所有關鍵字,然后依順序與模板比較關鍵字是否匹配。
(5)信息提取。依據關鍵字對應的值內容提取信息,其中一些單元格內容包含多個信息,需要進一步拆分,如包含項目名稱,項目階段與圖名,可以依據不同圖簽類型的項目階段關鍵字將內容分隔開提取。
整個勘測設計一體化平臺的圖簽欄識別接口設計如圖4所示。
勘測設計一體化平臺系統的流程管理在需要工程圖紙上簽名時,則標識該圖紙文件需要識別,放入圖簽識別請求消息隊列。由圖簽欄識別程序掃描到需要識別標記后,打開文件進行識別。將識別的簽字位置信息返回給平臺,進行下一步簽字處理。

圖4 一體化系統圖簽識別接口設計
勘測設計一體化平臺的設計工程文檔需要歸檔時,標識該圖紙文檔需要識別,放入圖簽識別請求消息隊列。由圖簽欄識別程序識別之后,將圖名、圖號等圖紙信息返回,平臺根據返回的信息填入歸檔條目信息,進行下一步自動歸檔。
圖簽欄信息識別是鐵四院勘測設計一體化平臺軟件的一項關鍵技術,實現了工程圖紙圖簽欄信息的自動識別,在鐵路工程設計項目中得到實際應用。該技術使軟件利用簡潔易用的文本模板,直接在配置文件中根據圖簽欄目增加模板,使得各類形式的圖簽信息很方便就能被軟件識別,有效地解決了歸檔信息入庫應用問題,促進圖紙電子審簽的實現。實際工程應用表明,該技術方法是可行、高效的。
[1]汪享慶.鐵路勘測設計協同設計探討.交通與計算機,2008,26(1):77-79.
[2]王欣,魏生民.基于ActiveX技術的圖紙標題欄信息自動提取.計算機研究與發展,2000,37(4):507-512.
[3]鄭桂榮,史俊友,楊彩.基于AutoCAD的產品信息提取及報表系統設計.機械工程師,2005,(2):26-27.
[4] Mohamad Fl A J,Mohd S M,Rahim,etc.Computer-Aided Design Data Extraction Approach to Identify Product Information.Journal of Computer Science,2009,5(9):624-629.
[5] Li Xiaoxia,Cai Xiantao,He Fazh,Huang,Zhiyong.Retrieval and reconstruction of heterogeneous feature data for collaborative design.2010 14th International Conference on Computer Supported Cooperative Work in Design,2010:553-558.
Design and Implementation of Information Extraction from Signature Table of Drawings for Integration Platform of Railway Survey and Design
Xu Yonghong
(Information Center of the China Railway SiYuan Survey and Design Group Co.,Ltd.,Wuhan430063,China)
To solve the access problems of electronic signature on drawings and archived information of electronic file on the integration platform of railway survey and design,an information extration technique from signature table of drawings was proposed.With the styles and structure characteristics of the signature forms in the engineering drawings analyzed,it found the field in the signature table of drawings by feature recognition.Then informations of different styles engineering drawings were extracted and recognized automatically by template match of key words,which facilitates the electronic signature on drawings and archived information of electronic file.Its practical engineering application virified the effectiveness of this method.
Design of Railway Exploration;Signature Table of Drawings;Information Extraction
TP391.41
A
1674-7461(2011)01-0052-04
許永宏(1970-),男,碩士,高級工程師。研究方向為管理信息系統、計算機輔助設計。E-mail:xyhwh@163.com