王宏,于勇 ,印璞,趙罡,3,王偉
(1.北京航空航天大學 機械工程及自動化學院,北京100191; 2.中國空間技術研究院 通信衛星事業部,北京100094;3.北京航空航天大學 北京市高效綠色數控加工工藝及裝備工程技術研究中心,北京100191)
隨著數字化技術水平的不斷提高,以航空航天為代表的大型裝備制造業逐漸采用了基于模型定義(MBD)的全三維數字化設計制造方法[1].國內外針對MBD 技術的應用進行大量研究,文獻[2]在波音MBD 應用技術基礎上,詳細闡述了基于模型定義的技術體系框架以及基本的定義方法和數據組織原則,文獻[3]則對MBD 標注信息表達及多視圖過濾做了大量研究.這些研究為MBD 技術的應用和推廣起到了重要的作用,MBD 數據集也逐漸成為產品研制過程中數據傳遞的唯一依據[2].然而,在實際應用過程中,隨著時間積累,企業構建的MBD 數據集數目呈爆炸性增長,這些數據集是大量的設計人員智慧和知識的結晶,如何獲取歷史數據集中有用的知識和經驗是每一個企業迫切需要解決的問題.
對于產品研制過程中知識的發現、存儲、共享和推薦過程有很多專家和學者進行了大量的研究.在MBD 定義過程中,也引入了相關的理論,其中,文獻[4]闡述一種通過構建本體知識庫對MBD 數據集進行分類管理方法.文獻[5]則進一步提出了基于模型定義的工藝知識表示方法及工藝決策方法.然而這些知識的獲取方法大多是針對已知的、顯式的知識進行處理,而針對隱含的、先前未知的經驗和規則的獲取大多通過專家系統通過集成研討廳的方式進行提取[6],并且大多停留在理論階段,工程的可用性不好.本文則針對MBD 數據集中工程注釋信息進行結構化管理,通過統一編碼,利用關聯規則挖掘的方法分析MBD構建歷史記錄中工程注釋信息,從而得到工程注釋間隱含的、對決策有潛在價值的關聯關系,實現對MBD 數據集定義過程中工程注釋信息的推薦.
基于模型定義是指用集成的三維實體模型來完整表達產品定義的方法,是將原來定義在二維圖紙上的幾何形狀、尺寸與公差以及工藝等產品信息,集成定義在三維實體模型中[7].由于MBD技術要求使用三維實體模型作為生產制造過程中的唯一依據,這樣就要求產品數字化定義信息必須按照MBD 技術標準進行分類組織和管理,來滿足產品研制過程中的各個階段對數據的需求.一個完整的MBD 數據集應該包括產品的三維幾何信息、設計參考、尺寸、公差和工藝等信息,圖1所示為完整MBD 數據集應包含的信息及其組織結構.

圖1 MBD 數據集組成元素Fig.1 Components of MBD dataset
MBD 數據集中包含了產品研制過程中大量的工藝、制造和檢驗信息,因此,MBD 數據集中相關的非幾何信息必須按照一定的格式編輯,并進行合理的存儲管理,以便后續的數字化制造系統無需人工干預就能夠有效讀取和識別這些工程注釋信息[8].因此,由計算機對所有工程注釋項統一編碼和發布.經計算機發布的單條工程注釋被稱為工程注釋項.如表1 所示,工程注釋項主要由“編碼”、“標注內容”和“URL”構成.其中,“編碼”具有唯一性,以便工程注釋項被不同的數字化系統識別;“標注內容”則是對工程注釋項的簡要描述信息;“URL”則連接產品研制過程中相關標準和規范,或者該工程注釋項的詳細要求信息,表明工程注釋項來源和依據.

表1 工程注釋項Table 1 Engineering note item
Agrawal 等[9]于1993 年首先提出了挖掘顧客交易數據庫中項集間的關聯規則問題,此后人們對關聯規則的挖掘進行了大量研究,其核心都是基于頻集理論的遞推方法.設I={i1,i2,…,in}是所有項的集合.給定一個事務數據庫D,其中的每一個事務T 是項集I 中一些元素的集合,在事務數據庫中相當于歷史數據記錄,即T?I.一條關聯規則就是形如A ?B 的蘊含式,其中A ?I,B?I,并且A∩B=?,其支持度Ssup和置信度Cconf表示為:Ssup(A)=P(A);Cconf(A?B)=P(B|A).對于同時滿足最小支持度(Smin_sup)和最小置信度(Cmin_conf)的關聯規則,就是可以作為知識輸出的強關聯規則[10].
生成頻繁項集是關聯規則挖掘的第一步,在很大程度上決定著整體的挖掘效率[11].它通過計算事務數據庫中各種項集組合的最小支持度,判斷是否為頻繁項集.一旦從數據庫中找出所有頻繁項集,則可以從頻繁項集中提取關聯規則,通過設置最小置信度的約束,進而獲取強關聯規則.
在MBD 數據集定義過程中,所有項的集合I對應于企業標準管理系統中所有的工程注釋項.事務數據庫D 對應產品研制過程中MBD 數據集創建的所有歷史記錄,記錄了MBD 數據集代號及引用的工程注釋項編碼,如表2 所示,每一條歷史記錄都構成事務數據庫中的一個事務,MBD 數據集代號作為該事務的唯一事務碼.

表2 MBD 數據集構建歷史記錄Table 2 Created history record of MBD dataset
挖掘頻繁項集的經典算法是Apriori 算法和Frequent Pattern-growth (FP-growth)算 法.由 于Apriori 算法在生成頻繁項集前需要對數據庫進行多次掃描,同時產生大量的候選頻繁集,導致Apriori 算法時間和空間復雜度較大[12].由此,Han[13]提出了FP-Growth 算法.FP-Growth 算法只需要掃描2 次數據庫:第1 次掃描數據庫,得到一維頻繁項集;第2 次掃描數據庫,利用一維頻繁項集過濾數據庫中的非頻繁項,同時生成FP 樹.由于FP 樹蘊涵了所有的頻繁項集,其后的頻繁項集的挖掘只需要在FP 樹上進行.本文采用FP-growth算法,其基本思路[14]為:
1)對事務數據庫進行第1 遍掃描,利用數據庫中的事務集構造一棵頻繁模式樹(Frequent Pattern-tree,FP-tree).
2)將FP-tree 分化成一些條件模式基,即包含FP-Tree 中與后綴模式一起出現的前綴路徑的集合,然后在對這些條件模式基重復以上過程,直到構造的新FP-tree 為空,或者只包含一條路徑.
3)枚舉所有可能組合并與此樹的前綴連接即可得到頻繁項集.
以表2 的MBD 數據集構建歷史記錄表為例使用FP-growth 算法進行關聯規則挖掘.首先,對事務數據進行第1 次掃描,導出頻繁1 項集和支持度計數,假設最小支持度計數為2.然后將頻繁1 項集按支持度計數遞減順序排序,結果集記為L.于是,就有 L = {{5SN01282:7 },{5SN00791:6 },{5SN00323:6},{5DN00214:2},{5PN01365:2}}.
然后,創建頻繁模式樹FP-tree.首先創建樹的根節點,用“Null”標記.接著第2 次掃描事務數據庫.每個事務數據中的項按L 中支持度計數排列次序進行重新排序,然后并對每一個事務創建一個分支.例如掃描第1 條事務數據“FDHZ1008-4B_5-13:{5SN00791,5SN01282,5PN01365}”按L中支持度計數排序后可表示為“{5SN01282,5SN00791,5PN01365}”,使FP-tree 包含3 個節點的第1 個分支<5SN01282 >,<5SN00791 >,<5PN01365 >,其中“5SN01282”作為根的子女鏈接 到 根,“5SN00791”鏈 接 到“5SN01282”,“5PN01365”鏈接到“5SN00791”,依次類推,最終構建頻繁模式樹FP-tree,如圖2 所示,左邊表示表頭項,樹中相同項的節點要鏈接起來,其中每個節點數字代表對應項在該節點支持度計數.

圖2 頻繁模式樹Fig.2 Frequent pattern-tree
最后可通過對FP-tree 的挖掘獲得頻繁項集.首先在構造的整個事務數據庫的頻繁模式樹上進行條件模式基的挖掘,縱向沿著表頭向上,也就是按照表頭中頻繁1 項集支持度計數的升序方向,優先遍歷頭表,同時橫向遍歷其所對應的鏈表域,并對該鏈表域節點縱向向上遍歷直到根結點停止,即得到一個序列,這個序列就是條件模式基.接著,對條件模式基繼續建立局部FP-tree.直到生成只包含單個分支的FP-tree,通過枚舉所有可能組合并與此樹的前綴連接即可得到頻繁項集.表3 給出通過挖掘條件模式基生成頻繁項集.

表3 生成頻繁項集Table 3 Generate frequent item set
當在事務數據中找出所有頻繁項集,可通過最小置信度過濾出強關聯規則.置信度可用式(1)[15]計算:

條件概率用項集支持度計數表示,其中,Ssup_count(A∪B)是包含項集A∪B 的事務數,而Ssup_count(A)是包含項集A 的事務數.
設定最小置信度,關聯規則的生成為:
1)對于每個頻繁項集L,產生L 的所有非空子集.
根據規則包含工程注釋項的數目,對于關聯規則A?B 可以是一對一、一對多、多對一和多對多的關系,由于在MBD 數據集工程注釋項推薦中,各工程注釋項相比電子商務商品項之間具有更強的邏輯性和規律性,為了提高推薦準確性和推薦效率,本文僅保留一對一和多對一的關聯規則.對于表3中的頻繁項集{5SN01282,5SN00791,5PN01365},提取關聯規則如表4所示.

表4 關聯規則提取Table 4 Extraction of association rules
若設定最小置信度為0.7,則關聯規則{5PN01365,5SN00791 } ? {5SN01282 },{5PN01365,5SN01282}?{5SN00791}為強關聯規則.
推薦是系統根據當前MBD 數據集已經添加的工程注釋項,與規則庫中規則前項進行匹配,推薦規則后項過程.對于關聯規則A?B,關聯規則前項為當前已經添加到MBD 數據集中的工程注釋項的非空子集,關聯規則后項為系統推薦工程注釋項.因此,工程注釋項推薦為根據當前MBD數據集已經添加的工程注釋項的非空子集作為規則前項提取規則后項,進而根據規則置信度大小產生top-n 推薦序列的過程,算法步驟為:①對每個當前MBD 數據集u,設置一個候選推薦集Pu,并將候選推薦集Pu初始化為空.②對每個當前MBD 數據集u,搜索規則數據庫,找出該MBD數據集支持的所有關聯規則集合Ru,且關聯規則前項的所有工程注釋項出現在當前MBD 數據集u 已經添加的工程注釋項中.③將關聯規則集合Ru右部的所有工程注釋項加入候選推薦集Pu.④從候選推薦集Pu刪除當前MBD 數據集已經添加的工程注釋項.⑤對候選推薦集Pu中所有候選項根據置信度值進行排序,如果一個項在多條關聯規則中出現,則選擇置信度值最高的關聯規則作為排序標準.⑥從候選推薦集Pu中選擇置信度最高的前N 個項作為推薦結果返回.
基于關聯規則的MBD 數據集定義系統主要由對工程注釋進行管理的集成標準管理模塊,離線關聯規則挖掘模塊、在線MBD 數據集定義模塊組成.圖3 為系統功能框架.

圖3 MBD 數據集定義系統框架Fig.3 Frame of MBD dataset definition system
1)集成標準管理模塊.
集成標準管理模塊管理產品研制過程中所有設計、工藝、制造和檢驗的技術要求及相關標準,以及相關工程注釋項,任何授權的單位和研制人員都能夠進行檢索,進而保證產品研制過程中不同研制單位生成MBD 數據集可以被數字化設備有效的讀取和識別,也為實現工程注釋項挖掘和推薦的前提.同時,在CATIA 中開發與集成標準管理模塊的接口,使得設計人員在CATIA 可以調用集成標準管理模塊中工程注釋項,完成工程注釋項編輯.集成標準管理模塊主界面如圖4所示.
2)關聯規則挖掘模塊
由于關聯規則是以大量MBD 創建歷史記錄數據為基礎進行分析,并且采用關聯規則挖掘生成頻繁項集的過程非常耗時,因此采用離線處理方法對歷史記錄進行挖掘.在長期使用過程中,企業會根據自身實際情況會對自己的產品研制體系進行變更、廢止或更新一部分工程注釋項,因此首先要對MBD 創建歷史記錄中數據進行清洗,去除一些無意義和噪聲數據.然后再對清洗后的數據采用關聯規則算法對處理過的數據進行挖掘,進而生成強關聯規則.最后將獲取的強關聯規則導入關聯規則數據庫中.關聯規則挖掘模塊用戶界面如圖5 所示.
對于關聯規則存儲一般包含5 個部分:規則前項、規則后項、支持度、置信度和規則生成時間.工程注釋項推薦過程,也是MBD 數據集中當前工程注釋項與規則前項匹配,獲取規則后項過程.表5為關聯規則表結構.

圖4 集成標準管理模塊主界面Fig.4 Main interface of integrated standard management module

圖5 關聯規則挖掘模塊Fig.5 Association rule mining module

表5 關聯規則表結構Table 5 Structure of association rules table
3)MBD 數據集定義模塊.
MBD 數據集定義模塊包含MBD 數據集工程注釋項編輯及推薦功能.工程注釋項編輯功能可以通過添加或刪除相關工程注釋信息完成MBD數據集構建.工程注釋項推薦功能通過讀取當前MBD 數據集已經添加的工程注釋項,以當前MBD 數據集中工程注釋項非空子集作為規則前項,以規則庫中關聯規則后項為推薦內容,生成推薦序列,進而顯示在工程注釋項編輯界面中.圖6為系統工程注釋項的推薦界面.
本文將系統部署某航天企業,利用該企業現有MBD 構建歷史記錄為數據源,進行關聯規則挖掘,獲取強關聯規則,并以某型號支架體MBD 數據集構建為例,對系統有效性進行驗證.
1)關聯規則挖掘.
統計該企業于此相關工程注釋項共計134 條,在MBD 數據集構建歷史記錄中選擇相關歷史數據記錄1 000 條,設置支持度為0.1,置信度為0.3,并以此1 000 條數據為基礎進行關聯規則挖掘.圖7 為系統關聯規則挖掘的結果報告.

圖6 工程注釋項的推薦Fig.6 Recommendation of engineering note items

圖7 關聯規則挖掘結果報告Fig.7 Result report of association rule mining
2)工程注釋項推薦.
該支架體主要由4 塊蜂窩夾層復合材料板,2根支撐桿以及若干連接件組成.以該支架體為驗證對象,對系統推薦有效性進行評價.設完成當前編輯中MBD 數據集一共需添加n 項工程注釋項,在系統當前刷新中,數據集中已包含工程注釋項數目為m,推薦給用戶的工程注釋項數目為a,其中包含有效推薦項數目為b,則當前系統推薦效率即有效推薦項占系統給出推薦項百分比η=a/b×100%,推薦準確率即系統當前刷新推薦有效項占數據集仍然缺少工程注釋項百分比R =b/(n-m)×100%.該支架體零件MBD 數據集所包含工程注釋項均在7 ~10 之間,取1 ~8 為數據統計區間,計算工程注釋項推薦效率及其準確率,求平均值,分析結果統計如圖8 所示.
如圖8 可知,系統推薦的準確性隨當前所編輯的MBD 數據集中包含的工程注釋項的增加而增加.而當MBD 數據集的編輯即將完成,在系統每次推薦工程注釋項數目不變條件下,包含有效項隨之減少,推薦效率降低.

圖8 推薦效率及準確率統計Fig.8 Statistics of recommendation efficiency and accuracy rate
本文從應用角度出發,通過對MBD 數據集創建過程的歷史記錄進行關聯規則挖掘,獲取工程注釋項間潛在的關聯關系,從而實現MBD 創建過程中相關工程注釋項的推薦,實際應用中表明:
1)其相較于傳統的MBD 定義方法,在選擇注釋項準確性及其效率上都有所提高,具有很好的工程可操作性.
2)本文所采用的單維單層次挖掘方法在準確性和效率上還有待于改善和提高,后續的研究工作可以嘗試采用分層多維度關聯挖掘的方法,以提高挖掘質量和效率.
此外,該方法不僅可以用于MBD 數據集的定義過程,也可以利用關聯規則庫中工程注釋項間關聯關系及其關聯強度實現MBD 數據集正確性和完整性檢查,為提高MBD 建模質量提供了另一種解決思路.
References)
[1] Alemanni M,Destefanis F,Vezzetti E.Model-based definition design in the product lifecycle management scenario[J].The International Journal of Advanced Manufacturing Technology,2011,52(1-4):1-14.
[2] 范玉青.基于模型定義技術及其實施[J].航空制造技術,2012(6):42-47.
Fan Y Q.Model based definition technology and its practices[J].Aeronautical Manufacturing Technology,2012(6):42-47(in Chinese).
[3] Camba J,Contero M,Johnson M,et al.Extended 3D annotations as a new mechanism to explicitly communicate geometric design intent and increase CAD model reusability[J].Computer-Aided Design,2014,57(1):61-73.
[4] Zhang H J,Zhang S,Yan Q.Study on the archives management system of aviation products based on MBD[J].Applied Mechanics and Materials,2013,321-324:2396-2399.
[5] Wan N,Mo R,Liu L,et al.New methods of creating MBD process model:On the basis of machining knowledge[J].Computers in Industry,2014,65(4):537-549.
[6] Park D H,Kim H K,Choi I Y,et al.A literature review and classification of recommender systems research[J].Expert Systems with Applications,2012,39(11):10059-10072.
[7] Clark B,Gerald B,David S,et al.Model based definition,AIAA-2010-3138[R].Reston:AIAA,2010.
[8] 馮國成,梁艷,于勇,等.基于模型定義的數據組織與系統實現[J].航空制造技術,2011(9):62-66.
Feng G C,Liang Y,Yu Y,et al.Dataorganization and system implementation of model based definition[J].Aeronautical Manufacturing Technology,2011(9):62-66(in Chinese).
[9] Agrawal R,Imieliński T,Swami A.Mining association rules between sets of items in large databases[C]∥Proceedings of the 1993 ACM SIGMOD.Washington,D.C.:ACM Press,1993:207-216.
[10] Bobadilla J,Ortega F,Hernando A,et al.Recommender systems survey[J].Knowledge-Based Systems,2013,46(1):109-132.
[11] 高建煌.個性化推薦系統技術與應用[D].合肥:中國科學技術大學,2010.
Gao J H.Technology and application of personalized recommender systems[D].Hefei:University of Science and Technology of China,2010(in Chinese).
[12] 鮑玉斌,王大玲,于戈.關聯規則和聚類分析在個性化推薦中的應用[J].東北大學學報:自然科學版,2008,24(12):1149-1152.
Bao Y B,Wang D L,Yu G.Application of association rules and clustering analysis to personalized recommendation[J].Journal of Northeastern University:Natural Scienee,2008,24(12):1149-1152(in Chinese).
[13] Han J W.Miniing frequent patterns without candidate generation[C]∥Proceedings of the 2000 ACM SIGMOD Internal Conference on Management of Data.Washington,D.C.:ACM Press,2000:1-12.
[14] 莫同,褚偉杰,李偉平,等.一種基于擴展FP-TREE 的服務推薦方法[J].華中科技大學學報:自然科學版,2013,41(增刊Ⅱ):81-87.
Mo T,Zhu W J,Li W P,et al.A service recommended method based on extended FP-TREE[J].Journal of Huazhong University of Science and Technology:Natural Science Edition,2013,41(Supp1.Ⅱ):81-87(in Chinese).
[15] Lin W,Alvarez S A,Ruiz C.Efficient adaptive-support association rule mining for recommender systems[J].Data Mining and Knowledge Discovery,2002,6(1):83-105.