基于屬性相似性度量的BIM構件聚類

2020-05-21 07:48:02王萬齊馬寶睿盧文龍劉玉身

圖學學報 2020年2期

關鍵詞：模型

王萬齊，馬寶睿，李倩，盧文龍，劉玉身

基于屬性相似性度量的BIM構件聚類

王萬齊1，馬寶睿2，李倩2，盧文龍1，劉玉身2

(1. 中國鐵道科學研究院集團有限公司電子計算技術研究所，北京 100081；2. 清華大學軟件學院，北京信息科學與技術國家研究中心，北京 100084)

近年來，隨著建筑信息模型(BIM)構件庫資源在互聯(lián)網(wǎng)上迅猛增長，對大量BIM構件資源的聚類和檢索應用變得日益迫切。現(xiàn)有方法還缺乏對BIM構件所承載的領域信息提取，基于BIM構件所承載的領域信息，對BIM構件庫資源開展聚類研究：①針對BIM構件，提出了一種基于屬性信息量的BIM構件相似性度量算法，以充分利用BIM構件屬性信息。通過與傳統(tǒng)的Tversky相似性度量算法以及幾何形狀相似匹配算法相比，其在相似性度量上效果更好。②基于BIM構件間的相似性度量算法，提出了一種BIM構件庫聚類方法。并在BIMSeek檢索引擎中集成了BIM構件的關鍵字檢索功能以及分類器查看功能，為用戶提供更豐富的檢索和查看方式。通過與傳統(tǒng)的K-medoids和AP聚類算法相比，其聚類方法效果更好。

建筑信息模型；工業(yè)基礎類；信息檢索；相似性度量；聚類

近幾十年來，繼聲音、圖像、視頻之后，三維模型作為第四代多媒體資源，已被廣泛地應用于機器學習、虛擬現(xiàn)實等領域，大量可共享的三維模型在互聯(lián)網(wǎng)上迅猛增加[1]。由于采用多媒體檢索技術可以提高開發(fā)效率、縮短開發(fā)周期、節(jié)省開發(fā)成本，因此得到了眾多研究人員的重視，特別是在CAD工程制圖設計領域。

隨著BIM在AEC領域的迅猛崛起，互聯(lián)網(wǎng)涌現(xiàn)出大量的BIM資源庫，目前比較主流的有Autodesk Seek，BIM Object，National BIM Library，Modlar，SmartBIM，Arcat，RevitCity網(wǎng)站等。這些網(wǎng)站中少則擁有幾千個多則擁有幾萬個BIM構件，面對如此日益龐大的三維模型庫，設計人員需要將主要精力從如何構建三維模型轉變?yōu)槿绾位谝延械哪Ｐ蜆嫿ǔ龇闲枨蟮男履Ｐ偷膯栴}上。GUNN[2]在美國科學雜志上發(fā)表文章表示，40%的構件可以在已有的模型之上重新設計，40%的構件可以修改已有的模型，僅有20%的構件需要重新設計。ULLMAN[3]認為超過75%的設計可以復用以前的設計來滿足新的需求。由此可見，構件復用的需求量相當大。如何快速準確地查找到滿足設計人員需求的構件，實現(xiàn)設計資源的重復利用，成為當前的熱點研究問題[4]。

聚類的最初目的是將具有相似特征的物體放在一起[5]。聚類分析有4個功能：①對數(shù)據(jù)分類進行進一步擴展；②對歸類進行概念性探索；③通過探索數(shù)據(jù)形成假說；④對實際的數(shù)據(jù)集歸類假說的測試方法。一般而言，聚類是對數(shù)據(jù)集分成若干個簇的過程。所以對BIM構建進行聚類有利于生成更好的檢索結果。

基于上述分析，本文針對如何快速準確查找符合設計需求的三維模型的問題，提出了一種BIM構件庫聚類方法。并在BIMSeek檢索引擎中集成了BIM構件的關鍵字檢索功能以及分類器查看功能，為用戶提供更豐富的檢索和查看方式。

1 相關工作

由IAI (International Alliance for Interoperability)組織定義的IFC (industry foundation classes)國際標準是BIM的最主要數(shù)據(jù)交換標準[6]。因此，本文使用IFC文件表示BIM構件，展開對BIM構件的聚類研究。

聚類研究方法包括：基于劃分的方法，將每個樣本劃分為一個歸屬，例如K-means[7]，EM[8]，K-medoids[9]；基于層次的方法，創(chuàng)建層次，遞歸將樣本合并或拆除，例如BIRCH[10]，CUBE[11]，ROCK[12]；基于密度的方法，區(qū)域中點的密度大于閾值時，將其加入到最近的類簇中，例如DBSCAN[13]，OPTICS[14]；基于網(wǎng)格的方法，將數(shù)據(jù)空間量化為網(wǎng)格單元，將樣本點分配到相應網(wǎng)格中，例如WaveCluster[15]；基于模型的方法，為每個類簇定義一個模型，根據(jù)給定模型為每個樣本點選擇合適模型，例如SOM[16]。

對BIM構件的聚類研究有很多應用，例如將BIM構件聚類應用到對BIM信息的挖掘和噪聲數(shù)據(jù)的檢測[17-18]；將BIM聚類應用到對缺少標注的模型提取有用信息；本文將BIM構件的聚類算法應用到檢索，集成到BIMSeek檢索引擎中完成檢索和分類器查看功能。

之前部分工作是在BIM領域做檢索的研究[19-21]，而本文則是應用于BIM構件自身上。其結合復雜的語義信息減少數(shù)據(jù)集成的不一致性，是結合語義構建領域知識[22-24]，本文工作是結合語義信息進行聚類和檢索。

在傳統(tǒng)的三維模型檢索領域中，主要通過提取模型的幾何特征來構建向量，但是對于工程設計領域的三維模型，不僅包括幾何特征，還包含語義屬性，因此，僅通過提取幾何特征是不足以描述整個模型。而基于模型本身內(nèi)容的三維模型檢索可以更好地支持針對BIM構件展開聚類的研究。

本文從Arcat、Autodesk Seek和BIM Object網(wǎng)站上提取了一萬個BIM構件，對其開展檢索與聚類的研究，首先提出了一種基于屬性信息量的BIM構件相似性度量方法。基于BIM構件間的相似性度量算法，本文提出了一種BIM構件庫聚類方法，并將聚類結果應用于檢索結果分類展示中，從而生成更好的檢索聚類效果。同時，為了給用戶提供更豐富的檢索和查看方式，本文在BIMSeek檢索引擎中集成了BIM構件的關鍵字檢索功能以及分類器查看功能。

2 方法

針對BIM構件的相似性度量方法，提出了一種BIM構件庫的聚類算法，首先使用近鄰傳播(affinity propagation，AP)算法[25]對初始種子進行選取，然后使用K-medoids算法進行聚類，在進行相似性度量時使用本文提出的基于屬性信息量的BIM構件相似性度量算法。將從多個BIM資源庫中提取的構件進行聚類，并將聚類應用于檢索中，實現(xiàn)了檢索結果的分類展示以及分類器查看功能。由于使用基于屬性信息量的聚類結果類別比較精細，類別比較多，需要給其聚類結果打標簽作為二級聚類標簽。而類別太多不易于瀏覽，因此，需要將聚類結果合并，并將其結果再次打標簽作為一級標簽。

BIM構件庫聚類算法的流程如圖1所示。

圖1 BIM構件庫聚類算法流程圖

2.1 基于屬性信息量的構件相似性度量

由于IFC文件中包含了該BIM構件的所有幾何屬性和語義屬性，因此每一個BIM構件均需一個相應的屬性向量表示，從而BIM構件的相似性度量即轉換為構件屬性向量的相似性度量。在此提出了一種基于RESNIK[26]提出的信息量計算和TVERSKY和GATI[27]相似度模型的BIM構件屬性相似性度量算法。

本文提出BIM構件的語義信息量為

將所有BIM構件的屬性信息量保存到計算機中，便于后續(xù)讀取使用。

由于每個BIM構件均被處理成一個屬性向量，其既包含了幾何屬性(長度、寬度等)，又包含了語義屬性(材質、廠商等)，本文中默認的屬性權重值設置為1，當屬性名稱相同時，為了保證在相似度的計算中更加精確，需要在以下2種情況下修改屬性的權重值：①對于幾何屬性，設定了一個閾值為5%，當相差比例大于5%時為不相同屬性，其權重值為0；相差比例小于5%的屬性設定為相同屬性，但其權重值按比例縮小。②對于語義屬性，如果描述2個部件的描述詞有部分匹配也認為其屬性是一樣的，只不過其權重相應縮小，但若2個屬性值完全不同，那么權重值則為0。此外，對于自定義屬性，由于不同的人可能會使用不同的單詞來表達同一個意思，本文使用WordNet來解決這種相同屬性的不同表達問題，即通過同義關系得到相應的同義詞列表。

本節(jié)提出基于屬性信息量的BIM構件相似度計算公式，通過集合運算計算出任意2個構件之間的相似度，即

其中，

()為該集合中所有屬性的信息量與權重值相乘之和，即

其方法可讀取保存在屬性信息量的中間文件，找到所表示的所有屬性，假設中屬性個數(shù)為，將這個屬性的信息量和權重值相乘之后再求和；IC為第個屬性的信息量；W為第個屬性的權重值。

2.2 基于相似性傳播算法的初始種子選取

本文在AP算法的基礎上，融入了對BIM構件的語義相似性度量。在AP算法運行過程中，不斷地從BIM構件預存好的相似度矩陣中提取數(shù)據(jù)，其算法稱為Tversky-AP算法，具體如下：

算法1. Tversky-AP算法。

輸入：BIM構件語義相似度矩陣simiMatrix，該矩陣為二維矩陣，simiMatrix[i][j]代表BIM構件i與BIM構件j的相似度。

輸出：初步聚類的BIM構件clusters。

rebuildSimiMatrix對輸入語義相似度矩陣的重建，即

其中，當≠，使用基于屬性信息量的相似度表示(,)；當=，其值稱為參考度，由于本文認為所有的構件均有可能成為聚類中心，因此該參考度的值需相同，其值取自相似度矩陣的中位數(shù)。

updateR更新式見式(5)。當吸引度矩陣均有值后，需要根據(jù)吸引度的值更新歸屬度的值，updateA在≠時，更新為式(6)，在=時，更新為式(7)。

chooseClusterCenter可對每一個BIM構件確定其聚類中心。若=，則構件本身是聚類中心；若≠，則構件是構件的聚類中心。每次迭代選取(,)+(,)最大值對應的BIM構件作為聚類中心。

2.3 基于K-medoids算法的BIM構件聚類

本文將Tversky-AP算法的結果作為K-medoids算法的初始聚類中心，因此稱該算法為AP-medoids算法，具體如下：

算法2. AP-medoids算法。

輸入：Tversky-AP算法的結果clusters。

輸出：聚類好的BIM構件idResult。

chooseCenter為每一個非初始聚類中心的BIM構件選取初始類別，讀取在2.1節(jié)中保存的BIM構件的相似度矩陣，得到每一個BIM構件與初始的個聚類中心的語義相似度，選取語義相似度最大的聚類中心作為應該屬于的類。

chooseClusterCenter計算該構件與其余構件之間的語義相似度之和，將語義相似度的和最大的構件作為該類的聚類中心。updateClusters更新所有的聚類中心供下一次迭代使用。

原始的K-medoids算法的時間復雜度主要浪費在計算彼此的距離，本文算法不需要實時地計算BIM構件之間的相似度，而是采取了預處理的方法，這也是本文對K-medoids算法的第二點改進。

2.4 二級聚類標簽的統(tǒng)計和選取

經(jīng)過聚類之后，每一類BIM構件需要一個標簽來概括該類構件，便于用戶瀏覽。并將小類別合并成為大類別，相當于大類別的標簽為一級標題，而小類別的標簽為二級標題，在分類器中顯示BIM構件時，首先看到的是一級標簽，點進之后分列表顯示二級標簽。在標簽選取后根據(jù)WordNet將具有相似標簽描述的小類別進行一次初始合并。二級聚類標簽的選取算法如下：

算法3. 二級聚類標簽的選取算法。

輸入：AP-medoids聚類算法的結果idResult。

輸出：打過二級標簽的聚類結果labelResult。

changeToDespResult即為將id轉換成相應的構件描述信息。fliter為對描述信息的停用詞處理。停用詞列表中需要去除6類單詞：①單詞中含有數(shù)字；②單詞長度為1；③常用的一些介詞；④無用的形容詞；⑤含特殊字符的單詞；⑥人名、地名、廠商名。

calculateTfidf和maxTfidfWord基于權重值進行聚類標簽的選取。本文使用TFIDF進行權重值的賦予。使用WordNet中的同義詞組，在為每個類別描述信息的每個單詞計算出權重值之后，選取權重值最大的那個單詞作為該類的標簽。

mergeWithWordnet在給聚類結果打標簽之后，由于某些類別的標簽依據(jù)WordNet是相似的，因此，可以將具有相似標簽的類別進行一次初始的簡單合并。例如標簽“toilet”，“l(fā)avatory”和“bathroom”，而這3個標簽在WordNet中是同義詞，如圖2所示，而這3個標簽的詞根是toilet，因此合并成一個大類別，使用“toilet”作為標簽。

2.5 聚類結果合并

由于基于屬性信息量的相似度計算方法，使得聚類結果更加精細，導致聚類類別較多。例如，原本均是門，但是由于內(nèi)部結構不同(雙開門、單開門等)，被聚成了多個類別，而類別太多不易于瀏覽，因此有必要將原本相關的小類別合并成大類。

圖2 WordNet中toilet的同義詞示意圖

本文采用VSM[28]向量空間模型(vector space model)進行構件描述信息相似度的比對，根據(jù)構件的描述信息的相似性進行類別的合并。基于構件描述信息的聚類合并算法如下：

算法4. 基于聚類描述信息構件合并算法。

輸入：打過二級標簽的聚類結果idResult。

輸出：經(jīng)過合并的BIM構件聚類結果mergedResult。

changeToDespResult是將打過二級聚類標簽的聚類結果使用構件描述信息表示。buildDespVector是使用向量空間模型表示構件描述信息集合。對于BIM構件的描述信息集合，將其進行分詞，最終形成一個由“key=value”構成的描述文檔向量。由于語言本身就客觀存在著諸多的不確定性，本文仍使用WordNet表示，凡是在其中具有相同詞根的單詞均被認為是相同的單詞。changeToTfidfRes是通過計算向量空間模型中每個詞項的權重值來構建描述信息集合的數(shù)值向量，便于相似度的計算。每個詞項的權重值使用TFIDF來表示，其為TF值與IDF值的乘積。TF為某一詞項在文中出現(xiàn)的頻率，IDF為一個詞項在多個文檔中出現(xiàn)頻率，代表詞匯的普遍性。calculateSimi計算BIM構建文檔信息向量之間的相似度度量方法是余弦距離相似度。

時間復雜度分析：假設打過二級標簽的聚類結果有個類簇，將聚類結果轉為其對應的描述信息的時間復雜度為()；將描述信息集合使用向量空間模型表示的時間復雜度為()；假設所有向量空間模型中不同的詞項個數(shù)為，為每一個詞項計算TFIDF的時間復雜度為()，那么轉為TFIDF向量的時間復雜度為(××)；使用余弦相似度計算相似度的時間復雜度為()，因此計算任意2個向量之間相似度的時間復雜度為(××)；將相似向量合并的時間復雜度為(2)；去重的時間復雜度為()，因此總的時間復雜度為(××)。

算法在實現(xiàn)過程中的改進。對于每個向量而言，其中0占了絕大多數(shù)，而在計算2個向量的相似度時只有非0值才起作用，因此本文在保存TFIDF向量時僅僅保留非零部分，就能大大降低的值，從而提高算法運行效率。

2.6 一級標簽的選取

經(jīng)過合并后即可得到一級聚類，且需要有一個標簽來進行描述，稱其為一級聚類標簽，其是直接給用戶進行瀏覽的，因此類別不能太多。由于本文的研究對象是使用IFC文件來表示的BIM構件，構件基本都隸屬IfcBuildingElement，含有21個子類別，可使用自然語言來表示21個子類別，使用IfcBuildingElement的子類別(以下簡稱IFC標簽)來引導一級聚類標簽的選取。使用WordNet的同義詞功能，可以得到IFC標簽的同義詞列表，用該列表過濾BIM構件的描述信息，這樣就能夠起到引導聚類標簽選取的效果。

一級聚類標簽的選取算法如下：

算法5. 基于聚類描述信息構件合并算法。

輸入：經(jīng)過合并后聚類結果mergedResult，IFC標簽列表ifcList。

輸出：打了一級標簽的聚類結果labelResult。

getSynonyms為獲取IFC標簽的同義詞列表，filter為BIM構件描述信息的過濾。將描述信息進行分詞，對于每個單詞使用WordNet計算其同義詞列表，如果同義詞列表中有一個單詞與IFC標簽的同義詞列表中的單詞相同，那么該單詞保留，否則濾掉。calculateTfidf和maxTfidfWord是基于權重值的聚類標簽的選取。基于WordNet計算初始標簽的同義詞列表，看同義詞列表中的單詞與哪個IFC標簽的同義詞列表中的單詞相同，就選取那個IFC標簽作為一級聚類標簽。

3 實例驗證與評估

3.1 BIM構件聚類應用于檢索系統(tǒng)的實現(xiàn)

本文將BIM構件的聚類應用于BIMSeek[20-21]構件檢索系統(tǒng)和3DSeek[29-35]三維模型檢索中，實現(xiàn)了對于關鍵子檢索結果的分類展示以及分類器查看2個功能。將關鍵字的檢索結果進行分類展示，便于用戶瀏覽。

圖3為系統(tǒng)首頁，用戶可以通過3種方式進行檢索：①輸入關鍵詞進行檢索；②點擊分類查看器中的一級聚類標簽進行檢索；③上傳BIM構件進行屬性檢索。圖4為當輸入的關鍵詞為“window”時的查詢結果示意圖(分類器查看頁面與其類似)，在右側可以選擇“window”下面的任意一個二級聚類標簽，左側的結果會根據(jù)二級聚類標簽而變化，結果列表展示了檢索結果構件的名稱、類別、廠家、簡要描述、屬性信息、三維模型的展示以及IFC文件和RFA文件的下載。

針對上傳BIM構件進行屬性檢索功能，例如上傳一個門的BIM構件根據(jù)屬性檢索，Door_Industrial_RiteHite_FasTraxCL-VerticalLift這個構件在使用基于信息量和Tversky的BIM構件屬性相似性度量方法的結果列表中第6個出現(xiàn)，而在使用傳統(tǒng)的Tversky相似性度量方法的結果列表中是第12個出現(xiàn)，如圖5所示。由于該構件與上傳構件的共同屬性中包含的信息量更大，例如Door Slab Material，Vision Panel Material這些屬性，因此該構件應當在檢索列表的前面顯示，此例子說明本文方法可以更好地根據(jù)屬性檢索到信息量更接近的模型。

圖3 系統(tǒng)首頁示意圖

圖4 關鍵字檢索結果示意圖

圖5 Door_Industrial_RiteHite_FasTraxCL-VerticalLift構件在2種相似度比較方法中的實例對比圖

3.2 聚類結果比較

本文采用類內(nèi)類外標準和Purity標準對聚類結果進行評判，且進行實驗的數(shù)據(jù)是經(jīng)過AP-medoids聚類之后的數(shù)據(jù)。

其中，_的值越大說明聚類結果越好。

Purity標準：計算正確聚類的模型占總模型數(shù)的比例，即

其中，為模型總數(shù)；={1,2,…,w}為聚類的集合；w為第個聚類的模型集合；={1,2,…,m}為標準分類的模型集合；m為第個標準分類的模型集合；(,)的值越高，聚類結果越準確。

為了驗證使用AP-medoids聚類算法的聚類效果，分別將其與單獨使用K-medoids算法和單獨使用AP算法進行對比，并分別將3個聚類算法應用于Arcat, Autodesk Seek，BIM Object資源庫和混合資源庫這4個BIM資源庫中，并使用2種聚類評價標準來評判聚類結果。

由于AP算法和AP-medoids算法聚類結果均是穩(wěn)定的，而K-medoids算法由于初始聚類中心的選取是隨機的，在本實驗中，將隨機選取初始聚類種子的個數(shù)為benchmark中對應資源庫的BIM構件的類別數(shù)，而表1中的實驗數(shù)據(jù)對于K-medoids聚類算法的結果是采用10次實驗結果的平均值。

表1 benchmark中BIM構件的個數(shù)及其分類數(shù)

表2展示了針對4個資源庫，使用類內(nèi)類外標準的對比結果。

表2 3種聚類算法針對4個資源庫的類內(nèi)類外標準評判結果

由表2可知，無論哪個資源庫，AP-medoids算法的類內(nèi)類外相似度的值均大于單獨使用AP算法的值；且單獨使用AP算法的值均大于單獨使用K-medoids的值。亦即使用AP-medoids聚類算法的效果要好于單獨使用AP算法的效果，單獨使用AP算法的效果要好于單獨使用K-medoids算法。

表3展示了針對4個資源庫，使用Purity標準的對比結果。

表3 3種聚類算法針對4個資源庫的Purity標準評判結果(%)

從表3可知，AP-medoids聚類算法的準確度高于單獨使用AP算法的準確度，且單獨使用AP算法又高于單獨使用K-medoids算法的準確度。亦即，AP-medoids聚類算法的效果最好。

4 結束語

本文提出的基于BIM構件屬性信息量的構件聚類算法，其對傳統(tǒng)經(jīng)典的K-medoids聚類算法進行了2點改進：①利用AP算法的結果作為K-medoids的初始聚類中心，使得聚類結果變得穩(wěn)定；②提出的基于屬性信息量的BIM構件相似性度量方法，由于構件之間的相似度是經(jīng)過預處理的，結果保存到中間文件，大大提高了K-medoids算法的運行速度和降低了算法復雜度，充分結合了BIM構件本身的領域信息。

為了驗證本文提出的聚類算法的效果，針對Arcat，Autodesk Seek，BIM Object資源庫和混合資源庫4個BIM構件資源庫，利用類內(nèi)類外標準和purity度量2種聚類評價手段，將AP-medoids聚類算法與單獨使用AP聚類算法和單獨使用K-medoids聚類算法進行聚類結果的評判，實驗結果證明使用AP-medoids聚類效果更好。

本文還將該聚類結果應用于BIMSeek檢索系統(tǒng)中，實現(xiàn)了對關鍵字檢索結果的分類展示以及分類器查看功能。為用戶在分類器查看時更加方便，還對聚類結果進行了二次聚類標簽的選取，并通過IFC領域信息再次對結果進行合并以及一級聚類標簽的選取。

[1] GAO Y, DAI Q H, WANG M, et al. 3D model retrieval using weighted bipartite graph matching[J]. Signal Processing: Image Communication, 2011, 26(1): 39-47.

[2] GUNN T G. The mechanization of design and manufacturing[J]. Scientific American, 1982, 247(3): 114-130.

[3] ULLMAN D G. The mechanical design process[M]. New York: McGraw-Hill, 1992: 47-51.

[4] 潘翔, 張三元, 葉修梓. 三維模型語義檢索研究進展[J]. 計算機學報, 2009, 32(6): 1069-1079.

[5] ALDENDERFER M S, BLASHFIELD R K. Cluster analysis[M]. Los Angeles: Sage Publications, 1984: 2-12.

[6] YU K, FROESE T M, GROBLER F. International alliance for interoperability: industry foundation classes[EB/OL]. [2019-08-10]. https://www.researchgate. net/publication/246506361_International_alliance_for_interoperability_Industry_foundation_classes.

[7] CAO J, WU Z A, WU J J, et al. Towards information-theoretic K-means clustering for image indexing[J]. Signal Processing, 2013, 93(7): 2026-2037.

[8] LIU Z, SONG Y Q, XIE C H, et al. Clustering gene expression data analysis using an improved EM algorithm based on multivariate elliptical contoured mixture models[J]. Optik, 2014, 125(21): 6388-6394.

[9] PARK H S, JUN C H. A simple and fast algorithm for K-medoids clustering[J]. Expert Systems with Applications, 2009, 36(2): 3336-3341.

[10] ZHANG T, RAMAKRISHNAN R, LIVNY M. BIRCH: an efficient data clustering method for very large databases[C]//Proceedings of the ACM SIGMOD International Conference on Management of Data. New York: ACM Press, 1996: 103-114.

[11] ZHANG Z J, SHU H, CHONG Z H, et al. C-Cube: elastic continuous clustering in the cloud[C]//2013 IEEE 29th International Conference on Data Engineering (ICDE). New York: IEEE Press, 2013: 577-588.

[12] LI R, LIU L. A method for large scale ontology partitioning and block matching based on ROCK clustering[J]. Applied Mechanics and Materials, 2014, 536-537: 390-393.

[13] CHAKRABORTY S, NAGWANI N K. Analysis and study of incremental K-means clustering algorithm[M]//High Performance Architecture and Grid Computing. Heidelberg: Springer, 2011: 338-341.

[14] ANKERST M, BREUNIG M M, KRIEGEL H P, et al. OPTICS: ordering points to identify the clustering structure[C]//ACM Sigmod Record. New York: ACM Press, 1999: 49-60.

[15] ANGGRAINI E L, SUCIATI N, SUADI W. Parallel computing of WaveCluster algorithm for face recognition application[C]//2013 International Conference on QiR. New York: IEEE Press, 2013: 56-59.

[16] LIU Y C, WU C, LIU M. Research of fast SOM clustering for text information[J]. Expert Systems with Applications, 2011, 38(8): 9325-9333.

[17] PENG Y, LIN J R, ZHANG J P, et al. A hybrid data mining approach on BIM-based building operation and maintenance[J]. Building and Environment, 2017, 126: 483-495.

[18] ALI M, MOHAMED Y. A method for clustering unlabeled BIM objects using entropy and TF-IDF with RDF encoding[J]. Advanced Engineering Informatics, 2017, 33: 154-163.

[19] LIU H, LIU Y S, PAUWELS P, et al. Enhanced explicit semantic analysis for product model retrieval in construction industry[J]. IEEE Transactions on Industrial Informatics, 2017, 13(6): 3361-3369.

[20] GAO G, LIU Y S, LIN P P, et al. BIMTag: concept-based automatic semantic annotation of online BIM product resources[J]. Advanced Engineering Informatics, 2017, 31: 48-61.

[21] GAO G, LIU Y S, WANG M, et al. A query expansion method for retrieving online BIM resources based on industry foundation classes[J]. Automation in Construction, 2015, 56: 14-25.

[22] EL-MEKAWY M. EL-MEKAWY M. Integrating BIM and GIS for 3D city modelling[J]. Licentiate Thesis Geoinformatics Division Department of Urban Planning and Environment Royal Institute of Technology (KTH), 2010, 25: 55-58.

[23] KARAN E P, IRIZARRY J. Extending BIM interoperability to preconstruction operations using geospatial analyses and semantic web services[J]. Automation in Construction, 2015, 53: 1-12.

[24] MIGNARD C, GESQUIERE G, NICOLLE C. SIGA3D: a semantic bim extension to represent urban environment[C]//Proceedings of the 5th International Conference on Advances Semantic Processing. Lisbon: IARIA XPS Press, 2011: 20-25.

[25] FREY B J, DUECK D. Clustering by passing messages between data points[J]. Science, 2007, 315(5814): 972-976.

[26] RESNIK P. Using information content to evaluate semantic similarity in a taxonomy[EB/OL]. [2019-08-10]. https://xueshu.baidu.com/usercenter/paper/show?paperid=d102100755fd36fcfcf6573f2b9b2593&site=xueshu_se.

[27] TVERSKY A, GATI I. Studies of similarity[J]. Cognition and Categorization, 1978, 1(1978): 79-98.

[28] SALTON G, WONG A, YANG C S. A vector space model for automatic indexing[J]. Communications of the ACM, 1975, 18(11): 613-620.

[29] LI N, LI Q, LIU Y S, et al. BIMSeek++: retrieving BIM components using similarity measurement of attributes[J]. Computers in Industry, 2020, 116: 103186, 1-12.

[30] HAN Z, SHANG M, LIU Z, et al. SeqViews2SeqLabels: learning 3D global features via aggregating sequential views by RNN with attention[J]. IEEE Transactions on Image Processing, 2019, 28(2): 658-672.

[31] HAN Z, LU H, LIU Z, et al. 3D2SeqViews: aggregating sequential views for 3D global feature learning by CNN with hierarchical attention aggregation[J]. IEEE Transactions on Image Processing, 2019, 28(8): 3986-3999.

[32] HAN Z, LIU Z, VONG C-M, et al. Deep spatiality: unsupervised learning of spatially-enhanced global and local 3D features by deep neural network with coupled softmax[J]. IEEE Transactions on Image Processing, 2018, 27(6): 3049-3063.

[33] HAN Z, LIU Z, VONG C-M, et al. BoSCC: bag of spatial context correlations for spatially enhanced 3D shape representation[J]. IEEE Transactions on Image Processing, 2017, 26(8): 3707-3720.

[34] LIU X H, HAN Z Z, LIU Y S, et al. Point2Sequence: learning the shape representation of 3D point clouds with an attention-based sequence to sequence network[EB/OL]. [2019-08-10]. https://xueshu.baidu.com/usercenter/paper/ show?paperid=140p0m30uu7p00v0kk6g02a02u626778&site=xueshu_se.

[35] HAN Z Z, SHANG M Y, LIU Y S, et al. View inter-prediction GAN: unsupervised representation learning for 3D shapes by learning global shape memories to support local view predictions[EB/OL]. [2019-08-10]. http://xueshu.baidu.com/usercenter/paper/ show?paperid=136m0cc0hy5206j0jy2x0rq0ru020636&site=xueshu_se.

Clustering of BIM components based on similarity measurement of attributes

WANG Wan-qi1, MA Bao-rui2, LI Qian2, LU Wen-long1, LIU Yu-shen2

(1. Institute of Computing Technology, China Academy of Railway Sciences Corporation Limited, Beijing 100081, China; 2. School of Software, BNRist, Tsinghua University, Beijing 100084, China)

In recent years, resources in the Building Information Modeling (BIM) components library are expanding rapidly on the Internet. There is an increasing demand for ways to cluster and retrieve appropriate BIM components among countless resources. However, the way to extract domain information of BIM components still can not be found in existing methods. This paper studies the clustering of BIM components based on the domain information of BIM components: ①For BIM components, tan algorithm measuring similarity is proposed based on the attribute information. Compared with the traditional Tversky similarity measure algorithm and geometry similarity matching algorithm, the newly proposed one the present study has produced a better result. ②A clustering method of BIM component library is proposed based on the similarity measure algorithm of BIM components. Users are provided with diverse ways to retrieve and check information thanks to the search engine of BIMSeek integrated with functions of keyword-based retrieval and classifier view. Compared with the K-medoids algorithm and AP algorithm, the results of ours are more desirable.

building information modeling; industry foundation class; information retrieval; similarity measure; clustering

TP 391

10.11996/JG.j.2095-302X.2020020304

2095-302X(2020)02-0304-09

2019-09-10；

2019-10-14

國家重點研發(fā)計劃項目(2018YFB0505400)；國鐵集團科技研究開發(fā)計劃項目(K2018G055, 2017X003)

王萬齊(1978-)，男，甘肅環(huán)縣人，研究員，博士。主要研究方向為建筑信息模型與應用等。E-mail：13701314627@163.com

劉玉身(1976-)，男，遼寧瓦房店人，副教授，博士。主要研究方向為計算機圖形學與建筑信息模型。E-mail：liuyushen@tsinghua.edu.cn