■ 崔 哲
郭 昱
李 華
信息技術的快速發展推動著數字經濟的發展,繼而推動生產、生活方式和治理方式深刻變革。《“十四五”數字經濟發展規劃》[1]指出了我國未來經濟的發展方向,提出:大力推動數字技術與實體經濟融合,數據賦能推進數字產業化與產業數字化發展;推動形成數據資產目錄,健全完善數字經濟治理體系;統籌新型智慧城市和數字鄉村建設,推動數字城鄉融合發展;加快既有住宅和社區設施數字化改造,鼓勵新建小區同步規劃建設智能系統,打造智慧共享的新型數字生活;等等。
在建筑學領域,數字建成環境作為產業數字化的典型代表,其實質是基于建筑學理論設計構建的虛擬環境(圖1),承載著虛擬角色在虛擬環境中的行為。隨著數字建成環境在各行各業(主要是教育、商業、辦公、游戲和影視等)中的建造需求不斷增大,以及現實環境中實體建筑與數字技術的加速融合,建筑的數字化、智能化程度的不斷加深,依賴人工搭建的傳統工作模式難以滿足未來高效率、高創新性的建造要求。因此,如何利用計算機技術,快速、大量、優質地自動生成建筑平面圖,是當下建筑學需要解決的重要問題。

圖1 數字建成環境[2]
平面圖是建筑空間最重要的信息承載體,平面圖的自動生成是數字建成環境自動生成的基礎,一般包括基于規則和基于圖像學習技術兩種技術路線。
基于規則的建筑平面圖自動生成方法由F.Hayes-Rotht 等[3]于1983年提出,又稱為“建筑專家系統”,是建筑平面圖自動生成的起點。有關這方面的研究較多,比較具有代表性的如:U.Flemming 等[4]采用窮舉法配合修剪搜索樹的方法建立了平面生成程序,可在一個給定的矩形房間內合理布置家具;P.Charman 等[5]提出“半幾何弧形一致性”概念,實現了同一個戶型內多個房間的家具布置設計;B.Medjdoub 等[6]又在此基礎上加入空間的拓撲關系,來優化生成效果;E.Grabska 等[7]基于拓撲學建立了一套支持多層建筑設計的可視化設計系統;華好[8]實現了在非正交輪廓內布置建筑平面的算法。該技術路線的局限性在于難以構建一個可以覆蓋多種風格及類型平面圖的生成算法,生成效果依賴用戶輸入、符號構造和調參經驗[9]。
基于圖像學習技術的建筑平面圖自動生成方法以神經網絡作為工具,首先將大量標注過的平面圖輸入神經網絡,通過訓練使神經網絡學習平面圖中空間分布的潛在規則,再利用訓練好的神經網絡自動生成平面圖。2014 年,Goodfellow 等[10]提 出 生成對抗網絡(generative adversarial networks,GAN),提高了該技術路線的訓練效率。GAN 作為一種深度學習模型,在算法結構上作出重大創新,生成器(generator)與判別器(discriminator)的博弈式學習方法極大地促進了計算機視覺的發展。該領域的重要研究包括:設計草圖生成[11]、3D 建筑圖片生成[12]、限定范圍內的建筑平面圖生成[13-16]、多專業圖紙生成[17]等。
此類平面圖的生成又可細分為人機協同和直接生成兩種技術路線(表1),其生成過程中需要設計范圍作為限制條件。通常,將表示設計范圍的圖稱為條件圖,將生成模型計算并輸出的圖稱為生成圖。

表1 圖像學習在建筑平面生成中的應用
(1)人機協同的工作模式一般分為兩步,即先由用戶基于條件圖產生代表設計意象的分析圖,再由生成模型根據分析圖輸出代表設計結果的生成圖。例如:吳文明等[13]以“房間定位點圖”作為分析圖來訓練生成模型,其采用的樣本庫來源于自建的真實戶型圖數據集RPLAN;胡瑞珍等[14]基于RPLAN 數據集,制作“功能氣泡圖”作為分析圖,以此訓練生成模型;曾偉等[15]基于RPLAN 數據集制作“活動熱力圖”,并將其作為分析圖訓練生成模型。雖然分析圖交互步驟可以增加用戶體驗感,但其與設計結果之間的對應關系通常比較模糊,訓練難度較高,即便采用了幾萬個訓練樣本,生成圖還會出現空間邊界不清晰的情況(表1)。
(2)直接生成是將條件圖輸入至訓練好的生成模型中,直接生成設計結果。在以往的研究中,此類生成圖普遍存在色彩界限模糊等問題。例如:陳夢凡等[18]通過一個訓練好的堆疊GAN 模型,按照“場地圖—分區路網圖—建筑點位圖—總平面圖”的生成步驟,生成職業技術學院的校園總平面圖,但其每一步的生成圖都出現了色彩區域界限模糊或色彩過度的情況,需要人工調整后才能作為下一步的條件圖;黃蔚欣等[19]基于pix2pixHD 算法,對戶型圖進行空間色彩語義圖與渲染平面圖的互相轉換,但生成圖同樣存在設計元素邊界模糊的情況;Chaillou[16]建立了一個直接生成戶型圖的堆疊GAN,其部分生成步驟“建筑輪廓—帶有空間色彩語義的平面圖—帶有家具的平面圖”出現了色彩融合過度、線稿不清晰的情況;劉德利等[20]嘗試基于pix2pix算法的建筑形態及其組合生成設計,訓練神經網絡根據地塊生成內部建筑布局;崔哲等[21]曾嘗試對養老設施建筑平面圖的訓練,但由于標注工作量的限制,導致生成圖像中的各個空間邊界模糊。上述研究皆采用真實存在的平面圖作為訓練樣本,且樣本量均小于1 000 個。然而,現實中多變的設計條件與設計策略使得每一個樣本都具有自身的特殊性,難以保證樣本潛在規則的同一性,故筆者團隊認為,建立相同規則的建筑平面圖樣本庫,是此類研究的首要條件。
平面圖生成模型的訓練需要有大量的訓練樣本,且樣本圖在規則上要有同一性;而吳文明等[22]建立的RPLAN 數據集雖然樣本量超過80 000,但均來自實際建筑,其項目環境、體量、設計要求、建筑師及設計風格各不相同,不具備統一規則。因此,本研究擬構建一套基于統一規則的大型數據集作為訓練的基本材料,探討不同樣本量及模型架構下pix2pix 算法的學習效果差異;同時,建立衡量學習效果的評價體系,找到學習效果最優的生成模型。
將平面圖轉換為可以被GAN 網絡識別的圖,需要進行大量的注釋工作,包括統一世界坐標、圖像分辨率、比例尺、圖紙底色、各房間著色等。巨大的時間成本導致研究人員難以獲取足夠的訓練樣本[23]。為了解決上述問題,本研究定義了“類平面圖”概念,即:將建筑平面圖抽象為由多個矩形組成,其每個矩形代表聚集的同類型空間及附屬空間。如圖2所示的“類平面圖”抽象過程中,c、d 即為“類平面圖”。

圖2 類平面圖抽象示意圖
作為人居生活的最小空間單元,住宅是最基本、最重要且數量最多的建筑類型。也正是由于數量龐大,很多開源的建筑平面圖數據集均為住 宅, 如RPLAN[22]、LIFUHOME[24]等。實際上,許多建筑師如帕拉迪奧、安藤忠雄等都將住宅看作是建筑的原點,因此,本研究在制定類平面圖生成規則時,參考了住宅的一般規律。如圖3 所示,A0為初始矩形,隨機選擇1 個頂點作為基點,向外生成矩形A1,組成一個新的平面;并在此平面外輪廓上再隨機選擇1 個頂點生成矩形A2,以此類推。經過n次循環后,可形成由n+1 個矩形組成的類平面圖。每個新矩形的生成規則如圖4所示。

圖3 類平面圖的生成步驟

圖4 新矩形生成規則
為了標記空間的位置、朝向、面積屬性,對類平面圖中的矩形進行顏色標注。結合GAN 的采樣原理,將色彩分為RGB3 通道(0~255 之間的整數),其中:R值標記朝向,G值標記位置,B值標記面積。圖5 是由10 個矩形組成的類平面圖,其注釋(著色)步驟包括:①制作類平面圖邊界框,即完全包含類平面圖的最小矩形框;②在其中制作色彩矩陣,矩陣左下單元格的色彩R、G值為0,且矩陣中所有單元格的色彩B值為0;③取各個矩形的幾何中心點,其在色彩矩陣中對應的R、G值即為該矩形顏色的R、G值;④將所有矩形的面積等比例縮放至[0,255]區間內作為顏色的B值,其中最大面積矩形的B值為255,最小面積矩形的B值為0;⑤去掉矩陣及中心點,得到有色彩信息的類平面圖。

圖5 平面注釋(著色)步驟
2.3.1 任務設置
首先,采用GH-python 軟件,將矩形總數分別設置為6、7、8、9、10 個,共得到4 556 個可用的類平面圖;設置每個類平面圖的標識ID。通過調整每個類平面圖的顯示設置,可以得到3 類圖紙(圖6):①黑圖,即表示設計范圍的條件圖,其外輪廓內部全部涂黑;②線框圖,即表示空間分割信息的條件圖或結果圖,其內部填充灰色以區分設計范圍和非設計范圍;③色彩語義圖,即代表設計范圍內空間分割及各個空間位置、朝向、面積等屬性的結果圖。

圖6 圖紙樣式及圖像轉譯任務設置
其次,基于pix2pix 算法,探索根據黑圖直接生成色彩語義圖的生成模型在不同訓練參數下的學習效果。設置單一GAN 和堆疊GAN 兩種構架,其中:單一GAN 僅包含1 個執行空間分割及著色的生成器G1;堆疊GAN 包含2 個生成器,分別是執行空間分割的G2和執行色彩標記的G3,運行時先啟動G2,并將G2的生成圖作為G3的條件圖,再啟動G3進行生成。G1~G3分別對應圖像轉譯任務1~3(圖6)。
2.3.2 建立數據集
根據pix2pix 算法特性,用于訓練的樣本要求是512×256 分辨率的合成圖片,其中:條件圖占據右邊的256×256 像素,生成圖占據左邊的256×256 像素;同時,在條件圖與生成圖中,學習目標的像素坐標必須一一對應。因此,本研究在進行樣本的批量生成時,對相機和顯示模式進行固定,并在生成圖像后,根據圖像ID 進行配對。基于此,分別建立3 個圖像轉譯任務的圖庫,且每個圖庫中包含4 556 個512×256 分辨率的合成圖片樣本。
為了探索不同訓練樣本量的學習效果,按樣本量從小到大依次設置6 個訓練集,分別為:100、500、1 000、2 000、3 000、4 000 樣本訓練集。對4 556 個類平面圖的ID 按留出法進行抽樣,先隨機抽取25 個圖片ID 作為測試集,再在剩余的ID中抽取訓練集。3 個轉譯任務共抽樣得到18 個訓練數據集。
采用充分學習法,即每個回合(epoch)學習的樣本包括全部的訓練樣本。設batch_size=1,則每個回合學習的迭代次數就是樣本量。采用任務1 的100 樣本訓練集進行預訓練,共設置250 個回合,查看生成器G 與鑒別器D 的損失函數變化(圖7)。可以看出:鑒別器損失函數在學習80 回合左右到達最低值,隨后不斷波動;生成器損失函數在學習230 回合左右到達最低值,隨后也不斷波動。在實際訓練時,需要給學習回合數留出余量,故仍設置最大回合數為250 個。訓練過程中,每10 個回合保存1 個生成模型。

圖7 任務1“100 樣本”訓練集損失函數圖
本次實驗共訓練得到450 個生成模型,具體實驗流程如圖8 所示:

圖8 實驗流程示意圖
① 自定規則生成建筑類平面圖圖庫;②制定3 個圖像轉譯任務,并制作各自的樣本庫;③先在樣本庫中抽取測試集,再在剩余樣本中進行多種訓練樣本體量的簡單隨機抽樣;④用一個任務的最小樣本進行預訓練,根據損失函數的收斂情況,確定訓練的最大回合;⑤開始訓練,訓練過程中每隔一定回合保存生成模型;⑥將得到的生成模型在測試集上進行測試;⑦分析測試結果,得到結論。
對訓練得到的450 個生成模型進行保存,同時記錄訓練參數。用預先抽取的25 個類平面圖的測試集對每個生成模型進行測試,并將各測試用類平面圖與生成模型交叉匹配,最終得到11 250 個生成圖。
3.1.1 檢驗方法
一般情況下,可通過對比生成圖與真實圖的一致性來檢驗生成圖是否符合規則。以4 000-240(樣本-訓練回合)模型在1 號測試圖上的生成圖為例(圖9):①空間劃分方面,生成圖中的矩形A0及矩形A5~A9與真實圖一致,矩形A1~A4雖不一致,但其排布符合圖3 和圖4 所示規則;②色彩方面較為復雜,矩形A5及A5~A9號可參考真實圖,矩形A1~A4的R、G值參考色彩矩陣,B值參考其他矩形。由于生成圖中存在一定的色彩過渡現象,需先對矩形內部的色彩進行平均化處理。將生成圖的線框復制到色彩矩陣中,提取矩形A1~A4中心點的R、G值;將生成圖與真實圖的色彩參數用散點圖表示(圖9b),發現各點圍繞在y=x參考線附近,因此生成圖的色彩語義符合設定的色彩規則。

圖9 生成圖合規檢驗
上述方法可以較準確地評價生成模型的學習效果,但存在效率低、難以準確量化對比等問題。為了更加高效、準確地評價生成模型的學習效果,可引入客觀的像素匹配算法(pixelmatch)來檢驗生成圖與真實圖的相似度。
3.1.2 像素相似度檢驗
Pixelmatch 算法的原理是將兩張圖進行逐個像素掃描,對比相同像素坐標下RGB值之差,得到有差異的像素數量總和,記為P′。將圖像像素總數記為P,根據公式(1)定義像素相似度Psim。
將源自同一個生成模型的所有生成圖的分數平均值記為該生成模型的像素相似度,對所有生成圖與真實圖進行像素相似度檢驗,檢驗范圍為類平面圖的邊界框內。圖10 為任務1所有生成模型的像素相似度散點圖,可以看出,像素相似度總體隨樣本量和訓練回合數的增加而增加。

圖10 任務1 生成模型像素相似度散點圖
像素相似度高雖然在一定程度上代表了生成圖與真實圖的相似度,但仍有一些高像素相似度的生成圖存在斷線、色彩過渡等現象(表2)。因此,生成圖的評價還需要主觀檢驗作為輔助。

表2 存在斷線、色彩過渡現象的高像素相似度生成圖舉例
3.1.3 主觀檢驗
從是否有色彩過渡、是否存在不清晰的分割線兩個方面,對每張生成圖進行評分:無色彩過渡、分割線清晰皆記1 分,否則記0 分。將兩項標準的分數之和記為圖片的主觀評分(表3);源自同一個生成模型的所有生成圖的分數總和記為該生成模型的主觀評分。圖11 為任務1 所有生成模型的主觀評分,從其趨勢線可以看出,主觀評分同樣隨樣本量和訓練回合數的增加而增加。

表3 主觀評分標準

圖11 任務1 生成模型主觀評價分值散點圖
3.1.4 單一GAN 模型生成效果
從圖10~11 可以看出,無論是像素檢驗還是主觀評價,任務1 模型的生成效果都與樣本量和學習回合呈正相關,說明由黑圖向色彩語義圖的轉換模式有較好的可控性。綜合像素檢驗與主觀評價,在當前參數范圍內,4 000-240 模型主觀評價為22 分,生成圖與真實圖的像素相似度平均值和最高值分別為75.96%和89.15%,具有最優生成效果。
結合表4 的單一GAN 生成模型測試結果舉例,按圖9 方法觀察:①3 號生成圖與真實圖基本相同;②1、4、5 號生成圖與真實圖雖略有不同,但基本符合矩形的生成規則;③2 號圖雖然空間分割符合規則,但色彩與原圖差別較大;④6 號生成圖空間分割不夠清晰,色彩基本符合設定規則。

表4 單一GAN 生成模型測試結果舉例
3.2.1 生成器選擇
構建堆疊GAN,需要從任務2和任務3 中分別選出生成效果得分前3 的生成模型進行交叉匹配,再通過測試選出最優堆疊GAN。選擇標準依然是綜合考慮像素相似度主觀評分,其像素相似度與4.1 節中相同;主觀評分時,任務2 只考慮分割的清晰度,任務3 則只考慮有無色彩過渡現象。
(1)任務2 生成模型評價結果如圖12 所示。像素相似度方面,除2 個用“100 樣本”訓練的模型略低于80%,其他模型均超過了80%,且基本聚集在85%附近;相比之下,主觀評分的得分差異較大,側面證明了主觀評價的必要性。綜合兩個標準,選擇表現最佳的3 個模型即2 000-60、1 000-190、1 000-140模型作為G2生成器(圖12 中用紅圈標出)。

圖12 任務2 生成模型評價結果
(2)任務3 生成模型評價結果如圖13 所示。像素相似度散點圖(圖13a)中,各點比較分散;主觀評價分值散點圖(圖13b)中,各點則分聚在上下兩側,且集中在下側的點代表出現過擬合等問題的模型。由于模型篩選主要考慮色彩的準確性,故采用像素相似度檢驗法準確度較高。選取3 個像素相似度最高且未出現過擬合的模型即4 000-110、4 000-190、500-60 模 型 作 為G3生 成 器(圖13 中用紅圈標出)。

圖13 任務3 生成模型的像素相似度和主觀評價散點圖
3.2.2 最優堆疊GAN 選擇及生成效果
選出的模型生成效果如表5 所示。 任 務2 中,2 000-60 模 型 與1 000-190 模型的生成圖像素相似度相差僅為0.13%,但斷線情況差別明顯;任務3 中,3 個模型的生成圖的像素相似度很相近,都沒有色彩過渡現象。

表5 最優模型的生成效果(以1 號測試圖為例)
對G2、G3生成器進行交叉匹配,得到9 個堆疊GAN,再分別在測試集上進行測試,得到225 張生成圖。綜合9 個堆疊GAN 的像素相似度與主觀評價(表6),D8 堆疊GAN 為最優生成模型,由任務2 中最優的生成模型和任務3 中最優的生成模型組成。最優堆疊GAN 的生成圖與真實圖像素相似度平均值為73.11%,最高值達91.20%;主觀評分為23 分。結合表7 的堆疊GAN 生成模型測試結果舉例,按圖9 方法觀察可知:1、3、7 號生成圖符合設定規則;5 號生成圖空間分割不夠清晰,但色彩基本符合設定規則;2、4、6 號生成圖出現L 形空間,不符合空間劃分規則。

表6 堆疊GAN 生成效果評價表

表7 堆疊GAN 生成模型測試結果舉例
對比表4 和表7 中單一GAN 與堆疊GAN 的測試結果可知:①單一GAN 在多數測試圖上的結果優于堆疊GAN,尤其是如5、6 號邊界凹凸較少的一類圖;②堆疊GAN 在部分測試圖上的結果優于單一GAN,如1、2 號測試圖。總體來說,單一GAN 訓練的穩定性更強,有更大的像素相似度平均值,對空間劃分規則的學習效果比堆疊GAN 更好;也有個別測試圖中,堆疊GAN 的生成效果更好,但訓練的穩定性較差,難以捕捉到好的生成器(表8)。

表8 兩種模型構架生成效果比對
綜上所述,本研究提出用類平面圖代替真實平面圖的方法,將圖像學習中訓練樣本量擴充至4 000 個以上,解決了標注難、評價難的問題;通過構建主客觀相結合的評價方法,可以較好地量化生成模型的學習效果。通過建立單一GAN 和堆疊GAN兩種構架,并對比兩種構架最優生成模型的學習效果,得到以下結論:① 單一GAN 模型的學習效果隨樣本量和學習回合的增加而穩步提升,而堆疊GAN 模型的學習效果與訓練參數的相關性較弱;②從像素相似度平均值來看,單一GAN 模型優于堆疊GAN 模型;③從像素相似度最高值和主觀評分來看,堆疊GAN 模型優于單一GAN 模型;④單一GAN 模型生成的平面圖空間分割更清晰,對規則的學習效果也優于堆疊GAN 模型。研究結論基本確定了簡單建筑平面圖的訓練方法和評價方法,為后續復雜建筑的訓練、生成圖中的斷線優化、損失函數梯度的降低提供了研究思路,也為大規模生成建筑平面圖提供了技術和理論基礎。
圖像學習法生成建筑平面圖很高效,但目前尚未達到其邊界。本研究的最終目的是將生成模型應用于數字建成環境或真實建筑中,那么生成圖的空間分割必須清晰,這樣才能得到可用的矢量圖。目前,生成模型還不能生成空間劃分非常清晰的平面圖,因此找到能夠精確劃分空間的訓練方法將是后續研究的重點。此外,訓練方法在真實建筑中的可復制性也很重要。如果將類平面圖的訓練方法應用在由真實戶型圖組成的數據集RPLAN 上,是否能達到同樣的訓練效果?此類問題尚有待研究。如果未來能夠找到通用的、優質的訓練方法,那么大量地、快速地生成具有創新性的戶型圖,甚至是更復雜的住區平面圖就有了可能。
(參加本課題研究的還有:同濟大學建筑與城市規劃學院博士研究生蘇杭,同濟大學建筑與城市規劃學院碩士研究生森敏惠)