999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

建筑設計項目任務書的評價指標提取方法研究

2020-04-28 02:10:40劉佳凝LIUJianing
世界建筑 2020年4期

劉佳凝/LIU Jianing

建筑設計任務書是建設項目必不可少的重要設計依據,其合理性直接影響著建筑創作的過程和最終設計方案的質量;然而,在當今的實踐中,任務書往往由業主等非專業人士主導編制,其中所提出的設計依據與設計要求,往往過于隨意草率,或是羅列了諸多信息,但卻缺乏理性與科學依據。因此本文致力于在收集得到的112 份真實的任務書樣本的基礎上,立足于任務書本身的特性,嘗試對任務書的評價找到一套通用性的標準,為行業實踐中的建筑師與項目業主,提供一個任務書自查的簡單工具,同時也可以作為任務書編制的參考導則。

1 生成任務書評價指標體系的基本思路

觀察本研究所收集得到的112 份任務書樣本,不難發現,任務書一般呈文檔形式,平均字數(中文)在10,000 字左右,涉及內容復雜多樣,信息含量巨大;不同項目的任務書樣本之間雖各不相同,但亦有一定的規律可循,在條目層級一般按照大致相同的幾大成分進行組織,而條目層級之下的具體文本內容,又有很大一部分具體陳述內容的遣詞造句,可以被一個通用的高頻詞庫所覆蓋;而一些低頻詞、特異詞,則代表了項目的特殊性,也非常可能具有較高的風險。

考慮到任務書文本的以上特性,加之目前已經收集到上百份任務書樣本,隨著樣本庫的積累完善,參與評價分析的文本數據量還會不斷快速增加,對于這樣數量級的文本數據進行分詞、詞頻統計、抽取關鍵詞、相似度計算等文本挖掘的處理與分析,進而找尋得到任務書的評價要素,進行風險識別與判定,人工方法顯然不是合適的選擇,借助計算機的數據挖掘能力則體現出一定的優勢。

對于任務書的文本數據而言,對其進行評價的具體工作,可以轉譯為發現樣本文句詞語層面的差異,甚至是語義層面的謬誤。為了實現這一設想,本研究提出參考風險評估的基本框架,將任務書評價的主要方法思路定義為:一份任務書樣本中都有什么主要成分?這些主要條目是怎樣具體敘述的?具體敘述的內容是否具有風險?如果有風險會產生什么樣的后果?作為任務書的編制者或評價者應該如何應對可能產生的風險和后果?

任務書文本數據的評價方法步驟可以設計為:(1)對任務書文本進行分詞和向量化處理;(2)對得到分詞的任務書文本數據進行文本挖掘,統計詞頻TF、文檔頻率DF,TFIDF 等參數信息;(3)以詞頻分析為依據,提取出關鍵詞、特異詞等等;(4)通過高頻詞、關鍵詞確定任務書都有什么要素,也即列出任務書所有可能的待評條目;(5)將得到的待評條目與已有研究做交叉對比,保證得到一份盡可能全面的任務書待評要素清單 ;(6)通過對待評要素(關鍵詞)的全文檢索,整理出待評條目的具體內容,包括常見的形式和內容,有關聯關系的條目,每一例任務書中的相關具體段落等等;(7)針對特異詞的全文檢索內容,結合對應待評條目的具體內容,定位可能存在風險的地方,分析有可能出現什么問題(潛在風險事件),判定待評條目是否應進一步確定為風險評價指標;(8)對經過篩選確定為風險評價指標的條目,歸納其風險形態,衡量其重要程度,得出其指標權重(圖1)。

1 任務書評價指標提取方法思路圖(繪制:劉佳凝)

2 任務書評價體系的指標確定

為了構建任務書評價的指標體系,從系統邏輯的角度出發,首先需要厘清任務書有哪些要素可以被評價,也即是找出任務書的所有待評要素,然后再行分析判斷,甄別待評要素是否可以進一步構成評價指標。

任務書評價指標有3 個可能來源:策劃理論、相關規范和任務書樣本。本文主要研究的是從任務書樣本中,通過文本挖掘和風險識別方法所能獲得的評價指標,而理論和規范兩個途徑所歸納得到的指標,則將作為參考和補充。

2.1 關鍵詞的抽取

計算機并不能真的理解任務書文本的語義及其所指代的內容信息,討論計算機文本數據的挖掘方法,最為基礎的概念之一便是詞頻(Term Frequency)。詞頻(TF)是表示某一詞語在文檔中出現頻率的參數,由該詞在文檔中出現的頻數,與整篇文檔的詞語數相除得到:

另外一個重要的概念是文檔頻率(Document Frequency)。文檔頻率(DF)是表示某一詞語在整個文檔集中出現頻率(按文檔記)的參數,通過一個文檔集中出現某一詞語的文檔個數,除以文檔集文檔總個數D 計算得到。由文檔頻率可以延伸出一個相關的概念——逆向文檔頻率(Inverse Document Frequency);逆向文檔頻率(IDF)是DF 的一種變形,某一詞語的IDF 由總文檔數目D除以包含該詞語的文檔的數目,再將得到的商取對數得到,一般的計算公式寫作:

由詞頻和逆向文檔頻率的概念組合,可以得到的TF_IDF:

TF_IDF 是一種文本信息檢索與數據挖掘最常用的加權技術,通過對一個詞語的TF_IDF 值進行統計,可以評估含有該詞的文檔在整個文檔集合中的特殊程度。

TF_IDF 比單一的TF、IDF 有著諸多優良特性。TF 的缺陷在于僅考慮了詞語的“熱度”;如“的”這樣的助詞在任何一篇文檔中都會有很高的詞頻,但卻沒有什么實際意義。IDF 的主要思想是:在一個文檔集中,包含詞語的文檔越少,也就是越小,則IDF 越大,說明詞語具有很好的文檔類別區分能力;但IDF 沒有考慮詞語在文檔內的普遍性,一個生僻詞也極大可能具有較高的IDF。而當某詞語在某一文檔內具有高詞頻,在整個文檔集中卻是低文檔頻率時,才會產生高TF_IDF 值。不難理解,這樣的詞語不僅對于某一篇文檔很重要,同時對將這篇文檔區別于其他文檔的貢獻較大;因此,TF_IDF 可以過濾掉尋常的詞語,而傾向保留對分類重要的詞語。

2 詞頻向量的兩種形式示意(圖片來源:http://brandonrose.org/clustering)

表1 任務書關鍵詞組列表及待評要素名稱(繪制:劉佳凝)

具體到任務書樣本的文本數據的語義挖掘,高詞頻的詞表征了一份任務書最關注的內容,說明了具體的建設項目設計的核心問題,或多方面多角度相關的復雜問題;高文檔頻率的詞揭示了不論建設項目類型的各種任務書,所關注的一些共性問題,可以對應驗證通用型范本各條目的實踐效力。詞頻和文檔頻率指示出了不同意義下的“高頻詞”,表征了任務書的主要內容分布,因此本研究分別抽取了累計詞頻和文檔頻率排名前300 的詞,并取兩者的交集,定義為任務書的“關鍵詞”集合,共計235 個,它們是生成任務書評價待評要素清單的核心載體。

而高TF_IDF 值的詞,是指示出任務書文檔區別于彼此的特征詞,可以理解為任務書中具有一定“特異性”的詞,根據前文所述的定義和分析可知,表征了少數幾個任務書中高頻出現的特殊性內容,可以作為引導詞,返回任務書原文中找到相關內容,對單一任務書實現潛在風險的定位。因此,本研究抽取了TFIDF 值排名前300 的詞,剔除了其中詞頻TF 或逆向文檔頻率IDF 畸高的詞語,并通過卡方值等參數進行詞集調整,最終確定了135 個“特異詞”,留待進行風險識別和搜索時使用。

3 關鍵詞層次聚類樹狀圖(部分)(繪制:劉佳凝)

4 關鍵詞相似性及K均值聚類散點圖(部分)(繪制:劉佳凝)

2.2 待評要素清單的整理

通過文本挖掘抽取得到的關鍵詞與特異詞,從整體上來看結果比較理想,但是單個詞語所顯示的信息非常零散混亂,大多數關鍵詞單獨不能完整表意,還有不少被分別統計的關鍵詞,實際上屬于同一個信息類別;這是文本挖掘中使用分詞和向量化等處理不可避免的缺陷。這種過度的拆解需要適當進行“合并同類項”的操作,盡可能引申還原出其所代表的一類信息,才能成為用于風險識別的待評要素清單。

而使用計算機進行文本數據挖掘的另一個優勢是,可以統計得到“詞頻向量”和“位置向量”(圖2),考慮到若是兩個關鍵詞的相關性較大,那么它們在任務書中應該經常相伴出現,它們在文檔中出現的頻率和位置也會相似,也即文獻共現詞,因而通過應用聚類、機器學習等方法,進行詞頻向量和位置向量的數學計算,便可以使計算機擁有對任務書關鍵詞語義相似性判斷的能力,進而完成關鍵詞主題分類與整理組合的工作。

本文通過K 均值聚類和層次聚類兩種方法,嘗試對235 個任務書關鍵詞進行了聚類,得到了圖3、圖4 的初步結果。在這一基礎上,通過人工識別解讀、歸納命名的方式進一步整理,得到表1。

任務書樣本的數據挖掘是本研究任務書風險評價指標的第一來源,這主要是出于提升建筑問題評價客觀性的考慮;但不可忽視的是,經驗主義和人工知識領域亦可以提供非常具有價值的評價指標,并形成對計算機數據挖掘結果的驗證和補充。通過總結理論和規范,并向有關專家咨詢意見,本文對表1 中的任務書待評要素全面性進行了檢查,獲得了一些候補項與補充意見,在對這些反饋進行篩選與綜合后,在表1 羅列的待評要素基礎上,再增加12 個任務書待評要素3)。經過進一步分類整理與編號,得到表2。

表2 任務書待評要素(繪制:劉佳凝)

表3 HAZOP 流程參數與引導詞[14]

2.3 風險指標的識別與判定

在得到任務書的待評要素清單之后,便需要對這些待評要素進行風險內容的識別與判定。考慮到任務書的文本特性和前文所做的分解工作,風險識別與判定這部分工作可以參考借鑒工業領域中的危險與可操作性分析(Hazard and Operability Analysis,以下簡稱“HAZOP 法”)。HAZOP 法是經典的應用于工業流程和系統的風險識別方法,其主要思想是:首先將流程或系統分割為多個研究節點,對節點的設計意圖和正常狀態給出明確的定義,再采用頭腦風暴的形式使用引導詞或流程參數,提出節點可能出現的偏差和風險(表3)。

HAZOP 法中的一個核心概念——風險引導詞,結合到任務書的文本挖掘上,前文通過任務書樣本庫搜索得到的具有高TFIDF 值的135 個“特異詞”,正是對應的任務書風險引導詞。這里有一個默認的設置,即越“新奇”、越“詭異”、越“不常見”的詞,就越“危險”,可以認為其指示了風險內容,至少是有可能有風險的內容;這符合文本數據對象和任務書文檔庫的現實特征,因此有理由將“特異詞”作為任務書搜索風險時的引導詞。

表4 任務書待評要素“建筑風格風貌與形式特點”的風險識別表(繪制:劉佳凝)

通過對這些任務書的特異詞或者說風險引導詞應用全文搜索技術,可以搜索得到具體的任務書特異內容,進而可以通過邏輯推理來實現判斷這些特異內容是否真的是所對應任務書待評要素的風險事件,若是,則可以確定特異詞及其內容所對應的待評要素是一個風險評價的指標。表4 示例了“建筑風格風貌與形式特點”這一待評要素在“面臨”“國籍”“契合”“穩重”“宮廷”“鮮明個性”幾個引導詞下搜索歸納得到的風險識別與判定結果。

需要特別說明的是“房間數量、面積與具體設計要求”這一待評要素是一項特殊而重要的任務書評價指標,因為其風險不僅存在于文本層面,更存在于房間清單或空間列表中,也就是面積數值的大小和分配比例問題,而這部分數據并不能夠通過特異詞搜索來進行風險識別和判定。若要對面積表格中的數值型數據進行科學的風險評估,可以通過加和檢驗、向量聚類等方法來識別和評價。

應用上述風險識別與判定方法,最終確定的任務書評價指標結果為:經大量任務書樣本的文本挖掘,共得到22 個待評要素,并全部識別出風險內容,可以進行風險判定,并晉級成為任務書風險評價指標;通過梳理策劃評價理論,咨詢相關專家及一線建筑師,對文本挖掘得到的22 個待評要素進行檢查和補充,又增加12 個待評要素,其中10 個識別出風險內容,確定為任務書風險評價指標,“任務書編制人員與編制程序”和“任務書格式與內容”兩個待評要素,雖然沒有直接從任務書樣本庫中識別出風險事件,但與本研究所探討的任務書評價理論高度相關,在再次垂詢專家意見后,仍舊補充在任務書評價指標之列。

3 結語

本文針對“建筑學問題+文本類對象+風險識別方法”這個交叉領域,進行新的理論和實踐探索。通過任務書文本的分解與挖掘,所得到的“關鍵詞”“特異詞”“待評要素”、以及由其引導搜索得到的內容,可以視為一種基于實踐樣本的“參考樣例”和“錯誤日志”,這為任務書評價領域由于缺乏成型的歷史數據,為以往只能依靠專家經驗或單純的頭腦風暴進行評判的問題,提供了一種新的、更具客觀性、智能性和高效性的解決思路。

本文的研究是要構建建筑設計項目任務書的一套評價體系,提取指標本身只是最初始的一步,相應的還應建立起相匹配的指標權重體系。風險識別過程中得到的發生概率、嚴重程度、風險等級數據,其實就可以為指標權重提供第一數值來源,但如何組合、平衡這些數據,同時貼合任務書風險評價的實踐目的與意義,使之呈現為一套簡明的、有效的權重體系,則需要更多的研究,作者在這方面也進行了一定的嘗試和探索,限于篇幅便不在本文中詳述。□

注釋

1)k 取遍文檔 j 中的所有詞語。詞頻實際上是詞語頻數的歸一化表達,避免了文檔長度對詞頻的干擾。詞頻反映了詞語在文檔內的普遍程度。

2)分母中比定義多加了1,是考慮到詞語不屬于語料庫的可能,為了防止除0的情況發生而加。文檔頻率反映了詞語在文檔間的普遍程度,逆向文檔頻率則是詞語在文檔集中普遍重要性的度量。

3)見表2星號標注的待評要素。

4)風險事件的發生概率按照風險特異詞的并集概率求解,P(AUBUC)=P(A)+P(B)+P(C)-P(AB)-P(AC)-P(BC)+P(ABC),其中P(i)為某一單一特異詞出現的概率(文檔概率)。

5)風險事件的嚴重程度通過訪談相應任務書項目的建筑師,咨詢對本評價體系有一定了解的專家小組,最終歸納得到。

6)風險等級=發生概率×嚴重程度

主站蜘蛛池模板: 欧美另类第一页| 亚洲第一色视频| 欧美一区国产| 999国产精品永久免费视频精品久久 | 亚洲天堂网在线观看视频| 亚洲最大福利网站| 久久国产精品夜色| 欧美精品二区| 女同久久精品国产99国| 欧美一区福利| 欧美日韩一区二区三区四区在线观看| 亚洲精品图区| 亚洲AV无码一区二区三区牲色| 青草视频网站在线观看| 性激烈欧美三级在线播放| 凹凸国产分类在线观看| 欧美在线视频不卡| 极品国产在线| 免费AV在线播放观看18禁强制| 天堂中文在线资源| 免费av一区二区三区在线| 国产在线观看91精品亚瑟| 日韩国产一区二区三区无码| 国产av一码二码三码无码| 秋霞午夜国产精品成人片| 亚洲欧美在线看片AI| 国产麻豆福利av在线播放 | 日本黄网在线观看| 啪啪免费视频一区二区| 免费无遮挡AV| 国产剧情一区二区| 国产精品v欧美| 日韩区欧美国产区在线观看| 91无码人妻精品一区二区蜜桃| 国产高清毛片| 日韩欧美国产三级| 国产日韩精品一区在线不卡| 国内精品小视频在线| 波多野结衣二区| 2022国产91精品久久久久久| 乱码国产乱码精品精在线播放| 国产高清又黄又嫩的免费视频网站| 国产精鲁鲁网在线视频| 免费毛片视频| 午夜啪啪福利| 婷婷成人综合| 亚洲嫩模喷白浆| 成人在线观看不卡| 激情無極限的亚洲一区免费| 在线视频亚洲色图| lhav亚洲精品| 欧美日本激情| 久久精品中文字幕少妇| 狠狠综合久久| 无码国产伊人| 国产女人18毛片水真多1| 九九久久99精品| 国模极品一区二区三区| 国产精品偷伦在线观看| 又爽又大又黄a级毛片在线视频 | 97se综合| 成人永久免费A∨一级在线播放| 色综合中文| 亚洲成人高清无码| 国产流白浆视频| 精品视频一区二区三区在线播| 亚洲日本中文字幕乱码中文| 国产激情国语对白普通话| 色欲色欲久久综合网| 久久黄色毛片| 欧美区在线播放| 久久精品免费国产大片| 国产国拍精品视频免费看| 一级高清毛片免费a级高清毛片| 亚洲高清免费在线观看| 男女性色大片免费网站| 国产女人爽到高潮的免费视频| 久久精品亚洲中文字幕乱码| 中文字幕欧美日韩| 精品成人一区二区三区电影| 91青青草视频在线观看的| 欧美亚洲第一页|