郭蓓蓓
摘要:在大數據環境下,采用網絡爬蟲技術從招聘類網站獲取近期發布的10512條BIM職位的招聘廣告,運用文本挖掘的方法,通過建立LDA模型,對BIM職位的市場需求特征進行分析研究;同時收集5461篇BIM有關的期刊論文進行研究結果驗證,共得出12類基于市場需求的BIM職位能力類型。研究獲得的結論可以為BIM職位求職者能力匹配、企業制定招聘和培訓和大學開發與BIM相關的課程提供一定參考。
Abstract: In the big data environment, the web crawler technology was used to obtain the recruitment advertisements of the 10,512 BIM positions recently released from the recruitment website. Using the text mining method, the LDA model was established to analyze the market demand characteristics of BIM positions. A total of 5,461 BIM-related journal articles were collected to verify the results of the research, and a total of 12 types of BIM positions based on market demand were obtained. The conclusions of the study can provide a reference for BIM job seeker competency matching, corporate development recruitment and training, and university development and BIM-related courses.
關鍵詞:BIM職位;市場需求;LDA模型
0? 引言
BIM技術作為一種多維信息模型集成技術,在我國建筑行業提高建造效率、提升建筑質量等方面起著重要的推動作用。我國住建部印發的《2016-2020年建筑業信息化發展綱要》中將BIM視為十三五期間建筑業重點推廣的信息技術之首,并明確指出要加快BIM的普及應用,著重增強BIM的集成應用能力,BIM在建筑行業內越來越受到重視[1]。此外,根據BIM中國網的統計,BIM行業的發展趨勢一直呈上升狀態,通過對近年來我國的建筑業信息化率、BIM項目比率等進行分析,預測到2023年我國BIM市場規模將會達到22.81億元,可見BIM的行業前景十分廣闊[2]。根據Transparency Market Research(透明度市場研究)的報告—《2015-2022年BIM全球市場分析,規模,信息,增長,趨勢以及預測》,2014年全球BIM軟件的市場價值27.6億美元, 到2022年,預計將到達115.4億美元,復合年增長率將保持在19.1%。文獻調查報告顯示,在未來兩年30%以上的項目中應用BIM技術的施工企業增長預測中,中國施工企業高達108%[3]。BIM市場的快速增長,導致市場對BIM人才的需求也變得更加迫切,但BIM人才對市場需求的不適應性嚴重制約著BIM的深入推廣。有研究表明,缺乏熟練的BIM人員是實踐中限制BIM實施的主要障礙之一,也是建筑行業進入信息化建設時代的瓶頸之一[4,5,6,7]。
此外,隨著時代的發展,信息數據爆炸式地擴張,人們對大數據這個詞已不再陌生,大數據使衡量以前無法衡量的一些現象、事物等成為可能。大數據不僅僅是一種新技術,更是一種新的思維方式[8]。大數據時代的到來也改變了學術研究的諸多方面,思維方式的轉變成為科研方法變革的推動力,科研領域呈現出數據密集型特征,相比于過去受限于收集、分析數據的工具而只好盡可能地減少數據量,現在研究人員有了一系列可利用的新工具,如機器學習、數據挖掘等技術,因而不必做過多的精減,可以利用充足的數據來描述和分析研究對象。劉耘、袁華提出了一個基于大數據的人才培養方案,該方法是基于互聯網上海量的招聘信息,并從中獲取該類別崗位的能力需求特征[9],劉睿倫、葉文豪通對大數據工作崗位需求文本進行挖掘,根據聚類結果發現大數據崗位的一些特點,例如對學歷要求不高、企業偏好有經驗的但也不排除無經驗的求職者、企業對職位素養要求要高于計算機技術要求等[10]。林佳瑞、張建平采用綜述分析與文本挖掘分析相結合的方法對我國BIM政策發展現狀趨勢及現狀進行了綜述[11]。在建筑行業的人才培養方面,尚未有人采用大數據方式進行研究。
1? 研究方法
從市場需求的角度出發,通過互聯網上發布的BIM相關職位的招聘數據的挖掘、處理、分析來展開研究,并通過主題模型建立來獲得相關關鍵詞,總結歸納出市場上BIM人才需求的特點。并同步收集期刊論文進行結果的驗證,科研話題往往可以很好地反映該行業或領域的發展現況和趨勢,因為科研的聚焦點經常會落在市場需求和行業前沿上,所以通過對有關BIM的研究文獻進行文本分析,提取其中的主題,得到的實驗結果可以間接地反映市場上的BIM需求,用于驗證BIM招聘數據模型的實驗結果。通過比較一些常用的中文數據庫,如中國知網、萬方、維普等,發現中國知網收錄的期刊數量較多,并且提供了收錄論文的詳細數據,所以選取中國知網上的期刊論文數據作為實驗數據。主要的研究步驟見圖1。
第一步:尋找并獲取反映市場BIM需求的信息數據,信息分為兩部分,一部分是直接反映市場需求的企業在線招聘信息,另一部分是可以間接反映行業BIM市場需求的BIM相關論文的研究問題,并通過爬蟲技術實現網頁信息的抓取和存儲;
第二步:對取得的信息數據進行預處理,圖1研究包括轉換數據格式、去除無關信息、整合訓練模型所需的數據,再借助Jieba分詞工具進行中文分詞,同時過濾停用詞、標點符號、英文、數字等;
第三步:利用Python建立LDA主題模型,通過對模型輸出的主題詞信息進行相關分析,總結歸納出市場上對BIM相關職位人才的具體需求。具體過程見以下1.1-1.3的詳細內容。
1.1 數據收集
首先是BIM相關職位的在線招聘數據收集,使用“BIM”作為職位的搜索關鍵詞,從目前國內常用的一些招聘網站上收集在線招聘數據,將招聘數據的地域范圍設置為全國。最終選取的招聘數據來源于國內6個主流的招聘網站:智聯招聘網、前程無憂、拉勾網、獵聘網、BOSS直聘和建筑英才網,其中建筑英才網是專門針對建筑行業的一個招聘網站,其它屬于綜合性的招聘網站,從這6個招聘網站中總共獲取了10512條招聘數據。
其次是BIM相關的期刊論文數據收集,以“BIM”作為主題檢索詞進行搜索,共獲取5461篇論文詳情頁的xml文檔數據。
文本預處理:
完成數據的收集后,為了使后續的主題識別更精確、更可靠,還需要對收集的數據做進一步處理,這也是使數據滿足主題模型輸入要求的必要步驟。主要包括整合數據資料、中文分詞、去停用詞等預處理操作,從而得到滿足LDA主題模型輸入條件的數據集。
1.2 整理數據資料
在對收集到的BIM相關職位的招聘數據和中國知網的期刊論文數據進行預處理之前,先進行必要的數據整理工作,主要包括刪除無關數據、轉換數據格式等。
對于BIM相關職位的招聘數據,從MongoDB數據庫中提取實驗需要的相關數據,即職位描述。由于MongoDB數據庫具有支持查詢的特點,則可以利用Python來提取數據,并將結果另存為txt格式文檔。然后再對提取出來的職位描述進行處理,刪除無關數據,如公司介紹、公司福利等與研究問題無關的內容,只保留職位職責描述的核心內容部分。
對于BIM相關的期刊論文數據時,對得到的xml文件數據格式進行解析,提取出需要的文本數據,并存為txt格式文檔。
1.2.1 中文分詞
選用的方法是Jieba分詞,Jieba分詞是基于詞頻度統計用Python開發的一種中文分詞模塊,速度較快,精度也較高[12]。Jieba分詞主要包括三種模式:精確模式、全模式和搜索引擎模式。精確模式適合文本分析,該模式是將語句以最精準的方式地切開;全模式速度很快,能把句子中所有可能組合在一起的詞都掃描出來,缺點是不能解決歧義的問題;搜索引擎模式比較適合用作搜索引擎分詞,它是在將語句精確地切分開的基礎上,對較長的詞再一次進行切分,提高了召回率[13]。因此選擇采用Jieba分詞的精確模式對兩部分文本數據進行分詞,得到兩個詞集合。
1.2.2 去停用詞
在得到分詞結果的基礎上,使用停用詞表過濾文本數據中的停用詞,這是計算機輔助文本分析時的典型預處理步驟。停用詞表中包含了一些常見的停用詞,但還需要針對具體的應用情況進行必要的補充。因此在對招聘文本數據進行處理時,在其使用的停用詞表中人工添加了與本次研究有關的停用詞,例如公司、負責、有限、工作、相關等詞語,由于招聘數據中存在大量無關數據,所以去停用詞處理十分有必要。而對期刊論文去停用詞時,除了在其使用的停用詞表中也人為地添加了一些停用詞,如下載、收稿、關鍵詞、參考文獻等對本次研究而言無意義的詞語,還刪除了文本數據中的英文,因為論文中基本都包含一段英文摘要,而本次研究內容僅限于中文,英文摘要的存在會對實驗的結果造成一定的影響。
在實際的操作過程中,中文分詞和去停用詞這兩步預處理是通過一段代碼同時進行的,遍歷語料庫,將每一行或是每一篇文本數據進行分詞和去停用詞,得到兩份更有效的詞集合,招聘數據和期刊論文預處理后的部分結果分別如圖2、圖3所示。
1.3 LDA主題模型建立
收集的BIM相關職位招聘數據和有關BIM的研究文獻經過上述處理之后,下一步就可以通過得到的詞集合建立LDA主題模型,進而挖掘語料庫中文檔的潛在主題。
1.3.1 確定模型參數
在使用LDA主題模型來獲取文檔主題數據的時候,需要人工指定主題數量K,主題數量會影響主題的識別效果[14]。研究主要通過查閱目前一些BIM教材的章節數來初步確定主題數K,根據查閱結果,BIM相關教材平均在10章左右,所以K初步定為10,在后續訓練模型過程中根據主題的識別效果再進行調整。
文檔迭代次數n暫定為1000,一般迭代次數在1000以上模型才會較好地收斂達到一個理想的效果。LDA模型訓練的其他超參數α和β一般可以根據經驗進行設置,如"α="? "50" /"K"? ",β=0.01" ,K為主題數量。
1.3.2 訓練模型
確定了模型參數后,利用Python中的第三方模塊LDA來訓練LDA模型。將文本中的詞語轉換成詞頻矩陣,矩陣元素a[m][n]表示第m個文檔中第n個詞的詞頻,招聘數據的詞頻矩陣為10512×11516的矩陣,期刊論文的詞頻矩陣為5461×84012的矩陣,得到詞頻矩陣后再使用Python的LDA模塊訓練LDA模型。在訓練招聘數據LDA模型時,發現通過詞頻矩陣訓練的模型結果并不理想,結果難以很好地進行解釋,推斷是因為招聘數據屬于短文本的緣故。主題模型的目的是通過一組具有代表性的詞語來推斷文檔的深層含義,LDA主題模型是依靠文檔中詞共現來挖掘文檔潛在的主題,而對于短文本,數據的稀疏性會影響模型的效果[14]。因此通過計算TF-IDF值為詞集合中的詞賦予權重,以提高識別主題詞的準確度,進而提高實驗結果的可解釋性。
在訓練過程中通過不斷調整主題數量K和迭代次數n來優化主題識別效果,發現主題數量為15,迭代次數為2000時的實驗效果較好。最終得到了招聘數據和期刊論文的主題-詞分布,分別選取了每個主題的分布概率較高的10個關鍵詞來進行下一步分析。
2? 結果及分析
2.1 招聘數據模型結果分析
通過建立LDA主題模型對10512條在線招聘數據進行文本分析,共得到在線招聘數據相關的15個主題,選取15個主題的前10個主題詞來做進一步分析,招聘數據的主題-詞分布如表1所示。
2.2 主題相似度計算
通過對在線招聘數據進行主題挖掘,得到表1所示的主題-詞分布后,對各個主題進行文本相似度計算,文本相似度計算的目的是為了衡量兩個不同文檔之間的差異大小。文本相似度的計算有很多算法,通常采用的是基于向量空間模型的方法,包括余弦相似度、歐式距離、曼哈頓距離等等,因為該類方法原理簡單,易于實現[15],本研究采用的是余弦相似度算法來計算主題詞頻率向量之間的相似度,從而來衡量這15個主題之間的語義相似度。它是通過向量A,B之間的夾角來衡量向量相似度的,余弦值范圍在0到1之間,余弦值越大,兩向量之間的夾角越小,說明兩個詞向量間的語義越接近、越相似。余弦相似度計算公式如式1所示,θ表示向量A,B之間的夾角:
■(1)
余弦相似度的部分計算結果如表2所示:
根據表2所示的余弦相似度的數值大小,可以看出實驗得到的15個在線招聘數據主題之間的相似度整體都較低,具有較好的相互獨立性。余弦相似度數值在0到1之間,當兩文本的余弦相似度為0時,文本語義不相關;而當兩文本的余弦相似度為1時,說明兩文本完全相同。在實驗得出的15個主題中,相似度最高的是主題5和主題15,相似度為0.30。對于有一定相似度的主題,將在后續分析總結時對其做適當的合并處理。
2.3 期刊論文模型結果分析
對有關BIM的期刊論文進行了文本分析,以5461篇期刊論文作為輸入語料,訓練LDA主題模型后得到期刊論文的主題-詞分布,如表3所示,根據這些主題詞分析得出的期刊論文主題,可以用以輔助解釋招聘主題數據并對其起著必要的補充說明作用。
通過表1和表3的對比,可以看出兩者的主題中有許多十分相近的含義,如管線碰撞檢查、創建三維模型、施工組織設計、工程造價、成本管理等,驗證實驗結果是具有可信度的。
2.4 BIM職位市場需求分析討論
以表1中招聘數據的主題-詞分布為分析對象,借助得到的各個主題之間的余弦相似度和期刊論文的主題數據來輔助分析、解釋招聘數據主題,最后總結得出12個市場上的BIM需求數據,如圖4所示。
據圖4所示的BIM相關職位的12個市場需求特征,結合BIM實施現狀,得出以下三個觀點:
2.4.1 BIM職位的需求涉及多個領域及行業
BIM職位的需求涉及建筑行業、動畫制作、軟件開發、培訓、教育、咨詢、營銷等多個領域和行業。BIM的應用開始趨向于產業化發展趨勢,不僅涉及建筑行業,并開始向多個應用領域擴展,同時開始衍生和帶動相關上下游關聯產業,例如軟件開發、咨詢、教育、培訓、動畫制作等[16]。
2.4.2 BIM職位需要更多復合型人才
BIM職位需求更多需要復合型人才,軟件只是相應的工具,更多需要有專業背景開展專業的應用和管理工作。有研究也表明,BIM技術的應用和推廣,需要大量的BIM專業人才,這些人才不僅需要擁有施工技術、項目管理等工程領域的知識,還需要懂計算機軟硬件管理、軟件操作等計算機知識;BIM從業者既要熟練掌握BIM的相關理論和實際操作技能,還需要具有工程專業背景和工程項目相關實踐經驗。既要掌握核心的多種BIM軟件,又能夠結合企業和項目的實際需求制訂BIM應用方案和技術標準。做好BIM相關工作,需要更多的復合型BIM人才,但現階段這些人才在我國建筑業企業中是相當匱乏的[3,17]。目前我們一方面要進行的是企業人員的BIM能力提升,并以BIM技術和管理人才為引領建設和培養一批精通信息技術業務并且熟悉團隊管理的復合型BIM人才隊伍[5],另一方面高校要加快加大BIM人才的培養。
2.4.3 BIM職位向專業化、資質化階段發展
建筑行業已經開始對BIM從業人員有證書相關要求。在對BIM障礙的研究中,解決對策中也提出政府要加大支持力度,完善BIM應用的外部環境,并進一步推行BIM技術職業資格考試及認證制度,加大宣傳力度[18]。當前我國已經推行了BIM考試認證,工信部、圖學學會、建設教育協會等均開展了相關的資質認證工作,為行業專業人才培養和認證提供了國家渠道,提升了我國專業人才的能力[19],但目前由于BIM的標準化未進行統一,全國的資質認證工作尚未實現統一,從其他行業的發展來看,BIM行業從業認證是必然趨勢。
3? 結語
首次在建筑行業人才培養領域采用大數據分析的方法,從網絡挖掘獲取海量的BIM相關職位的招聘信息,結合各種數據挖掘方法挖掘出基于市場的BIM人才需求。從而使企業、高校、求職者從中掌握BIM相關職位的人才需求特征,為行業人才的培養提供支持,為高校洞察企業需求,做出及時而有效的人才培養方案提供參考。
雖然研究取得了一定的成果,但仍存在一些地方需要優化和改進:
①招聘數據來源于在線招聘網站,各招聘網站的信息發布格式參差不齊,在數據整理過程中造成很多困難;研究采用的期刊論文來自中國知網,由于各種制約因素,難免會導致獲取的論文數據不夠完整,可以考慮通過其他中文數據庫來對數據進行補充,提高數據的完整性。
②采用LDA主題模型時需要人為設定主題數K,更優的做法是通過數學方法來確定主題數K,從而提高LDA模型的質量和實驗效果。
參考文獻:
[1]住房城鄉建設部.關于印發2016-2020年建筑業信息化發展綱要的通知[N].(2016-08-23)http://www.mohurd.gov.cn/wjfb/201609/t20160918_228929.html.
[2]前瞻產業研究院.2023年我國BIM市場規模可達22.81億應用推廣之路任重道遠[N].(2018-01-24)http://www.cnBIM.com/2018/0124/4774.html.
[3]祝連波,李鑫,黃一雷.我國大型施工企業BIM技術發展模式研究——基于SWOT分析[J].建筑經濟,2018,39(06):78-82.
[4]秦旋,MANCINI Mauro,TRAVAGL
INI Agnese,呂坤燦,王敏.基于市場推廣視角的BIM技術采納障礙因素中意對比研究[J].管理學報,2016,13(11):1718-1727.
[5]郭慶軍,郝倩雯,閆竑宇.建筑業轉型過程中人才隊伍建設與培養分析[J].建筑經濟,2017,38(11):11-14.
[6]李夢夢,賴芨宇,姚超,孫曉丹.基于SEM的BIM應用推廣阻礙因素分析及對策研究[J].武漢工程大學學報,2018,40(04):462-467.
[7]許炳,朱海龍.我國建筑業BIM應用現狀及影響機理研究[J].建筑經濟,2015,36(03):10-14.
[8]張峰,張迪.論大數據時代科研方法新特征及其影響[J].科學學研究2016,34(02):166-170,202.
[9]劉耘,袁華.基于大數據的需求驅動的職業能力培養研究[J].電子科技大學學報(社科版),2018,20(02):8-14.
[10]劉睿倫,葉文豪,高瑞卿,唐夢嘉,王東波.基于大數據崗位需求的文本聚類研究[J].數據分析與知識發現,2017,1(12):32-40.
[11]林佳瑞,張建平.我國BIM政策發展現狀綜述及其文本分析[J].施工技術,2018,47(06):73-78.
[12]于重重,操鐳,尹蔚彬,張澤宇,鄭雅.呂蘇語口語標注語料的自動分詞方法研究[J].計算機應用研究,2017,34(05):1325-1328.
[13]李瑩.面向企業需求的專家推薦算法研究[D].北京交通大學,2018.
[14]Malek Hajjem,Chiraz Latiri. Combining IR and LDA Topic Modeling for Filtering Microblogs[J]. Procedia Computer Science,2017,112.
[15]王春柳,楊永輝,鄧霏,等.文本相似度計算方法研究綜述[J].情報科學,2019,37(03):158-168.
[16]何清華,楊德磊,鄭弦.國外建筑信息模型應用理論與實踐現狀綜述[J].科技管理研究,2015,35(03):136-141.
[17]張江波.BIM的應用現狀與發展趨勢[J].創新科技,2016(01):83-86.
[18]許云萍,徐晨.BIM對工程項目管理的影響及應用障礙分析[J].建筑經濟,2017,38(03):35-37.
[19]高雄.基于BIM的工程造價精細化管理方法[J].價值工程,2019,38(12):70-73.