999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

研發設計資源大規模領域本體構建方法

2022-09-14 13:43:10杜麗峰
鍛壓裝備與制造技術 2022年4期
關鍵詞:概念資源模型

栗 統,杜麗峰,王 磊

(1.天津大學 機械工程學院,天津 300350;2.天津市天鍛壓力機有限公司,天津 300232)

對于現代復雜裝備制造研制企業來說,研發設計等知識資源已經成為僅次于核心研發人員的最重要的資產,是開展產品正向創新設計的基礎性資源,企業已經開始越來越重視這些資源的管理與應用。由于這些資源來源于不同的業務系統,客觀上造成了分散在不同系統或不同組織中的現狀,缺乏統一的組織和管理,共享效率低,與研發流程融合不足,無法在產品全生命周期中發揮核心價值。集團企業之中,由于數據地域上分散,形式上異構,儲存上分布的原因,各個企業之間的信息形成了孤島。

為解決上述難題,本文運用資源空間模型的概念在集團企業之間建立集信息資源整合、共享的應用軟件平臺,解決資源分散化、異構化,建立資源空間模型,實現研發設計資源統一建模開發資源共享模式。其中設計資源空間模型通過對集團企業設計資源內容進行分類,從而對分散在不同組織系統中的設計資源進行規范化整理,實現統一管理,促進不同資源間的共享,提高與研發活動的融合程度,高效發揮集團企業研發設計資源的核心作用。構建設計資源空間模型按照自底向上的順序分為5 個層級,分別為分類層、元數據層、本體層和圖譜層,資源空間框架如圖1 所示。其中,分類層包含了設計資源的分類信息,從不同維度和特征對設計資源進行分類,便于設計資源的快速定位;元數據層描述了設計資源的屬性信息,包含設計資源的基本信息、功能、狀態等各方面的屬性;本體層對設計資源的內容進行了規范性描述,便于設計資源的統一規范管理、準確查找;圖譜層體現了不同設計資源之間的聯系,提高了設計資源的搜索和關聯資源查找效率。

圖1 資源空間框架

本體詞語最早不是在計算機領域出現的詞匯。本體最早在哲學中被用于規范存在論的定義,用來系統性地描述事物,表達一切抽象事物的本質。如今,將本體的理論延伸到計算機領域,可以將某個知識作詳盡的語義描述,在計算機領域,本體被用于知識的描述,在語義層次上建立知識模型,以供人們學習。目前學術界對于本體的定義有很多種,被國內外學者所廣泛接受的是Studer 對本體的定義:“本體是共享概念模型的明確的形式化規范說明”[1]。本文通過對領域本體構建方法的研究來解決資源空間本體層構建問題。

1 研究現狀

Jorg-Uwe Kietz 等人在研究基礎上提出了一種從文本中提取有關要素生成領域本體構建方法[2];Chang-Shing Lee 構思了基于事件的本體構建方法,使用模糊數概念的相似度計算做本體的概念聚類和分類關系定義方面,以此構建領域本體[3];Ana B等通過建立領域概念層次,改進層次關系的獲取,從非結構化文本中獲得的特定的領域知識信息[4]。D.Gregor 研究了交通運輸領域的本體構建方法[5];官瑩瑩對本體中概念的抽取做了相關研究,提出了循環處理思想,通過對分詞的領域詞典的不斷增添與修正,結合TF-IDF 算法更加準確地提取相關概念,后用凝聚層次聚類算法提取概念關系[6];王學厚根據車間業務活動知識的分析與建立的業務活動領域本體元模型,建立了車間業務活動領域本體,以解決車間業務活動領域中的術語以及概念在語義上的歧義問題[7]。Chen RC,Bau CT,Yeh CJ 基于概念格的相關理論,用形式概念分析FCA 進行本體構建[8];李軍蓮等從敘詞表等級結構還有敘詞表中包含的本體中概念的關系出發,研究了基于敘詞表的本體構建方法,但是適合應用領域較為局限[9];劉磊提出一種全新的本體自動構建方法,采用了模板識別的SSE_CMM技術,實現了領域本體自動構建[10];王向前等使用TF-IDF 公式改良了概念獲取的方法,在之前的基礎上增加了相關性的判斷,通過統計概念在領域的相關程度,設置合適的閾值過濾出相關性高的概念[11]。

本文采用了LDA(Latent Dirichlet Allocation)模型[12]抽取出文本中隱藏的本體核心概念,通過層次聚類等算法進行關系的提取包括:同義語義、上下位關系和相關關系,最后建立本體。

2 研究思路

本文所建立的領域本體構建流程如圖2 所示。

圖2 研究思路

資源分類:對集團企業的研發設計資源進行定義,并且以集團企業的研發設計過程為基準,從資源的不同維度和特征出發對設計資源進行動態歸類,通過資源的功能和特征對研發設計資源進行區分。

預處理:針對非結構化的文本信息,使用Jieba分詞系統,在普通的分詞詞典中加入通用的機械術語以及集團企業領域中常用的詞匯,形成領域本體概念的語料庫。

領域本體核心概念提取:將處理好的文本語料庫作為輸入,設置相應的參數,通過訓練過的LDA模型進行主題的推斷,將文本文檔中隱藏的主題作為本體的核心概念提取出來。

基本語義關系識別:通過NLP 相關技術處理三種語義關系:同義關系、上下位關系、相關關系。分別采用雙語詞典語言策略、基于word2vec 的層次聚類以及關聯規則的方法識別關系。

將構建出的每個分類的資源本體融合,完成企業研發設計資源的領域本體構建。

3 資源分類

研發設計資源領域本體構建的目標是將其分類并表達,但集團企業研發設計資源數量巨大且種類繁多,直接進行本體構建相對較為繁瑣。因此,構建本體之前,需將資源進行分類。根據設計資源的性質和特點對資源進行層次劃分,劃分結果的形式為樹狀結構。

設計資源的分類方法并不統一,根據行業標準的不同以及企業實際情況及要求,設計資源可以有多重分類方法:Hitt,Ireland 和Hosikisson 把企業資源定義為七類資源。財務資源、物化資源、技術資源、創新資源、商譽資源、人力資源以及組織資源[13]。羅輝道總結前人研究的成果,將廣義的資源粗粒化,將企業作為定義的核心,將企業資源定義為可以帶來優勢或劣勢的東西[14]。國家標準在網絡化制造環境下,對企業資源進行分類分層,逐層細化,根據資源的物理特性進行細分,將企業的制造資源分為物能資源(包括物料、設備、產品、能源等)、信息資源、技術資源、人力資源、資金資源和其他資源等6 類資源[15];高偉增從管理角度,將資源分為人力資源、生產資源、財務資源、市場資源以及開發設計資源[16]。以集團企業中新產品的研發設計過程作為分類基準,在上述文獻中提及的分類基礎上,結合資源提供方、需求方以及集團企業的需求(不涉及生產過程),從資源的功能維度,專業領域維度,以及業務活動維度等角度出發,將集團企業研發設計資源分為六類,如表1 所示。

表1 資源分類

4 本體構建

領域本體由一個四元組組成,其中包含領域相關概念、領域概念間關系、公理規則以及領域概念的實例。

4.1 數據預處理

集團企業積淀了大量的知識資源,比如設計文檔、設計模型、分析數據、試驗數據、測試報告以及收集到的專利、標準規范、設計手冊、情報文獻等資源,這些信息具有多種信息形態,其中包含了極其豐富的領域知識。提取識別大量文本中的領域知識需要將文本數據進行分詞與過濾處理,即獲取語料庫的過程。

非結構化的文本需要進行分詞等處理方式使計算機準確地識別詞語,但是由于中文文本的特殊性,詞與詞之間模糊的界限如果不加規則來限制,機器很難準確識別到在領域文集中的專業領域詞匯,進而無法保證準確得到領域術語。本文采用Jieba 分詞系統,添加機械術語以及集團企業所特有的領域詞匯到分詞詞典,在使用少量文本分詞結束后,檢查分詞結果對照原文檢查分詞詞匯,之后檢查出新的詞匯結果添加到分詞詞典,遍歷領域文集分詞,分詞結果形成語料庫。

分詞結束對文本語料庫進行過濾處理。停用詞過濾使用所有公認的中文停用詞表組成的停用詞表對語料庫進行過濾,刪去語料庫中的停用詞。本體構建中能夠成為文本文檔中主題詞的詞語一定是高頻詞,所以對語料庫中的低頻詞需要進行過濾處理,設定頻率最小閾值過濾出現頻率過低的術語;主題詞是名詞、名詞性短語以及動名詞,最后利用詞性標注功能,只保留術語集中的名詞、名詞性短語和動名詞,進行詞性過濾。

4.2 概念抽取

領域主題表達的核心概念是領域概念,即文本的核心主題。國內外的眾多學者對核心概念的抽取方法研究眾多,主要分為直接提取以及間接提取兩種。直接提取是指基于現有的資源直接在文本中提取領域概念,如基于WordNet 等資源的直接提取以及直接將基于TF-IDF、句法分析等方法提取的領域術語作為領域概念;間接提取則是在文本抽取核心概念的基礎上,再進行聚類形成更為準確可靠的領域概念。本文選擇LDA 模型完成設計研發資源本體核心概念抽取任務。

非監督機器學習技術中的文檔主題生成模型LDA 挖掘文本中潛藏的主題信息,該模型用主題概率分布對所輸入的文檔進行描述,在保留了統計信息的同時較好地完成了分類,非常適合用于自然文本的處理工作。

4.2.1 LDA 模型建立

主題LDA 模型設計了很多數學知識,本文只介紹LDA 模型的基本知識,不作詳細的講解,在數學本質上可以用三層貝葉斯概率模型表達,如圖3 所示。

圖3 貝葉斯概率模型

LDA 模型建立在詞袋化模型的基礎上,將文本數據轉化為純數字信息,對一個詞語出現的位置以及其上下文的關系暫且忽略,考慮詞語出現的頻率,將文檔集中的文檔分別轉化為詞頻向量。

LDA 主題模型不僅僅是一種三層貝葉斯模型,在一種理解中,其也屬于典型的有向概率圖模型,如圖4 所示。

圖4 LDA 模型有向概率圖

圖中的圓形圖案均代表一種變量,Wm,n 在模型中是唯一一種可觀測變量,其他均為潛在變量,兩兩變量之間皆存在一種條件依賴性,圖中使用箭頭表示。方框在圖中表示抽樣方式,抽樣采取重復抽樣的辦法,抽樣次數標記在方框右下角。圖中α、β 為兩個超參數,θm、φk表示兩種概率分布,Zm,n表示主題概率分布下的主題。

計算某領域術語在文檔中出現的概率,主題作為中間層時計算的公式為:

即通過主題在文檔中出現的概率與領域術語在主題中出現的概率乘積表達為領域術語在文檔中出現的概率。

4.2.2 LDA 模型概念抽取

LDA 主題模型進行概念抽取任務,首先需要對模型進行訓練,模型的輸入為預處理后的語料庫以及超參數α,β 以及主題數K。

根據以前學者的研究,超參數α 與β 的值設定為50/K 和0.01時,模型的預測分類效果最佳,主題數量關系模型的運算,主題數對模型困惑度影響很大,根據語料庫的大小對主題數量設置一個區間,計算LDA 模型困惑度,通過曲線取局部最優規定最優參數。

抽取概念流程如下。

Step1:將過濾后的語料庫作模型訓練使用,語料庫中的所有詞語按照LDA 模型隨機生成一個主題,將主題統計完全,生成文檔對應主題的計數矩陣表達主題概率分布,生成主題對應詞語的計數矩陣表達詞頻率分布;

Step2:對語料庫中的所有單詞所對應的主題進行采樣,之后按照吉布斯采樣公式從頭采樣其中每一個詞對應的概念主題,之后按照重新采樣的結果同步更新主題概率分布以及詞頻率分布矩陣,其公式如下:

式中:超參數αt和β 是Ntd和Nwt的先驗指導;V 表示詞表大小;Ld表示文檔d 的詞總量;Nwt表示文檔中主題t 中詞w 的頻次;Nt表示文檔中主題t 的頻次;Ntd表示文檔d 中主題t 總共出現的次數;﹁的意思是排除當前采樣詞w 的影響,即當前采樣詞w 不計入頻數統計。

Step3:重復Step2,直到詞頻率分布矩陣收斂;

Step4:將訓練好的模型存儲好,并將語料庫重新輸入進行求解,得到文檔集的主題分布,推斷出的所有主題詞構成概念集合。

4.3 關系識別

如何有效并且快速識別在前述章節中獲取的領域本體核心概念之間的語義關系是本文中的關鍵。

本文將本題中概念語義關系定義為三類:同義關系、上下位關系以及相關關系。

4.3.1 同義關系抽取

本文將同義詞關系描述為同義關系,即詞語表達的含義為相同時,將兩個詞語定義為同義詞,在詞庫中即可剔除其中一個,這樣可以提高關系識別的準確性。綜合之前學者的相關研究,本文使用基于雙語詞典的方法來識別詞語的同義關系。這種方法簡單有效,此方法是基于語言轉換的策略,將漢語詞語轉換為英語翻譯將英漢大詞典作為算法調取的知識庫,借此實現同義關系抽取。其過程敘述如下。

Step1:將語料庫中的每個中文概念通過英漢詞典進行中英文轉換,得到此概念所有的英文解釋,將所有的單詞或者短語放入一個集合中,得到Wi={w1,w2,…wn};

Step2:從Step1 中得到的單詞或者短語集合兩兩相交,如果集合相交后不是空集,則說明概念是同義詞;

Step3:驗證所有概念后結束。

4.3.2 上下位關系

根據文獻調查等方法,本文確定使用層次聚類方法實現上下位關系的抽取。

層次聚類算法分為分類的聚類以及凝聚的聚類兩種,本文采取凝聚的聚類方法,將每個初始點作為一類,計算距離后依次聚類到一個中心,將所有層次關系抽取出來。

使用word2vec 模塊把語料庫中的所有中文概念詞語轉換為一個詞向量,在進行上下位關系識別之前計算兩兩詞向量之間的語義相似度。

簇間平均距離計算公式:

式中:X,Y 表示兩個簇,絕對值則表示相應簇中的元素個數;sim(x,y)表示概念間的相似度。

抽取上下文關系的算法流程如下。

Step1:將語料庫輸入算法中,把語料庫中的每個概念單獨作為一個初始簇;

Step2:簇間距離使用上文中word2vec 模型計算詞向量之間的距離代替,分別計算所有簇;

Step3:將詞語之間的距離作為合并基準,不斷取詞向量之間距離最小的兩個簇進行合并,直到算法結束所有的詞語合并為一個簇。

這樣的算法進行到最后無法確定簇中哪個概念為父類概念,根據本體中的定義,父類概念在簇內應該與每個概念都具有很高的相似度,所以,本文規定一種平均相似度表達簇中概念與其他概念的相似程度,平均相似度高的概念即為簇中的父概念,平均相似度定義:

式中:sim(Wi,Wj)為兩個概念之間的相似度;n 表達簇中的概念個數。

4.3.3 相關關系

相關關系復雜且重要,本體中概念關系很大一部分都是相關關系,本文擬采用基于關聯規則統計的方法識別概念之間的相關關系。

關聯規則的運用根據詞語間的支持度與置信度來計算,有關于關聯度與置信度的講解本文不詳細介紹。

抽取相關關系的算法流程如下。

Step1:將分詞后的語料庫按照每份文檔(文檔數量多)或者每個句子(文檔數量少)分開輸入;

Step2:依照模型以及實際的需求來設置關聯規則算法的最小置信度以及最小支持度的閾值;

Step3:計算語料庫中所有詞語集合中所有概念元之間的置信度與支持度,如果得出支持度與置信度均大于最小支持度與最小置信度,則說明概念兩個概念之間具有非層次關系;

Step4:驗證所有詞組之后結束。

5 實驗驗證

為了驗證本文提出的集團企業研發設計資源領域本體構建方法的可行性,本文使用企業資源檔案中軟件資源的部分文檔做測試,具體實例驗證如下。

5.1 概念抽取

通過對企業研發設計資源相關語料的分詞及干擾項消除后運用LDA 模型進行概念的抽取。部分3分詞結果如表2 所示。

表2 部分分詞結果

模型困惑度是選取最佳主題數的標準,繪制模型困惑度曲線選取合適的拐點對應的主題數量作為最佳主題數,根據實驗驗證最佳主題數T=8。

困惑度計算公式如下:

式中:D 為測試集;M 為文本數量;Ni為文檔d 的單詞數目。

式中:z 是主題;d 是文檔;gamma 是訓練集學出來的主題文本的概率分布,設置閾值過濾后,將主題詞抽取出來以便進行關系識別。

5.2 關系識別

同義關系識別,使用有道詞典外部鏈接將詞語翻譯成英文合集,將所有詞匯翻譯后生成的每個集合做交集處理,如若交集后不是空集則判斷兩個詞匯是同義關系。

判斷同義詞匯如表3 所示。

表3 同義關系

上下層關系判斷,將詞語使用word2vec 轉換為詞向量后使用層次聚類的方法,將所有的概念聚合到一個中心,以此識別概念間的上下層關系。抽取后的部分上下層關系如圖5 所示。

圖5 部分上下層關系

抽取部分相關關系如表4 所示。

表4 部分相關關系

6 結語

本文對于企業設計研發資源統一管理分享的需求,提出了一種研發設計資源空間中本體層的構建方法,分析了現有本體構建方法后,針對文本數據到領域本體概念的抽取選擇LDA 主題模型,將概念之間的關系分類并進行相應的識別,分別選擇了不同的抽取策略,并用企業的部分軟件數據進行了案例驗證證明本方法的可行性。

在本體構建的過程中,發現了本文提出方法中的一些不足,字典的缺乏導致分詞結果不準確,以至以后的概念抽取以及關系識別均存在一定程度的影響。但本體提出的本體層中領域本體的構建方法可行有效,為以后企業資源本體建模奠定了基礎。

猜你喜歡
概念資源模型
一半模型
Birdie Cup Coffee豐盛里概念店
現代裝飾(2022年1期)2022-04-19 13:47:32
基礎教育資源展示
重要模型『一線三等角』
一樣的資源,不一樣的收獲
重尾非線性自回歸模型自加權M-估計的漸近分布
幾樣概念店
現代裝飾(2020年2期)2020-03-03 13:37:44
資源回收
學習集合概念『四步走』
聚焦集合的概念及應用
主站蜘蛛池模板: 无码区日韩专区免费系列| 国产一区二区精品福利| 亚洲国产亚综合在线区| 亚洲第一网站男人都懂| 国产精品亚洲专区一区| 福利一区在线| 欧美久久网| 91精品国产91久久久久久三级| 91福利片| 日本免费福利视频| 欧美日韩中文国产| 韩日无码在线不卡| 亚卅精品无码久久毛片乌克兰| 亚洲AⅤ无码日韩AV无码网站| 欧美一区二区啪啪| 日韩麻豆小视频| 中文字幕在线一区二区在线| 蜜桃视频一区| 午夜国产精品视频黄| 精品国产aⅴ一区二区三区| 亚洲高清中文字幕在线看不卡| 日韩不卡免费视频| 中文国产成人久久精品小说| 内射人妻无码色AV天堂| 国产美女人喷水在线观看| 国产亚洲欧美在线视频| 真实国产乱子伦高清| 国产00高中生在线播放| 波多野结衣一二三| 亚洲国产中文综合专区在| 人妻无码中文字幕一区二区三区| 成人噜噜噜视频在线观看| 1024你懂的国产精品| 国产日韩精品欧美一区灰| 欧美成人亚洲综合精品欧美激情| 香蕉视频在线观看www| 亚洲视频免费在线| 欧美在线一级片| 国产高清精品在线91| 91福利片| 91在线视频福利| 在线国产91| 午夜丁香婷婷| 99中文字幕亚洲一区二区| 国产69精品久久久久孕妇大杂乱| 久久99国产综合精品女同| 国产成人亚洲精品无码电影| 亚洲无码高清视频在线观看| 污污网站在线观看| 国产久草视频| 综合网天天| 国产福利在线免费| 2021最新国产精品网站| a亚洲视频| 国产理论最新国产精品视频| 精品伊人久久久香线蕉 | 亚洲国产精品美女| 精品国产三级在线观看| 97se亚洲综合| 国产成人综合久久精品尤物| 看国产一级毛片| av在线5g无码天天| 波多野结衣AV无码久久一区| 亚洲天堂自拍| 日本道综合一本久久久88| 人妻中文久热无码丝袜| 亚洲人成网站色7799在线播放| 国产亚洲精品在天天在线麻豆| 制服丝袜在线视频香蕉| 欧美精品在线视频观看| 久久久久国产精品嫩草影院| 免费国产高清视频| 国产乱人伦偷精品视频AAA| 大陆精大陆国产国语精品1024| 国产成人无码综合亚洲日韩不卡| 国产美女自慰在线观看| 久久婷婷六月| 亚洲中文无码av永久伊人| a级毛片毛片免费观看久潮| 日本精品一在线观看视频| 欧美精品另类| 国产成人做受免费视频|