999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

高速列車零部件知識圖譜的智能問答知識子圖匹配研究

2024-01-08 04:16:30曾文驅馬自力王淑營
鐵路計算機應用 2023年12期
關鍵詞:分類用戶模型

曾文驅,馬自力,王淑營

(1.西南交通大學 機械工程學院,成都 610031;2.廣州地鐵設計研究院股份有限公司,廣州 130062;3.西南交通大學 計算機與人工智能學院,成都 611756)

知識圖譜的智能問答中最關鍵的一步是識別用戶的問句意圖,并根據意圖進行知識圖譜中知識的定位。但高速列車零部件知識存在海量、復雜及多層級性的特點,高速列車零部件知識圖譜智能問答系統(簡稱:問答系統)如果不經由知識的篩選,直接由意圖識別模型進行知識定位,會增加檢索的復雜度,影響知識圖譜智能問答的效果,所以,應先通過知識子圖匹配模型進行知識的篩選。知識子圖就是知識圖譜中與問句相關的部分知識所構成的子圖譜。高速列車零部件知識依據情景可被劃分為不同知識域,因此,可設定知識子圖匹配的目標是將用戶問句定位到所屬知識域,并將該知識域所包含的知識作為用戶問句相關的知識子圖,剔除其他知識域的無關知識。依據該思路,可采用分類模型進行用戶問句所屬知識域的劃分,而分類模型的改進則需要依靠情景感知,并基于用戶當前所處環境下的情景信息。

國內外研究人員針對如何利用情景感知改進分類模型,從而實現知識子圖匹配,展開了眾多研究。情景感知研究的核心課題是情景模型的構建。Sheng等人[1]提出了一種面向情景感知的Web 服務的建模語言ContextUML;GuermaH 等人[2]探索了一種以本體為核心的情景感知服務模式,聚焦于情景元模型的構建與推理過程;SOCAM[3]是一種基于情境感知技術的系統架構,可有效幫助場景的捕獲、識別、理解及使用功能;周維琴等人[4]改進了感知機制,依據AutoCAD 的特點研究了一種實用性更好的感知模型。目前,應用較為廣泛的文本分類模型有Text-CNN 模型[5]、Bilstm-CRF 模型[6]、BERT(Bidirectional Encoder Representation from Transformers)模型[7],三者中效果最好的是BERT 模型,所以選用該模型作為本文的分類模型,但分類模型如果不結合領域情景信息,其效果在知識子圖匹配這樣的領域任務中會大打折扣。

因此,本文將情景感知與分類模型相結合,構建高速列車零部件知識圖譜智能問答知識子圖匹配模型(簡稱:知識子圖匹配模型),將問句的情景因素轉化成向量,輸入到BERT 模型內,從而完成知識子圖匹配。

1 高速列車零部件知識圖譜

高速列車零部件知識圖譜構建流程包括本體構建、知識抽取、知識融合及知識存儲等。即先構建高速列車零部件知識本體,再整理數據集,從這些數據集中抽取知識,并將其按知識本體組裝成知識三元組后,存進Neo4j 圖形數據庫,從而得到高速列車零部件知識圖譜。本文抽取的數據集包含14282條數據,其中,7728 條高速列車零部件運行維護(簡稱:運維)數據、3991 條高速列車零部件設計需求數據、2563 條高速列車零部件設計參數數據。最終構成知識圖譜共包含節點19781 個、關系15003 條、知識三元組 18835 個。高速列車零部件知識圖譜的知識本體結構如圖1 所示。

圖1 高速列車零部件知識圖譜知識本體結構

由圖1 可看出,本文構建的高速列車零部件知識圖譜主要包含高速列車零部件的運維域、設計需求域和設計參數域等3 個知識域。由該知識圖譜的結構可看出,高速列車零部件的知識存在海量性、多層級及復雜性的特點,每個域內的知識依然存在階段性特征。因此,本文以高速列車零部件知識圖譜的不同知識域為依據,對用戶問句進行分類,將其定位到正確知識域,剔除域外的無用知識,實現從知識圖譜中匹配到符合問句語義的知識子圖。

2 知識子圖匹配模型

本文利用知識子圖匹配模型進行高速列車零部件知識圖譜的知識篩選。該模型包含情景特征提取模塊和分類模塊2 部分,模型架構如圖2 所示。情景特征提取模塊基于情景模型,分類模塊基于BERT模型。BERT 模型包含用戶問句向量提取、向量融合及模型訓練等3 個步驟,其中,向量提取步驟包括了詞向量的提取和情景向量的提取。完成向量提取后,將2 者融合后的問句向量輸入到BERT 模型內,進行問句所屬知識域的劃分。

圖2 知識子圖匹配模型架構

2.1 情景特征的提取模塊

2.1.1 高速列車零部件知識情景模型構建

高速列車零部件知識情景模型(簡稱:情景模型)的構建以零部件的相關任務為線索,通過對高速列車零部件情景的抽象化處理,構建多維層次的情境模型,可表達為

其中,PDC為情景模型,CiEj表示第i個零部件的第j個情境要素。

為適應情景感知需要,本文將情景因素提煉為任務、零部件、領域、人員4 項,情景模型架構如圖3 所示。

圖3 高速列車零部件知識情景模型架構

其中,任務是指用戶在運維研發活動中所處的活動階段,以需求域人員為例,其任務階段包含需求采集、需求映射等;零部件指當前人員所處理的具體零部件,包含零部件名稱及所屬結構;領域和人員指當前的任務域,在本文中被細分為3 類,即設計需求、設計參數及運維。

2.1.2 情景因素提取

建立情景模型后,需提取用戶問句中的情景因素,并將其轉化為相應的情景向量。

(1)任務

任務情景因素屬于用戶問句中不可見的成分,即無法直接從用戶問句中提取。因此,本文參考該用戶在問答系統中的歷史任務。例如,若該用戶在問答系統中的上一個任務為需求采集任務,則當前任務很可能為需求采集的下一階段任務,即需求映射任務;如果無歷史任務,則選取符合用戶身份的第1 階段任務,以設計需求人員為例,其第1 階段需求采集任務即為該用戶的當前任務。

(2)零部件

零部件情景因素指用戶當前任務所處理的具體零部件,包括零部件名稱及其所屬結構。本文采用詞典匹配的方式進行此類情景因素的提取,因此,需要建立高速列車零部件實體及其所屬結構詞典。本文采用從知識圖譜中導出所有零部件實體的方式建立實體詞典,根據相關規范文檔,手動建立每個實體的所屬結構,從而建立結構詞典。高速列車零部件實體名稱及其所屬結構詞典(部分)如表1 所示。

表1 高速列車零部件實體及其所屬結構詞典(部分)示意

(3)人員及領域

人員和領域情景因素都屬于用戶問句中的不可見成分,但人員情景因素在用戶登錄問答系統時便會被記錄,所以人員情景因素可根據問答系統記錄的用戶身份進行提取。而領域與用戶身份具有密切聯系,假設一位用戶是零部件的運維人員,則其進行的任務極大概率屬于運維領域,所以可認定為運維領域任務。

2.1.3 情景因素向量轉化

(1)任務

本文采用分詞模型中已進行預訓練的詞向量對情景因素進行向量轉化,該方式能抓取到更多的語義特征,且可與BERT 模型的句向量嵌入相契合,任務情景向量公式為

(2)零部件

由于零部件名稱向量和所屬結構向量維度相同,且其代表了零部件的結構信息,所以將兩向量進行加權平均后便得到了零部件情景向量,公式為

式中,Vectorp為零部件名稱向量;VectorS為零部件所屬結構向量。

(3)人員及領域

人員及領域情景因素均被分為運維、設計需求及設計參數3 類。較小的類別數及與問句間較小的語義聯系使得可用詞袋模型對該情景因素進行轉化。將原始向量設為[a,b,c],其中,a為運維的向量位、b為設計需求的向量位、c為設計參數的向量位,根據人員及領域情景因素的值,將相應向量位置設為1,其余位置設為0。

2.2 分類模塊

2.2.1 文本向量的提取

文本向量提取的形式化描述為:給定一句文本S,得出S的文本向量序列Vectors={V1,V2,V3,···,VN},在本文中,向量的提取包含情景向量和句向量2 部分,因此,N的大小由情景向量的長度和問句長度共同決定。此小節主要闡述問句的句向量提取方式。

BERT 模型采取字符級嵌入的方式對用戶問句文本的句向量進行提取,將用戶問句的每個字符的字向量加權平均就得到了句向量。以運維域問句“轉向架有哪些故障”為例,其句向量的提取方式如圖4 所示。

圖4 句向量提取

2.2.2 向量的融合

得到用戶問句的情景向量和句向量后,需要將兩者融合,形成用戶問句的總特征向量。因為句向量和情景向量是相互獨立的,故本文采用向量拼接的方式實現句向量與情景向量的融合。以高速列車轉向架需求設計問句“聯軸節的使用壽命需求有哪些具體指標?”為例,假設其句向量為[0,0,1],其情景向量為[X1,X2,0,1,0,0,1,0],則其總特征向量為[0,0,1,X1,X2,0,1,0,0,1,0]。其中,X1、X2 分別代表用戶問句的任務情景向量和產品情景向量。

2.2.3 BERT 模型數據集及預測

(1)數據集

BERT 模型的訓練需要有相應的數據集作支撐。需要構建相應知識域類別所對應的訓練問句。數據集構建方式為人工編寫對應知識域類別下的問句,共編寫4897 條問句,其中,非領域類別1021 條、運維域類別1472 條、設計參數域類別1310 條、設計需求域類別1094 條,部分訓練數據的形式如表2 所示。

表2 訓練數據(部分)

將訓練數據集進行向量轉化后,輸入到BERT模型內進行訓練,完成模型的構建。

(2)模型預測

BERT 模型訓練完成后,可利用其進行問句所屬知識域的預測。BERT 模型依據問句的特征向量,計算并得出每個知識域類別在此特征向量下的權重,權重最高的知識域類別即為該用戶問句所對應的知識域類別。以高速列車運維域問句“轉向架有哪些故障”為例,BERT 模型依據其特征向量,計算出各個知識域類別的權重分別為:非領域問句0.03、運維域問句0.88、設計需求域問句0.06、設計參數域問句0.03,因此,將該問句劃分為運維域問句。問答系統可依據其知識域類別將“轉向架”相關的運維域知識提交到下一板塊進行后續處理,從而剔除與運維域無關的知識(如設計參數域及設計需求域的知識),避免在進行具體知識定位時知識數量過大的情況。

3 實驗設置及結果分析

3.1 評價指標和對比模型選擇

知識子圖匹配問題的本質是文本多分類問題。常見評價指標為準確率(Accuracy)、精確率(Precision)、召回率(Recall)和F1 值(F1-score)。本文采取的評價指標是在上述指標的基礎上形成的宏準確率、宏召回率和宏F1 值。宏指標是取所有類別的統一評價指標的算數平均值。

為驗證模型的有效性,本文測試了單BERT 模型,以及其他研究者提出的Kg-BERT 和K-BERT 模型對高速列車零部件知識問句的知識域分類效果。

3.2 實驗設計與結果評估

本文的實驗步驟為:(1)使用本文的向量轉化策略將數據集中的文本向量化;(2)將數據集的85%作為模型訓練的訓練集,15%作為測試集;(3)使用本文模型及單BERT 模型、Kg-BERT 模型、K-BERT 模型等 4 種多分類模型基于數據集進行訓練;(4)將測試數據輸入到訓練好的模型內進行分類效果比對。

本文模型與其他模型的分類效果比對如表3 所示。由表3 可知,本文模型的評價指標優于其余模型,在執行高速列車零部件知識圖譜智能問答知識子圖匹配的任務上具有先進性。

表3 4 種模型實驗結果對比

4 結束語

本文提出了一種高速列車零部件知識圖譜智能問答的知識子圖匹配模型。該模型通過情景模型進行情景特征提取及向量轉換;再將詞向量和情景向量相融合輸入到BERT 模型中,進行用戶問句的所屬知識域分類,分類結果即為知識子圖的匹配結果。經試驗證明,本文模型能夠滿足高速列車零部件知識圖譜智能問答知識子圖匹配的需求,且模型分類性能要優于未融合情景向量的其他通用分類模型,具有參考價值。

猜你喜歡
分類用戶模型
一半模型
分類算一算
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
3D打印中的模型分割與打包
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
主站蜘蛛池模板: 日本高清在线看免费观看| 婷婷六月在线| 日韩欧美视频第一区在线观看| 国产精品午夜电影| 91麻豆精品国产高清在线| 青草娱乐极品免费视频| 人妻丰满熟妇AV无码区| 99人妻碰碰碰久久久久禁片| 在线免费无码视频| 麻豆精品在线视频| 亚洲第七页| 色视频久久| 一区二区午夜| 亚洲性影院| 国内精品久久人妻无码大片高| 成年人免费国产视频| 尤物在线观看乱码| 成AV人片一区二区三区久久| 国产欧美日韩资源在线观看| 青草视频在线观看国产| 亚洲天堂伊人| 色婷婷狠狠干| 高清无码手机在线观看| 亚欧成人无码AV在线播放| 91网址在线播放| 国产一级妓女av网站| 夜夜操狠狠操| 国产成人亚洲欧美激情| 欧美日韩一区二区在线免费观看| 国产一区二区三区精品久久呦| 97亚洲色综久久精品| 在线看片中文字幕| 999国产精品永久免费视频精品久久 | 激情爆乳一区二区| 色视频久久| 国产欧美精品午夜在线播放| 日韩天堂视频| 九九久久精品免费观看| 久久这里只有精品8| 日韩大乳视频中文字幕| 色老头综合网| 国产高清免费午夜在线视频| 特级毛片8级毛片免费观看| 日本午夜视频在线观看| 国产精品丝袜视频| 亚洲精品日产AⅤ| 一级全黄毛片| 国产av一码二码三码无码| 久久亚洲国产视频| 911亚洲精品| 国产精品久久久久久久伊一| 美女一级免费毛片| 人妻中文久热无码丝袜| 亚欧美国产综合| 天天色天天操综合网| 中文字幕在线永久在线视频2020| 亚洲成a人在线观看| 日韩 欧美 国产 精品 综合| 国产一区二区三区在线观看免费| 国产精品福利尤物youwu| 在线国产毛片手机小视频| 丝袜高跟美脚国产1区| 日日拍夜夜操| 激情综合五月网| 日本免费一级视频| 欧美日本中文| 91免费国产高清观看| 在线观看国产小视频| 国产一级二级在线观看| 中文字幕av无码不卡免费| 亚洲Av激情网五月天| 一级毛片在线播放| 国产交换配偶在线视频| a亚洲视频| 激情成人综合网| 亚洲欧洲自拍拍偷午夜色| 伊人久久精品亚洲午夜| 日韩精品无码免费专网站| 国产va在线| 亚洲成人精品久久| 久久毛片基地| 亚洲av综合网|