999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于知識圖譜推理的風險車輛識別方法研究 *

2022-02-10 01:44:36俞山川謝耀華
關鍵詞:高速公路模型

俞山川,謝耀華,陳 晨,周 健

(招商局重慶交通科研設計院有限公司 自動駕駛技術交通運輸行業研發中心,重慶 400067)

0 引 言

隨著高速公路數字化、智能化建設的加速,高速公路運營者基于海量運營數據為每輛車建立電子檔案,通過運維管控系統對潛在風險車輛進行識別、監控和預警。高速公路運營者可從2個方面進行數據收集:①從具有車輛屬性識別、事件檢測模塊的高速公路路側信息采集設施(如:攝像頭)獲取車輛顏色、車型、車牌號、異常駕駛行為類型(如:超速、倒車、停車)等信息,并在運維管控系統中存儲為結構化數據;②從外部相關網站(如:各省市交通運輸局官方網站)抓取公開文本資料(如:交通違法判決書)等半結構化數據,獲得車輛顏色、車型、車牌號、所屬公司、歷史違法行為(如:擅自改裝運輸危化品、危險貨物運輸專用車輛未懸掛或噴涂危險貨物運輸標識、未采取必要措施防止貨物脫落揚撒)等信息。目前,如何將這些多源異構的信息進行融合,找到車輛和風險之間的潛在聯系,形成知識體系,從而讓風險車輛被快速“捕捉”,這是一個亟需解決的問題。

知識圖譜是一種用圖模型來描述知識和建立世界萬物之間關聯關系的技術方法,旨在從多源數據中識別、發現和推斷事物與概念之間的復雜關系[1],將孤立的數據信息整合在一起。因此,知識圖譜可以有效地從多源異構數據中挖掘出車輛與風險相關聯的問題。知識圖譜的自動構建主要通過傳統關系型數據庫轉化和互聯網開放數據抽取[2]。前者依賴關系型數據庫到本體模型的映射,通過映射表將關系型數據庫的表結構數據轉化為圖數據庫中的三元組數據[3],適用于運維管控系統中的結構化數據;后者則需要知識抽取和推理算法支撐,從半結構化的網頁數據抽取本體模型中定義的本體、屬性和關系,并通過推理對潛在關系進行完善[4],適用于從外部相關網站抓取公開文本資料,該部分是知識圖譜構建的重點和難點。

近幾年,研究者針對純文本中自動構建或填充知識庫,在知識圖譜表示學習或知識圖譜嵌入方面做了很多工作,目的是將實體和實體間的關系映射到連續低維度的向量空間,簡化知識圖譜的計算,捕獲知識圖譜中數據固有的復雜性和語義[5]。典型的嵌入技術包含3個步驟:①表示實體和關系;②定義得分函數;③學習實體和關系的表示。表示模型分為轉移距離模型和語義匹配模型2類。前者使用基于距離的得分函數,主要包括TransE系列模型[5]、考慮實體和關系不確定性的高斯嵌入模型[6-7];后者使用基于相似度的得分函數,主要包括RESCAL系列模型[8]、神經網絡匹配模型[9-10]。TransE系列模型參數較少、簡單高效、可解釋性強,其中的TransH[11]、TransD[12]和TransR[13]能很好地建立一對多、多對一和多對多的復雜關系,適用于高速公路運維管控系統中海量風險車輛數據知識圖譜的建立。實體和關系的表示學習普遍采用開放和封閉世界2種假設[14]。其中,開放世界假設更適合于不完整知識圖譜,而且在訓練微調中的效果更好。盡管運維管控系統中存儲有海量車輛數據,但從結構上講,相關數據仍屬于不完整知識圖譜。因此,開放世界假設更適合筆者的研究內容。

知識推理旨在從已有關系數據中推斷出新的關系,從而豐富知識圖譜,支撐更進一步的應用。知識推理可以分為對實體屬性的推理和對實體關系的推理。前者主要包括對會發生變化實體的屬性值進行及時的發現、更新,或者為實體創建新的屬性;后者則是對實體間潛在的關系進行推斷和補充,適用于車輛和風險潛在關系的建立。基于邏輯規則的知識推理是關系推理中應用最廣泛的一類方法,主要包括謂語邏輯推理、本體推理和隨機游走推理等。其中,隨機游走推理模型由于其高準確度和高計算效率,適合大型知識圖譜的構建[15]。

綜上,筆者選擇考慮一對多、多對一和多對多關系的表示模型,基于開放世界假設進行知識學習,從半結構化的網頁數據中進行車輛信息的關系提取,采用隨機游走推理模型進行基于邏輯規則的知識推理,從而完成基于表示學習的高速公路風險車輛知識推理和圖譜構建,以達到識別潛在風險、將知識圖譜技術應用于高速公路運行風險預警管控場景的目的。

1 問題描述

1)引入三元組的概念:假設有一個包含n個實體,m個關系的知識圖譜,其中事實被存儲為三元組D+={(h,r,t)|hE,rR,tE}。每個三元組由一個頭實體hE、一個尾實體tE和兩者之間的關系rR組成。其中E表示實體集,R表示關系集。例如:(渝A***08,隸屬于,重慶**運輸有限公司)、(渝A***08,違法類型為,危險貨物運輸專用車輛未懸掛、未噴涂危險貨物運輸標識)、(李**,駕駛,渝A***08)等。

2)從各省市交通運輸局官方判決書文本中,通過三元組抽取技術[16]篩選所有可能的三元組。三元組抽取技術包括基于網絡爬蟲的文檔正文提取和基于CoreNLP句法解析的實體關系抽取[17]。根據各省市交通運輸局官方判決書文本數據,確定高速公路風險車輛類型:①未采取必要措施防止貨物脫落揚撒;②擅自改裝已取得《道路運輸證》的車輛;③危險貨物運輸車未隨車攜帶《道路運輸證》;④運輸車輛為報廢、擅自改裝、拼裝、檢測不合格或其他不符合國家規定的車輛;⑤運輸車輛未按照規定的周期和頻次進行車輛綜合性能檢測和技術等級評定;⑥違法超限運輸;⑦未在罐式車輛罐體的適裝介質列表范圍內或者移動式壓力容器使用登記證上限定的介質范圍內承運危險貨物;⑧危險貨物運輸專用車輛未懸掛、未噴涂危險貨物運輸標識;⑨危險貨物承運人未按照規定制作危險貨物運單或者保存期限不符合要求;⑩客運班車不按規定的線路、班次行駛;未按規定取得道路貨物運輸經營許可證,擅自從事道路貨物運輸經營;未取得道路危險貨物運輸許可,擅自從事道路危險貨物運輸;未取得相應從業資格證件,從事道路危險貨物運輸活動;未按照規定使用衛星定位汽車行駛記錄儀進行實時傳送。

2 模型建立

2.1 建模步驟

2.1.1 實體和關系的表示及得分函數的定義

將實體和關系映射在一個連續的向量空間中,表現成向量;在每個事實(h,r,t)上定義得分函數fr(h,t)以量化似然性,觀測到的事實比未觀測到的事實有更高的得分。

2.1.2 學習實體和關系的表示

隨機生成負樣本,學習這些實體和關系的表示,解決所有觀測事實(即D+中的事實)的最大似然優化問題。

2.1.3 推理實體間潛在關系

基于所有三元組推斷不同三元組實體之間的潛在關系。

2.2 TransH、TransR和TransD關系表示模型

盡管TransE簡單高效,但在處理一對多、多對一和多對多關系時仍有缺陷。以1對N關系為例,給定一個關系r,即?i=1,…,m,TransE使得h+r≈ti對所有i=1,…,m成立,并且t1≈t2≈…≈ti。這表明,給定一個1對N關系,TransE對t1、t2、…、ti可能會學習出十分相似的向量表達。事實上,這些實體是完全不同的。為克服此缺陷,可采用一種有效的策略即允許實體在不同的關系中有明顯不同的表現形式。TransH通過引入特定關系的超平面,實現了這個理念。

2.2.1 TransH模型

如圖1(a),TransH將實體表示成向量,將每個關系r表示成在以wr為法向量的超平面上的向量r。給定一個事實(h,r,t),實體向量h、t首先被投影在超平面上,即

(1)

如果(h,r,t)成立,假設兩個投影通過超平面上的r以較小的誤差連接,即h⊥+r≈t⊥,則,得分函數定義為

(2)

各向量的約束條件為

(3)

圖1 TransH、TransR和TransD模型原理Fig. 1 Principles for TransH, TransR and TransD model

2.2.2 TransR模型

(4)

式中:Mr為從實體空間到關系空間r的投影向量,Mrk×d。

TransR的得分函數定義為

(5)

各向量的約束條件為

(6)

(7)

2.2.3 TransD模型

TransD通過進一步將投影向量分解成兩個向量的積進行簡化,即用投影向量來獲取頭、尾實體關于關系的向量表示,如圖1(c)。TransD引入額外的映射向量wh,wtd和wrk,其中實體向量和關系向量h,td和rk。投影向量和被定義為

(8)

(9)

式中:I為單位向量。

將這2個投影向量分別施加在頭實體向量h和尾實體向量t上,得到投影

(10)

(11)

得分函數用式(12)計算:

(12)

各向量滿足約束條件(13)、(14):

(13)

(14)

2.3 基于開放世界假設的模型訓練

開放世界假設表述如下:知識圖譜只包含真實的事實,而未被觀測到的事實只會是錯誤的或者丟失了。在此情形下,D+只存儲正樣本,負樣本通過啟發式生成。(h,r,t)的負樣本用D-表示,D-={(h′,r,t)∪(h,r,t′)}。在訓練過程中,負樣本通過隨機替換頭實體h或尾實體t得到,即

D-={(h′,r,t)|h′E∧h′≠h∧(h,r,t)D+}∪{(h,r,t′)|t′E∧t′≠t∧(h,r,t)D+}

(15)

給定正樣本集D+和相應建立的負樣本集D-,可以通過最小化對數損失值[14]來學習實體和關系表示Θ,即

(16)

式中:τ=(h,r,t)為D+∪D-中的訓練樣本。

如果(h,r,t)D+,yhrt=1;(h,r,t)D-,則yhrt=-1,從而保證正樣本的得分高于負樣本。

此外,此最小化問題還需要滿足向量的約束條件,對于TransH模型,為約束條件(3);對于TransR模型,為約束條件(6)、(7);對于TransD模型,為約束條件(13)、(14)。

模型訓練還需要對于實體和關系進行初始化嵌入,通常通過均勻分布或高斯分布隨機初始化,或使用TransE的結果來初始化嵌入。以TransD模型為例,基于開放世界假設的訓練算法步驟如下:

Step 1給定觀測到的事實D+={(h,r,t)},初始化實體和關系嵌入。

Step 2從D+中取一個正事實的小集合Z,生成2個空集合B+=?、B-=?。

Step 3對Z中的每一個正樣本τ+=(h+,r+,t+),根據式(15)生成一個負樣本τ-=(h-,r-,t-),并更新集合B+=B+∪{τ+},B-=B-∪{τ-}。

Step 5若梯度近似于0,返回Step 2;否則,輸出實體和關系嵌入。

2.4 基于隨機游走的知識推理模型

推理的目的是使用機器學習的方法推斷出實體對之間的潛在關系,從而完善知識圖譜。例如,如果風險車輛知識圖譜包含關系(李**,駕駛,渝A***08),(渝A***08,隸屬于,重慶**運輸有限公司),然后可以獲得丟失的關系(李**,工作于,重慶**運輸有限公司)。

筆者基于隨機游走模型[19],推斷出不同三元組實體之間的潛在關系。計算每條路徑的特征值函數sh,Q(t),從而建立一系列路徑。一個路徑Q由一系列的關系向量r1,…,rl,…,rn組成,即

式中:Tn-1為關系向量rn的作用域及關系向量rn-1的值域,即Tn-1=ran(rn)=dom(rn-1)。

關系的作用域和值域指的是實體的類型,T0={h},Tn={t}。特征值函數sh,Q(t)為沿著路徑Q從頭實體向量h開始能夠到達尾實體向量t的概率。路徑走到任意中間實體向量e時,sh,Q(e)的更新方法為

(17)

在隨機游走的初始階段,如果eQ,sh,Q(e)=1;否則,sh,Q(e)=0。I(rl(e′,e))是指示函數,如果rl(e′,e)存在,I(rl(e′,e))=1;否則,I(rl(e′,e))=0。

通過隨機游走算法得到一系列路徑特征Qr={Q1,…,Qn},然后對關系向量r下的每個訓練樣本(即一個頭實體和尾實體的組合)建立得分函數

fQ(hk,tk)=θ1shk,Q1(e)+θ2shk,Q2(e)+…+θnshk,Qn(e)

(18)

每個樣本的概率為

(19)

損失函數最小化的表達式為

minwk[yklnPk+(1-yk)ln(1-Pk)]

(20)

式中:yk為訓練樣本向量(hk,tk)是否具有關系向量r的標記。

如果三元組向量(hk,r,tk)存在,則yk=1;否則yk=0。

訓練算法流程與TransD模型訓練算法類似,不做詳述。

3 算例分析

3.1 數據集

對廣東省下屬市交通運輸局2020年1—8月公開的交通違法判決書文本(圖2)抽取三元組數據,對TransH、TransR和TransD模型進行性能比選和知識圖譜結果展示。

采集廣東省肇慶、東莞、云浮、佛山、茂名、中山、惠州、韶關、汕頭、揭陽、江門、梅州、河源、陽江、潮州、深圳、汕尾、清遠等18市的數據,共計15 541條,其中肇慶、東莞、佛山、茂名等4市超過2 000條。實體包括駕駛員姓名、車牌、掛車車牌、時間、車型、所屬公司、違法類型等。

圖2 交通違法判決書文本示例Fig. 2 Text example of traffic violation judgment

由于Dbpedia、Wikidata和YAGO等代表性知識圖譜公開測試數據集不包含中文數據,算例中知識圖譜訓練數據集來自重慶市及廣東省部分高速公路運維管控平臺數據庫處理得到的三元組數據,以及清華大學自然語言處理實驗室公開的數據集。

3.2 表示學習模型比選

算例TransH、TransR和TransD均使用高斯分布生成實體和關系的初始嵌入向量。設定實體和關系的向量維度為100,訓練輪次為1 000次。訓練時使用隨機梯度下降法更新嵌入向量,學習率設為1.0%。綜合比較效率和性能之后,在基礎實驗中選擇關系負樣本的采樣數量為5[20],評價指標連續兩次下降則終止程序,取最后一次評價指標結果進行比較。

使用Hits@K、MR、MRR、準確率和訓練時間來評估各模型的性能。Hits@K表示測試集中排名在頂部前K個實體所占的百分比,筆者選擇K=1、3、10;MR為排名的平均值;MRR為排名倒數的平均值。Hits@K值和MRR值越高、MR值越低,模型的實體對齊效果越好[20]。TransH、TransR和TransD的性能對比如表1。

表1 風險車輛知識圖譜中TransH、TransR和TransD性能對比Table 1 Performance comparison among TransH, TransR and TransD in risky vehicle knowledge graph

從表1可以看出,TransR和TransD在對齊效果和準確率方面不相上下,并均優于TransH;而TransD比TransR有近2倍的計算效率。因此,TransD模型適合于文中風險車輛知識圖譜的構建。

3.3 風險車輛知識圖譜展示及應用

基于TransD模型,通過隨機游走的知識推理模型完善三元組實體之間的潛在關系,形成廣東省高速公路風險車輛知識圖譜,并將風險類型按照出現頻率排序(僅展示前5類型),如圖3。

圖3 廣東省高速公路風險車輛知識圖譜Fig. 3 Knowledge graph for risky vehicles on freeways of Guangdong province, China

從圖3可以看出,普通貨車超限運輸和危化品車輛不規范運輸為高速公路主要的交通違法行為。這些車輛一旦發生交通事故,無論事故本身是大或是小,其潛在的二次事故都將會對高速公路的安全運行產生極大的影響。

將圖3的知識圖譜作為高速公路運維管控系統的智能分析模塊,按照每月1次的頻率從交通運輸局官方數據中定期更新風險車輛數據。只要高速公路運維管控系統通過監控攝像頭檢測到車輛的車牌,就能自動識別其歷史違法信息,并判定是否為潛在風險車輛以及風險等級,從而為高速公路運行風險預警和管控提供科學依據。

4 結 語

根據外部網站抓取公開文本資料等半結構化數據,抽取高速公路風險車輛三元組;建立考慮一對多、多對一和多對多關系的表示學習模型,以最小化對數損失為目標,基于開放世界假設進行訓練,提煉風險車輛三元組;采用隨機游走推理模型進行基于邏輯規則的知識推理,從而完成高速公路風險車輛知識推理和圖譜構建。研究發現,TransD模型對齊效果好、準確率高、計算效率高,適合于高速公路風險車輛知識圖譜的構建。所提出的模型能達到對高速公路運行潛在風險進行識別的目的,可為高速公路運行風險預警和管控提供依據,完成語義關系識別領域的知識圖譜技術在高速公路運行風險預警管控場景的應用。

猜你喜歡
高速公路模型
一半模型
高速公路養護與管理探討
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
為什么高速公路上不用路燈照明
3D打印中的模型分割與打包
高速公路與PPP
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
高速公路上的狗
小說月刊(2014年4期)2014-04-23 08:52:20
GPS在高速公路中的應用
河南科技(2014年18期)2014-02-27 14:15:06
主站蜘蛛池模板: 欧美日韩亚洲国产主播第一区| 免费无遮挡AV| 最新加勒比隔壁人妻| 九色在线观看视频| 午夜天堂视频| 欧美成人手机在线观看网址| 亚洲国产成人精品无码区性色| 国产免费羞羞视频| 天天综合色天天综合网| 九九九国产| 一区二区午夜| 少妇精品网站| 日韩欧美在线观看| 欧洲一区二区三区无码| 一本一道波多野结衣一区二区 | 国产精品视频系列专区| 国产91视频免费| 久久视精品| 亚洲av成人无码网站在线观看| 九九这里只有精品视频| 色婷婷在线播放| 国产高颜值露脸在线观看| 欧美精品H在线播放| 中文字幕资源站| 国产毛片高清一级国语| 91亚洲精品国产自在现线| 欧美另类图片视频无弹跳第一页| 国产成人一区| 日本一区二区三区精品视频| 欧日韩在线不卡视频| 无码AV高清毛片中国一级毛片| 国产日韩欧美在线播放| 国产在线专区| 中文字幕av无码不卡免费| 久青草国产高清在线视频| 免费高清a毛片| 狠狠色丁香婷婷| 狠狠做深爱婷婷综合一区| 91偷拍一区| 国产欧美视频在线观看| 无码内射中文字幕岛国片| 五月天香蕉视频国产亚| 国产青榴视频| 毛片大全免费观看| 成年片色大黄全免费网站久久| 免费一级大毛片a一观看不卡| 一区二区三区四区在线| 中文字幕人妻无码系列第三区| 最新精品国偷自产在线| 亚洲无码视频图片| 思思热精品在线8| 国产99精品视频| 老司机久久99久久精品播放| 天天色天天操综合网| 久久国产黑丝袜视频| 欧美亚洲网| JIZZ亚洲国产| 亚洲成人77777| 国产aaaaa一级毛片| 久久青草精品一区二区三区| 亚洲欧洲日韩国产综合在线二区| 激情无码视频在线看| 欧美日韩国产成人在线观看| 欧美人在线一区二区三区| 亚洲精品午夜无码电影网| 一区二区三区毛片无码| 国产高清国内精品福利| 最新国产成人剧情在线播放| 久久精品一品道久久精品| 免费AV在线播放观看18禁强制| 性欧美久久| 亚洲第一黄片大全| 午夜福利免费视频| 成人免费黄色小视频| 色偷偷一区二区三区| 久久久黄色片| 亚瑟天堂久久一区二区影院| 国产永久免费视频m3u8| 色悠久久久| 秋霞午夜国产精品成人片| 波多野结衣AV无码久久一区| 久久婷婷人人澡人人爱91|