999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

語義相似度計算在內檢測數據參數匹配中的應用

2019-01-02 11:20:18張河葦金劍董紹華張來斌李寧
石油科學通報 2018年4期
關鍵詞:語義檢測方法

張河葦,金劍,董紹華*,張來斌,李寧

1 中國石油大學(北京)機械與儲運工程學院,北京 102249

2 中石油管道有限責任公司西部分公司,烏魯木齊 830000

0 引言

管道內檢測數據是維護管道運行的重要參考數據,通過內檢測數據可以獲得很多有價值的信息,是管道公司查找管道缺陷、進行管道修復的重要依據,因此針對同一管段往往會進行多輪內檢測。然而,由于管道所處的環境以及檢測過程中部分因素的影響,例如起始點不同、內檢測器運行速度不同等,使得多次內檢測數據無法完全對齊,降低了數據的利用水平,出現缺陷無法匹配等問題,甚至如果兩次檢測的檢測商不同,則會進一步加劇這個情況。針對多輪內檢測的比對問題,目前檢測公司都是通過人工比對兩次內檢測數據,業務量巨大,而且對于管道運營商來說無法確定結果的真實性。

鑒于內檢測數據比對的重要性,近期在內檢測數據的比對理論方面,部分國內學者也進行了一些研究。王良軍等[1]通過調研了解到國外的管道運營公司,例如DOW、BP、EnbrigeSingapore、Gas Company等,已有百余條管道開展了內檢測數據比對工作。王良軍等綜述了內檢測比對方法的研究現狀,歸納出此項研究工作中的兩個關鍵步驟為內檢測里程數據對齊和內檢測特征數據比對[1]。王丹丹等[2]提出在確定關鍵點對齊的前提下,以相對里程、時鐘方位以及表面位置為核心參數的比對方法,并運用改進方法對海底管道的剩余強度和剩余壽命進行了評估。孫浩等[3]對內檢測比對的流程進行詳細敘述,包括關鍵點對齊和缺陷的活性判斷方法,并以天然氣管道為例進行方法驗證,得到較好的計算效果,其限制條件主要為內檢測數據須由同一檢測承包商提供。楊賀[4]對比對中的關鍵流程(焊縫對齊、缺陷點識別)算法進行了設計,其限制條件為導入文件的格式必須與模板一致。

現階段內檢測數據比對方法的基本流程已經確定,存在的問題主要是缺少快速匹配不同檢測商提供的內檢測報告的方法,該問題的存在限制了大數據背景下的數據對齊研究。通過語義相似度計算方法研究,有利于建立數據匹配字段的關聯關系,實現數據的快速入庫,為大數據技術的應用奠定基礎。

1 基礎理論

語義相似度計算是處理自然語言的重要研究內容,在信息檢索、翻譯等涉及到同義匹配等領域均有應用。目前絕大多數描述概念詞語相似度的計算模型的基本思想是Dekang Lin從信息論的角度給出的如式1所示的理論[5]。含義為任意兩個對象之間的相似度取決于它們之間的共性commonality和個性differences,共性越多,相似度越大;個性越多,相似度越小[6]。

式(1)中的分母表示完整描述A,B所需的信息量大小,分子表示描述A,B共性部分所需的信息量大小,sim(A,B)表示A,B之間的語義相似度。

語義相似度計算的研究領域主要分為兩大類[7]:一是依據某種世界知識來計算,主要是通過詞典中概念結構關系(上下位關系、同位關系、整體-部分關系等)來計算相似度;二是利用大規模的語料庫,利用統計學方法將上下文信息的概率分布作為詞語語義相似度的度量。

本文研究的方法屬于第一類。目前國外的語義研究詞典主要包括WordNet[8]、FrameNet[9]、MindNet[10]等。國內的漢語語義研究詞典主要為知網[11]、同義詞詞林[12]等。由于《同義詞詞林》的編排結構與國際研究常用的WordNet詞典結構最為相似,該詞典已逐漸成為漢語語義研究的重點,本文討論的方法也是基于同義詞詞林建立的。

1.1 同義詞詞林

《同義詞詞林》是1983年由梅家駒等[12]編篆而成的。后來哈工大信息檢索研究實驗室根據人民日報語料庫中詞語出現的頻率對其進行擴展并對詞林的結構和編碼進行了改進,形成一部具有漢語大詞表的《哈工大信息檢索研究室同義詞詞林擴展版》(《詞林擴展版》),共包含77 343詞語。原版中只針對大類、中類、小類進行了編碼,而《詞林擴展版》形成了5層結構,同時將編碼等級由三級擴充到了五級,劃分為12個大類,95個中類,1428個小類,小類下方進一步劃分為4026個詞群和17 797個原子詞群[13]。《同義詞詞林》擴展前后詞典文件特征對比如表1所示。

同義詞詞林詞典的5層結構如圖1所示。上面四層的結點都代表抽象的類別,第5層的葉子結點表示具體的詞條或義項[14]。對應5層結構設置了5層編碼,第1層用大寫英文字母表示;第2層用小寫英文字母表示;第3層用二位十進制整數表示;第4層用大寫英文字母表示;第5級用二位十進制整數表示。編碼總長度為8位,結構具體如表2所示。

需要注意的是,第 8位的標記有“=”、“#”、“@”3種。其中,“=”代表“相等”、“同義”;“#”代表“不等”、“同類”,表示屬于同類,但是語義不同;“@ ”代表“自我封閉”、“獨立”,它在詞典中既沒有同義詞,也沒有相關詞[12]。

1.2 語義相似度計算方法

部分學者在基于同義詞詞林的語義相似度計算方法研究方面已取得一定的成果,認可度較高的有田久樂[15]和王汀[16]提出的算法。

表1 《同義詞詞林》擴展前后詞典文件特征對比Table 1 Comparison of dictionary file features before and after Synonym Word Forest expansion

圖1 同義詞詞林詞典結構Fig. 1 Synonym Word Forest dictionary structure

表2 編碼結構Table 2 Coding structure

1.2.1 田久樂算法

田久樂提出基于義項的語義距離來衡量詞語的相似度[15]。假設兩個義項A,B的相似度用sim表示。

(1)若兩個義項不在同一棵樹上

(2)若兩個義項在同一顆樹上

若在第2層分支,系數取a,

若在第3層分支,系數取b,

若在第4層分支,系數取c,

若在第5層分支,系數取d,

(3)若兩個義項的編號相同,當末尾號為“=”時,相似度為1;當末尾號為“#”時,直接把定義的系數賦給結果;當末尾號為“@”時,因代表在一個編號中只有一個詞,所以不予考慮。

需要注意的是,針對有多個編碼的詞語,在計算詞語相似度時,取最大值。

1.2.2 王汀算法

相較于田久樂提出的算法,王汀算法引入了概念相似度權重系數表示集合L中的元素個數,恒等于5。算法公式[16]如式7所示。

λ∈(0,1),其取值不宜過高;Nt為詞元在第i層分支上的節點總數;D為詞元的編碼距離;特別地,當概念的5 層編碼均相等且詞林編碼末位為“=”時,SIMT的取值為1.0。

權重系數的引入使得不同層級的語義相似度區分更為明確。

2 基于內檢測參數的語義相似度計算方法改進

使用前文介紹的兩種方法進行實驗驗證發現,大部分的字段可以被區分開,然而部分字段的相似度計算差值較小,甚至無法區分,主要原因是未考慮路徑對語義相似度的影響。由上文兩種算法的公式可以看出田久樂算法僅設置了層級系數,王汀算法也只針對層級系數進行調節。本文通過增加路徑權重對上述兩種方法進行改進,改進后的公式如式8所示:

式(8)中引入新的概念—路徑權重weight替代原參數λ,目的是增大路徑所在層級對相似度值計算結果的影響。取值參照表3[17]中的設定值;Li/L為深度調節參數,Li={1,2,3,4,5},L=5;N代表分支層的節點總數;K代表兩個義項的父節點的間距。路徑、深度以及N、K的含義如圖2所示,圖中K=3,N=6。特別地,若兩個義項的編號相同,當末尾號為“=”時,認為相似度最大;當末尾號為“#”時,認為相似度最小;當末尾號為“@”時,因代表在一個編號中只有一個詞,所以不予考慮。

表3 路徑權重設定值Table 3 Setting value of path weight

3 案例

為了驗證本文改進方法的有效性,選取管道缺陷描述字段中較難區分的模板字段:焊縫和溝槽,進行算法分析對比。將溝、坑痕、陷坑、槽子等幾個描述詞語與模板字段(焊縫和溝槽)通過兩兩計算語義相似度進行匹配。查詢同義詞詞林[13]得到各字段的編碼如表4所示。

圖2 示意圖Fig. 2 Schematic

采用田久樂算法得到的結果如表5所示,采用王汀算法得到的結果如表6所示。由計算結果可知,王汀方法在溝槽與槽子、焊縫與槽子的語義相似度計算中,差值為負數,未能成功匹配。

采用本文算法得到結果如表7所示,比較3種方法的差值增加量如表8。對比可知,本文方法相對于其他兩種方法非匹配字段的差值均有所增大,字段區分更為明顯,并且能夠區分其他方法難以區分的字段。

表4 字段編碼表Table 4 Field coding table

表5 田久樂方法計算結果Table 5 Calculation results of Tian's method

表6 王汀方法計算結果Table 6 Calculation results of Wang's method

表7 本文方法計算結果Table 7 Calculation results of the improved method

表8 計算結果對比Table 8 Calculation results comparison

4 結束語

管道行業數據容量已經累計到大數據級別,建立大數據庫能夠有效提高數據利用率,實現數據描述字段的自動匹配,能夠為智能化數據導入提供便利,節省人力物力。本文結合語義相似度計算算法,從內檢測字段入手,通過增加路徑權重改進現有計算方法,使其適用于管道行業。與其他方法對比證明了本文改進方法的有效性。現階段管道行業亟待建立管道大數據,字段匹配結合已有的數據對齊流程可實現多輪次數據的對齊,提高數據利用率的同時,能夠為發掘管道缺陷和風險預測奠定基礎。

猜你喜歡
語義檢測方法
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
語言與語義
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
小波變換在PCB缺陷檢測中的應用
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
認知范疇模糊與語義模糊
主站蜘蛛池模板: 亚洲无码精品在线播放| 国产精品女熟高潮视频| 国产精品污视频| 色老头综合网| 在线无码九区| 99青青青精品视频在线| 国产亚洲欧美在线专区| 欧美亚洲综合免费精品高清在线观看 | 欧美一级特黄aaaaaa在线看片| 亚洲综合香蕉| 国产成人综合网| 在线综合亚洲欧美网站| 91精品久久久久久无码人妻| 巨熟乳波霸若妻中文观看免费| 亚洲天堂久久| 国产精品久久久久鬼色| 欧美精品色视频| 91在线一9|永久视频在线| 国产h视频在线观看视频| 免费啪啪网址| 日本一区中文字幕最新在线| 国产精品欧美在线观看| 国产精品自拍露脸视频| 欧美劲爆第一页| 国产亚洲欧美在线人成aaaa| 孕妇高潮太爽了在线观看免费| 亚洲天堂网2014| 日本影院一区| 日本精品影院| 久久精品国产在热久久2019| 亚洲国产成人精品无码区性色| 伊人福利视频| 国产福利在线免费| 国产精品无码在线看| 亚洲婷婷在线视频| 日本欧美视频在线观看| 色综合中文字幕| 91精品啪在线观看国产60岁 | 伊人久久大香线蕉成人综合网| 欧美在线一二区| a级毛片免费播放| 日本黄色不卡视频| 国产精品女主播| 亚洲国产精品无码AV| 国产爽歪歪免费视频在线观看 | 国产精品xxx| igao国产精品| 高潮毛片免费观看| 国产欧美精品专区一区二区| 婷婷六月综合| 在线国产资源| 亚洲熟女中文字幕男人总站| 欧美三级日韩三级| 九九免费观看全部免费视频| 精品国产电影久久九九| 91精品国产自产91精品资源| 国产精品片在线观看手机版| 久久久久亚洲Av片无码观看| 91亚瑟视频| 在线亚洲天堂| 免费看黄片一区二区三区| 一区二区偷拍美女撒尿视频| 韩国v欧美v亚洲v日本v| AV不卡在线永久免费观看| 日本精品影院| 谁有在线观看日韩亚洲最新视频| 国产欧美在线观看视频| 激情無極限的亚洲一区免费| 久久免费看片| 福利一区三区| 久久精品国产免费观看频道| 亚洲aⅴ天堂| 国产精品女同一区三区五区| 欧美成a人片在线观看| 国产亚洲现在一区二区中文| 91午夜福利在线观看精品| 一级全免费视频播放| 日本成人一区| 久久99热66这里只有精品一| 亚洲精品亚洲人成在线| 国产精品林美惠子在线观看| 久久国产亚洲欧美日韩精品|