999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

化妝品風險物質知識圖譜構建及應用

2023-12-20 02:27:18毛典輝張青川呂東東劉一銘陳俊華
計算機工程與設計 2023年12期
關鍵詞:語言模型

趙 敏,毛典輝+,張青川,呂東東,劉一銘,陳俊華

(1.北京工商大學 國家藥品監督管理局化妝品監管科學研究基地,北京 100048; 2.北京工商大學 計算機學院 食品安全大數據技術北京重點實驗室,北京 100048; 3.中國標準化研究院 標準化理論與戰略研究所,北京 100088)

0 引 言

近年來,化妝品安全問題日益成為公眾和監管部門的關注熱點,一些不法企業在化妝品生產過程中通過專業人士修飾化妝品成分的化學結構,合成新的非法添加物;甚至在化妝品中添加安全技術規范及國標均沒有檢測方法的成分或者化妝品禁用組分表之外的藥物[1],造成一系列化妝品安全事件。因此要加強對非法添加及未知風險物質的篩查力度,通過知識圖譜將化妝品風險物質及其包含信息連接形成一個關系網絡,便于從多方面了解化妝品中非法添加禁用物質、超限量使用限用組分、帶入污染物質和衍生性效應物質等風險情況,逐步形成基于化妝品風險物質知識圖譜的監管輔助分析手段[2]。

針對國內化妝品風險物質大數據監管不力的現狀,本文將知識圖譜的相關技術與該領域相結合,促進我國化妝品監管工作與國際進一步接軌。在數據預處理階段,針對標準文件中化妝品風險物質經OCR轉換出現識別錯誤的問題,提出一種基于貝葉斯定理的數據糾錯方法;為了對化妝品風險物質進行系統劃分,設計化妝品風險物質本體規則,并將實體和關系根據規則以三元組形式表示;在跨語言實體對齊階段,針對不同標準文件中語義相似的化妝品風險物質,提出雙通道圖神經網絡注意力機制編碼方法,學習實體屬性特征和跨域交互特性,結合鄰域匹配網絡聚合實體鄰域特征,進行多元異構數據融合,最終實現跨語言化妝品風險物質實體對齊;在可視化應用階段,完成基于化妝品風險物質的問答系統,為今后化妝品風險物質監管工作提供數據基礎與決策參考。

1 相關工作

知識圖譜自Google公司提出以來,在數據連通以及場景建模等方面做出了突出貢獻[3,4]。因此,借助自然語言處理相關技術將現有的國內外相關標準組織起來形成一個知識圖譜也必將實現化妝品風險物質間數據共享[5,6]。目前暫沒有化妝品領域的知識圖譜,相關領域知識圖譜的出現為化妝品風險物質知識圖譜的構建提供了參考。如DrugBank[7]和Acemap[8]領域知識圖譜分別掌握了面向生物醫學領域以及學術領域的行業數據,并采用自頂向下和自底向上兩種方式相結合的方式,實現了構建過程的半自動化[9]。XLORE2[10]的出現為跨語言風險物質知識圖譜的構建提供了范例,其采用跨語言知識鏈接[11]方法在不同語言的等價實例之間尋找更多的跨語言鏈接,并采用細粒度類型推斷[12]方法在沒有類型信息的情況下為這些實例分配特定類型。該策略通過完善屬性知識[13],揭示了更多的事實,在很大程度上解決了語言失衡的障礙。當前化妝品風險物質存在于不同語言標準文件中,知識圖譜構建需從已有的中外化妝品衛生標準文件中提取出相關的實體、屬性、關系等要素[14],并將這些要素組成三元組關系用于不同語言知識圖譜的構建[15],通過跨語言實體對齊將多語言知識圖譜進行連接和融合[16],最終形成新的知識圖譜。

跨語言實體對齊是多語言知識圖譜構建的核心,可以將來自具有不同表面形式或不同鄰域結構知識圖譜(KGs)的實體對齊到相同身份[17,18]。現有的跨語言實體對齊的方法主要依賴于跨語言鏈接和三元組結構編碼實體[19,20]。基于機器翻譯的方法以Fu等[21]提出的跨語言實體對齊的通用框架為代表,在實體對齊的過程中將不同語言的實體翻譯成其中的一種語言[22],然后使用單語言對齊方法來找到對齊實體對。Xu等[23]提出了一種跨語言KG對齊任務,即自動匹配多語言KG中的實體[24],解決了諸如Dbpedia和Yago等多語言知識圖譜雖然擁有編碼豐富的單語言知識,但無法將不同知識圖譜中語義相似的實體進行關聯的問題[25,26]。由于圖神經網絡(GNN)具有編碼圖結構信息的能力,使用圖神經網絡能夠對知識圖結構信息進行嵌入[27,28],因此在自然語言處理領域的研究中也得到越來越廣泛的應用。Dai等[29]提出隨機穩態圖神經網絡迭代算法,對于每個擁有不同數量鄰居節點的節點,在每次卷積迭代過程中利用雙向權重矩陣更新節點的特征表示。GNN有圖卷積神經網絡(GCN)、關系圖卷積神經網絡(R-GCN)、圖注意力網絡(GAT)的一系列變體。其中,GCN能高效結合實體鄰接節點信息來學習知識圖譜的結構信息,對知識圖譜進行編碼,因此也被高效應用于跨語言實體對齊中。Cao等[30]提出了一種新的多通道圖神經網絡模型(MuGNN)來學習面向對齊的知識圖譜嵌入,通過多個通道對兩個KGs進行魯棒編碼。Sun等[31,32]提出了AliNet模型,引入了遙遠的鄰居,擴大了鄰居結構之間的重疊,解決由非同構鄰域結構造成的GNN產生不同的表示形式的問題。Wu等[33]在此基礎上將模型進行改進,提出了鄰域匹配網絡(NMN),只使用少量的預對齊實體作為訓練數據,選擇信息量最大的鄰居進行實體對齊,通過對鄰居節點進行采樣,從而解決結構異構問題。

2 化妝品風險物質知識圖譜構建框架

化妝品風險物質是指由化妝品原料和生產過程中產生或帶入的,可能對人體健康造成潛在危害的物質。由于尚未開源的風險物質語料庫,考慮數據的代表性以及普遍性,本文以我國國家標準《GB7916-87化妝品衛生標準》和歐盟化妝品法規《regulation(EC)No 12232009》為例開展相關工作。使用CHN表示國家化妝品衛生標準數據集,EC表示歐盟化妝品法規數據集。化妝品風險物質知識圖譜的構建主要包括化妝品風險物質知識圖譜數據預處理、跨語言實體對齊、知識存儲及可視化應用等環節,其體系架構如圖1所示。

圖1 化妝品風險物質知識圖譜的體系架構

(1)化妝品風險物質知識圖譜數據預處理:首先通過OCR轉換技術將不同中英標準文件進行轉換,由于OCR轉換文件并不規范,在實體對齊階段也給工作帶來一定的難度,因此將轉換后的化妝品風險物質英文名稱通過貝葉斯網絡模型糾正為語料庫中正確英文名稱來提高實體對齊階段的效果,解決不同文件中同一風險物質的不匹配問題。并通過對結構化文本的整理,首先將表映射為類;然后將表中的列映射為屬性;接著將表中每一行映射為一個資源或實體;最后將表中每個單元格的值映射為一個文字值。

(2)跨語言實體對齊:首先將衛生標準文件中的名稱、屬性等信息進行關系的定義將其表示為三元組的形式生成數據集并存儲在neo4j數據庫中,接著通過雙通道圖神經網絡注意力機制學習實體屬性特征和跨域交互特性對圖譜實體進行嵌入,然后對每個實體的鄰域進行選擇性采樣,以保持對實體對齊信息量的最大鄰域,利用交叉圖注意機制共同計算采樣子圖對之間的鄰居差異,整合鄰居連接信息和鄰居關聯信息,最終通過鄰域匹配網絡模型將兩個來自不同語言標準文件的知識圖譜通過跨語言實體對齊進行知識融合。

(3)知識存儲及可視化應用:在上述工作基礎上,基于所構建的化妝品風險物質知識圖譜,以智能問答的形式實現基于知識圖譜的智能應用,因此可根據不同產品的檢測要求,判斷產品是否合格,達到對進出口化妝品原料進行監管的目的。

3 化妝品風險物質知識圖譜數據預處理

3.1 基于貝葉斯定理的物質名詞糾錯算法

由于本文處理的多語言標準文件均為掃描件,需要通過OCR文字識別、機器糾錯與人工校對等技術對文件進行處理[34,35],得到實驗所用的格式化數據。OCR識別技術對中英文標點符號的識別率較低,以1,3-雙(羥甲基)-5,5-二甲基咪唆噂-2,4-二酮為例,其在GB 7916—1987和regulation(EC)No 12232009的原文件中的表達分別為1,3-bis(hydroxym-ethyl)-5,5-dimethylim-idazolidine-2,4-dione和1.3-bis(hydroxymethyl)-5,5-dimethylimidazolidine-2,4-dione,第一種的錯誤之處為多余兩個“-”,第二種的錯誤為“,”被識別為“.”,因此需要對其進行糾錯。目前文本糾錯大多基于N-gram語言模型,由于本文數據存在大量的專業名稱和化學公式,使用N-gram語言模型存在效果較差并且耗時較長的現象,因此設計了基于貝葉斯定理的糾錯方法。根據風險物質的錯誤名稱,在INCI(國際化妝品原料標準中文名稱目錄)中查找該風險物質的正確表示,找出編輯距離最小概率最大的作為糾正后的結果[36,37]

其成功查找的概率預測函數定義為式(1)

argmaxcP(c|w)

(1)

按照貝葉斯理論式(1)等價于式(2)

argmaxcP(w|c)·P(c)/P(w)

(2)

由于在各標準文件中物質名稱出現的概率P(w)與此無關,因此可將其忽略,式(2)可以寫為式(3)

argmaxcP(w|c)·P(c)

(3)

其中,先驗概率P(c)表示在標準文件中出現格式正確的風險物質英文名稱的概率,w表示各標準文件中的風險物質英文名稱,c表示INCI中的風險物質英文名稱,argmaxc用來枚舉所有可能出現且出現概率最大的。

3.2 本體規則設計

本體規則的構建是化妝品風險物質知識圖譜形成的核心工作之一。在實驗中,通過對化妝品衛生標準文件的研究從中選取風險物質信息,設計化妝品風險物質的實體類型和關系模型,從而構建“實體-關系-實體”三元組,實體設計見表2,關系設計見表3。

表1 實體糾錯結果

由于EC和CHN中都是結構化數據,通過設計實體類型和關系類型進行知識抽取。首先將實體類型按行展開,將糾錯之后的數據依據不同實體類型進行劃分,表的每一行代表一個實體的信息,表的每一列為實體的屬性;最后將每一行根據關系類型產生一組具有共同主語的三元組。最終從國家化妝品衛生標準(CHN)中抽取到2007個實體并組成2961個三元組,從歐盟化妝品法規(EC)中抽取到5275個實體并組成了7091個三元組,經結構化知識抽取后的實體和三元組的數量如表4內容所示。

表2 化妝品衛生標準知識圖譜實體設計

表3 化妝品風險物質知識圖譜關系設計

表4 實驗數據說明

4 基于圖神經網絡的實體對齊模型

知識圖譜本質上是一種基于圖數據結構的語義網絡,其以圖的方式存儲知識。GCN是處理圖結構數據的一種神經網絡模型,可根據鄰居節點來增強節點自身的特征,并通過建模結構特征來增強實體嵌入,其主要思想類似于傳播模型。GCN模型會根據兩個KGs的屬性數量分別輸入不同維度的屬性特征向量,將當前層節點表示的隱藏狀態作為輸入,并計算新的節點表示。GCN最終輸出的實體嵌入將進一步用于實體對齊工作。針對不同標準文件中同語義化妝品風險物質結構具有異構性的特點,通過圖神經網絡學習節點及跨域特征,采用鄰域匹配方法比較不同KGs中實體間鄰域的相似性,實現化妝品風險物質實體對齊。

4.1 基于雙通道GCN編碼的鄰域匹配算法

將知識圖譜定義為G=(E,R,T), 其中,E,R,T分別用來表示實體集合、關系以及三元組,根據國家化妝品衛生標準和歐盟化妝品法規構建的知識圖譜如圖2所示,分別表示為G1和G2。通過不同的圖神經網絡通道為KG編碼,根據注意力機制關系加權方案對KG特征建模,利用池化技術結合對應的通道輸出特征。最后采用鄰域匹配方法聚合實體的高階鄰近結構信息,通過測量G1和G2中候選實體對e1、e2之間的距離進行實體對齊,最終找到知識圖譜G1和G2之間的等價實體并進行融合。

圖2 化妝品風險物質知識圖譜

4.1.1 知識圖譜結構編碼

將圖譜G1=(E1,R1,T1)和G2=(E2,R2,T2) 通過不同通道的GCN進行編碼,每個通道通過計算節點的特征對當前節點的影響來為每個實體關系分配權重,從而調解知識圖譜之間的結構差異性,并為每個KG生成兩個鄰接矩陣:基于自注意力的T1和基于結構注意力的T2。

基于自注意力的T1:根據KG的自身結構充分利用對齊的種子,為當前節點選擇關聯性高的節點設置高權值。T1中的元素定義為式(4)

(4)

式中:ek∈Nei∪ei指加上自循環ei的鄰居,ci,j是度量鄰居的重要性的注意力系數,計算方式如式(5)

cij=atten(wei,wej)=LeakyRelu(p[wei‖wej])

(5)

式中:‖表示向量連接,w和p是可訓練的參數。

基于結構注意力的T2:建模兩個KG的公共子圖作為結構特征以達到建模一致性,為沒有對應關系的節點設置低的權重,T2中的元素定義為式(6)

aij=maxr∈R,r′∈R′1((ei,r,ej)∈T)sim(r,r′)

(6)

式中:1(·)表示如果存在就為1,不存在就為0。sim(·)是關系類型間的相似性度量,定義為關系的內積。

利用上面兩種通道編碼對KG進行編碼,最后用池化方程對它們進行聚合,如式(7)

Pooling(GNN(Ai,Hl,Wi))

(7)

式中:Ai是通道i中的鄰接矩陣,Hl隨機實體嵌入,Wi是第i個通道的加權參數。多通道GCN編碼器編碼每個KG時,每個通道中的參數在兩個KG中共享。

4.1.2 鄰域匹配

GCN學習了實體的鄰域結構以及實體語義信息,模型將會取樣出現頻率最高且更具代表性的實體,為每個實體構造一個鄰域判別子圖。之后,將圖譜E1中的實體ei的抽樣實體子圖與在E2中的每個候選實體ej的子圖進行比較,通過計算子圖相似度,選定將要對齊的實體。設(ei,cik)是一個待測量的實體對,其中ei∈E1且cik∈E2是ei中的一個候選對,p和q分別是ej和cik的兩個鄰居。鄰居p的交叉圖匹配向量能被計算為式(8)、式(9)

(8)

(9)

4.2 實體對齊

由于雙通道GCN編碼的輸出為鄰域匹配階段的輸入,因此,需要對GCN的知識圖譜嵌入模型進行預訓練,以此來生成實體表示,通過式(10)測量兩個實體間的距離來判斷它們是否對齊

(10)

以化妝品風險物質中的“過氧化氫”為例,其進行實體對齊的過程如圖3所示。如KG1中的“限用物質”與KG2中的“restricted substances”這兩個實體之間的距離最短,證明它們屬于現實世界中的同一實體。經過實體匹配之后進行實體鄰域聚合,將中文知識圖中某一實體沒有的屬性進行補充。以化妝品風險物質中的“過氧化氫”為例,對齊后的結果如圖4所示,完善了過氧化氫這一風險物質的信息。

圖4 過氧化氫鄰域聚合

4.3 模型訓練

為了使兩個知識圖譜中相同的可對齊實體在向量空間中的距離盡可能地接近,本文利用基于距離排序的損失函數(11)、函數(12)進行模型訓練

L=∑(r,t)∈L∑(r′,t′)∈Cmax{0,d(r,t)-d(r′,t′)+γ}

(11)

(12)

4.4 實驗參數設置及評判標準

在通道編碼過程中,使用2層的GCN網絡模型,其中隱藏層的維度為300,用于表示每個詞向量的最大長度,使用AdaGrad作為優化器,學習率為0.001,L2=0.01,dropout=0.2。在鄰域采樣階段,為每個實體采樣5個鄰居節點。在鄰域匹配階段,每個實體的候選集的大小為20。進行鄰域聚合時,鄰域表示的維度為50。

實驗使用Hits@1和Hits@10作為評估指標。Hits@k的得分是通過測量在前k位中正確對齊實體的比例來計算得到。Hits@k得分越高,表現越好。Hits@k如式(13)

(13)

4.5 跨語言實體對齊結果

為了驗證本文算法對化妝品風險物質實體對齊效果,分別與MuGNN模型、JAPE模型和GCN-Align模型進行實驗對比具體得分見表5。

表5 實體對齊結果

由表中數據可知,本文算法在化妝品風險物質數據集的Hits@10和分別比MuGNN模型、JAPE模型和GCN-Align模型上高5.3%、10.5%、8.7%,無論是Hits@1作為評價指標,還是以MRR作為評價指標,本文算法都是比其它模型化妝品風險物質數據集實體對齊效果好。

我國化妝品標準《GB7916-87 化妝品衛生標準》與歐盟化妝品法規《regulation(EC)No 12232009》中的化妝品風險物質實現實體對齊,部分化妝品風險物質結果展示見表6。知識圖譜的信息密度得到進一步增加,為我國化妝品監管提供了可靠的信息支撐。

表6 部分化妝品風險物質展示

5 基于知識圖譜的問答系統

基于語義搜索的問答系統利用Neo4j和HTTP服務構建。該系統主要采用哈工大語言技術平臺(language technology platform,LTP)實現分詞、詞性標注、命名實體識別的功能[38],通過分析用戶的問題,將問題中的化妝品名稱映射到知識圖譜中的實體,找出與實體對應的屬性,將結果與特定問題的模板進行比配,將其轉換為Cypher查詢語句提供給服務器,最后將結果顯示在web界面上。問答系統數據存儲頁面展示如圖5所示。

圖5 數據存儲可視化結果

5.1 數據管理

本文選用Neo4j數據庫存儲三元組數據,Neo4j是一個高性能的NoSQL圖形數據庫,能夠將結構化數據以圖的形式存儲在網絡中,是一個基于磁盤的、嵌入式的、具備完全事務特性的Java持久化引擎。通過Cypher語句能夠實現對Neo4j數據庫的操作,Cypher語句構建的數據庫,實體和關系都能擁有特定的標簽,能夠將節點和關系進行分類,為應用程序通過程序接口(API)訪問知識庫提供了便利。數據流程如圖6所示。

5.2 知識庫問答

本文對用戶提出的問題進行分析,提取問題中的關鍵信息。關鍵信息的結構用于判斷用戶問題的類型,并將其抽象到不同的模板中生成Cypher查詢,例如:

(1)只查詢單個物質,如‘間苯二酚’Cypher命令如下

其中,s表示‘間苯二酚’,r為關系,n為屬性實體。在數據庫中查找相關內容答案,便會將對應的圖譜結構進行顯示,查詢結果如圖7所示。給出了“間苯二酚”在化妝品中可使用的最大濃度、注意事項,還給出了相關的安全標準等。

圖7 單個物質查詢結果

(2)例如查詢“‘過氧化氫’的屬性有哪些”?

查詢時根據輸入問題,通過調用LTP模型,實現分詞解析出問題中的實體,根據實體找出其所有屬性,根據對應的圖譜結構,將圖轉化為語句根據預先設置好的模板進行輸出。查詢結果和輸出內容如圖8所示。

圖8 查詢結果圖譜及查詢結果輸出

通過問答系統查詢化妝品風險物質在標準文件中的各種信息,關注進出口產品成分表中該風險物質所屬的物質類別與含量是否與我國標準規定內容所對應,為最終想要監測進出口化妝品提供的幫助。

6 結束語

針對現可搜集到的中外化妝品衛生標準文件語種各有差異、格式不相統一、內容同中有異的特點,本文提出一種基于雙通道圖神經網絡的鄰域匹配算法。針對風險物質名稱的復雜性及特殊性,通過貝葉斯網絡模型來對數據進行糾錯,利用雙通道圖神經網絡學習了豐富的實體語義特征,有效地結合了知識圖譜內的中心實體的所有相關的鄰居節點和關系信息,通過鄰域匹配網絡進一步增強了實體對齊效果。在風險物質數據集上驗證了方法的有效應和可行性,解決了其它方法面對異構數據實體對齊效果差的問題。為知識圖譜應用于化妝品監管領域提供了新方法,為化妝品監管提供了新思路,也為今后的工作拓展了新方向。

猜你喜歡
語言模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
語言是刀
文苑(2020年4期)2020-05-30 12:35:30
讓語言描寫搖曳多姿
多向度交往對語言磨蝕的補正之道
累積動態分析下的同聲傳譯語言壓縮
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
我有我語言
主站蜘蛛池模板: 亚洲精品桃花岛av在线| 成人国产精品2021| 女人天堂av免费| 国产成人高清精品免费5388| 57pao国产成视频免费播放| 色135综合网| 亚洲国产欧美国产综合久久 | 免费看美女自慰的网站| 亚洲av中文无码乱人伦在线r| 91精品情国产情侣高潮对白蜜| 亚洲一区二区成人| 亚洲色精品国产一区二区三区| 老色鬼欧美精品| 不卡视频国产| 东京热高清无码精品| 国产一级二级在线观看| 国产一在线| 国产鲁鲁视频在线观看| 国产一区成人| 伊人91在线| 97视频免费在线观看| 91亚瑟视频| 亚洲国产精品一区二区高清无码久久| 狠狠色婷婷丁香综合久久韩国| 亚洲人成网址| 强乱中文字幕在线播放不卡| 2021精品国产自在现线看| 丰满人妻一区二区三区视频| 在线观看视频一区二区| 免费观看成人久久网免费观看| 91日本在线观看亚洲精品| 无码 在线 在线| 中国精品自拍| 亚洲中文字幕国产av| 国产一区二区视频在线| 国产精品妖精视频| 狠狠色综合网| 欧美激情,国产精品| 就去色综合| 99热精品久久| 亚洲人成网站日本片| 久草青青在线视频| 免费在线国产一区二区三区精品| 伊人成人在线| 日韩欧美国产三级| 黄色网页在线播放| 2020亚洲精品无码| 亚洲综合激情另类专区| 色天堂无毒不卡| 久久久久中文字幕精品视频| 中文字幕亚洲乱码熟女1区2区| 在线国产毛片手机小视频 | 国产人人干| 无码中文字幕加勒比高清| 伊人久久影视| 亚洲无码日韩一区| 国产女人综合久久精品视| 全部毛片免费看| 国产成人亚洲精品无码电影| 久久亚洲欧美综合| 国产专区综合另类日韩一区| 在线观看欧美精品二区| 久久99国产综合精品1| 啪啪永久免费av| 午夜激情婷婷| 精品国产成人三级在线观看| 国产成人av一区二区三区| 思思99热精品在线| 日韩在线欧美在线| 欧美一级在线| 中文字幕第4页| 久久久亚洲色| 日韩黄色在线| 青青草原国产| 91在线中文| 亚洲综合久久成人AV| 日韩午夜伦| 国产精选小视频在线观看| 成人在线天堂| 国产女同自拍视频| 中文字幕一区二区人妻电影| 色婷婷在线播放|