999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于BERT模型的領(lǐng)域知識(shí)圖譜構(gòu)建研究

2023-01-06 09:56:18郭偉鵬沈松雨
科技創(chuàng)新與應(yīng)用 2022年36期
關(guān)鍵詞:模型

郭偉鵬,沈松雨

(1.廣州城市信息研究所有限公司,廣州 510665;2.公安部第三研究所,上海 200031)

2012年5月17日,谷歌公司(Google Inc.)首次提出知識(shí)圖譜(Knowledge Graph,KG)的概念,旨在描述客觀世界的概念(Concept)、實(shí)體(Entity)、事件(Event)及其之間的關(guān)系(Relation),作為構(gòu)建下一代智能化搜索引擎的核心能力。知識(shí)圖譜的本質(zhì)是一種大規(guī)模的語(yǔ)義網(wǎng)絡(luò)。知識(shí)圖譜作為新興的人工智能技術(shù),可以有效地挖掘和分析知識(shí)實(shí)體間的相互聯(lián)系,從而促進(jìn)知識(shí)的交叉融合[1]。在一個(gè)成熟的面向特定領(lǐng)域的知識(shí)圖譜中,通常存儲(chǔ)數(shù)十億條實(shí)體,數(shù)百億條實(shí)體與實(shí)體之間的關(guān)系。基于領(lǐng)域知識(shí)圖譜,無論用戶輸入該領(lǐng)域相關(guān)何種關(guān)鍵字,知識(shí)圖譜均能呈現(xiàn)與該關(guān)鍵字密切相關(guān)的實(shí)體及關(guān)系。例如,騰訊公司(Tencent)基于社交數(shù)據(jù)構(gòu)建了社交網(wǎng)絡(luò)空間,將社交網(wǎng)絡(luò)轉(zhuǎn)換為知識(shí)圖譜[2]。該圖譜在人與人之間、人與群體之間及群體與群體之間構(gòu)建出復(fù)雜的關(guān)系網(wǎng)絡(luò),通過某個(gè)人的屬性信息,便能夠快速找出所在學(xué)校和社區(qū)相關(guān)人員的關(guān)鍵信息,并研發(fā)出關(guān)系推薦系統(tǒng),如通過相同好友、地理位置(Geographical Location)或者同群組等關(guān)系,推薦出可能認(rèn)識(shí)的人。

隨著信息技術(shù)的快速發(fā)展,當(dāng)今世界步入信息爆發(fā)性增長(zhǎng)的時(shí)代[3],社會(huì)治理工作更依賴于大規(guī)模信息檢索與分析技術(shù)。目前諸多單位已經(jīng)積累了大量的具有位置屬性的網(wǎng)格事件數(shù)據(jù)資源。研究表明,80%的人類活動(dòng)信息與地理位置有關(guān)。這些重要的網(wǎng)格事件數(shù)據(jù)資源普遍具有海量、多源及異構(gòu)的特點(diǎn)。為整合這些異構(gòu)環(huán)境下的海量數(shù)據(jù)資源,提高數(shù)據(jù)價(jià)值密度,迫切需要構(gòu)建基于位置數(shù)據(jù)的網(wǎng)格事件領(lǐng)域知識(shí)圖譜,以滿足大數(shù)據(jù)環(huán)境下的地址搜索、事件關(guān)聯(lián)及網(wǎng)格員調(diào)度推薦等各類的業(yè)務(wù)需求。基于位置的網(wǎng)格事件數(shù)據(jù),如何構(gòu)建價(jià)值密度較高、知識(shí)較為豐富的網(wǎng)格事件領(lǐng)域知識(shí)圖譜成為一個(gè)難點(diǎn)。

自然語(yǔ)言處理(Natural Language Processing,NLP)是人工智能的核心技術(shù)[4],實(shí)體關(guān)系提取和語(yǔ)義分析均屬于典型的自然語(yǔ)言處理工作。作為人工智能領(lǐng)域重要的研究方向之一,已經(jīng)出現(xiàn)諸多自然語(yǔ)言處理方法和模型。同時(shí),隨著機(jī)器學(xué)習(xí)模型算法在各領(lǐng)域的廣泛應(yīng)用,自然語(yǔ)言處理算法顯然已從以規(guī)則為核心逐步發(fā)展為以統(tǒng)計(jì)為核心,并且以統(tǒng)計(jì)為核心的自然語(yǔ)言處理算法已深入應(yīng)用在命名實(shí)體識(shí)別、實(shí)體關(guān)系提取等典型的自然語(yǔ)言處理工作中。然而,目前常用的自然語(yǔ)言處理算法如CRF條件隨機(jī)場(chǎng)、BILSTM雙端長(zhǎng)短記憶門等,通常需要大量的人工標(biāo)注樣本作基礎(chǔ)支撐,而這項(xiàng)標(biāo)注樣本工作耗時(shí)比較多,這顯然增加了語(yǔ)料生產(chǎn)的人工成本,影響了自然語(yǔ)言處理算法實(shí)現(xiàn)的經(jīng)濟(jì)可行性。

為解決網(wǎng)格事件領(lǐng)域知識(shí)圖譜構(gòu)建過程中標(biāo)注成本高昂的問題,本文將采用BERT(Bidirectional Encoder Representation from Transformers)雙向轉(zhuǎn)換的編碼器遷移學(xué)習(xí)算法模型。BERT模型基于Transoform深度學(xué)習(xí)架構(gòu),采用注意力機(jī)制實(shí)現(xiàn),BERT模型作為預(yù)訓(xùn)練模型的典型被廣泛關(guān)注[5]。BERT模型的核心思想是使用大體量廉價(jià)的非標(biāo)注語(yǔ)料進(jìn)行預(yù)訓(xùn)練(Pre training),實(shí)現(xiàn)具有特定領(lǐng)域特征的文本分布式表示的預(yù)訓(xùn)練模型;基于該預(yù)訓(xùn)練模型,僅用少量人工標(biāo)注作輔助語(yǔ)料,便可對(duì)預(yù)訓(xùn)練模型進(jìn)行微調(diào),進(jìn)而可解決領(lǐng)域業(yè)務(wù)問題解答的算法模型。本文的研究表明,在網(wǎng)格事件領(lǐng)域,基于BERT預(yù)訓(xùn)練模型在模型訓(xùn)練的準(zhǔn)確率方面表現(xiàn)良好。

1 研究方法

1.1 總體思路

基于多層雙向轉(zhuǎn)換編碼的BERT模型是一種新型的語(yǔ)言處理技術(shù),該模型通過對(duì)每一層的雙向轉(zhuǎn)化器調(diào)節(jié)進(jìn)行預(yù)訓(xùn)練。BERT模型的出現(xiàn)是自然語(yǔ)言處理領(lǐng)域的一次重大進(jìn)步,其顯著改變了預(yù)訓(xùn)練過程中詞向量和下游具體自然語(yǔ)言處理任務(wù)之間的關(guān)系。該模型分2個(gè)階段,第一階段進(jìn)行模型預(yù)訓(xùn)練,即采用大體量非標(biāo)注語(yǔ)料作預(yù)訓(xùn)練,獲得文本分布式表示,其結(jié)果和上下文緊密關(guān)聯(lián);第二階段進(jìn)行模型微調(diào)(Fine Tuning),即使用訓(xùn)練好的模型遷移學(xué)習(xí)到下游的訓(xùn)練任務(wù),并采用有標(biāo)注的訓(xùn)練樣本對(duì)其進(jìn)行模型微調(diào),進(jìn)而獲得特定領(lǐng)域的知識(shí),減少訓(xùn)練時(shí)資源、時(shí)間等方面消耗。BERT模型典型體系結(jié)構(gòu)如圖1所示。

圖1 BERT模型典型體系結(jié)構(gòu)

1.2 預(yù)訓(xùn)練

本文采用廣東省信息點(diǎn)數(shù)據(jù)、廣東省地址數(shù)據(jù)、廣東省某轄區(qū)網(wǎng)格事件數(shù)據(jù)構(gòu)建BERT預(yù)訓(xùn)練模型,一方面可以有效降低網(wǎng)格事件領(lǐng)域知識(shí)圖譜構(gòu)建過程中,自然語(yǔ)言處理模型人工語(yǔ)料標(biāo)注成本較高問題,另一方面有助于該模型有效推廣到社會(huì)治理領(lǐng)域的自然語(yǔ)言處理各種任務(wù)中。

訓(xùn)練過程中采用屏蔽語(yǔ)言模型(Masked Language Model)訓(xùn)練方法,即隨機(jī)屏蔽(masked)輸入部分表征(token),在文本段中隨機(jī)選擇12%的詞匯用于預(yù)測(cè)。被屏蔽的詞匯中70%使用特殊符號(hào)[MASKED]替換,15%采用隨機(jī)詞替換,剩余15%保持詞匯不變。訓(xùn)練模型依托上下文信息對(duì)被屏蔽的詞匯進(jìn)行預(yù)測(cè),進(jìn)而使模型可以理解詞語(yǔ)的表征,并進(jìn)行糾錯(cuò)工作。具體操作過程見表1。

表1 訓(xùn)練過程說明

1.3 命名實(shí)體識(shí)別

在社會(huì)治理網(wǎng)格事件領(lǐng)域,實(shí)體關(guān)系信息蘊(yùn)含于多源異構(gòu)數(shù)據(jù)中。依據(jù)網(wǎng)格事件管理和決策業(yè)務(wù)需要,在大體量文本數(shù)據(jù)中進(jìn)行實(shí)體與關(guān)系提取,形成用于構(gòu)建網(wǎng)格事件領(lǐng)域知識(shí)圖譜的三元組(實(shí)體,關(guān)系,實(shí)體),為社區(qū)治理中關(guān)系查詢業(yè)務(wù)提供數(shù)據(jù)支撐。

構(gòu)建實(shí)體識(shí)別模型,需要在訓(xùn)練好的BERT模型末端補(bǔ)充前向網(wǎng)神經(jīng)網(wǎng)絡(luò)層,采用Adam算法優(yōu)化器,并結(jié)合交叉熵?fù)p失函數(shù)對(duì)模型參數(shù)進(jìn)行局部微調(diào)。基于BERT的命名實(shí)體識(shí)別模型結(jié)構(gòu)如圖2所示。

圖2 命名實(shí)體識(shí)別

1.4 實(shí)體關(guān)系識(shí)別

在文本關(guān)系提取的業(yè)務(wù)中,重點(diǎn)關(guān)注網(wǎng)格事件和位置信息密切相關(guān)的實(shí)體,如人(PERSON)實(shí)體、地址(ADDRESS)實(shí)體、事件(EVENT)實(shí)體、物品(GOODS)實(shí)體和車(CAR)實(shí)體等。實(shí)體之間的關(guān)系包含:居住(LIVE)、發(fā)生(HAPPEN)、擁有(OWN)、丟失(LOST)、落腳(STAY)、歸屬(BELONG)和提交(APPLY)等。在精調(diào)BERT模型過程中,每回合隨機(jī)抽取小批量人工標(biāo)注的語(yǔ)料進(jìn)行模型訓(xùn)練,對(duì)模型參數(shù)進(jìn)行微調(diào)。實(shí)體關(guān)系識(shí)別如圖3所示。

圖3 實(shí)體關(guān)系識(shí)別

1.5 知識(shí)圖譜構(gòu)建過程

對(duì)本文數(shù)據(jù)進(jìn)行基于BERT模型算法的預(yù)訓(xùn)練,預(yù)訓(xùn)練過程使用人工標(biāo)注語(yǔ)料精調(diào)后,提取一個(gè)實(shí)體、關(guān)系并進(jìn)行語(yǔ)義解析,形成實(shí)體—關(guān)系—實(shí)體三元組,定期三元組數(shù)據(jù)持久化到圖數(shù)據(jù)庫(kù)(Neo4j)中,開發(fā)面向?qū)嶓w、關(guān)系的圖譜檢索服務(wù),便可對(duì)網(wǎng)格事件管理起到?jīng)Q策支持作用。本文采用的領(lǐng)域知識(shí)圖譜構(gòu)建過程如圖4所示。

圖4 領(lǐng)域知識(shí)圖譜構(gòu)建

1.6 實(shí)驗(yàn)

1.6.1 實(shí)驗(yàn)環(huán)境

本研究的實(shí)驗(yàn)環(huán)境見表2。

表2 實(shí)驗(yàn)環(huán)境

1.6.2 實(shí)驗(yàn)結(jié)果

本研究實(shí)驗(yàn)結(jié)果見表3。

表3 實(shí)驗(yàn)結(jié)果

1.6.3 網(wǎng)格事件知識(shí)圖譜示例

本研究構(gòu)建的面向用于社會(huì)治理的網(wǎng)格事件領(lǐng)域知識(shí)圖譜示例中共包含6種實(shí)體,12種關(guān)系。實(shí)體包括人員(PERSON)實(shí)體、地址(ADDRESS)實(shí)體、事件(EVENT)實(shí)體、物品(GOODS)、車輛(CAR)及電話(phone);關(guān)系包括居住(LIVE)、發(fā)生(HAPPEN)、擁有(OWN)、丟失(LOST)、落腳(STAY)、歸屬(BELONG)、提交(APPLY)、關(guān)聯(lián)(LINK)、同住(COHABIT)、同行(PEER)、親屬(RELATIVES)及密接(TIGHT JOINT)。本文實(shí)驗(yàn)結(jié)果部分成果示例如圖5所示。

圖5 領(lǐng)域知識(shí)圖譜成果示例(查詢車,深度3)

2 結(jié)論

實(shí)驗(yàn)結(jié)果表明,本文面向社會(huì)治理層面的網(wǎng)格事件管理,本文提出基于預(yù)訓(xùn)練模型(Bidirectional Encoder Representations from Transformers,BERT)的命名實(shí)體識(shí)別方法[6]和領(lǐng)域知識(shí)圖譜構(gòu)建技術(shù),在實(shí)體提取、關(guān)系提取等自然語(yǔ)言處理(NLP)任務(wù)中可獲得良好的效果,基于圖數(shù)據(jù)庫(kù)存儲(chǔ)在關(guān)系存儲(chǔ)和表達(dá)方面也更為直觀。該模型在區(qū)別于訓(xùn)練樣本格式的文本數(shù)據(jù)處理中同樣獲得較好的識(shí)別支持率,具備較強(qiáng)的社會(huì)治理賦能領(lǐng)域進(jìn)一步泛化賦能。

猜你喜歡
模型
一半模型
一種去中心化的域名服務(wù)本地化模型
適用于BDS-3 PPP的隨機(jī)模型
提煉模型 突破難點(diǎn)
函數(shù)模型及應(yīng)用
p150Glued在帕金森病模型中的表達(dá)及分布
函數(shù)模型及應(yīng)用
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 日本久久久久久免费网络| 精品人妻一区无码视频| 国产日韩欧美精品区性色| 久久久久国产一级毛片高清板| 五月婷婷精品| 久久伊人操| 亚洲精品波多野结衣| 中文字幕 91| 妇女自拍偷自拍亚洲精品| 欧美一级在线看| 波多野结衣无码视频在线观看| 国产主播在线一区| 国产精品久久久久久久久| 国产黄色片在线看| 成年片色大黄全免费网站久久| 欧美国产中文| 亚洲国产91人成在线| 99精品这里只有精品高清视频| 毛片免费网址| 亚洲狼网站狼狼鲁亚洲下载| 久久久噜噜噜| 91外围女在线观看| 97在线免费视频| 自拍欧美亚洲| 欧美激情第一欧美在线| 老司机精品久久| 亚洲精品天堂自在久久77| 国产亚洲男人的天堂在线观看| 乱人伦中文视频在线观看免费| hezyo加勒比一区二区三区| 欧美伊人色综合久久天天| 亚洲综合婷婷激情| 国产精品亚洲αv天堂无码| 国产凹凸视频在线观看| 欧美一区二区三区香蕉视| 日韩av资源在线| 国产对白刺激真实精品91| 91成人在线免费视频| 19国产精品麻豆免费观看| 久青草网站| 99人妻碰碰碰久久久久禁片| 亚洲va在线观看| 亚洲中文制服丝袜欧美精品| 欧洲欧美人成免费全部视频| 亚洲精品男人天堂| 先锋资源久久| 无码国产伊人| 成年女人a毛片免费视频| 91久久偷偷做嫩草影院精品| 亚洲综合色区在线播放2019| 青青青草国产| 喷潮白浆直流在线播放| 欧美第一页在线| 欧美人人干| 亚洲一区网站| 日本a∨在线观看| 精品视频一区二区观看| 激情亚洲天堂| 97se亚洲综合| 在线色国产| 日韩国产综合精选| 国产福利大秀91| 在线观看热码亚洲av每日更新| 91系列在线观看| 国产精品中文免费福利| 久久国产高潮流白浆免费观看| 欧美精品成人一区二区在线观看| 欧美日韩另类国产| 天堂成人av| 午夜福利网址| 视频二区亚洲精品| 国产精品xxx| 19国产精品麻豆免费观看| 国产精品蜜芽在线观看| 99精品高清在线播放| 国产免费福利网站| 亚洲AV成人一区二区三区AV| 久久91精品牛牛| 一级成人a毛片免费播放| 亚洲欧美日韩久久精品| 日本午夜在线视频| 国产毛片一区|