999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于句法抽取與圖結構編碼的患者問詢意圖識別*

2021-12-01 14:17:34龔慶悅戴彩艷
計算機與數(shù)字工程 2021年11期
關鍵詞:分類特征文本

陳 燕 龔慶悅 戴彩艷

(南京中醫(yī)藥大學人工智能與信息技術學院 南京 210023)

1 引言

近年來,隨著社交媒體的出現(xiàn),挖掘文本主題的系列模型被持續(xù)更新。其中,在醫(yī)療領域,在線問診系統(tǒng)、醫(yī)療問答系統(tǒng)、診療關聯(lián)分析、臨床評價語義挖掘等醫(yī)療文本研究取得突破性進展,中西醫(yī)問詢意圖識別便是其中一項關鍵任務。現(xiàn)有的中西醫(yī)文本數(shù)據挖掘模型(例如:LSTM[1~2]、CRF[1~3]、BERT[3~5]、FCA[6]等)的研究對象多數(shù)為長文本類型,而近10年中面向短文本的模型數(shù)量驟增,采用

基于神經網絡分類模型[5,7~8]、傳統(tǒng)分類器[9~11]等主流方法,詳見表1。醫(yī)療問詢短文本研究工作難度較大,原因在于患者在線問詢過程中的單個問句一般不超過50字,沒有豐富的上下文語義信息,意圖識別中存在文本特征稀疏與主題匹配不精確兩大難點。

表1 中西醫(yī)文本的分析模型

1967年Clifton K.Meador撰寫 的《Short Text?book of Medicine》[12]中,以“醫(yī)學教科書”為例,針對與長文本相比短文本刪除了什么內容?剩余短文本內容如何處理?這兩個問題做了詳細解釋說明。由此可以歸納當前短文本意圖分類中所采用的研究技術可大致分為兩大類:1)補充關聯(lián)信息,即通過整合特征向量(例如:相關外部信息、短文本級聯(lián)等),遷移使用長文本模型,例如LDA、BERT+word2vec抽取臨床概念[13]等。2)提煉內部特征,即歸納短文本共現(xiàn)詞語或交互關聯(lián)等自身特點,例如BTM等。圖神經網絡短文本抽取模型既可以融合文本內部核心詞的屬性信息,同時整合短文本間的關聯(lián)特點,正如王永劍等[14]在2020年提出采用GNN提取文本特征,黃金杰等[15]在2021年利用DNN與關聯(lián)圖增強實體表達,胡國勇[16]在2020年提出M-GCN注意力模型訓練具有強泛化能力的特征生成模型等。圖神經網絡在編碼短文本的技術發(fā)展中,也被用來與傳統(tǒng)分類模型做對照實驗或組合模型[17~18]。

本文以中西醫(yī)在線問詢數(shù)據為研究對象,抽取問詢文本中患者所表達的真實意圖,構建SGM(Syntactic+GAE+ML),編碼部分一方面通過半監(jiān)督學習構建短文本向量的關聯(lián)句法依存樹,獲得來自同診室患者問詢語句的表達序列,克服意圖匹配不準確的難點;另一方面采用雙層圖卷積神經網絡結合機器學習分類器,克服短文本信息稀疏的難點,完成問詢短文本意圖分類工作。

2 相關工作

2.1 短文本的分類模型

短文本的特征表達技術中,常用的詞頻分析方法是BTM[19](Biterm Topic Model)模型,在捕捉短文本(例如標題[20]、問句[5]等)的主題信息環(huán)節(jié)中,增加了模擬單詞共現(xiàn)和聚合語料庫的環(huán)節(jié);新興的復雜網絡模型,則是將短語、句子、段落作為神經網絡的輸入,從而訓練得到文本的特征向量,例如BERT[21]、BiLSTM[22]、TextCNN[23]等模型。雖然較傳統(tǒng)機器學習分類器學習專業(yè)文本更優(yōu),但遷移性較差,數(shù)據預處理繁瑣。

短文本雖然內容稀疏,但仍具有中文句法結構信息,例如主語、謂語、賓語等句子主干成分。對此,在文本編碼前利用句法結構標注技術分割句子短語,同時梳理句法成分。由此,也可以解決中文文本處理存在的一詞多義問題,即同樣的詞語在不同的意圖文本中所屬的成分卻不盡相同、所關聯(lián)的短語句法關系也有差異。

2.2 圖神經網絡的文本分類模型

文本分類本質也是一種特征學習與標簽分類的任務,隨著圖神經網絡的發(fā)展,越來越多的學者在短文本分類中引入圖神經網絡技術,除了學習文本詞/短語節(jié)點特征外,也融合了短文本間關聯(lián)的相似性信息,通過構建提取文本特征信息的圖編碼網絡[24],對微博[25]、Citnet[26]、抽象意義表示圖[27~28]等數(shù)據開展了文本特征提取等相關工作,且取得較優(yōu)的結果。

在大多數(shù)的圖神經網絡中做短文本意圖分類任務時,先對圖結構數(shù)據編碼處理,融合節(jié)點特征與節(jié)點間的關聯(lián)信息后,得到各節(jié)點的特征表示,最后特征預測環(huán)節(jié)可以選擇一般的特征分類器完成。對此,在解碼環(huán)節(jié)中選擇SVM等機器學習(ML)與圖卷積神經網絡(GNN)對同一數(shù)據集進行對照實驗,分析對于訓練得到的短文本特征向量更適合采用ML與GNN二者哪種方法。

3 SGM框架

SGM將患者問詢語句轉化為短語特征網絡做分類,需要訓練兩個模型:短語抽取模型與意圖分類模型,詳見圖1。

圖1 SGM技術框架圖

3.1 短語抽取模型

短語抽取模型分兩步進行,詳見圖2。第一步,分析句子的句法結構,通過百度開源的DDPars?er模型[29]訓練獲得圖注意力模型,為每個短語打詞意標簽,從而判斷問詢語句中患者的需求(即疾病診斷、檢查、用藥、治療)。

圖2 短語抽取模型流程圖

第二步,結合中文句子結構的特點,篩選句子主干成分(即主、謂、賓),從而進一步降低訓練短文本數(shù)據的噪聲,以“想請教下醫(yī)生這個是確診了食道癌嗎”為例,展示了篩選患者問詢語句后各短語所構成的語法關系圖,詳見圖3。

圖3 患者問句核心短語的語法關系圖

3.2 意圖分類模型

傳統(tǒng)的短文本類別分類常采用BTM(Biterm Topic Model)方法,依次進行共軛先驗分布、共軛分布建模等工作。其中,第一步需要完成特征生成環(huán)節(jié),詳見圖4,其核心就是繪制類別分布的Dirichlet函數(shù)Dir(α),其中,α≥0,α數(shù)值越大,則Dir(α)函數(shù)越離散。

圖4 BTM主題分類模型

然而,在中西醫(yī)患者問句分類任務中,來自同一個診室的患者常具有相類似的意圖需求,即問詢句間的共同特征無法在特征學習中體現(xiàn)。與采用變分貝葉斯方法的BTM(詳見圖5(a))相比,基于圖結構的編碼器G(E,V)(詳見圖5(b))可以表達來自同一科室的患者間構建的關聯(lián)邊V與患者問詢句的特征向量,將句法結構篩選后的短語序列表示作為輸入節(jié)點E的屬性特征,輸出128維特征向量。

圖5 文本特征編碼模型

4 實驗

本節(jié)主要評估患者問詢意圖識別結果,比較SGM與其他方法的實驗結果,以F1值作為評價指標。

4.1 實驗配置

1)數(shù)據集

實驗數(shù)據選用患者在線問詢數(shù)據,從“好大夫在線”(https://www.haodf.com/)官方網站公開信息檢索2016年部分數(shù)據,參考網絡社區(qū)的健康主題的八大特征分布[30],選取其中的診斷和檢查、治療兩大主題并細分為“診斷類(通過描述指標、癥狀、病史等詢問的病可能性)”、“檢查類(各種確診得病的檢查或得病后的例行檢查)”、“用藥類(用藥詢問)”、“治療類(醫(yī)治咨詢)”四種數(shù)據類型,共計16597條。

每條短文本字數(shù)均小于50,按照8∶2劃分訓練集與測試集,詳見表2。實驗中解答患者問詢信息的醫(yī)生來自全國,詳見圖6,涉及科室類型(外科、婦產科等)共計25種。

表2 實驗數(shù)據劃分對照表

圖6 數(shù)據來源的地域分布圖

2)基線方法

實驗通過Pytorch+DDParser框架完成短文本圖編碼模型搭建,針對同一訓練語料開展8種不同分類器模型的訓練與測試,分別是DecisionTree、RandomForest、GBDT、AdaBoost、LR(LogisticRegres?sion)、Bayes、SVM、GCNs。

4.2 實驗結果

通過ddparse處理后的問句中,所存在的語法類型有以下14種,詳見表3。其中,能表達句子主題的內容基本均位于動賓、主謂、核心、連謂、雙賓語這五個結構關系中,匹配中文句子核心結構(主+謂+賓)。

表3 句子語法類型表

將篩選出核心短語序列的問詢語句集進行BTM主題概率分析與未篩選前進行比較,結果詳見表4。

從“貢獻率”可以發(fā)現(xiàn)篩選后數(shù)據的貢獻率分布更加均勻,最高值較未篩選低0.243%,最低值較未篩選高0.002%;從“主題詞集合”描述內容可以看出,篩選后分類的類別2(檢查類)與類別3(用藥類)分類效果良好,而其他兩類分類(診斷類、治療類)與未篩選的四個集合的特征均各有重合部分,各類別間的區(qū)分度不顯著。由此也證明了篩選環(huán)節(jié)的必要性,以及BTM無法高效編碼中西醫(yī)問句文本特征。

與直接使用機器學習方法相比,將Syntactic+GAE編碼后的問句向量輸入到機器學習中,分類結果的F1值均有不同程度得提升,最高可提升17.6%,詳見表5。

表5 SGM分類效果表

表4句子語法類型表

最后,實驗也對經過Syntactic+GAE學習后的特征向量進行雙層圖卷積神經網絡(Bi-GCNs)分類,F(xiàn)1值41.8%,效果也不如SGM。

5 結語

本文提出的SGM,通過構建兩層圖編碼器,學習短文本間關聯(lián)規(guī)律的同時,完成句法層詞特征的融合,得到128維的句子特征向量,最后使用傳統(tǒng)分類器完成意圖分類任務,該方法具有以下優(yōu)勢:1)易遷移性,即分析句子語法結構,模型研究對象可切換為各領域中文數(shù)據,均能充分提取句子特征表達;2)可拓展性,即特征分類器可采用多種特征分類模型,模型具有較好的泛化能力。

實驗過程中生成的關聯(lián)矩陣數(shù)據量超過兩千萬,在存儲、讀取等環(huán)節(jié)中存在內存溢出等問題,對此本文提出調整相關代碼或采用python的多進程技術來解決。雖然本文提出的SGM在實驗分類中F1值最優(yōu),但沒有特別高的客觀因素是,當前國內沒有含標簽的、標準公開的、醫(yī)療問詢意圖劃分數(shù)據集,關鍵的主觀因素是影響患者問詢意圖的多條因素沒有涉及,需要結合知識圖譜推理進一步提升模型性能。

本文為提高SGM實驗結果的精確度,后續(xù)將采取以下改進措施:1)深入清洗訓練集中的臟數(shù)據,加強對中西醫(yī)專業(yè)名稱的規(guī)范化處理;2)在短語抽取環(huán)節(jié)中加入知識圖譜關聯(lián)機制,增強模型文本的特征表達。

猜你喜歡
分類特征文本
分類算一算
如何表達“特征”
在808DA上文本顯示的改善
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數(shù)據分析中的分類討論
教你一招:數(shù)的分類
抓住特征巧觀察
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
主站蜘蛛池模板: 国内精品视频在线| 为你提供最新久久精品久久综合| 在线看片国产| 久久香蕉国产线| 67194成是人免费无码| 国产欧美在线观看精品一区污| 国产精品内射视频| 欧美成人怡春院在线激情| 色综合天天娱乐综合网| 欧美精品亚洲二区| 久久久久久久久亚洲精品| 午夜电影在线观看国产1区| 亚洲欧美综合另类图片小说区| 国内精品一区二区在线观看| 国产特级毛片aaaaaa| 视频二区中文无码| 国产一级裸网站| av在线5g无码天天| 免费av一区二区三区在线| 国产精品污污在线观看网站| 88国产经典欧美一区二区三区| 99久久精品美女高潮喷水| 91久久国产热精品免费| 精品一区二区久久久久网站| 国产情侣一区二区三区| 欧美精品高清| 情侣午夜国产在线一区无码| 成人日韩欧美| 国产在线观看高清不卡| 亚洲男人的天堂在线观看| 亚洲国产午夜精华无码福利| 性视频久久| 成年午夜精品久久精品| 日本午夜在线视频| 日日拍夜夜操| 亚洲欧洲日本在线| 国产精品毛片一区视频播| 欧美色99| 国产特一级毛片| 一级爱做片免费观看久久| 久久久久亚洲av成人网人人软件| 2048国产精品原创综合在线| 国产精女同一区二区三区久| 亚洲日韩日本中文在线| 亚洲天堂区| 免费人成网站在线观看欧美| 亚洲综合专区| 国产自在线拍| 亚洲成人手机在线| 永久在线播放| 亚洲精品日产精品乱码不卡| 1769国产精品视频免费观看| 精品久久777| 国产情精品嫩草影院88av| 青青久久91| 精品人妻无码中字系列| 日韩一区精品视频一区二区| 亚洲人妖在线| 国产精品视频a| 天天视频在线91频| 高清色本在线www| 国产无码精品在线| 亚洲午夜国产精品无卡| 免费A级毛片无码无遮挡| 在线国产91| 国产成年女人特黄特色毛片免| 国产精品九九视频| 一本久道久综合久久鬼色| 福利在线一区| 香蕉精品在线| 在线观看无码a∨| 91午夜福利在线观看精品| 国产无码性爱一区二区三区| 成人毛片免费观看| 婷婷六月激情综合一区| 综合色在线| 久久狠狠色噜噜狠狠狠狠97视色 | 一级毛片在线免费看| 波多野结衣一区二区三区四区视频 | 亚洲欧美在线看片AI| 国产乱子伦精品视频| vvvv98国产成人综合青青|