999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于BERT 的中文健康問句分類研究

2022-04-12 03:40:32徐星昊
電視技術 2022年3期
關鍵詞:分類特征文本

徐星昊

(昆明理工大學 信息工程與自動化學院,云南 昆明 650000)

0 引言

目前,智能醫療問答系統已逐步參與到醫院的診療過程中,如何將用戶所提出的問題進行準確分類是智能醫療問答系統的關鍵。例如問題“病情描述:高壓196 低壓139 血壓嚴重嗎?”的類別是“治療”,而問題“病情描述:請問高血壓能否吃銀杏葉片?”的類別是“健康生活方式”。由此,能否正確識別用戶問題的語義類別,是決定系統能否返回正確答案的重點,醫療健康問句分類尤為關鍵。

醫學健康問句具有以下兩個特點:第一,由于所有健康問句都是病人在平臺中的口語化提問,其中涉及的語句大多數為短文本,而短文本包含的詞項少,導致文本內容缺乏足夠的上下文信息,極大地限制了短文本分類任務的完成。第二,健康問句具有較強的專業性和復雜性,病人在提出問題時會出現描述不準確、不全面等問題。對于短文本稀疏性問題的研究,陳等人[1]使用BERT、ERNIE 模型通過領域預訓練提取先驗知識信息,結合TextCNN模型生成高階文本特征向量并進行特征融合來實現短文本分類。楊等人[2]提出了一種基于多特征融合動態調整模型特征的方法進行短文本分類。而對于問句中病人描述不準確、不全面的問題,將表述不清晰的醫學關鍵詞進行加強解釋,有助于輔助健康問句的分類,如張等人[3]使用外部知識結合雙層注意力機制的方法進行短文本分類。以上研究方法都只是簡單地對特征進行融合。

健康問句的文本大多是短文本,詞項少且存在問句描述不清晰的問題,上述的幾種短文本分類方法都有一定的局限性,因此本文提出一種把基于變換器的雙向編碼器表征技術(Bidirectional Encoder Representations from Transformers,BERT)的字符級特征取平均與BERT 的句子級特征拼接的中文健康問句分類方法。本文的創新點是:通過將BERT 的字符級特征與BERT 的句子級特征融合,獲取多維度特征知識來為分類任務提供基礎,從而進一步改善多標簽文本分類(Multi-Label text classification,MLTC)效果。

1 相關工作及理論

1.1 BERT 模型

1.1.1 BERT 模型概述

BERT 模型是以雙向Transformer 為基礎,面向掩碼模型(Masked Language Model)和下一句判斷(Next Sentence Prediction)任務構建的深度學習模型。當前,采用大量文本作為數據集預訓練而成的BERT 模型已成為處理多項自然語言處理(Natural Language Processing,NLP)任務的通用架構。

1.1.2 BERT 模型的輸出

BERT 模型的輸出有兩種模式:一種是字符級別的輸出,對應的是輸入短文本中的每一個字符所對應的特征表示;另一種是句子級別的向量,即BERT 模型輸出最左邊[CLS]特殊符號的向量。BERT 通常將[CLS]視作整個句子的語義特征,如圖1 所示。

圖1 BERT 輸出模型

1.2 多標簽文本分類

在自然語言處理中,多標簽文本分類是一項基本且具有挑戰性的任務。MLTC 的目的是為給定的文本分配多個標簽。MLTC 已廣泛應用于情感分析、意圖識別以及問答系統等許多領域。隨著深度學習的發展,單標簽分類取得了巨大的成功。通過將問題視為一系列單標簽分類任務,可以將單標簽文本分類簡單地擴展到MLTC 任務,但是這種過度簡化的擴展通常會帶來較差的性能。與常規的單標簽分類不同,MLTC 各種標簽之間存在語義依賴性。由于本文的數據集不考慮標簽之間的語義依賴性,而是將問題視為一系列的單標簽分類任務,因此本文的多標簽分類流程如圖2 所示。

圖2 多標簽文本分類

2 模型設計

大規模的預訓練語言模型開始出現在公眾的視線之中,是因為這些預訓練模型可以縮短人們花費在特征提取工作上的時間,使得自然語言處理走向另一個階段。BERT 就是這類基于預訓練任務的自然語言處理模型。這些模型往往基于大量的語料預訓練任務,在有足夠的算力的情況下,通過對下游任務的微調工作,能夠產生優越的表現。通過對具體問題具體語料下的分析和模型結構的調整,預訓練模型結構可以產生更加優異的效果。

由于本文數據集相與醫學健康相關,因此采用Zhang 等[4]提供的mcBERT 預訓練模型,在中文生物醫學領域的大量語料上完成訓練。

本文利用BERT 模型輸出的Sequence_out 取平均并與Pooler_out 進行拼接,也就是將BERT 的字符級特征取平均與句子級特征拼接,該模型記為SQ_BERT。CLS 代表的是分類任務的特殊token,它的輸出就是模型的Pooler_output。SQ_BERT 算法中,Pooler_output 對應的是[CLS]的輸出,Sequence_output 對應的是所有其他的輸入字的最后輸出。算法的具體流程步驟如下。

(1)輸入原始文本數據。

(2)對文本數據進行預處理。

(3)預處理好的數據按照[CLS]+句子A(+[SEP]+句子B+[SEP])的格式送入模型中。其中,[CLS]代表分類任務的特殊token,它的輸出就是模型的Pooler output;[SEP]是分隔符,句子A 以及句子B 是模型的輸入文本。句子B 可以為空,如果句子B 為空,則輸入變為[CLS]+句子A。

(4)對步驟(3)所得到的結果Sequence_output取平均且與Pooler_output 進行拼接。

(5)將步驟(4)的結果作為輸入送入Sigmoid分類器進行分類。

3 實驗分析

基于提出的模型與算法,對問句的主題進行分類(包含A 診斷、B 治療、C 解剖學/生理學、D流行病學、E 健康生活方式、F 擇醫共6 個大類)實驗[5]。由于C 解剖學/生理學這一類數據集中僅含有一個問句數據,無法保證實驗的全面性和有效性,因此在實際實驗中將問句主題分為5 類,即診斷、治療、流行病學、健康生活方式以及擇醫[6]。

3.1 數據集和評價指標

3.1.1 數據集

本文所用的數據集為Kesci 的公眾健康問句分類比賽數據集和中文公眾健康問句數據集。Kesci的公眾健康問句分類比賽數據集的各項基本信息如表1 所示,中文公眾健康問句數據集[7]基本信息如表2 所示。

表1 Kesci 公眾健康問句分類數據集

表2 中文公眾健康問句數據集

3.1.2 評價指標

本文實驗的評價指標引入文本分類模型常用的評價指標,包括精確度(Precision,簡稱P)、召回率(Recall,簡稱R)以及F 值(F-Score,簡稱F)。

3.2 實驗設置

3.2.1 實驗平臺

本研究中所有的代碼都由Python 語言編寫,模型基于Pytorch 搭建。設備操作系統為Windows,配備GeForce RTX 1650,內存為16 GB。

3.2.2 數據預處理

對于Kesci 公眾健康問句分類數據集,通過每一類數據量的比較發現解剖學/生理學這一類別數量分布極度不平衡。為保證數據集在訓練和測試的過程中的合理性,將于解剖學/生理學這一類別剔除掉。由于該數據集包含5 000 條有標簽的數據,將數據集按4∶1 的比例分為訓練集和測試集[12]。

對于實驗參數設置,在訓練模型中,初始學習率設置為2×10-5,epoch 設置為5,并且利用K 折交叉驗證法(實驗中K=5)。由于BERT 的最大處理長度為512,因此在處理長文本的過程中使用截斷法。從數據集可以看到,由于問句基本集中在尾部,因此可以將頭部長度設置為127(稍短),尾部長度設置為383(稍長)。具體參數設置如表3 所示。

表3 參數設置

3.3 實驗結果與分析

3.3.1 實驗結果

實驗結果分為兩部分,一個是Kesci 公眾健康問句分類數據集對比實驗,另一個是中文公眾健康問句數據集對比實驗。第一部分實驗分別為CNN[8]、LSTM[9]、BiGRU+Attention[10]以 及BERT 與本文模型在實驗中的效果對比,實驗結果如表4所示。

表4 實驗效果對比

第二部分實驗分別為CNN、LSTM、SA-CIndRNN 與本文模型在實驗中的效果對比。本文模型相較于一般的基線模型對比實驗效果有顯著提高,與同樣使用特征融合的模型SA-C-INDRNN 進行對比,效果也略高于SA-C-INDRNN 模型。實驗結果如表5 所示。

表5 對比實驗結果

3.3.2 實驗分析

由表4 的實驗結果可知,本模型的效果優于LSTM、BiGRU 以及CNN 等傳統文本分類深度學習模型。相比于BERT,本文模型的F1 值上升了3.3%。通過效果分析可知,將BERT 的字符級特征取平均與句子級特征拼接的效果優于BERT。由表5 結果可知本模型相比于傳統的深度學習模型有或多或少的提升,并且比SA-C-IndRNN 模型的結果F1 值上升了1%。

4 結語

針對患者在提出健康問句時描述不明確、不全面以及短文本分類存在特征少且稀疏等問題,本文提出了通過將BERT 的字符級特征拼接于BERT 的句子級特征的方式進行分類。實驗結果表明,所提的方法在醫學中文健康問句數據集分類中取得了較好的效果,相較于傳統的深度學習方法有著明顯的提升。

本文方法提升了健康問句在問答系統中的分類效果,使問答系統能夠對健康問句進行更高效、便捷的分類,也可為其他領域的短文本分類模型構建提供借鑒。未來將對不同語料庫內容進行對比,優化關鍵詞詞典;嘗試在語義層面深度提取醫學短文本關鍵詞,從而深度提取關鍵詞,更好地實現醫學短文本分類。另外,盡管將BERT 的句子級特征與字符級特征拼接取得了較好效果,但是特征提取方面依舊不足,可進一步改善特征提取效果,從而使健康問句的分類更準確。

猜你喜歡
分類特征文本
分類算一算
如何表達“特征”
在808DA上文本顯示的改善
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數據分析中的分類討論
教你一招:數的分類
抓住特征巧觀察
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
主站蜘蛛池模板: 国产精品人成在线播放| 亚洲AⅤ波多系列中文字幕| 国产欧美日韩在线在线不卡视频| 国产真实自在自线免费精品| 中国一级特黄大片在线观看| 91国内外精品自在线播放| 国产精品微拍| 亚洲 日韩 激情 无码 中出| 欧美精品在线观看视频| 无码'专区第一页| 在线网站18禁| 久久精品亚洲热综合一区二区| 99偷拍视频精品一区二区| 欧美中文字幕一区二区三区| 日本午夜影院| 欧美亚洲另类在线观看| 天堂亚洲网| 成人免费视频一区| 国产精品伦视频观看免费| 91视频首页| 蜜臀av性久久久久蜜臀aⅴ麻豆 | 日韩av在线直播| 中国毛片网| 在线观看国产黄色| 久久精品亚洲中文字幕乱码| 三区在线视频| 亚洲水蜜桃久久综合网站| 色婷婷亚洲综合五月| 成人午夜亚洲影视在线观看| 久久成人免费| 国产精品yjizz视频网一二区| 国产91麻豆免费观看| 久久综合色视频| 99性视频| 99热在线只有精品| 日韩一二三区视频精品| 国产日韩精品欧美一区喷| 91福利在线看| 久精品色妇丰满人妻| 国产精品永久在线| 亚欧成人无码AV在线播放| 一本大道视频精品人妻| 国产精品va| 久久亚洲日本不卡一区二区| 久久99精品久久久久纯品| 国产自在自线午夜精品视频| 无码久看视频| 日韩毛片免费| 青青青视频蜜桃一区二区| 中文字幕永久视频| 欧美精品亚洲日韩a| 日韩第九页| 国产精品毛片一区视频播| 精品日韩亚洲欧美高清a| 日韩天堂在线观看| 国产av无码日韩av无码网站| 亚洲日本韩在线观看| 国产欧美精品午夜在线播放| 丝袜国产一区| 亚洲成人免费看| 91精品啪在线观看国产91| 毛片免费在线| 毛片一级在线| 久久窝窝国产精品午夜看片| 婷婷亚洲天堂| 高清无码手机在线观看| 亚洲色图欧美| 国产成人禁片在线观看| 欧美日韩国产在线播放| 亚洲精品无码专区在线观看| 五月激情婷婷综合| 精品视频免费在线| 被公侵犯人妻少妇一区二区三区| 亚洲国产中文在线二区三区免| 熟妇人妻无乱码中文字幕真矢织江| 久久久久青草线综合超碰| 综1合AV在线播放| 日韩国产高清无码| 午夜天堂视频| 精品无码一区二区三区电影| 国产资源免费观看| 久久久久亚洲Av片无码观看|