999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度學習表示的醫學主題語義相似度計算研究*

2022-08-01 02:49:14黃承寧李雙梅
計算機與數字工程 2022年6期
關鍵詞:語義深度文本

黃承寧 李雙梅 景 波

(1.南京工業大學浦江學院 南京 211222)(2.南京審計大學 南京 211812)

1 引言

當前搜索引擎已成獲取信息之快捷工具,然即便是最受歡迎的搜索引擎返回的搜索結果也不令人滿意。用戶確實輸入了正確的關鍵字,而搜索引擎卻返回了涉及這些關鍵字的文本頁面,大多數結果是不貼切的。搜索機制的性能好壞取決于解決兩個重要問題:一是如何提取相關的文本的主題,二是給出了一組潛在相關的頁面如何對它們根據相關性進行排名[1]。評估搜索機制在查找和查找中的有效性和排名結果,需要語義相似性的度量。在傳統方法中,用戶提供相關性或語義相似性的手動評估[2],而這非常耗費成本。詞之間句之間的語義相似性研究[3],這是信息檢索的重難點部分。語義相似性是一個概念,其中衡量語義單詞之間的相似性是網絡上各種任務中的重要組成部分提取[4]。在信息檢索中,主要問題之一便是要檢索一組文檔數據集,計算給定的用戶查詢在語義上的相關度。高效估計之間的語義相似度單詞對于諸如詞意之類的各種自然語言處理任務至關重要。在基于字典的方法中,詞之間的語義相似性是可查詢的,但是當涉及到網絡文本時,它已成為現今極具挑戰性的任務。

基于深度神經概率語言模型的特征提取器可以提取與大量文本數據來計算任務相關的特征,這些方法亦被稱為自然語言理解(NLU)模塊。它們功能也可以用于計算文本樣本之間的相似度,這對于基于實例的機器學習最近鄰算法很有用。文本的相似度可以通過深度學習的神經網絡模型將語言轉化為對語義建模的向量空間,而通過測算語義向量空間中文本向量的相近度,可以更好比對文本的語義特征。為了說明這一點,本文將使用谷歌2019 年最新的基于神經網絡的語言概率模型搜索算法(后文簡稱其首字母縮寫BERT)[5],執行文本特征提取構建向量化語義數據,并為文本實現搜索的算法優化。

2 基于深度學習的搜索算法

基于神經網絡的深度學習模型有利于統計文本數據中語言的出現概率,更好地對大體量地文本數據進行建模,下面將介紹神經網絡地基本結構、基于深度神經概率語言模型以及基于語義相似度地向量空間模型。

2.1 神經網絡基本結構

深度神經網絡(DNN)是一種新型的基于數據概率的機器學習方法。DNN可以表示為函數F(X)=Y,其中X 表示輸入空間,Y 表示輸出空間。連接的層數和層之間的鏈接由一組權重矩陣加權[6~7]。訓練階段DNN 的作用是識別權重矩陣的數值。訓練程序利用了已知的輸入輸出對,并定義了表示預測與真實標簽之間的差異。訓練階段,則使用反向傳播技術通過最小化損失函數來更新參數。

在如圖1 的典型前向神經網絡基本結構中,術語layer 特指一層人工神經元,術語input layer 特指創建出的接受輸入的第一層神經元定義函數,輸出張量進入第二層以及緊接著的hidden layer 函數群(圖示含有三層),最后由output layer函數生成輸出。

圖1 典型前向神經網絡基本結構

2.2 深度神經概率語言模型

雙向編碼器語言模型的注意力機制表示法(后文稱Transformer)[8]是由谷歌人工智能團隊最新開發的語言表示模型于2018 年對深度雙向表示進行預訓練,通過共同限制左右文本環境所有層。神經網絡語言模型允許深層雙向表示屏蔽某些百分比的輸入數值的方法然后僅隨機預測那些被屏蔽的數值。這個應用在預測許多重要的下游任務,諸如機器閱讀和自然語言問答推論基于對在兩個文字句子之間關系的理解。

2.3 預訓練語言模型

2018 年,學術界引入并發布了基于神經網絡的自然語言處理(NLP)預訓練技術,該技術被稱為Transformer 的雙向編碼器表示模型[9~10],是組成BERT模型的基本單元。這項突破是谷歌研究的結果:該模型可處理與句子中所有其他單詞相關的單詞,而不是一個接一個地處理單詞。BERT的突破,在于其基于查詢中的段落及句子集來訓練語言模型,而不是以往的有序序列訓練方法。BERT 允許語言模型基于周圍的單詞學習單詞上下文,而不只是限于其后接著的語句。

2.4 與傳統查詢方法的比較

區別于傳統方法RankBrain[11~12],新的方法可以立足于上下文語境構建更復雜的共現統計。關于RankBrain,其實是搜索排名算法并行運行,用于對檢索結果進行調整。RankBrain通過上一步查詢從而查找接近的已有查詢來優化結果。

傳統算法雖然查到頁面上的內容,以了解其相關性。但是,傳統文字檢索算法一般只關注詞之前或之后的內容以獲取其全文語境,以更好地計算該關鍵詞的語義。BERT[13]的雙向組成部分使其與眾不同,它在查看關鍵詞所在全文的內容以了解詞的含義和相關性,是自然語言處理中的一次巨大突破。

3 算法實現與開發

該項目采用Python 3 編程語言開發,使用TensorFlow 框架以及相關內置API 和相關調用庫。為了更快速地加載大量文本數據,使用其NLTK[14]調用庫,該庫可以把大規模文本數據集作為二進制字節流保存在硬盤中[15~17],存儲大小不超100M,且可以使用代碼快速重復調用,更有利于深度模型將其數據作為向量化輸入。

3.1 加載預訓練語言模型優化計算圖

實驗將從加載預先訓練的BERT 保存節點開始。 出于方便實驗目的,將使用Google 開源預先訓練的無固定大小寫英語模型。為了配置和優化推理圖,將調用bert-as-a-service 存儲庫。在實驗部分中,將重點放在創建本地過程中的特征提取器。

從表1、表2可見,語言概率模型的大小若果存儲在本地磁盤會造成一定計算負擔,為了保障模型的穩定性及整體搜索的迅速性,要修改模型圖,借助bert-as-a-service,使用CLI 命令行界面配置信息,并對張量處理器(TPU)和圖形處理器(GPU)訓練實施計算優化。

表1 模型大小對比各項特征數值表

表2 基本型模型不同類型對比表

3.2 初始化特征提取器

將通過序列化圖使用tf.Estimator API 構建特征提取器。將需要定義組件:input_fn 和model_fn。組件input_fn負責把數據傳入模型。過程顯示如圖2所示。

圖2 加載過程

3.3 使用Projector組件搜索向量空間

使用矢量化器,將為Reuters-21578 基準語料庫的文章生成嵌入。為了探索3D中的嵌入矢量空間,將使用一種稱為T-SNE 的降維技術,在其子類EmbeddingProjector上可以獲得生成的嵌入向量。

設p和q分別代表輸入文本向量和存儲數據集中各文本向量,則計算各文本間相似度可用歐幾里得距離來衡量,如式(1)所示。

在圖3 不加算法的文本空間中可以看到,不同顏色的文本混亂地粘合在一起,難以區分不同的主題。使用基于神經網絡的概率語言模型將文本型量化后,在向量空間中不同語義的文本距離更大了而語義相近的文本距離變小了。

圖3 搜索算法分類文本空間可視化

3.4 創建搜索引擎

實驗中將要解決的搜索問題定義如下:給定向量空間M 中的一組點S 和一個查詢點Q∈M,在S 中找到最接近S 的點。有多種方法可以定義向量空間中的“最近數據點”,將使用歐幾里得距離。

因此,要構建文本搜索引擎,將按照以下流程操作:向量化知識庫中的所有樣本,從而得到S;向量化查詢-給出Q;計算Q 和S 之間的歐式距離D;按升序對D 排序-提供最相似樣本的索引;從知識庫中檢索所述樣品的標簽。

3.5 實驗數據及結果分析

實驗中,使用《中國癌癥雜志》、《中國癌癥雜志》等醫學期刊作為樣本數據來源數據集。使用Retriever 模塊,將建立一個信息推薦器,為具有相似主題數據特征的文本提供建議。

實驗過程中,使用三組關鍵字進行搜索測試,分別為“乳腺癌”、“宮頸癌”、“肺炎”主題文本返回了語義相關醫學文檔的標題,顯示出有效的語義相似度搜索能力;第三組的肺炎標簽,顯示所搜不存在,也從側面顯示語義相似度的有效性。

根據實驗測試數據,通過計算新模型的精確率、召回率和F1 數值,衡量本文方法和目前已有方法的表現。

從表3 可見,采用預訓練模型的搜索算法精度可達80%以上,對照組的基準線精度如表4所示。

表3 新方法表現

表4 對照組基準線方法表現

從表4 可見,不采用預訓練模型的搜索算法精度可達60%以上。由此可得,計算搜索算法的提高效率如表5所示。

表5 兩項對比數值提高情況

從表3、表4、表5可知,新算法的準確性平均可達80%以上,對比原有方法存在20%的提高。這是因為預訓練語言模型,可以通過對詞語及關鍵語句的上下文或鄰接語段進行遮蓋編碼輸入深度模型,更精確地計算文本語義相似度。

4 結語

尋找兩個句子的語義相似性總是自然語言處理與信息摘取領域的一個大挑戰。在本實驗中,構建了基于預訓練語言模型特征提取器,并使用BERT 構建文本檢索功能,在分類和檢索任務上充分發揮作用,充分證明了預訓練語言模型在基于語義相似度的搜索算法優化中有顯著的提升作用。通過對預訓練神經網絡進行微調,語義搜索方法可以進一步提高其性能。實驗中顯示使用更大長度的查詢結果比短的查詢具有更高的精確度和召回率。

猜你喜歡
語義深度文本
深度理解一元一次方程
語言與語義
在808DA上文本顯示的改善
深度觀察
深度觀察
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
深度觀察
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
認知范疇模糊與語義模糊
主站蜘蛛池模板: 国产区免费| 一本久道热中字伊人| 国产成人乱无码视频| 色悠久久久久久久综合网伊人| 99视频在线免费| 国产三级韩国三级理| 精品国产Av电影无码久久久| 亚洲精品无码av中文字幕| 亚洲欧美日本国产专区一区| 99久久精品视香蕉蕉| 欧美亚洲第一页| 毛片免费视频| 少妇极品熟妇人妻专区视频| 中国丰满人妻无码束缚啪啪| 国产精品久久国产精麻豆99网站| 亚洲综合久久成人AV| 中国一级毛片免费观看| 国产00高中生在线播放| 亚洲成人在线网| 国产精品专区第一页在线观看| 午夜激情福利视频| 国产精品护士| 91欧洲国产日韩在线人成| 日本一区二区不卡视频| 国产美女在线观看| 网友自拍视频精品区| 国产日韩欧美在线视频免费观看| 台湾AV国片精品女同性| 在线看片中文字幕| 香蕉综合在线视频91| 亚洲一区免费看| 国产精品开放后亚洲| 青青草国产在线视频| 欧美成人看片一区二区三区| 成人91在线| 日韩123欧美字幕| 国产自无码视频在线观看| 伊人91在线| 久久综合结合久久狠狠狠97色| 国产精品视频导航| 国产激情第一页| 久久综合亚洲鲁鲁九月天| 2019国产在线| 操操操综合网| 亚洲最黄视频| 在线a视频免费观看| 很黄的网站在线观看| 国产黄色视频综合| 日本人又色又爽的视频| 久久精品国产电影| 亚洲一区二区约美女探花| 色呦呦手机在线精品| 美女免费黄网站| 2022国产无码在线| 中文字幕在线欧美| 香蕉eeww99国产在线观看| 72种姿势欧美久久久久大黄蕉| 免费看美女自慰的网站| 欧美a在线视频| 99视频在线精品免费观看6| 国产成人亚洲无吗淙合青草| 国产欧美日韩综合在线第一| 亚洲第一网站男人都懂| 国产在线视频福利资源站| 99久久99这里只有免费的精品| 国产精品开放后亚洲| 青青草国产免费国产| 久久国产精品麻豆系列| 日韩欧美国产三级| 伊人久久婷婷| 欧洲高清无码在线| 91国内外精品自在线播放| 久久国产精品夜色| 国产成人艳妇AA视频在线| 最新国语自产精品视频在| 国产精品成人不卡在线观看| 免费xxxxx在线观看网站| 国产丰满大乳无码免费播放| 国产乱子伦手机在线| 久久综合亚洲鲁鲁九月天| 欧美精品在线看| 亚洲国产天堂在线观看|