999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

醫(yī)學(xué)文獻主題新穎性探測方法對比分析

2018-03-21 01:18:26,,
關(guān)鍵詞:方法

,, ,

新異檢測的主要目的在于建立二分類器,已在眾多領(lǐng)域?qū)崿F(xiàn)應(yīng)用,如電子安全監(jiān)測系統(tǒng)、健康信息及醫(yī)學(xué)診斷檢測、復(fù)雜商業(yè)系統(tǒng)監(jiān)測及系統(tǒng)錯誤檢測、圖像處理及視頻監(jiān)測、無線傳感器網(wǎng)絡(luò)監(jiān)測,以及文本挖掘領(lǐng)域。由于新異檢測的應(yīng)用領(lǐng)域廣泛,不同領(lǐng)域的數(shù)據(jù)特點不同(包括維度、格式、連續(xù)性),因此新異檢測缺少統(tǒng)一的方法。在各個領(lǐng)域中開展的新異檢測中,產(chǎn)生的各種計算方法按照假設(shè)理論的不同,可以劃分為5類:概率分析方法。通常對正常數(shù)據(jù)進行密度值估算,假設(shè)訓(xùn)練數(shù)據(jù)中低密度值區(qū)域包含正常數(shù)據(jù)概率低。基于模型的方法(如神經(jīng)網(wǎng)絡(luò)算法)。利用訓(xùn)練數(shù)據(jù)構(gòu)建回歸模型,當異常數(shù)據(jù)映射到回歸模型中,得到的回歸值與真實值差距是一個較高的探測值。基于領(lǐng)域的方法。試圖通過訓(xùn)練數(shù)據(jù)劃定正常數(shù)據(jù)的邊界,建立一個包含的正常數(shù)據(jù)的領(lǐng)域。基于距離的計算方法。假設(shè)異常數(shù)據(jù)距離正常數(shù)據(jù)較遠,有最近鄰計算方法以及聚類分析方法。信息計算技術(shù)(譬如墑計算,Kolmogorov計算方法)。計算訓(xùn)練數(shù)據(jù)中的信息含量,假設(shè)異常數(shù)據(jù)顯著的改變信息含量。其中,前3種方法需要充足的訓(xùn)練數(shù)據(jù),但實際檢驗階段較為迅速。

文本挖掘領(lǐng)域的新異檢測是從給定的文獻集或新聞文獻中探測新主題或新事件[1]。2002-2004年連續(xù)舉辦的文本檢索領(lǐng)域權(quán)威的國際性評測會議TREC會議(Text Retrieval Conference,TREC)[2-4]進行了語句級別的文本內(nèi)容新穎性探測賽事(Novelty Track),其中清華大學(xué)、中國科學(xué)院均使用了詞重疊法,表現(xiàn)優(yōu)異。國內(nèi)文獻關(guān)于主題新穎性探測較為經(jīng)典的是楊建林[5]的關(guān)于文獻主題新穎度計算。本文通過實證研究,證實其算法的計算結(jié)果與同行評價相一致。

1 文本挖掘領(lǐng)域新異探測相關(guān)概念

本文涉及3個文本挖掘領(lǐng)域新異探測概念。

一是新穎性文獻。一定主題下,一篇文獻的主題內(nèi)容,對比其時間序列中排名在其之前的文獻,對于讀者而言未曾見過,則這篇文獻為新穎性文獻,否則認為其不具備新穎性,其概念內(nèi)涵不包括文獻創(chuàng)造力評估。

二是新穎度。新穎度用來衡量當前待探測文獻與之前出現(xiàn)的文獻相比,包含了多少新穎性的具體量化指標。本文給定一個新穎度閾值,如果待探測文獻的新穎度大于該閾值,則認為該文獻為新穎性文獻。新穎度實質(zhì)是相對值,如文獻A比文獻B新穎度大,表示文獻A比文獻B與之前文獻內(nèi)容重復(fù)的地方少。

三是文獻主題新穎性探測。文獻主題新穎性探測用于自動識別主題新穎的文獻。在生物醫(yī)學(xué)科技文獻中,按時間排序,以文獻為單位進行新穎性探測,找出帶有新穎性的文獻集合的探測過程。

2 材料與方法

2.1 數(shù)據(jù)收集

在基礎(chǔ)醫(yī)學(xué)與臨床醫(yī)學(xué)的分類基礎(chǔ)上,選取近2年的查新課題,通過檢索獲得較為精確的、相關(guān)的檢索結(jié)果,交予專家組,保證評估時專家對文獻的掌握能力、評估結(jié)果的可信程度、分析過程的效率。選取生物醫(yī)學(xué)領(lǐng)域的8個研究主題(表1),利用PubMed數(shù)據(jù)庫,檢索出相關(guān)文獻。文獻標題能夠反映該文獻的主要研究內(nèi)容及結(jié)論,故選擇保留檢索得到的相關(guān)文獻標題作為實驗文獻集合,詳見表1。

表1 實驗主題及文獻數(shù)量列表

*學(xué)科領(lǐng)域按照中國國務(wù)院學(xué)位委員會和教育部《學(xué)位授予和人才培養(yǎng)學(xué)科目錄(2011)》(SCADC)[6]的醫(yī)學(xué)學(xué)科進行分類

2.2 數(shù)據(jù)預(yù)處理

數(shù)據(jù)預(yù)處理的主要任務(wù)是將自然語言轉(zhuǎn)換為規(guī)范統(tǒng)一的生物醫(yī)學(xué)詞匯。因為敘詞能夠有效規(guī)范統(tǒng)一同一醫(yī)學(xué)概念的不同自然語言表達,避免新穎度計算誤差。本文使用美國國立醫(yī)學(xué)圖書館開發(fā)的一體化醫(yī)學(xué)語言系統(tǒng)[7](Unified Medical Language System,UMLS)的超級敘詞表,運用MetaMap[8]在線概念抽取軟件,選擇知識來源2017版本。將各個主題下的自然語言映射到超級敘詞表中的概念詞,運用MetaMap概念抽取軟件[9]統(tǒng)計概念詞,并導(dǎo)入MySQL數(shù)據(jù)庫。在MySQL數(shù)據(jù)庫中提取標題部分的語句數(shù)據(jù),刪除停用詞[10]。

2.3 新穎度計算方法

詞重疊法(簡稱重疊法)一直用于語句級別的新穎性探測。基于共詞的逆文檔頻率量化法(簡稱量化法)用于文獻主題新穎性探測,首次出現(xiàn)用于雜志評估。本文擬以文獻自然語言構(gòu)建數(shù)據(jù)集,從同一主題按時間排序的文獻中,運用重疊法和量化法探測出新穎文獻。對比專家調(diào)查得出的新異結(jié)果,對新異探測方法進行可行性評估及算法對比分析。

2.3.1 詞重疊法

設(shè)文獻j先于文獻i出現(xiàn),兩篇文獻的向量表示為:

Si=(W1(Si),W2(Si),…,WN(Si))

Sj=(W1(Sj),W2(Sj),…,WN(Sj))

其中,N為所有待探測語句經(jīng)自然語言處理得到的不同概念詞的總數(shù)。

語句新穎度[11]計算公式為:

OverlapNov(Si)=1-max(0

公式(1)

計算過程是先計算當前語句與之前所有語句的詞重疊度,選擇重疊度最大的結(jié)果作為當前語句與之前所有語句的重疊度,通過減法運算計算出當前語句的新穎度。

2.3.2 基于共詞的逆文檔頻率量化法

國內(nèi)學(xué)者楊建林基于文檔發(fā)表先后、關(guān)鍵詞對共現(xiàn)等原則提出了詞對逆文檔頻率(Inverse Document Frequercy of keyword Pair,KPIDF)的主題新穎度度量方法[5]。

文檔D中所有以其自身為參照的概念詞對逆語句頻率的平均值,稱為該文檔的新穎度,記為NOV(D),計算公式為:

公式(2)

其中ti、tj為文檔D的第i和第j個概念詞。若ti、tj為文檔D中共同出現(xiàn)的2個概念詞,在文檔D之前的所有文檔中同時包含概念詞ti、tj的文檔數(shù)記為N,則稱N+1為以文檔D為參照的概念詞對ti、tj的文檔頻率,稱N+1的倒數(shù)為以文檔D為參照的概念詞對ti、tj的時間逆文檔頻率,記為WPIDF(D,ti,tj),n為文檔D包含的概念詞的總個數(shù)。

2.4 算法評價方法

2.4.1 參考答案

參考答案用于新異探測結(jié)果評價。通過調(diào)查問卷的形式,將每個主題的文獻發(fā)送至4組共計36位相關(guān)專家(表2),按照給定的順序閱讀文獻,找出新穎性文獻,標識為1。其判斷標準同新穎性文獻標準,即一定主題下,一篇文獻的主題內(nèi)容,對比其時間序列中排名在其之前的文獻,對于評論專家而言具有未曾見過的信息。若每篇文獻有5位及以上專家標識為新穎的文獻,則記為新穎文獻,標記為1,否則為0。將本實驗算法得出的新穎度列為一列,專家評分列為一列,利用Ruby語言進行結(jié)果分析。

2.4.2 評估方法

ROC曲線[12](Receiver Operating Characteristics curve)于20世紀50年代在統(tǒng)計決策理論中被提出,用來說明分類器命中率和誤報警率的關(guān)系。Spackman[13]將ROC算法引入到機器學(xué)習(xí)研究領(lǐng)域中,并說明了ROC曲線評估算法細則,ROC被廣泛用來評估分類模型性能[14]。

通過使用AUC(area under the curve)來量化ROC曲線,并通過比較AUC值大小來評判分類模型性能。AUC的值越大,說明分類模型的性能越好。最理想的分類模型AUC值等于1,random分類模型AUC值為0.5。AUC在 0.5-0.7時的準確性較低,在0.7-0.9時的準確性一般,在0.9以上時的準確性較高。

本文利用ROC曲線及AUC值評估2種新穎性探測方法,調(diào)用R語言library(pROC)[15]程序?qū)崿F(xiàn)證實新穎性探測方法對文獻主題新穎性判定的能力。選擇最佳閾值,即ROC曲線上假陽性和假陰性的總數(shù)最少的點,對2種方法的性能進行綜合對比分析。

表2 不同主題評估專家情況列表

3 結(jié)果與結(jié)論

3.1 主題新穎度計算結(jié)果

主題1文獻的新穎度計算結(jié)果見表3(部分數(shù)據(jù))。表3為主題1,即細胞自噬相關(guān)基因的調(diào)控作用,以新穎度計算結(jié)果。首先,我們對主題1超級敘詞的映射情況進行分析,400篇文章映射出超級敘詞的數(shù)量從1到15不等,主要取決于標題包含的信息。Metamap提取較為完全,如序號25的文獻提取出anabolism,autophagosome,autophagy,autophagy-related,rotein 8 family,function,mechanism,molecular,plants,social role等超級敘詞。如果提出序號348的文獻標題為“TRPML3.”,其映射的超級敘詞為“mcoln3 gene”。2種算法的新穎度值均為1,說明之前347篇文章中均未出現(xiàn)該詞。

8個主題文獻新穎度均不服從正態(tài)分布。用中位數(shù)、四分位間距描述計算結(jié)果分布狀態(tài)見表4。

*No為metmap從文獻中抽取的詞數(shù)量,#參考答案判定為新穎性文獻標識為1,否則為0

表4 8個主題語句計算結(jié)果統(tǒng)計學(xué)描述列表

觀察8個主題下新穎度計算結(jié)果的數(shù)據(jù)描述,中位數(shù)均值較小的是重疊法為0.8077,量化法為0.9358。兩種算法的均值較高,探測的新穎值均值大有以下原因:第一,因為本文為保證參考答案獲取的正確性選取數(shù)據(jù)量偏少(132-571條之間),數(shù)據(jù)量少重復(fù)性可能降低,勢必造成新穎值大;第二,期刊刊發(fā)前會進行查重、同行評議等,一定程度降低了文獻的重復(fù)程度;第三,量化法的均值較高,該方法將1篇文獻中的超級敘詞兩兩組配后,與前文對比取逆文檔頻率后求和,逆文檔頻率增加了新穎度值,即使與之前重復(fù)3次,亦有1/4的新穎度增值,而詞重疊法直接重疊便不計值。

四分位間距數(shù)均值較大的是詞重疊法為0.1890,逆文檔頻率量化法為0.1488。四分位間距越大,樣本數(shù)據(jù)分布越離散。結(jié)合中位數(shù)和四分位間距,認為詞重疊法的新穎度計算結(jié)果波動幅度較大,即詞重疊度算法的公式更加敏感,能夠?qū)⒏玫貙⒄Z句內(nèi)容間差異表現(xiàn)在數(shù)據(jù)上。

本文將8個主題文獻的新穎度計算結(jié)果集合入1個文檔(共計2 153篇),對2種算法進行相關(guān)性分析,得出相關(guān)系數(shù)為0.7144,表示2種算法中度相關(guān)。

3.2 兩種算法的評價結(jié)果

本文利用R語言對8個主題的兩種算法繪制ROC曲線(圖1),其中橫坐標為假正率(特異度specificity),縱坐標為真正率(敏感度sensitivity)。

圖1 主題1的2種算法的ROC曲線

圖1為主題1文獻集2種方法的ROC曲線,其最佳界閾值方法2為0.712(0.521,0.854),方法3為0.862(0.397,0.882)。R語言計算得出5個主題2種方法的AUC值見表5。

表5 8個主題2種方法的AUC值列表

若以學(xué)科領(lǐng)域區(qū)分,4個臨床醫(yī)學(xué)的重疊法AUC值均值為0.727,量化法AUC值均值為0.678;4個基礎(chǔ)醫(yī)學(xué)的重疊法值均值為0.753,量化法的均值為0.675,說明重疊法在基礎(chǔ)醫(yī)學(xué)數(shù)據(jù)的表現(xiàn)優(yōu)于臨床學(xué)科,量化法在2個學(xué)科的數(shù)據(jù)表現(xiàn)相差不大(僅0.03)。2種方法8個主題的AUC值數(shù)據(jù)均符合正態(tài)分布。采用最大值、最小值、均值和標準差描述評估結(jié)果數(shù)值分布狀態(tài)見表6。

表6 三種方法AUC指標統(tǒng)計描述

表6顯示,詞重疊法的AUC值均值較高,為0.7401,逆文檔頻率量化法AUC值均值為0.6766。

使用R語言對2種算法的AUC值進行樣本均值t-檢驗,P=0.2158(<0.05),表示2種算法AUC值均值差異具有統(tǒng)計學(xué)意義。綜合表5的統(tǒng)計結(jié)果,詞重疊法AUC值除主題2以外均在0.7-0.9之間,說明該方法對于判斷新穎文獻具有一定的準確性;逆文檔頻率量化法只有主題4和主題8處于0.7-0.9之間,其余均在0.5-0.7之間,說明該方法對于判斷新穎文獻準確性較低。因此,詞重疊法的評估結(jié)果優(yōu)于逆文檔頻率量化法。

4 討論

本文證實了生物醫(yī)學(xué)領(lǐng)域文獻主題新穎性探測的可行性,可為文獻推薦、文獻評價、專題前沿分析、期刊評價和作者評價提供一定的參考。本文證實詞重疊法能夠更好地將語句內(nèi)容間差異表現(xiàn)在數(shù)據(jù)上,詞重疊法對判斷新穎文獻具有一定準確性,評估結(jié)果優(yōu)于逆文檔頻率量化法,差異具有統(tǒng)計學(xué)意義。本研究還有以下不足。

第一,文獻主題新穎性探測的特點之一在于其時間原則,即早出現(xiàn)的新穎性好,數(shù)據(jù)結(jié)果與實際經(jīng)驗相符;之二在于實驗數(shù)據(jù)和測試數(shù)據(jù)的劃分,測試數(shù)據(jù)的新穎性之間是相互影響的。本文使用的2種方法均未區(qū)分實驗數(shù)據(jù)和測試數(shù)據(jù),在后續(xù)研究中嘗試使用背景數(shù)據(jù)等評估當前文獻的新穎性。

第二,自然語言的使用降低了對關(guān)鍵詞或者主題詞的依賴。關(guān)鍵詞和主題詞的信息存在無法獲取、標引滯后的問題。本文數(shù)據(jù)存在標題長短提取詞數(shù)量差異較大的情況,對數(shù)據(jù)計算結(jié)果有一定的影響。本文向?qū)<野l(fā)放的評估資料均要求以標題的新穎程度為主要評估對象,符合本文的實驗數(shù)據(jù)。在后續(xù)研究中,會權(quán)衡受控詞和自然語詞之間的權(quán)重,提供更加穩(wěn)定的抽取詞數(shù)量。

第三,本文的8個主題按照《學(xué)位授予和人才培養(yǎng)學(xué)科目錄(2011)》(SCADC)的醫(yī)學(xué)學(xué)科進行分類,有臨床醫(yī)學(xué)4個、基礎(chǔ)醫(yī)學(xué)4個。實驗結(jié)果顯示,重疊法在基礎(chǔ)醫(yī)學(xué)AUC值的表現(xiàn)優(yōu)于臨床學(xué)科,該研究結(jié)果值得進一步探討。

猜你喜歡
方法
中醫(yī)特有的急救方法
中老年保健(2021年9期)2021-08-24 03:52:04
高中數(shù)學(xué)教學(xué)改革的方法
河北畫報(2021年2期)2021-05-25 02:07:46
化學(xué)反應(yīng)多變幻 “虛擬”方法幫大忙
變快的方法
兒童繪本(2020年5期)2020-04-07 17:46:30
學(xué)習(xí)方法
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
最有效的簡單方法
山東青年(2016年1期)2016-02-28 14:25:23
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
主站蜘蛛池模板: 国产swag在线观看| 波多野结衣一二三| 欧美色图第一页| 亚洲第一视频网| 高清无码手机在线观看| 亚洲无码91视频| 综合天天色| 人与鲁专区| 久久综合丝袜长腿丝袜| 亚洲IV视频免费在线光看| 最新亚洲人成无码网站欣赏网| 大学生久久香蕉国产线观看 | 99热这里只有精品在线播放| 全部免费毛片免费播放| 国产精品美女网站| 亚洲无线观看| AV在线天堂进入| 一级毛片视频免费| 亚洲无码久久久久| 18禁不卡免费网站| 国产jizzjizz视频| 亚洲成年人片| 97无码免费人妻超级碰碰碰| 欧美高清三区| 激情六月丁香婷婷| 99热线精品大全在线观看| 中文字幕在线播放不卡| 青青草原偷拍视频| 五月婷婷综合色| 99久久亚洲综合精品TS| 亚洲日韩精品无码专区| 无码又爽又刺激的高潮视频| 成人中文在线| 2021亚洲精品不卡a| 亚洲AV免费一区二区三区| 国产91丝袜在线播放动漫 | 一区二区无码在线视频| 久久久久国产精品免费免费不卡| 国产精品无码翘臀在线看纯欲| 欧美激情二区三区| 999精品色在线观看| 99尹人香蕉国产免费天天拍| 97久久超碰极品视觉盛宴| 国产成人夜色91| 农村乱人伦一区二区| 亚洲美女一区| 国产农村1级毛片| 狠狠色丁香婷婷| 天天色综合4| 少妇精品网站| 国产在线自揄拍揄视频网站| 尤物亚洲最大AV无码网站| 久久夜色精品国产嚕嚕亚洲av| 国产精品99一区不卡| 欧美视频在线第一页| 99久久精品国产麻豆婷婷| 国产成人精品视频一区二区电影| www.狠狠| 亚洲色图欧美在线| 日本人又色又爽的视频| 伊人欧美在线| 天天干天天色综合网| 青青草a国产免费观看| 中文字幕日韩久久综合影院| 日本精品αv中文字幕| 国产精品网址你懂的| 国产剧情一区二区| 欧美国产综合色视频| 午夜日本永久乱码免费播放片| 久久精品娱乐亚洲领先| 国产91高跟丝袜| 不卡视频国产| 亚洲成a人片| 午夜国产精品视频| 免费观看亚洲人成网站| 久久77777| 亚洲欧美日韩另类| 波多野结衣一区二区三区AV| 欧美一区福利| 伊人色在线视频| 精品久久久久久中文字幕女| 欧美日韩国产在线观看一区二区三区|