知識組織與表達是知識管理領域的核心內容,對科學論文中蘊含知識的表達是文本挖掘和知識發現的基礎和核心。語義網絡作為知識表達的一種方式,為文本挖掘和知識發現后結果的可視化呈現提供了堅實基礎。語義網絡是一種文本網絡表示模型,隨著社會復雜網絡逐漸受到關注,越來越多的研究將語義網絡應用于文本挖掘、知識發現和知識圖譜的表示[1]。
目前,有關單篇科學論文內容表達的研究較為少見。PubMed數據庫中揭示單篇論文內容特征的方式包括論文題目、摘要、關鍵詞及MeSH主題詞等,缺乏以語義網絡為基礎的揭示單篇科學論文內容特征的知識表達方式。關于文獻集內容語義網絡表達的典型代表為Kilicoglu等開發的Semantic MEDLINE自動摘要系統[2],利用自然語言處理工具SemRep將文獻摘要集處理為概念及語義關系集,以語義網絡圖的形式呈現檢索結果,為用戶提供直觀清晰的研究內容,但僅適用于某一研究主題的文獻集可視化呈現,未能實現單篇論文內容的揭示與表達。
SemRep作為一種基于自然語言處理技術的數據挖掘軟件,以一體化醫學語言系統中的超級詞表、語義網絡和專家辭典為基礎[3],專指性較強,反映學科知識也較具體,但從文獻中提取出的語義關系分散于其挖掘結果之中,不利于對所提取的關系進行統計分析[4]。以MeSH主題詞對論文內容進行標引是生物醫學權威文獻數據庫中組織和表達論文內容的主要形式,其優點是可以排除“多詞一義”、“一詞多義”和詞義含糊現象,使標識與概念盡可能一一對應,具有相當高的專指度[5],能較為確切地表達文獻的主題概念,缺點是不能反映MeSH主題詞間的語義關系。 本文將語義網絡引入單篇論文內容表達研究領域,并結合MeSH主題語言與SemRep對自然語言概念抽取的優勢,以SemRep語義網及MeSH語義網的形式呈現單篇論文的研究內容,并對2種網絡進行評價比較。
本文利用MedSci 2018年期刊智能查詢系統對醫學期刊進行檢索并排行,選取IF值(5年)≥3的10種期刊,每種期刊選取研究主題為diabetes mellitus的代表性論文2篇,共計納入20篇科學論文作為后續分析的數據集。本文是對單篇論文內容語義網絡表達的探索,經反復探索驗證后發現,對選取的期刊論文達到以下要求時形成的語義網絡效果較好。一是論文篇幅適中。因為論文過長會導致所形成的的語義網絡過于龐大復雜,不利于后續分析,過短則會導致形成的語義網絡圖不足以反映論文具體研究內容。二是選取的論文在PubMed中標注的MeSH主題詞數量在10~20個,且主題詞概念盡量具體。以降血糖藥為例,論文標引的MeSH主題詞應為具體的降血糖藥如Metformin(二甲雙胍)而非其寬泛的上位類Hypoglycemic Agents(降血糖藥)。
1.2.1 概念間關系的提取
本文使用自然語言處理工具SemRep對單篇科學論文中的概念進行抽取和語義關系表達。SemRep可以實現將單篇科學論文中的實義詞映射為UMLS中規范的概念詞。目前UMLS術語表已經涵蓋了320多萬個概念、133個語義類型和54個語義關系,概念不僅被賦予至少一個語義類型,同時規定了語義類型與語義關系搭配的規則[6],為揭示概念及概念間關系提供了獨有的優勢,也為后期文本可視化分析奠定了基礎。
抽取出映射概念之間的關系。對于輸入的文本,SemRep將其中的句子處理為形如“主語|謂詞|賓語”的語義述謂項( Semantic Predication),其中主語和賓語為UMLS中的概念,謂語為UMLS中的語義關系[7]。示例如下。
Childhood obesity is a predictor of an increased rate of death,owing primarily to an increased risk of cardiovascular disease.(1)
|Obesity|dsyn|PREDISPOSES|Diabetes Mellitus,Non-Insulin-Dependent|dsyn|(2)
項(2)為SemRep對句子(1)處理后所產生的語義述謂項,其中Obesity為主語,PREDISPOSES為語義關系,Diabetes Mellitus and Non-Insulin-Dependent為賓語,主語及賓語的語義類型均為疾病或綜合癥(disease or syndrome,dsyn)。
1.2.2 SemRep語義網及MeSH語義網的繪制
語義網絡圖表示模型是以圖論為基礎構建的,其基本模型可以定義為一個三元組:G=(N,E,W),即圖元素包括節點(N)、邊(E)及邊的權重(W)[8]。本文中,節點(N)表示SemRep處理后的概念,邊(E)表示概念間的語義關系,邊的權重(W)表示SemRep處理后此概念對共現的頻次。利用SemRep處理單篇論文全文所產生的概念及概念間語義關系構建單篇論文SemRep語義網,MeSH語義網由SemRep處理后生成的概念與該篇論文在PubMed中標引的MeSH主題詞匹配后形成。構建過程采用的可視化分析工具為Gephi[9]。
1.2.3 SemRep語義網的簡化及描述
利用Cytoscape[10]軟件中的PEWCC算法精簡網絡,可找到整體網絡的近似最大派系。PEWCC算法[9]首先利用PE-measure評估概念節點間語義關系的可靠性,然后基于加權聚類系數(WCC)的概念檢測整體網絡,從而抽取出與整體網絡最為接近的子圖。語義網絡簡化的目的是為了加深評價人員對SemRep語義網及MeSH語義網的理解,同時對抽取出的SemRep語義網子圖的內容進行簡要的語言描述以提高評價的準確性。
設計調查問卷評價最終形成單篇論文SemRep語義網及MeSH語義網是否能夠表達該篇論文的研究內容,調查對象為14位中國醫科大學文本挖掘相關領域的研究人員,評價納入數據集(10種期刊的20篇單篇論文)SemRep語義網及MeSH語義網的全面性、準確性和易用性(根據評價人員對語義網絡各個指標的滿意程度評分從低到高為1~10)。利用SPSS 23.0軟件對結果數據進行統計分析,統計方法使用獨立樣本t檢驗,評價指標具體如下。
全面性:SemRep處理后得到的概念與MeSH主題詞相比是否全面。
準確性:SemRep處理后得到的概念與MeSH詞完全對應,未標引為MeSH詞,但經SemRep處理后出現次數較多且能反映論文內容的概念。
易用性:語義關系標簽表達概念間關系是否準確,可視化網絡表達論文內容的方法是否直觀清晰。
根據研究期刊及單篇論文選取標準納入的數據分析集見表1。以期刊TheNewEnglandJournalofMedicine中的論文“Childhood adiposity,adult adiposity,and cardiovascular risk factors.” (PMID:22087679)為例進行實例研究,揭示單篇論文SemRep語義網及MeSH語義網的構建過程。

表1 納入期刊及代表性科學論文的PMID
2.2.1 單篇論文語義述謂項提取結果
對選取的期刊論文“Childhood adiposity,adult adiposity,and cardiovascular risk factors.”利用自然語言處理工具SemRep對其全文進行了概念及語義關系的提取,共得到53項語義述謂項,相同語義述謂項經合并后最終形成了34項語義述謂項組成的單篇論文語義述謂項集。前10項語義述謂項及其在該篇論文中相應語義述謂項出現的頻次見表2。
2.2.2 單篇論文的機器處理結果與人工標引結果的比較
該篇論文在PubMed上標引的MeSH主題詞(去除特征詞后)、經自然語言處理工具SemRep處理與MeSH主題詞完全對應的概念及部分未標引為MeSH主題詞,但經SemRep處理后能反映論文內容的概念(表3)。
從表3中可看出,去除Adult、Child等特征詞后,該篇論文標引的MeSH主題詞共10個,經SemRep處理與MeSH主題詞完全對應的UMLS概念為7個,覆蓋率達70%。此外,經人工篩選除去與MeSH主題詞完全對應的概念外,經SemRep處理后能反映論文內容的概念為7個,其中Dyslipidemias與MeSH主題詞Hypertriglyceridemia、Hypercholesterolemia概念相近,Overweight、Carotid-Atherosclerosis等雖未標引為MeSH主題詞但也能反映論文內容的概念,在一定程度上彌補了MeSH主題詞反映論文全文內容不足的缺陷。

表2 單篇論文語義述謂項表達示例

表3 機器處理結果與人工標引結果的比較
2.2.3 單篇論文SemRep語義網及MeSH語義網構建結果
將提取出的語義述謂項集導入Gephi,并利用Gephi中YifanHu的多水平算法生成語義網絡圖(圖1,圖2)。其中,圖1表示單篇論文經SemRep處理后形成的概念語義網絡圖(簡稱“SemRep語義網”),圖2為SemRep處理后生成的概念與MeSH主題詞匹配后形成的MeSH語義網,即圖1去除與MeSH主題詞不直接相連的概念節點后所形成的語義網絡圖。2個圖中,邊的顏色對應的語義標簽為橙色(ISA)、粉色(LOCATION_OF)、深黃色(PREDISPOSES)、綠色(PROCESS_OF)、淡紫色(USES),其中紅色填充的概念節點表示與MeSH主題詞完全對應的概念。

圖1 SemRep語義網

圖2 MeSH語義網
2.2.4 單篇論文語義網絡簡化圖及結果解析
利用PEWCC算法對圖1所示的單篇論文SemRep語義網進行網絡簡化,抽取出與整體網絡最為接近的子圖,經過語義標簽設置、重復邊移除等處理之后,形成了圖3所示的該篇論文的語義網絡簡化圖。
從圖3看出,肥胖、超重人群易患高血壓疾病及非胰島素依賴型糖尿病,高血壓疾病是非胰島素依賴型糖尿病的一種過程。
2.2.5 單篇論文語義網絡的節點度數中心度分析
將得到的單篇論文語義述謂項集進行Gephi可視化處理的同時,將其導入Ucinet[11]對網絡節點度數中心度進行分析。該篇論文的語義述謂項集經Ucinet分析后所示的概念節點度數中心度分布見表4。從表4可見,點的絕對度數中心度(Degree)大于1的概念節點。

圖3 語義網絡簡化圖

表4 概念節點度數中心度分布
從上述節點度數中心度分布可以看出,Obesity、Diabetes Mellitus,Non-Insulin-Dependent,Overweight,Hypertensive disease等概念節點度數中心度較高,說明在此語義網絡中這些概念較為重要。根據這些概念節點的度數中心度分布可初步推斷該篇論文的內容為肥胖、超重人群易患高血壓、頸動脈粥樣硬化、非胰島素依賴型糖尿病等疾病。
以語義網絡評價標準對納入數據集進行評價,在調查對象的14位研究人員中,醫學信息學院情報學、文獻學、圖書館學教研室教師各3人,均具有10年以上的研究經驗;圖書館參考咨詢部研究人員3人,均具有3年以上的研究經驗;情報學專業碩士研究生2人,在科室分布、研究經驗、學歷分布上均有差異。發放問卷全部回收且有效,對其進行統計分析的結果見表5。

表5 文獻集SemRep語義網與MeSH語義網評價結果比較
注:表中t值為獨立樣本t檢驗的檢驗統計量,P<0.05表示差異具有統計學意義
從表5可見,評價人員對SemRep語義網及MeSH語義網在表達單篇論文內容方面的滿意程度。從全面性看,評價人員對SemRep語義網和MeSH語義網評分均值均高于8分,且分值差異較小,說明2種網絡均能全面覆蓋單篇論文的主要研究內容;從準確性看,2種網絡的評分均值均不足8分,說明二者所揭示的論文全文的主要概念與MeSH主題詞相比還不夠準確,單篇論文內容的表達準確性還有待提高;P<0.05說明2種網絡在表達單篇論文內容的準確性方面存在顯著性差異,且MeSH語義網評分高于SemRep語義網的主要原因為SemRep語義網中冗余、無用概念較多,從而造成準確率的下降;從易用性看,MeSH語義網的評分均值為8.23,高于自然語言語義網,這是因為MeSH語義網中概念節點及語義關系較少,網絡清晰,更容易獲得評價人員的肯定。整體上看,MeSH語義網在表達單篇論文內容的全面性、準確性及易用性的評分均值均高于SemRep語義網,但2種網絡在表達單篇論文內容的準確性方面還有待提高。
本文所構建的2種語義網絡所提供的語義信息具備一定的文獻挖掘潛力,可實現對單篇科學論文內容的揭示與表達。將復雜網絡分析方法與語義搭配模式相結合,能夠為諸如信息抽取、知識發現、知識圖譜及學科研究態勢分析等研究提供新的方法和思路。通過比較SemRep語義網及MeSH語義網在表達單篇論文內容的全面性、準確性及易用性方面的異同,根據評價人員對SemRep語義網及MeSH語義網的調查評價結果,發現MeSH語義網相較于SemRep語義網更能深入細致地揭示單篇論文中的主要概念及概念間的語義關系。其主要原因為獲得MeSH主題詞表的支持,排除了冗余、無用概念的干擾,從而實現單篇論文研究內容的深度表達與揭示,對文獻的挖掘更加靈活、強大。
隨著語義網絡研究的深入,對文獻信息的挖掘必然從以概念為對象向以概念結合語義關系為對象的方向發展。利用MeSH語義網表達單篇論文知識的方法可廣泛應用于探索施引文獻與被引文獻之間內容上的異同,探索高質量論文(或高被引論文)與一般論文的差別,探索單篇論文內容的新穎程度,為科研人員進行科研績效評價提供一種新途徑。
本文以語義網絡圖的形式提出了一種表達單篇論文研究內容的新途徑。隨著信息技術的發展,不久后我們將能夠基于規則和機器學習等方法實現單篇論文全文概念及語義關系的自動化抽取及可視化,即將單篇論文全文輸入應用程序,系統自動進行全文概念及關系的抽取,進而實現單篇論文全文內容的可視化,形成單篇論文的語義網絡圖。用戶理解文獻內容將不僅僅局限于參考MeSH主題詞及文獻摘要,還能夠結合單篇論文SemRep語義網及MeSH語義網快速瀏覽和分析文獻內容,并清晰直觀地了解概念如何在語義網絡結構中相互關聯。在以后的研究中,我們將能夠利用本體構建單篇論文語義網絡知識庫,實現單篇論文語義網絡的規范表達。
本文的局限性主要體現在兩方面。一是語義網絡復雜性帶來的限制。如果單篇論文的篇幅過長,經SemRep處理后所形成的語義述謂項會隨之增加,語義網絡復雜度也會相應增加,不利于直觀清晰地表達單篇論文研究內容,因此此方法還不適用于處理篇幅過長的單篇論文。二是冗余、無用的語義述謂項帶來的限制。單篇論文全文經SemRep處理后所形成的語義述謂項存在冗余、無用現象,同一實體概念搭配過多特征詞概念,影響單篇論文內容的表達。