陳頌斌 高屹,2 羅麗錦 樊淼
1.西藏民族大學,咸陽 712082;2.西藏光信息處理與可視化技術重點實驗室,咸陽 712082
在信息化快速發展的時代,醫藥數據的存儲以及共享方式變得極其簡便,網絡中有關醫藥的數據也隨之增加,但是也伴隨著很多問題,比如數據冗雜混亂,用戶想在大量的醫藥數據中尋找有價值的數據變得十分困難。因此,探索醫藥數據之間的關系并且從大量醫藥數據中挖掘潛在價值成為了重要的研究任務。同時藏醫藥是一種傳統的醫學體系,主要流行于西藏和周邊地區。它包括草藥療法、針灸、氣功等多種治療方法。研究藏醫藥文章信息知識圖譜有助于發掘這一傳統醫學知識,同時也可以為現代醫學提供有用的信息。
Google 公司提出的知識圖譜這一概念,旨在優化其搜索引擎,以實現更高級的搜索功能。該概念的核心目標是從語義層面深刻理解用戶的意圖,從而為用戶提供更為精準的搜索結果[1]。近十幾年的發展,已經成為人工智能領域研究的熱點之一[2]。知識圖譜的出現為問題的探索提供了清晰的思路和結構,它在整理領域知識方面發揮了重要的作用,為研究領域探索的主題提供了有力的思路來源。知識圖譜的本質是以語義網絡的形式闡述不同實體之間的聯系,以圖的形式生動展示了實體之間的緊密聯系。對于藏醫藥文章信息知識圖譜,知識圖譜的應用能夠有效地建立不同期刊之間的多種關系,這對于深入研究藏醫藥熱點具有重要意義。
大數據在醫學領域的發展一直備受人們關注,而隨著眾多學者對該領域的研究,不同類型的數據可能采用不同的存儲方式,使得很多醫藥領域的數據無法被直接使用,一定程度上限制了醫學大數據的發展。近年來,隨著領域知識圖譜應用的發展,醫藥知識圖譜在構建的過程和標準上也邁出了嘗試性的探索。如鄒艷珍,王敏[3]等人就如何在多源異構情況下,提出了以代碼為核心的軟件知識圖譜模型,在國內外知名企業展開實踐應用;曹倩,趙一鳴[4]介紹了知識圖譜構建的整體流程,詳細說明了如何通過知識庫推理、求解;劉歡[5]等人提出了基于知識圖譜驅動的圖神經網絡推薦模型;阮彤[6]等人探索了自動化構建中醫藥知識圖譜的方法和標準化流程;王赫楠,孫艷秋[7]等人從應用的角度探討了知識圖譜在中醫藥領域的作用。
知識圖譜是結構化的語義知識庫,用于以符號形式描述物理世界中的概念及其相互關系。其基本組成單位是“實體-關系-實體”三元組,和實體及其相關“屬性-值”對。實體可以是具體事物或著抽象概念,關系可以是實體的屬性或實體之間的關系[8]。實體間通過關系相互連結,構成網狀的知識結構。知識圖譜的構建使得概念化、語義化的知識管理模式的形成成為可能。借助知識圖譜,可以實現準確和深度知識獲取[9]。
藏醫藥文章信息知識圖譜的構建過程有數據獲取、數據處理、知識獲取、圖譜設計和圖譜存儲與應用幾個階段,數據獲取和處理就是從知網爬取數據,然后處理重復數據,異常數據和缺失值的過程。知識獲取是通過實體識別、關系抽取和屬性抽取獲取藏醫藥文章信息知識圖譜的三元組,圖譜存儲就是利用Neo4j圖數據庫對藏醫藥文章信息知識圖譜節點的存儲,實現藏醫藥文章信息知識的精確查詢。本文構建藏醫藥文章信息知識圖譜的具體流程如圖1所示。

圖1 藏醫藥文章信息知識圖譜構建圖Figure 1 Construction Map of Knowledge Graph of Tibetan Medicine Article Information
藏醫藥研究一直以來都備受學術界和醫學領域的關注[10]。為了深入了解這一領域的熱點問題和最新進展,利用計算機檢索工具來分析大量文獻資料。中國知網(CNKI)成為了研究藏醫藥文章信息的主要信息來源。通過使用CNKI的高級檢索功能來精確獲取本文的實驗數據。首先,需要獲取近6 年的藏醫藥相關文獻。在CNKI 中,高級檢索功能允許用戶輸入多個檢索條件,以便更精準地定位相關的文獻。對于藏醫藥研究,可以使用以下檢索內容來獲取相關文獻:SU=“藏”AND(SU=“醫”OR SU=“藥”),通過這個檢索條件可以將主題詞中包含“藏”,并且同時包含“醫”或“藥”的文獻檢索出來。
利用爬蟲技術獲取到相關數據,其中包含了結構化、半結構化和非結構化的數據。對結構化的數據,可通過規則把藏醫藥文章信息相關實體映射到知識圖譜中。比如文本數據中的“藏醫論治新型冠狀病毒肺炎探析”屬于結構化的數據。對于非結構化數據,主要是從文本中抽取出實體及關系等信息。比如將爬蟲獲取到的不同排版格式網頁和文件,首先對獲取到的網頁和文件進行預處理,包括去除重復數據、異常數據等,然后利用實體識別、關系抽取等技術得到需要的實體和關系。
知識獲取旨在通過非結構化文本和其他結構化或半結構化數據來構建知識圖譜。本文的知識抽取包含實體識別、關系抽取和屬性抽取這三部分。
實體識別是指在文本中識別出具體的名詞或名詞短語,如人名、地名、組織機構名稱等。首先,通過正則表達式從爬取的文本數據中識別出題名、標簽名、作者、數據庫、文獻來源等實體。比如一個html文件中獲取期刊題名、標簽名、作者等。
其次,在對關鍵字處理時引入TF-IDF 方法,充分利用摘要內容進行關鍵字的抽取和篩選。TF-IDF是一種常用于信息檢索和文本挖掘的統計方法[11],用來度量文本中每個詞的重要性。它是融合了TF(詞頻)和IDF(逆文檔頻率)[12],從而更全面地評估一個詞在整個文本集合中的重要性。TF-IDF 用計算公式如下:
其中TF 表示詞條在文本中出現的頻率,通常,這個數值會被進行歸一化處理,以避免它對長文本文件產生偏向性。TF 可以通過用詞在文中出現的次數除以整篇文章的次數得到,具體的計算公式如下:
IDF 反映了關鍵詞的普遍性。當包含詞匯的文檔數量越少,IDF 值越大,表明這個詞匯在文檔中有良好的類型區分能力。IDF 值可以通過數據庫里文件的總數量除以含這個詞匯的文件數量,最后通過取對數得到,具體的計算公式如下:
例如計算“藏藥”在一個文檔中的TF-IDF,其中總詞數為200,整個文檔集合總文檔數為1000,“藏藥”在文檔中出現3次,需要分別先計算TF和IDF。
TF(“藏藥”)=3∕200=0.015
IDF(“藏藥”)=log〔1000∕(出現“藏藥”的文檔數+1)〕=log〔1000∕(1+1)〕=log(500)≈2.7
TF-IDF(“藏藥”)=0.015×2.7≈0.04
類似地,計算其他關鍵詞在文章里的TF-IDF 值,與原文摘要關鍵字進行去重,獲取8 個主要關鍵詞作為期刊的特點。
關系抽取是指從文本中提取出實體之間的關系,例如可以將期刊文獻中的作者、關鍵詞、引用關系等信息作為實體、屬性和關系來構建圖譜。本文通過人工分析句子與句子之間的依存關系提取了文獻題名與作者、數據庫類型、發表年份、期刊類型、關鍵詞之間的關系。
屬性抽取的目標是識別并提取出與實體相關的屬性信息,這些信息可以作為實體的補充描述,有助于對實體進行更全面和詳細的理解。例如本文通過對照知網上第一行已經確定好的關鍵詞表來搜索并抽取出文獻發表時間用來描述文獻的屬性。這些屬性都是與實體相關的信息,將各個實體的屬性單獨作為節點并與實體節點連接,最終構成實體的屬性關系。
經過知識獲取后,整理藏醫藥文章信息包含的題名、標簽名、作者、數據庫、文獻來源、發表時間、關鍵詞等實體。藏醫藥文章信息實體設計如表1所示,比如標簽名實體包含了網絡首發、北大核心、CSCD 等,數據庫實體包含了期刊和碩士等。藏醫藥文章信息關系設計如表2所示,比如《藏藥十一味金色丸的藥對配伍規律研究》的發表年份是2023年,《藏藥“解吉”的生藥學研究進展》第一作者尕讓甲,《藏藥獨一味的微性狀與顯微鑒別研究》的數據庫類型是期刊。

表1 藏醫藥文章信息實體設計Table 1 Entity Design of Tibetan Medicine Article Information

表2 藏醫藥文章信息關系設計Table 2 DesignofInformationRelationshipinTibetanMedicine Articles
知識圖譜存儲方式有分為圖數據庫存儲和三元組存儲方式兩種。相較于三元組的存儲方式,圖數據庫存儲適合表示實體間錯綜復雜的關系,處理大規模圖結構數據,它還能高效的處理復雜的圖查詢,讓用戶能方便快捷的查詢到自己想要的內容。由于以上這些優點,本文選擇的是圖數據庫中常用的Neo4j 來存儲數據,這使得處理關聯數據變得更加明顯優勢,不需要進行復雜的關聯操作,提高了數據存儲和檢索性能[13]。用戶通過cypher 語句就能對圖數據庫中的節點和關系進行查詢和操作,查詢速度也更快。
根據藏醫藥文章信息資料來獲取關于題名、標簽名、作者、關鍵詞等數據,將數據導入到Neo4j 圖數據庫以完成數據的存儲。通過查詢語句我們可以得到藏醫藥文章信息部分數據的展示,如圖2所示,每一個圓形表示一個實體類型,顏色不同表示實體類型不同,兩個圓形通過直線相連,直線表示不同實體直接的關系,紅色表示期刊題目,綠色表示標簽名,黃色表示文獻來源,藍色表示期刊類型,粉紅色表示時間,棕色表示作者等等。

圖2 Neo4j查詢結果Figure 2 Neo4j Query Results
藏醫藥文章信息知識圖譜的可視化可以讓人直觀地了解到藏醫藥領域內的關聯、趨勢和研究熱點。可視化平臺的一個重要功能是知識展示,要支持用戶對已有的數據進行搜索,并展示查詢結果。這個功能使用戶能夠根據特定的關鍵詞、主題或領域查找相關信息。用戶可以通過輸入查詢條件來快速定位他們感興趣的內容,并獲取有關這些內容的詳細信息。如圖3 所示為《基于數據挖掘和網絡藥理學的腦中風與藏醫“隆”功能調節機理研究》節點圖。

圖3 節點圖Figure 3 Node Diagram
知識展示功能的關鍵優勢在于它將復雜的數據和信息以可視化的方式呈現出來,使用戶更容易理解。這有助于研究人員、學生和決策者更深入地了解藏醫藥領域的關鍵概念、研究成果和趨勢。同時,知識展示還可以促進跨學科的交流和合作,因為不同領域的專家可以通過這個平臺共享他們的研究成果并進行討論。
通過可視化平臺分析近5 年的文獻發表情況,可以揭示出藏醫藥熱點領域的發展趨勢和研究重點。從已獲取到的數據可以看出,與藏醫藥相關的記錄有2249 項,從圖4 中我們可以看到藏醫藥文章的發文量隨著時間的增加逐漸減少。根據學科領域生命周期的劃分階段來看(一般分為萌芽期、發展期、成熟期和衰退期∕轉型期)[14],2018—2019 年文獻發表量緩慢增長,學科領域發展到成熟區,2019 年成為轉折點,從2020—2023 年文獻發表量越來越低,研究主題固定,藏醫藥領域出現新研究主題量變少。

圖4 年度發文量Figure 4 Annual Number of Publications
發文量前10的作者有張藝、青海大學、才讓南加、陳靜、貢保東知、米瑪、貢卻堅贊、文成當智、李啟恩、尼瑪次仁,如圖5 所示。其中發文量最高的張藝現今已發表相關領域論文57篇,成為藏醫藥研究領域貢獻程度最大的研究人員之一。

圖5 前10位作者發文量Figure 5 Number of Papers Published by the Top 10 Authors
藏醫藥文章信息數據庫種類中報紙類43條,博士類45 條,國際會議類6 條,輯刊類9 條,科技成果類70條,期刊類1830 條,碩士類188 條,特色期刊類41 條,圖書類1條,中國會議類19條,如圖6所示。期刊類文章在藏醫藥文章占比最大,其次是碩士類文章,但相比其他學科領域的文獻發表量,藏醫藥文章的發表量相對較少。這可能反映了目前在藏醫藥領域的研究和發表相對較少,尚有較大的發展空間。

圖6 藏醫藥文章各類數據庫發表量Figure 6 The Number of Tibetan medicine articles published in various databases
藏醫藥文章發文量排名前15 的機構分別為中國民族醫藥雜志、中國民族民間醫藥、世界最新醫學信息文摘、中西醫結合心血管病電子雜志、青海大學、亞太傳統醫藥、西藏科技、世界科學技術-中醫藥現代化、臨床醫藥文電子雜志、中華中醫藥雜志中藥材、中國藥房、中草藥、中醫藥號報、成都中醫藥人學,如圖7所示。中國民族醫藥雜志、中國民族民間醫藥發表藏醫藥相關領域文獻最多,占比分別為42%和6%.

圖7 前15位出版社發文量Figure 7 The Number of publications by the top 15 publishers
近5 年來,藏醫藥領域的研究文獻涉及15 個主要類別:藏藥、藏醫、臨床療效、化學成分、藏紅花、藏醫藥、網絡藥理學、療效、含量測定、質量標準、臨床效果、作用機制、高效液相色譜法、藥理作用、數據挖掘,如圖8所示。

圖8 近5年藏醫藥領域熱點關鍵字Figure 8 HotkeywordsinthefieldofTibetanmedicineinthepast5years
知識圖譜技術正成為人工智能領域的熱門研究方向。隨著藏醫藥文章信息數據逐漸積累。建立藏醫藥文章信息的知識圖譜,有助于從大量數據中提煉出有關藏醫藥的關鍵知識,對現代醫藥領域具有重要意義,也是眾多研究機構的研究重點。本文創建了一個包含題名、標簽名、作者、數據庫、文獻來源、發表時間、關鍵詞等相關實體的藏醫藥文章信息知識集。借助命名實體識別、關系抽取和屬性抽取技術,將藏醫藥文章信息知識中的半結構化和非結構化信息轉化為結構化數據。使用Neo4j圖形數據庫構建了藏醫藥文章信息的知識圖譜。在未來的研究中,我們計劃結合知識圖譜的推薦系統,以實現對藏醫藥文章信息的智能推薦,這也將成為我們的研究重點。