999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于文本挖掘技術的《易經》可視化初探

2021-03-21 10:12:56岑蕭萍高日陽劉秀峰
中國中醫藥信息雜志 2021年3期
關鍵詞:易經文本

岑蕭萍,高日陽,劉秀峰

1.廣州中醫藥大學醫學信息工程學院,廣東 廣州 510006;2.廣州中醫藥大學基礎醫學院,廣東 廣州 510006

中醫古籍蘊含著寶貴的古代名醫經驗,但由于其文本具有深奧難懂的特點,價值難以得到充分發揮。大數據時代的到來為中醫古籍研究開辟了新思路,如基于關聯規則算法對《診方輯要》中中藥配伍的研究[1],基于文本挖掘技術對《本草集要》中語義內容特征的分析[2]。然而,已有研究對中醫古籍文本信息未充分利用,難以發揮其中潛在價值[3]。

《易經》作為十三經之一,是一部蘊含中醫智慧的經典古籍,對于中醫的發展起到了指導作用。由于其中蘊含象數的原理,結合現代數學與計算機技術能夠發掘《易經》的科學性。2017 年,唐毅[4]采用計算機技術中的蒙特卡洛方法模擬蓍草起卦過程,計算《易經》六十四卦中各爻出現概率、變爻出現概率、卦間轉化概率。然而對于《易經》文本的研究,目前限于文言文的理解角度,如張瑞芳[5]、任曉彤[6]對于《易經》動詞配價與虛詞的研究,缺乏對《易經》所體現核心價值的直觀展現。文本挖掘技術作為一門從非結構或半結構的文字中發掘出先前未知、隱含而有用的信息的計算機技術,對文本內容的潛在價值挖掘有效。但目前對于文言文尤其經典古籍的文本挖掘研究較稀缺,且鮮見《易經》文本的挖掘研究。

《易經》與中醫學有著密切聯系,目前國內外已有一些關于二者聯系的研究[7-9],但缺乏結合現代技術進行客觀反映與驗證。在大數據背景下,對中醫古籍進行挖掘,將使其中關鍵知識與規律能被更好地抽取,輔助人們理解篇目龐大、晦澀難懂的中醫古籍文本。本研究運用文本挖掘技術對《易經》中六十四卦爻辭進行探索,通過對各卦的關鍵詞提取、聚類分析等得到卦爻辭間的聯系與特點,運用可視化技術進行展現,并結合中醫學理論進行闡釋。

1 資料與方法

1.1 數據來源

本文基于《周易正義》中六十四卦爻辭[10],構建64 行8 列的數據集,每一行代表一支卦,第一、二列依次為卦名與卦辭,其后六列分別為初爻、二爻、三爻、四爻、五爻、六爻爻辭。

1.2 分詞

分詞是文本挖掘的關鍵步驟,其效果對挖掘結果可產生直接影響。目前已有的分詞方法主要有盤古分詞、jieba 分詞等。有研究表明,在中醫文獻分詞中,jieba 分詞有較高的準確率,且結合自定義詞庫能夠提升分詞準確性[11]。本研究運用python 中的jieba 分詞模塊對數據進行分詞,得到分詞結果。依據文言文分詞規律及《易經》注釋文本,發現部分詞劃分不夠準確。如“利見大人”應分為“利”“見大人”,但jieba將其分為“利見”“大人”。因此,導入自定義詞庫,添加“見大人”等詞,提升了分詞準確性。

1.3 去停用詞

文言文中一些虛詞大多無實際意義,需去除。常見的停用詞表主要針對現代文,因此需自定義停用詞表。18 個文言虛詞包括:而、何、乎、乃、其、且、若、所、為、焉、也、以、因、于、與、則、者、之,將常見的18 個文言虛詞以及所有文中出現的標點符號載入,在分詞基礎上剔除上述停用詞。

1.4 Word2Vec 詞向量表示

Word2Vec 是基于神經網絡將文檔中的詞匯映射為詞向量的一種詞向量表示模型,由Mikolov 等[12-13]提出,可用來快速有效地訓練詞向量。Word2Vec 分為2 種模型,CBow 模型通過上下文來預測當前詞,Skip-gram 模型則通過當前詞來預測其上下文。由于本研究的數據量較小,選擇運用Skip-gram 模型進行詞向量訓練[14]。

1.5 詞頻-逆文檔頻率文檔表示法

詞頻-逆文檔頻率(TF-IDF)是用以評估一個詞語對于一個文檔集中某一文檔的重要程度的統計方法。字詞的重要性與其在文檔中出現次數成正比并同時與其在文檔集中出現頻率成反比,即一個詞語在一個文檔中出現次數越多,同時在所有文檔中出現次數越少,就越能夠代表該文檔。運用TF-IDF 文檔表示法可將分詞、去停用詞后文本數據映射為文檔-詞頻矩陣,將文本數據轉化為結構化、易于計算的數據。

1.6 層次聚類

聚類分析指將物理或抽象對象的集合分組成為由類似的對象組成的多個類別的分析過程。層次聚類是聚類分析算法之一,其基本思想是通過某種相似性度量計算節點間的相似性,并按相似度由高到低排序,逐步重新連接各節點。為更好地挖掘六十四卦間的聯系,本研究采用層次聚類方法基于TF-IDF 文檔-詞頻矩陣對六十四卦進行聚類。

2 結果

2.1 詞頻統計

為探索《易經》中出現頻次較多的詞語,去停用詞后進行詞頻統計,并通過python 的wordcloud 模塊制作詞云圖進行可視化,見圖1。在詞云圖中,詞頻越高的詞對應的字體越大,越突出顯示。由詞云圖可以看出,“無咎”是《易經》文本中出現頻率最高的詞,其次為“有孚”“貞吉”“君子”“有攸往”“不利”“悔亡”“元吉”“利貞”等。

圖1 《易經》卦爻辭詞云圖(100詞)

2.2 共現詞挖掘

為進一步探索圖1 中得到的關鍵詞間出現頻率的相關性,選擇詞頻較高的5個重要詞語,利用Word2Vec模型計算得到其最相似的6個詞,見表1。Word2Vec模型構建參數如下:上下文窗口設置為5,詞向量維度設置為500維,使用夾角余弦計算詞語相似度,設置迭代次數為10。結果顯示,《易經》中常見的詞語無咎、吉、兇、君子、有孚等有著很強的相關性。

表1 5個重要關鍵詞的主要共現詞及其相似度

2.3 六十四卦聯系探索

《易經》六十四卦相互聯系而各有特點。通過對各卦進行詞頻統計發現,《易經》全文中出現較多的詞語如“無咎”“貞吉”“兇”等也在各?卦的卦爻辭中頻繁出現,詞頻統計難以顯示各卦特點。因此,本研究采用TF-IDF詞頻計算方法將六十四卦分別映射為向量,進而通過聚類分析、相似性網絡分析探索六十四卦的聯系。

2.3.1 層次聚類

將每支卦對應的所有卦爻辭分別作為一個文檔,通過TF-IDF計算映射為向量,基于參數設置降低矩陣稀疏度,得到64*122維的文檔-詞頻矩陣。對所得文檔-詞頻矩陣進行層次聚類,詳見圖2、表2,其中六十四卦編號為0~63。六十四卦首先被聚成2個大類,一類包含2個模塊,另一類包含3個模塊。其中能夠反映出《易經》各卦的一些性質與聯系,如既濟和未濟卦爻排列顛倒,字面含義相反,且互為綜卦,被聚到不同模塊(2、4),且分屬于2個不同大類。大過和小過字面含義相近,僅表意程度不同,被聚到相同大類的2個不同模塊(3、5)。但也出現了一些特殊情況,如大有和大過、損和益雖然字面含義相反,卻被聚在同一個模塊(3、5),且屬于同一最小簇,具有很強聯系。否和泰互為綜卦,被聚到2個模塊(1、2),但無法被明顯區分為2個大類。

圖2 《易經》六十四卦層次聚類樹狀圖

表2 六十四卦聚為5類對應卦名

2.3.2 相似性網絡圖

為深入探索六十四卦的聯系,計算各卦爻辭向量間余弦相似度,可視化成為網絡圖(見圖3)。圖中顯示六十四卦相似網絡圖較復雜,每一卦都有與其相似的卦。為深入探索相似度較高的卦爻對,選擇0.45作為相似度閾值,篩選出大于閾值的卦爻對,見表3。

圖3 六十四卦相似網絡圖

表3 六十四卦高相似度卦爻對(>0.45)

小畜和小過、師和臨、損和益、坎和困、噬嗑和萃、比和未濟、未濟和既濟、乾和蹇、蒙和無妄、臨和無妄等有較強文本相似性。為探索其文本相似性,依據TF-IDF文檔-詞頻矩陣提取上述10對相似卦的關鍵詞,其中強相似的4對卦的TF-IDF詞頻最高的前4個關鍵詞(坎卦僅有3個關鍵詞),4對相似卦的關鍵詞均有重復,詳見表4。這些關鍵詞來源于某一句或多句卦爻辭。其中2對卦包含相同的單卦,如坎(下坎上坎)和困(下坎上兌)均包含坎卦單卦,師卦(下坎上坤)和臨卦(下兌上坤)均包含坤卦單卦。

表4 強相似卦爻對的重要關鍵詞

3 討論

3.1 《易經》的無咎思想與中醫的中庸之道

《易經》被普遍認為用于預測吉兇,由圖1可見,與吉兇相關的詞語出現頻次較多,而《易經》中出現頻次最高的詞語不是吉兇,而是“無咎”。由表1中Word2Vec詞語相似性度量結果可知,“無咎”與“吉”有0.833的相似度,高于其與“兇”的相似度(0.746)。由于Word2Vec詞語相似度主要與文檔中詞語間以一定距離內間隔的頻率相關,該結果說明“無咎”和“吉”在文檔中相近出現的頻率高于其與“兇”同時出現的頻率,反映“無咎”更趨于吉。而“吉”和“兇”有較大的相似性(0.734),如訟卦“有孚窒惕,中吉,終兇”,屯卦“屯其膏,小,貞吉;大,貞兇”,體現吉轉化為兇、吉中有兇的現象,可見《易經》強調居安思危、防患于未然。“吉中有兇”在中醫體現為疾病治愈后可能有未病或復發,即“瘥后防復”。因此,無吉無兇即無咎,是《易經》中所提倡的處事道理。從儒家角度,無咎可理解為中庸之道。中庸之道認為“中”即平衡是事物的最佳狀態,《黃帝內經》也十分注重通過調節取得平衡,主要體現在治病行調和陰陽以取得平衡[15]。

本研究通過文本分詞、詞頻統計與詞語相似度分析得到《易經》中出現頻次較多的關鍵詞語以及詞語之間的聯系,從統計角度解讀《易經》文本的核心,該方法可用于文本內容更豐富的其他中醫古籍如《靈樞》《傷寒論》等研究中,通過抽取其關鍵詞語,幫助人們把握中醫古籍的主題。

3.2 《易經》的物極必反、損中有益與中醫的陰陽制化、損益配伍

本研究通過對《易經》六十四卦的層次聚類挖掘出卦爻語義間的聯系。既濟和未濟互為綜卦,兩者字面含義相反,在聚類時分屬于2 個模塊,但兩者的相似度(0.478)卻不低,觀察發現兩者卦爻辭內容相近,多處出現重復詞語,而聚類能夠區分兩者,說明該聚類方法的有效性。泰和否互為綜卦,且字面上含義相反,分屬于2 個不同模塊。本研究發現多對綜卦能夠聚在不同模塊,意味著綜卦具有互補或相反的性質。但泰和否在聚類時沒有明顯地區分成為兩大類,兩者共同關鍵詞為“拔茅茹”,分別對應于泰卦的初九爻“拔茅茹,以其匯,征吉”與否卦的初六爻“拔茅茹,以其匯;貞吉,亨”,二者初始相同,但其后的爻辭不同,一定程度上說明泰轉化為否的道理。大有和大過字面上看含義相反,卻被聚在同一模塊,兩者共同關鍵詞為“不利”,分別體現在大有卦的上九爻與大過卦的九二爻,反映出物極必反、大有至極為大過的道理。這種物極必反的思想在《易經》中多次體現。中醫強調陰陽對立制約、相互轉化,陰陽的相互轉化發生在事物發展變化的“物極”階段,即“物極必反”。《素問》“重陰必陽,重陽必陰”“寒極生熱,熱極生寒”體現了物極必反的道理。

由圖2、表3 可見,損和益雖互為綜卦,但其不僅在聚類時聚在同一模塊,文本相似度也較高(0.548),說明損卦和益卦具有緊密聯系。分析損卦和益卦的共同關鍵詞,發現“十朋之龜”“弗克違”“益之”分別來自損卦的六五爻“或益之,十朋之龜。弗克違,元吉”和益卦的六二爻“或益之,十朋之龜。弗克違,永貞吉。王用享于帝,吉”,兩句爻辭內容基本相似,且在損卦中2 次出現“弗損益之”的語句。可見,損中有益,損和益配合需要根據實際情況進行,符合中醫“損有余而補不足”的治療理念。中醫治療總則為以平為期,平即均也,均者,合道也。中醫按損益原則組方遣藥,既有大承氣湯的“瀉其有余”,也有四君子湯的“補其不足”,更多的是按虛實比例不同的補中有瀉、瀉中有補,如六味地黃湯的三補三瀉、白虎加人參湯的瀉中有補,都體現了以損益為立論礎的配伍原則。

通過層次聚類、相關性分析可發現《易經》文本中一些隱藏規律,該方法可用于分析挖掘其他中醫古籍的潛在規律,如藥物之間的相關性、古籍文本之間的相關性等。

3.3 中醫古籍挖掘及可視化的價值與意義

中醫古籍內容豐富,蘊含大量中醫理論與古代名醫積累的寶貴知識經驗,是學習中醫和運用中醫的優秀知識來源。中醫古籍內容深澀難懂,對于學習、研究和應用中醫造成很大阻礙。隨著人工智能的發展,大數據挖掘對于中醫古籍核心內容的抽取與中醫古籍的潛在規律的探索具有重要意義,而可視化技術可對中醫古籍中潛在規律進行直觀展現,幫助人們更好地理解中醫。本研究的文本挖掘流程可擴展用于中醫古籍內容的初步挖掘與可視化,結合一些新興人工智能技術將有助于深入挖掘中醫古籍中的潛在規律價值,以期為中醫的理論與實踐提供指導。

4 結語

本研究運用文本挖掘對《易經》中六十四卦卦爻辭進行探索,基于TF-IDF 關鍵詞抽取、聚類分析、相似性網絡分析等挖掘方法,得到的結果驗證了已有研究《易經》與中醫在損益理論方面的聯系[16]、《易經》中的“物極必反”思想[17],且通過詞頻統計、詞語相似度計算體現了《易經》的“無咎”思想,采用了可視化技術對所挖掘結果進行展現,直觀量化地反映了《易經》的核心價值。本文體現了文本挖掘技術在中醫古籍研究中的潛在價值,后續將進一步結合深度學習、知識圖譜、文檔推理等技術擴展用于其他中醫古籍的挖掘與可視化研究。

猜你喜歡
易經文本
《易經·序卦》探微
原道(2020年2期)2020-12-21 05:46:36
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
英語世界認識《易經》的三個階段
翻譯界(2018年2期)2018-03-05 07:55:18
現在我們如何當老師(上)——《易經》里的教育智慧
簡析《易經》文化與太極拳
運動(2016年6期)2016-12-01 06:34:02
《易經》不是用來算命的
福建人(2016年7期)2016-09-13 08:22:09
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
論《柳毅傳》對前代文本的繼承與轉化
人間(2015年20期)2016-01-04 12:47:10
主站蜘蛛池模板: 色综合久久88色综合天天提莫| 国产精品任我爽爆在线播放6080| 自偷自拍三级全三级视频 | 亚洲一区二区成人| 亚洲色精品国产一区二区三区| 高清色本在线www| www亚洲精品| 亚洲Av综合日韩精品久久久| 中文字幕欧美日韩| 婷婷成人综合| 日韩a级片视频| 久久精品免费看一| 国产极品粉嫩小泬免费看| 国产内射在线观看| 婷婷激情五月网| 欧美19综合中文字幕| 国产精品成人免费视频99| 国产拍在线| 日韩精品无码免费专网站| 2019年国产精品自拍不卡| 九一九色国产| 91av成人日本不卡三区| www.av男人.com| 69av在线| 中文字幕日韩欧美| 国产96在线 | 欧美成在线视频| 国产成人综合在线观看| 久久这里只有精品66| 专干老肥熟女视频网站| 亚洲第一网站男人都懂| 成人福利一区二区视频在线| 国模私拍一区二区三区| 亚洲精品成人片在线观看 | 欧美激情视频二区| 4虎影视国产在线观看精品| 亚洲欧美在线综合一区二区三区 | 91久久精品日日躁夜夜躁欧美| 五月天天天色| 国产嫖妓91东北老熟女久久一| 茄子视频毛片免费观看| 久久精品人人做人人爽电影蜜月 | 久夜色精品国产噜噜| 日韩免费视频播播| 91九色视频网| 免费亚洲成人| 欧美a级完整在线观看| 有专无码视频| 欧美日本不卡| 日韩欧美视频第一区在线观看 | 亚洲最大福利视频网| 国产91透明丝袜美腿在线| 国产精品久久久精品三级| 激情乱人伦| 欧美一级99在线观看国产| 国内精品伊人久久久久7777人| 91香蕉国产亚洲一二三区| 久久久久九九精品影院 | 色香蕉网站| 亚洲国产精品不卡在线| 欧美色视频在线| 国产精品手机视频一区二区| 怡春院欧美一区二区三区免费| 91综合色区亚洲熟妇p| 欧美亚洲日韩不卡在线在线观看| 久久精品国产免费观看频道 | 亚洲网综合| 精品人妻无码中字系列| 欧美成人精品高清在线下载| 国产区在线观看视频| 国产SUV精品一区二区6| 女人一级毛片| 国产精品爽爽va在线无码观看| 国产屁屁影院| 精品91自产拍在线| 国产杨幂丝袜av在线播放| 欧美日在线观看| 午夜无码一区二区三区在线app| 亚洲婷婷丁香| 第九色区aⅴ天堂久久香| 91色在线视频| 国产第一色|