多源環境下中藥實體統一視圖構建策略

2020-10-14 05:45:54梁楊丁長松蔡雄

中國中醫藥信息雜志 2020年9期

梁楊，丁長松，蔡雄

多源環境下中藥實體統一視圖構建策略

梁楊1，2，3，丁長松1，2，蔡雄4

1.湖南中醫藥大學信息科學與工程學院，湖南長沙 410208；2.湖南省中醫藥大數據分析實驗室，湖南長沙 410208；3.中南大學計算機學院，湖南長沙 410000；4.湖南中醫藥大學科技創新中心，湖南長沙 410208

針對大數據環境下跨數據源查詢面臨的中藥實體呈現多視圖，且中藥實體在各數據源中表現出屬性不完整、多模態、差異性等問題，提出面向多源數據的中藥實體統一視圖的構建策略。基于實體屬性間的相互關系，構建實體多視圖融合整體架構，并對實體和屬性等關鍵元素進行抽象化表示；以用戶需求為約束提出基于詞向量的相關度計算方法，采用Skip-gram模型訓練出表征實體屬性的詞向量；提出基于歐氏距離和Jaccard系數的相關度算法，并以此為依據進行實體融合。共訓練完成屬性詞向量6116個，其中有效詞向量230個，以400對不同源中藥實體作為測試集，分別采用AFCDS、FF和WVCC方法進行實體融合實驗，其融合準確率依次為92.20%、88.47%和94.24%。基于詞向量的實體融合策略有效可行，能充分利用屬性間的有效信息，自適應性強，實體融合準確率較高，可為解決多源實體融合問題提供新的研究思路。

大數據；多源數據；實體融合；詞向量；相關度

大數據時代背景下，中藥實體往往分散存儲于多個數據源中，從海量而混雜的數據中精確地提取出高利用價值的中藥信息日趨迫切[1]。然而，數據結構差異大、來源廣、價值密度低、更新實時等問題，給中藥實體的規范和查詢帶來巨大挑戰，中藥實體統一視圖建立的價值就在于從眾多分散、異構的數據源中挖掘出隱含的、有價值的信息。中藥實體統一視圖構建的關鍵是識別相似實體，相似是指多個實體表象（命名不同的實體）指向現實世界中同一真實實體[2]。筆者基于實體間共有屬性的相似度，采用實體相關度來度量實體間的相似程度，識別和聚合屬于同一中藥實體的實體表象。針對此類問題，眾多國內外學者采用多種語義技術進行了相關研究。基于對象屬性的分類算法把對象作為多維向量，其每個屬性作為向量維度，可以計算兩對象間的距離。而分數層融合方法可通過某種規則減少類內距離，增大類間距離，從而實現分數層融合識別，是最常用的融合方式。但分數層融合沒有考慮對象之間的關聯性，也不能很好區分類內和類間的數據[3]。針對很多分類模型沒有考慮問題所在領域知識而造成分類效果不理想的問題，彭京等[4]提出了一種基于概念相似度的數據分類方法，該方法將屬性矢量化，數據記錄作為屬性矢量的和，將數據間相關度計算轉換為屬性矢量及其相互投影的公式，從而得到任意兩條數據的相關度。本體匹配方法能夠發現本體語義相關實體之間的對應關系，近年來基于該方法的語義相關度研究取得了顯著進展[5]。因此，本研究在多源異構環境下，通過基于詞向量的相關度計算（word vector-based correlation calculation，WVCC）方法實現多源實體的有效融合，提出多源環境下實體統一視圖的構建策略，為中藥實體規范化提供參考。

1 資料與方法

1.1 數據來源及預處理

數據來自《中藥學》[6]、《中藥大辭典》[7]、《中華本草》[8]、《全國中草藥匯編》[9]、藥智數據（http://db. yaozh.com）、中藥查詢網（http://www.zhongyoo.com）。利用以上多源異構數據作為訓練和測試對象，在預處理過程中構建常用中藥分類樣本數據集，見表1。

每種藥物作為一個實體，包含性、味、歸經、功效、適應癥、用量（最小用量和最大用量）、注意事項等屬性信息，且一種藥物可有多種功效。以三七為例，其實體屬性見表2。

表1 常用中藥分類樣本數據集

名稱別名類別性味歸經功效一枝黃花大葉七星劍，一枝香解表藥涼辛苦肝膽疏風清熱，消腫解毒生地干地黃，芐，生地，熟地，地髓，陽精，細生地，懷生地，鮮生地，原生地，懷慶地黃，還元大品清熱解毒藥涼甘苦心肝腎滋陰養血，溫中下氣關木通馬木通，苦木，丁香，丁翁利水滲濕藥寒苦小腸，心，膀胱清熱利尿，通經下乳巴豆巴豆霜，七開，八百力攻下藥熱辛胃，大腸瀉寒積，通關竅，逐痰行水，殺蟲白果銀杏仁，靈眼止咳化痰藥平甘苦澀肺腎斂肺氣，定喘咳，止瀉木天蓼葛棗，馬棗子，天蓼祛風濕藥溫辛肝腎心祛風除濕，通經益氣川椒花椒，大椒溫里藥溫辛脾胃腎溫中散寒，除濕止痛，殺蟲，解魚腥毒沉香沉水香理氣藥溫辛苦腎脾胃降氣溫中，暖腎納氣谷芽稻芽消導藥微溫甘脾胃健脾開胃，消食和中 ………………… 名稱適應癥最小用量/g最大用量/g注意事項一枝黃花感冒頭痛，黃疸，小兒驚風 915不宜久煎，不宜久服生地胎動不安，月經不調，崩漏，吐血1018泄瀉者慎服關木通口舌生瘡，小便赤痛，閉經，膀胱炎，肝硬化腹水，心力衰竭水腫 1.5 5服用過量會引起腎衰竭巴豆胸腹脹滿，水腫，冷積凝滯，痰滿閉塞 0.15 0.3無寒實積滯、孕婦及體虛者忌服白果哮喘，痰咳，遺精，帶下，支氣管炎，肺結核，梅尼埃病 510有實邪者忌服木天蓼經閉，風濕病，久痢，白癜風，積聚1530 川椒嘔吐，腹痛泄瀉，蟲病，風寒濕痹，腳氣病 3 8陰虛火旺者忌服，孕婦慎服沉香嘔吐，脘腹脹滿，腰膝虛冷，男子精冷 1.5 3陰虛火旺，氣虛下陷者慎服谷芽泄瀉，不思飲食，腹脹1018 ……………

表2 三七實體屬性示例

序號屬性屬性元素/取值 1名稱三七 2別名田七，金不換，山漆，田漆，血參，昭參，田三七，旱三七，猴三七，剪口七，人參三七，猴頭三七 3類別化瘀止血藥 4性溫 5味甘，微苦 6歸經肝胃，大腸，心 7功效散瘀消腫，止痛通脈 8適應癥吐血，跌仆瘀血，心絞痛 9最小用量/g4.5 10最大用量/g9 11注意事項孕婦忌服

1.2 實驗設置

為評估多源環境下中藥實體統一視圖構建策略的性能表現，實驗平臺采用真實的大數據集群環境，集群共6個節點，包含1個NameNode節點和5個DataNode節點，其軟硬件詳細配置信息見表3。

表3 實驗平臺詳細軟硬件配置信息

序號名稱詳細描述 1NamenodeDell OptiPlex 7040，4*CPU Intel Core i5-6500，Memory 8GB DDR4，Disk 1TB 7200rpm 2DatanodeDell Vostro 3470-R1328R，4*CPU Intel Core i3-7100，Memory 4GB DDR4，Disk 1TB 7200rpm 3SoftwareOS CentOS V6.4，Apache Hadoop V2.7.1 4IDEEclipse V4.5.2，PyCharm V2018.2.1

1.3 實體和屬性表示

本研究主要針對多源異構的中藥實體進行有條件融合，實體通常以多視圖存儲于多個數據源中，可有多個屬性用以描述實體的內在特征。為統一表示多源異構環境下數據源、實體及實體屬性，每個中藥實體主要信息包含名稱和屬性兩部分，則數據源可以表示為：

＝{，} （1）

式中，＝{1，2，…，n}表示某一數據源即多個實體的集合，＝{1，2，…，n}表示實體名稱的集合，＝{1，2，…，n}表示實體屬性的集合，表示該數據源中實體的個數，第個實體i分別對應實體名稱i和實體屬性i，特別地，中藥實體屬性i本質上是一個多維的屬性向量，構成i的所有屬性元素在數據預處理階段根據設定的格式順序進行初排序，實體屬性向量i為：

i＝{i1，i2，…，im} （2）

式中，ii表示第個實體的第個屬性元素（屬性值），為實體屬性向量i維數，不同數據源中參與比較的實體其初始屬性向量的值可能不同。

1.4 多源實體多視圖融合框架

由于中藥多源異構的數據庫涉及深層次且不統一的語法和語義信息，要高效準確地篩選出表示真實世界同一對象的不同名實體并進行合并和歸類，處理難度大、復雜性高、結構化程度低[10-11]。因此，本研究通過對多源環境下實體的各屬性進行相關度分析，最終實現實體多視圖融合。主要流程為：①爬取來自不同數據源的有效數據，構建原始數據集；②對原始數據集進行數據預處理，主要包括分詞、無效信息過濾、數據清洗、屬性詞排序、文件存儲等操作；③根據本文定義的數據詞典將屬性特征向量化并基于Skip-gram模型訓練其特征詞向量；④根據本文提出的基于詞向量的相關度計算策略分別進行屬性相關度和實體相關度的計算，通過設定合適閾值，對相關度滿足條件的所有實體對進行實體信息的聚類融合；⑤建立統一視圖并輸出結果。見圖1。

圖1 多源環境下實體多視圖融合框架圖

1.5 基于詞向量的相關度計算策略

在提取了實體并經過數據預處理過程獲取到對應的屬性向量后，需要通過計算屬性相關度的方法對實體進行融合[12]。為此，本研究提出基于詞向量的屬性相關度計算策略。由于初始屬性向量的屬性元素最初全部以文本形式表示，并且每個屬性向量維度可能各不相同，為有效度量文本間的相似性，需要根據向量空間模型（vector space model，VSM）的思想把文本屬性轉化成計算機可以處理的結構化數據，即中文文本轉化為數值特征，則兩個或多個實體文本屬性向量相關度的問題可以通過計算向量之間的相似性來解決。

詞向量是一種基于大量未標注的語料學習而來的低維分布式實數向量，充分挖掘了同義詞之間的共現關系[13]。通過對上下文分析挖掘，詞向量中每個值都具有一定代表性，都能表示一定的語義和語法特征。基于此，結合中藥實體屬性的特點和詞向量的優勢，提出一種基于詞向量的相關度計算方法，該方法首先訓練把每個文本屬性映射為語義層面的特征詞向量，接著引入Jaccard系數計算各詞向量間的相似度，高于設定閾值者作為共現部分，最終計算整個屬性向量的相似度。

1.5.1 基于Skip-gram模型訓練特征詞向量

針對傳統的詞向量表示方法中存在的諸如無法表達詞與詞之間的關系、特征離散稀疏性、維度災難等問題，采用Mikolov等[14]提出的基于Hierarchical Softmax構造的Skip-gram模型訓練特征詞向量，該模型根據上下文關系定義了詞的向量，關聯度高的詞有更近的距離，能夠表現數據的內在特征。Skip-gram模型本質上是一個改進的三層神經網絡結構，包括輸入層、投影層和輸出層，見圖2。

圖2 Skip-gram模型

Skip-Gram模型比較適用于大規模數據集，模型輸入（）是一個特定的詞向量，而輸出是對應的上下文詞向量，輸出的詞向量個數由算法設定的窗口大小（window size）決定。

在樣本訓練過程中，設給定的詞序列為：1，2，…，n，需要被最大化的目標函數見公式（3）。

式中，數據詞典＝{|=i，∈[1，n]}，()表示當前詞的上下文窗口，通常窗口大小為5～10，視具體情況設定，（|）是對應詞向量u和w的層次Softmax回歸值。

基于以上研究，Skip-gram模型訓練參數較少，簡單而高效，最終能夠通過詞向量之間的相似度表示屬性在語義層面的相似度。

1.5.2 基于歐氏距離和Jaccard系數的相關度計算

1.5.2.1 屬性之間的相關度

實體所包含的各屬性根據Skip-gram模型訓練得到對應的詞向量，本研究通過歐氏距離計算2個特征詞向量的相似度，衡量不同數據源實體屬性的相關度。

在多維數據空間結構中，2個空間向量歐氏距離的大小可以反映其相似程度，其數值越小，表示2個向量越相近，亦說明2個屬性越相關[15-16]。歐氏距離的定義見公式（4）。

Dist（ii，jj）＝‖ii－jj‖2（4）

式中，ii、jj分別是屬性ii、jj對應的特征詞向量。由于訓練后的詞向量考慮了豐富的屬性特征及向量中各元素之間的關聯性，因此采用歐氏距離能夠簡單高效地表征2個向量之間的累積差異，并準確反映出2個詞向量之間的相似性，亦即2個屬性的相關度。

為方便相似度的計算和表達，限定歐氏距離的取值范圍，對式（4）表示的歐氏距離進行歸一化處理，得到屬性相關度計算公式，見公式（5）。

式中，δ（ii，jj）表示屬性ii、jj的相關度，取值范圍為[0，1]。顯然，當δ（ii，jj）值越接近于1，屬性ii、jj之間相關度越大；δ（ii，jj）值越趨近于0，屬性ii、jj之間差別越大。

1.5.2.2 實體之間的相關度

由于實體屬性向量可以唯一表征一個特定的實體，因此實體之間的相關度等價于實體屬性向量之間的相關度。根據公式（2），實體屬性向量由多個屬性構成，若2個實體屬性向量中相同或相近的部分越多，即共現屬性越多，那么其相關度就越大。基于此，本研究引入Jaccard系數衡量實體屬性向量間的相關度。從數學的角度，樣本交集個數和樣本并集個數的比值稱為Jaccard系數。類似地，在實體屬性向量的比較過程中，共現屬性相對于所有屬性所占的比例可以反映出2個屬性向量間的相關度。具體形式見公式（6）。

式中，i∩j表示屬性向量i和j的共現屬性，等同于交集部分，i∪j表示屬性向量i和j包含的所有不重復屬性，等同于并集部分，則（i，j）可以代表屬性向量i和j的相關度。

基于以上分析，設計基于歐氏距離和Jaccard系數的相關度算法1，其偽代碼如下。

輸入：任意2個實體屬性向量i＝{i1，i2，…，im}，j＝{j1，j2，…，jn}

輸出：實體屬性向量i，j的相關度

Step 1：分別將實體屬性向量i＝{i1，i2，…，im}，j＝{j1，j2，…，jn}對應轉換成由特征詞向量構成的屬性向量i＝{i1，i2，…，im}，j＝{j1，j2，…，jn}，初始化詞向量比較次數（i，j）＝0；

Step 3：把由Step 2中每個詞向量ii得出的最大匹配度Rev（ii，j）與屬性相關度閾值作比較，≥則將ii歸為i和j的交集部分，否則將ii標記為獨立不相關屬性，并令Rev（ii，j）＝0；每次比較后令（i，j）＝（i，j）+1；

Step 4：同理，交換i和j，重復Step 2和Step 3的操作；

Step 5：綜上，根據公式（6）得出任意2個實體屬性向量i、j相關度計算公式：

該式的分子是任意2個實體屬性向量i、j的共現屬性即i、j的交集，分母是i、j的并集，代表所有不重復的共現屬性和非共現屬性，因此，Rev（i，j）取值范圍為[0，1]；

Step 6：最后將實體屬性向量i，j的相關度Rev（i，j）與屬性向量相關度閾值λ進行比較，≥λ則表示兩者相關，可以進行實體融合，否則表示不相關，兩者指向不同的實體；

Step 7：返回i，j的相關度Rev（i，j）。

2 結果

采用《中藥學》[6]電子版教材作為屬性詞向量的訓練集（中文字符數約61萬），訓練完成詞向量6116個，其中有效屬性詞向量230個，每個詞向量維度為200維。部分屬性元素對應的詞向量訓練結果見表4。

表4 部分屬性元素對應詞向量

屬性元素對應詞向量（200維）苦（-0.330 246 0，0.023 602 5，-0.053 613 1，0.071 510 9，…，-0.357 792 0，-0.040 185 4，0.063 908 3）寒（0.027 702 1，0.028 034 0，-0.285 268 0，-0.022 379 2，…，-0.308 720 0，-0.049 867 3，0.074 089 0）熱（-0.054 055 9，0.107 347 0，-0.142 854 0，-0.024 864 0，…，-0.218 180 0，-0.073 299 0，-0.022 821 1）胃（0.061 085 1，0.049 659 8，-0.303 895 0，-0.126 678 0，…，-0.227 320 0，0.043 255 8，0.024 517 9）肺（0.106 635 0，0.031 042 5，-0.215 672 0，-0.098 925 0，…，-0.288 672 0，-0.057 018 8，0.022 042 8）肝（0.175 962 0，-0.087 078 2，-0.214 995 0，-0.048 901 3，…，-0.181 404 0，0.058 498 8，0.043 795 4）高血壓（0.035 183 0，0.023 626 3，0.016 806 3，0.133 913 0，…，0.119 485 0，-0.059 232 4，0.055 066 8）牙痛（0.083 277 5，0.009 955 7，-0.061 582 4，0.034 277 6，…，-0.053 500 2，-0.037 828 7，0.008 046 1）頭痛（0.129 037 0，0.005 470 4，-0.127 878 0，0.028 358 7，…，-0.103 271 0，-0.074 404 9，0.069 649 3）中風（0.069 706 1，0.009 521 96，-0.068 872 2，0.039 171 7，…，-0.021 983 4，-0.035 233 3，0.022 805 9） ……

基于公式（4）、（5）和計算出的屬性詞向量，首先選擇不同數據源中的實體進行屬性相關度計算，根據公式（2）所示實體表示方法，以羅布麻＝{甘，苦，心，肝，腎，清熱降火，強心利尿，心臟病，高血壓，神經衰弱，腎炎水腫，感冒，高血脂，心悸失眠，浮腫尿少，6克，9克}，茶葉花＝{苦，涼，肝，腎，降火利尿，降血壓，高血壓，肝炎，腎炎水腫，高血脂，失眠，6克，12克}為例，部分屬性相關度計算結果見表5。

根據以上對實體間屬性相關度的統計情況，令屬性相關度閾值為0.7，≥者認為是2個實體間的相關屬性，基于算法1進一步計算多源異構實體間的相關度，用<數據源，實體>二元組形式表示某一數據源中的某一實體，部分實體相關度計算結果見表6。

基于實驗結果，選取400對不同源實體，分別采用3種不同的實體融合方法進行相關度計算。其中，基于分類距離分數的自適應融合（adaptive fusion based classification distance score，AFCDS）算法將匹配分數與閾值之間的距離分數作為融合分數指標，不僅攜帶分類置信度的類別信息，也包含匹配分數與分類閾值之間的距離信息，并通過信息熵定義關聯系數和特征權重系數[17]。特征融合（feature fusion，FF）方法從目標實體中提取數據或特征進行融合，將2個源特征向量組合成1個更完整、更具識別度的統一向量，如果2個輸入向量的維度不同，則在低維向量的相應位置用零填充[18]。本研究基于詞向量計算不同實體及實體屬性間的相關度，與以上2種方法進行實驗對比，結果見表7。

表5 不同實體間部分屬性的相關度

<實體1，屬性元素><實體2，屬性元素>相關度 <羅布麻，甘><茶葉花，苦>0.502 173 <羅布麻，甘><茶葉花，涼>0.491 540 <羅布麻，苦><茶葉花，苦>1 <羅布麻，苦><茶葉花，涼>0.426 137 <羅布麻，心><茶葉花，肝>0.531 024 <羅布麻，心><茶葉花，腎>0.395 120 <羅布麻，肝><茶葉花，肝>1 <羅布麻，腎><茶葉花，腎>1 <羅布麻，清熱降火><茶葉花，降火利尿>0.713 215 <羅布麻，清熱降火><茶葉花，降血壓>0.692 140 <羅布麻，強心利尿><茶葉花，降火利尿>0.835 214 <羅布麻，心臟病><茶葉花，高血壓>0.635 260 <羅布麻，心臟病><茶葉花，肝炎>0.573 010 <羅布麻，高血壓><茶葉花，高血壓>1 <羅布麻，高血壓><茶葉花，肝炎>0.599 269 <羅布麻，神經衰弱><茶葉花，失眠>0.859 848 <羅布麻，浮腫尿少><茶葉花，腎炎水腫>0.812 143 ………

表6 不同數據源間部分實體的相關度

<數據源1，實體> <數據源2，實體>相關度 <中藥大辭典，羅布麻><中華本草，茶葉花>0.957 306 <全國中草藥匯編，藜蘆><中藥大辭典，山蔥>0.871 354 <中藥大辭典，天茄子>0.934 160 <中華本草，梔子><中藥大辭典，山梔子>0.961 621 <中藥大辭典，生地><全國中草藥匯編，干地黃>0.880 152 <全國中草藥匯編，百合花><中華本草，百合花>0.971 423 <中華本草，丁香>< db.yaozh.com，母丁香>0.701 654 <中藥大辭典，車前草><中藥大辭典，車前子>0.787 602 ………

表7 不同實體融合方法實驗結果比較

方法計算正確的強相關實體/對中藥數據庫有記載的實體/對實體融合準確率/% AFCDS27229592.20 FF26129588.47 WVCC27829594.24

3 討論

實體是指真實世界中客觀存在并可相互區分的對象或事物，是代表特定事實信息的重要語義單位。屬性則是實體具備的某一特性，一個實體由若干個屬性來描述。如“半夏”“青蒿”“三七”等屬于中藥類別的實體，其對應的性味歸經、功效作用、藥材性狀、藥理作用等是中藥實體的屬性。

然而，不同來源但含義相同的中藥實體往往具有多個名稱，以“半夏”為例，就有“三葉半夏”“三步跳”“麻芋子”“水芋”“地巴豆”“水玉”“地文”“老和尚頭”“泛石子”“地珠半夏”等近20種別名。為判斷多源環境下的實體是否指向同一個真實的對象，本研究提出構建多源實體的統一視圖，通過將相關度高的實體進行屬性合并和名稱等價標記等處理，實現多源實體的信息融合和聚集，從而形成更準確、更完整的實體統一視圖。

為構建多源環境下中藥實體統一視圖，本研究提出分別對實體屬性相關度和實體間相關度進行量化計算，并對常見的實體屬性進行統計和整理。由表1、表2可以看出，某一中藥實體由不同的屬性取值組合表示，同一中藥實體在不同數據源中可能存在不同名或屬性不一致等問題。為解決此類問題，本實驗中實體屬性向量不包含“名稱”和“別名”，某一數據源中任一中藥實體i可以表示為i＝{i1，i2，…，im}，ii表示第個實體的第個屬性元素，每個屬性元素可用Skip-gram模型訓練出的詞向量來等效表示。

對于存儲在多個數據源中的實體，通常存在屬性表述不同但本質接近的情況，本研究稱這類實體為強相關實體，否則稱為不相關實體。根據多源實體相關度實驗數據的統計結果，令實體相關度閾值λ為0.85，則實體相關度≥λ的2個實體可以認定為強相關實體，能夠進行實體屬性融合，從而構建該實體的統一視圖。

本研究結果顯示，WVCC方法實體融合準確率達到94.24%，與基于分類距離分數的自適應融合識別方法、分數層融合方法等常見算法相比，其實體融合準確率較高，為多源環境下實體融合提供了一種可靠、新穎的解決策略。

綜上所述，為解決大數據環境中跨數據源查詢面臨的實體呈現多視圖而導致的數據不規范、查詢低效、信息缺失等一系列問題，本研究提出了多源環境下實體統一視圖的構建策略，首先設計實體融合架構圖，接著對實體和屬性進行數學抽象，然后提出基于詞向量的相關度計算方法，該方法主要分為基于Skip-gram模型特征詞向量的訓練、基于歐氏距離和Jaccard系數的相關度計算等階段，最終實現不同源實體的準確融合。實驗結果表明，本研究提出的實體統一視圖構建策略有效可行，實體融合準確率高，并在查詢對象完整性及查詢時間開銷方面都有較好表現，進一步擴大標準訓練集的規模、改進數據融合算法是下一步的研究方向。

[1] 于靜,劉燕兵,張宇,等.大規模圖數據匹配技術綜述[J].計算機研究與發展,2015,52(2)：391-409.

[2] 孟小峰,杜治娟.大數據融合研究：問題與挑戰[J].計算機研究與發展,2016,53(2)：231-246.

[3] 張瑤,李蜀瑜,湯玥.大數據下的多源異構知識融合算法研究[J].計算機技術與發展,2017,27(9)：12-16.

[4] 彭京,唐常杰,元昌安,等.一種基于概念相似度的數據分類方法[J].軟件學報,2007,18(2)：311-322.

[5] SHVAIKO P, EUZENAT J. Ontology matching：state of the art and future challenges[J]. IEEE Transactions on Knowledge and Data Engineering,2013,25(1)：158-176.

[6] 高學敏,鐘贛生.中藥學[M].2版.北京：人民衛生出版社,2013.

[7] 南京中醫藥大學.中藥大辭典[M].2版.上海：上海科學技術出版社, 2006.

[8] 國家中醫藥管理局《中華本草》編委會.中華本草[M].上海：上海科學技術出版社,1999.

[9] 王國強.全國中草藥匯編[M].3版.北京：人民衛生出版社,2014.

[10] LI G L, HE J, DENG D, et al. Efficient similarity join and search on multi-attribute data[C]//ACM SIGMOD International Conference on Management of Data. ACM,2015：1137-1151.

[11] SELLAMI R, DEFUDE B. Complex queries optimization and evaluation over relational and NoSQL data stores in cloud environments[J]. IEEE Transactions on Big Data,2018,4(2)：217-230.

[12] RONALD Y, FRED P, PAUL E. Multiple attribute similarity hypermatching[J]. Soft Computing,2018,22(8)：2463-2469.

[13] 張群,王紅軍,王倫文.一種結合上下文語義的短文本聚類算法[J].計算機科學,2016,43(S2)：443-446,450.

[14] MIKOLOV T, CHEN K, CORRADO G, et al. Efficient estimation of word representations in vector space[C]//1st International Conference on Learning Representations(ICLR 2013),2013：1-12.

[15] DRAISMA J, HOROBET E, OTTAVIANI G, et al. The Euclidean distance degree of an algebraic variety[J]. Foundations of Computational Mathematics,2016,16(1)：99-149.

[16] PAPADAKIS G, KOUTRIKA G, PALPANAS T, et al. Meta-blocking：Taking entity resolution to the next level[J]. IEEE Transactions on Knowledge and Data Engineering,2014,26(8)：1946-1960.

[17] 張露,王華彬,陶亮,等.基于分類距離分數的自適應多模態生物特征融合[J].計算機研究與發展,2018,55(1)：151-162.

[18] HAGHIGHAT M, ABDEL-MOTTALEB M, ALHALABI W. Discriminant correlation analysis：real-time feature level fusion for multimodal biometric recognition[J]. IEEE Transactions on Information Forensics and Security,2016,11(9)：1984-1996.

Construction Strategy for Unified View of TCM Entities in Multi-source Environment

LIANG Yang1,2,3, DING Changsong1,2, CAI Xiong4

To propose a construction strategy of unified view of TCM entities for multi-source data targeting the fact that TCM entities are faced with multi-data query with multiple views in the big data environment, and that TCM entities exhibit incomplete attributes, multi-modality, and differences in each data source.Based on the interrelationship between entity attributes, an entity multi-view fusion overall architecture was constructed, and abstract representations of key elements such as entities and attributes were carried out. A word vector-based correlation calculation method was proposed based on user requirements. The Skip-gram model was used to train word vectors that characterize entity attributes. A correlation algorithm based on Euclidean distance and Jaccard coefficient was proposed, and the entity fusion was based on this.The experiment trained a total of 6116 attribute word vectors, including 230 effective word vectors. 400 pairs of heterologous TCM entities were used as test sets, and the entity fusion experiments were carried out by AFCDS, FF and WVCC respectively. The fusion accuracy was 92.20%, 88.47% and 94.24%.The entity fusion strategy based on word vector is effective and feasible, and can make full use of the effective information between attributes. It has strong adaptability and high accuracy of entity fusion, and can provide new ideas for solving the problem of multi-source entity fusion.

big data; multi-source data; entity fusion; word vector; correlation

R28；R2-05

1005-5304(2020)09-108-07

10.3969/j.issn.1005-5304.201906116

國家重點研發計劃（2017YFC1703306）；湖南省教育廳科學研究項目（19C1391）；湖南省重點研發計劃（2017SK2111）；湖南省教育廳重點項目（18A227）；湖南省自然科學基金（2018JJ2301）；湖南省中醫藥科研計劃重點課題（2020002）；湖南中醫藥大學電子科學與技術學科開放基金（2018DK04）

丁長松，E-mail：dinghongzhe@yeah.net

（2019-06-09）

（2019-07-05；編輯：陳靜）