











摘 要:近年來,隨著材料數據的積累以及“材料基因組計劃”的普及,面對大量需要處理和管理的材料數據,快速準確地檢索并獲取相應信息已成為一個重要問題。傳統的檢索方法由于僅能查詢某一材料的相關信息,并且存在檢索結果不全面、無法處理復雜語義關系等問題,難以獲取相似程度較高的材料。為了快速、準確地找到與某種材料相似的材料,提出可度量不同節點的加權材料相似度計算模型WM-PathSim。首先,使用metapath2vec學習材料節點的嵌入表示;其次,引入TFIDF-CBOW模型學習材料路徑實例的存在概率,進而計算不同元路徑的權重;最后,加權求和符合條件的元路徑得到最后的相似性度量,來預測不同材料之間的相似程度。在真實數據集上的結果表明,在不同的路徑關系中,所提模型相比于基線方法在性能上有較大提升,其AUC和precision指標分別提升了0.37~5.02百分點和1%~7.33百分點,說明所提模型得到材料間的相似程度更加準確和有效,從而能夠獲得相似材料。
關鍵詞:材料相似度;metapath2vec;TFIDF-CBOW;元路徑權重
中圖分類號:TP391 文獻標志碼:A 文章編號:1001-3695(2024)09-030-2781-06
doi:10.19734/j.issn.1001-3695.2023.12.0630
Material entity retrieval method introducing similarity measure based on meta-path
Huang Huaze1,Hu Zixuan1,You Jinguo1,2,Huang Xingrui1,Tao Jingmei3,Yi Jianhong3
(1.Faculty of Information Engineering & Automation,Kunming University of Science & Technology,Kunming 650500,China;2.Yunnan Key Laboratory of Artificial Intelligence,Kunming 650500,China;3.Faculty of Material Science & Engineering,Kunming University of Science & Technology,Kunming 650093,China)
Abstract:In recent years,with the accumulation of material data and the popularization of the“material genome project”,it has become an important issue to retrieve and obtain the corresponding information quickly and accurately in the face of a large amount of material data that needs to be processed and managed.However,traditional retrieval methods can only query information related to a certain material,and there are problems such as incomplete retrieval results and inability to handle complex semantic relations,making it difficult to obtain materials with a high degree of similarity.In order to find materials similar to a certain material quickly and accurately,this paper proposed a weighted material similLPrcCDPw0Ff7cewjxTdHvA==arity calculation model WM-PathSim that could measure different nodes.Firstly,it learned the embedding representation of material nodes by using metapath2vec.Secondly,it introduced the TFIDF-CBOW model to learn the existence probability of material path instances,and then calculated the weights of different meta-paths.Finally,it obtained the weighted summation of eligible meta-paths as the final similarity measure to predict the similarity between different materials.The results on the real datasets show that the proposed model has a greater performance improvement compared with the baseline method in different path relations,and its AUC and precision metrics are improved by 0.37~5.02percentage and 1~7.33points,respectively,It indicates that this model is more accurate and effective in obtaining the degree of similarity between materials,and thus enabling the acquisition of similar materials.
Key words:material similarity;metapath2vec;TFIDF-CDOW;meta-path weight
0 引言
材料科學是一個涉及多學科交叉的領域,涵蓋了物理學、化學、材料工程等多個領域,它的研究對象是各種材料及其性質、結構、制備、加工、應用等方面。隨著材料基因組計劃以及材料基因工程[1]的推廣,有大量的實驗數據、文獻、專利等信息需要進行處理和管理,如何快速、準確地檢索和獲取相關數據[2]成為了一個重要的問題。
傳統的關鍵詞匹配檢索方法是將用戶輸入的意圖與文本中的關鍵詞進行匹配以達到檢索所需目標的效果。但這種方法往往存在著一些局限性,如檢索結果不全面、無法處理多義詞和同義詞、難以處理復雜的語義關系等,進而導致搜索結果的準確性和全面性受到限制。為了克服傳統檢索方法的不足以及快速、準確地獲取材料知識,研究人員提出了許多知識檢索技術,其中基于元路徑相似度計算的知識檢索是一種比較有效的方法,其利用元路徑的相似性度量可以幫助用戶發現材料潛在的關聯性和相關性。
元路徑[3]是異質信息網絡中的一種重要概念。異質信息網絡[4]是一種由不同類型的節點和邊組成的網絡,其中節點和邊都具有不同的屬性和類型。目前異質信息網絡在材料科學相似性度量方面還沒有被系統地研究,而傳統的異質信息網絡的相似性度量方法主要基于元路徑。元路徑指的是由多個不同類型的節點和邊組成的路徑,比如在社交網絡中,一個由用戶、社交關系和興趣愛好節點組成的路徑就是一個元路徑。元路徑的相似性度量可以用于許多任務,在挖掘豐富語義信息方面具有廣泛的應用前景,其中包括分類[5]、聚類[6]、相似性搜索[7~12]。通過定義不同的元路徑,可以捕捉異質信息網絡中不同類型節點之間的關系。
1 相關工作
對于給定元路徑p的對象間相似性問題,一些測量方法已被提出。PathCount度量的是兩個實體在網絡中連接路徑的數量,可以用來衡量它們之間的相關性和相似性。PathSim[7]是一種基于路徑的相似性度量方法,用于衡量異質圖中兩個相同類型實體之間的相似度。與PathCount不同,PathSim不僅考慮了元路徑的路徑實例數量,還考慮了實例之間的相似性。Lao等人[8]在2010年提出了一種帶有路徑約束的隨機漫步(path-constrained random walk,PCRW)模型,用于衡量豐富的科學文獻元數據所構造有向圖的實體接近性。盡管可以用PCRW模型來衡量不同種類對象之間的相關性,但是PCRW具有非對稱性質,使其無法作為相關性測量的工具。SimRank[9]是一種對稱相似性度量算法,通過兩個對象的相鄰對象相似度來評估兩個對象的相似度。HeteSim[10]是最近提出的基于元路徑的SimRank的擴展,它能夠根據所給元路徑來度量任何一類節點對間的相似性。Yang等人[11]在2018年提出了一種加權異構信息網絡(weighted heterogeneous information network,WHIN)及加權元路徑的方法,并針對WHIN提出一種基于語義路徑的相似性度量模型WgtSim。隨著加權異構信息網絡的出現,如何度量這種新型網絡中對象之間的相似度仍有待研究。
Yuan等人[13]提出了一種基于網絡架構搜索的異構信息網絡元路徑搜索方法,可搜索到更適合不同異構信息網絡和推薦任務的元路徑。SAHE[14]衡量每個元路徑在其自身語義空間上的相對相似度關系,聚合相似度關系以獲得節點相似度并計算嵌入。Zhang等人[15]提出了一種用于top-k相似度搜索的雙通道CNN,以根據不同的元路徑為節點生成結構和內容嵌入。Zhou等人[16]將元路徑的實例抽象為語義單元,并考慮它們之間的交互以發現更深層次的語義信息。Zhai等人[17]提取了描述原始異構信息網絡基本連接模式的異構信息原子,有助于獲得主要的元路徑或元結構。GoT[18]由元路徑構建、元路徑內融合、元路徑間融合和語義注釋推薦四部分組成,可充分利用結構和語義信息,有效提升了推薦準確性。
在材料領域,材料相似性度量可以應用于相似材料搜索,幫助科學家快速找到與他們研究的材料相似的某些材料,并獲取相關信息。同時能夠用于推薦材料,根據用戶輸入的材料性質或需求,檢索與其相似的某些材料,并進行推薦。
基于元路徑相似度計算的材料實體檢索方法將材料領域的知識和信息以網絡的形式進行結構化和表示,通過計算查詢節點與網絡中其他節點之間的元路徑相似度來判斷它們之間的相關性。相比于傳統基于關鍵詞的檢索方法,基于元路徑相似度計算的材料實體檢索方法可以更全面、準確地表達查詢信息,并且可以將分散在不同文獻、數據庫等的信息進行整合和融合,提供更為精準的查詢結果。
因此,基于元路徑相似度計算的材料實體檢索方法具有廣闊的應用前景,可以為材料科學家、工程師和決策者提供更為便捷、快速、準確的材料實體和信息,促進材料科學領域的進步和發展。
2 材料異質信息網絡模型的建立
2.1 材料異質信息網絡的建模
本文采用材料名、性能名、性能值、文獻來源作為不同的節點類型,因此采用材料異質信息網絡進行建模。利用網絡中的元路徑描述節點之間的復雜語義關系,既可通過不同的元路徑得到不同的語義信息,也可根據元路徑相似度進行材料實體相似搜索。該模型可細粒度地挖掘不同對象之間的聯系,并且找到不同材料的特征表示,進而統一刻畫材料特征,有助于進行相似材料的檢索。
如圖1所示,S表示文獻來源、C表示材料、P表示性能、V表示性能值,其中s1c1表示從文獻來源s1抽取出的材料c1、c1p1v1表示材料c1具有性能p1且性能值為v1,通過整合“文獻來源-材料”“材料-性能-性能值”等多種材料知識及關系,對異質信息網絡進行挖掘。
定義1 材料異質信息網絡。用MN=(C,P,V,S,E)表示,其中:
a)C={c1,c2,…,cn}為材料節點集合。
b)P={p1,p2,…,pn}為性能節點集合。
c)V={v1,v2,…,vn}為性能值節點集合。
d)S={s1,s2,…,sn}為文獻來源節點集合。
e)E={Esc∪Ecp∪Epv∪Ecv}是模型中所有邊的集合。其中描述材料與文獻之間的語義關系為Esc={e(s,c)|s∈S,c∈C},即該材料是從某篇文獻中抽取出來的;Ecp={e(c,p)|c∈C,p∈P},其蘊涵了材料與不同性能之間的語義聯系,即該材料所抽取出的性能;Epv={e(p,v)|p∈P,v∈V}描述了性能和性能值之間的語義關系,即某性能對應的性能值;為保證某材料能夠對應準確的性能值,建立Ecv={e(c,v)|c∈C,v∈V}關系,表明某材料抽取出的性能值。
2.2 材料元路徑的描述
元路徑定義作為一種有效利用異構信息和挖掘語義的工具,將網絡模型中的兩類對象連接起來,廣泛應用于異構信息網絡分析。元路徑可以描述節點間的語義信息,下面以圖2為例描述材料異質網絡的元路徑。
這些路徑包含不同的語義,如SCS路徑是指不同來源文獻下的同一種材料,而SCPCS路徑表示不同來源文獻下擁有同一種屬性(性能)的材料。
定義2 材料關系。根據材料異質信息網絡模型中的節點類型,節點間具有四類關系R={R1,R2,R3,R4}:R1為面向材料文獻抽取出的材料,定義為來源關系;R2為材料所包含的性能,定義為擁有關系;R3為某性能所對應的性能值,定義為性能數值關系;R4為某材料對應的性能值,定義為材料數值關系。
定義3 材料元路徑。在材料異質信息網絡模型MN=(C,P,V,S,E)中,材料元路徑描述為
P=SR1C,CR2P,PR3V,CR4V
其中:R={R1,R2,R3,R4}為節點間的關系。
定義4 材料路徑實例。對于材料元路徑P,如果存在真實路徑p={vi,vi+1∈S∪C∪P∪V|viRjvi+1},其中對于任意i,模型節點vi與vi+1之間關系為Rj,故路徑p是材料元路徑中的一條路徑實例。對于滿足條件p的集合稱為元路徑的實例集合。
材料異質信息網絡模型具有的元路徑如圖3所示。
具體元路徑語義信息如表1所示。
3 基于元路徑相似性度量的材料實體檢索
本文提出基于可度量任意節點的加權求和材料相似度計算模型WM-PathSim框架,如圖4所示。首先,使用metapath2vec[19]學習節點的嵌入表示;其次,設計了一種TFIDF-CBOW模型學習元路徑對語義表達的貢獻程度,對符合條件的元路徑的權重進行計算;最后,加權求和多條元路徑并通過PathSim進行相似度度量,來預測不同材料之間的相似程度。接下來,將詳細介紹上述每個步驟。
3.1 基于metapath2vec的路徑表示
為了獲得隱藏在不同網絡中的不同語義特征,本文使用metapath2vec,一種異構嵌入表示學習方法,學習材料、性能、性能值節點的表示。通過考慮節點類型,獲得了材料異質信息網絡中的嵌入向量,以促進材料預測。
metapath2vec算法用于引導隨機游走僅在特定類型節點之間的游動,以獲得包含節點語義信息的嵌入向量。
為了將不同類型的節點投影到相同的特征空間中,將元路徑合并到隨機游走生成器中,以對節點的鄰居進行采樣。材料元路徑P定義為
P=V1R1V2R2V3R3…VtRtVt+1…R4Vl
其描述了V1和Vl之間的潛在語義關系(假設路徑的長度為l)。例如,考慮材料異質網絡,元路徑“材料-性能-性能值-性能-材料”表明兩種材料可能對同一性能具有類似的性能值。因此,這兩種材料應該在低維特征空間中保持接近,節點vt的轉移概率公式如下:
p(vi+1|vit,P)=1|Nt+1(vit)|(vi+1,vit)∈E,vi+1∈Nt+1(vit)0(vi+1,vit)∈E,vi+1Nt+1(vit)0(vi+1,vit)E(1)
其中:Nt+1(vit)表示節點vit的Vt+1類型鄰居。
在異構網絡上通過metapath2vec遍歷所有的元路徑,得到所有元路徑的路徑實例集合,可為每個節點導出一個維數為r的低維表示。
3.2 基于TFIDF-CBOW模型的元路徑權重計算
CBOW[20]模型通過詞向量間的空間相似度來衡量文本語義上的相似度,為豐富了詞向量對詞之間關系以及詞本身的意義表示,本文提出了一種TFIDF-CBOW模型以體現當前詞匯在全文信息中的重要程度和詞匯位置在分類能力中的作用:
Xw(i)=TFIDF×CBOW(w(i))(2)
通過遍歷元路徑,獲取所有路徑實例,并將其作為語料庫輸入改進模型。通過學習與訓練,獲得中心節點與其他節點同時存在的可能性。元路徑存在的概率是通過節點出現概率來確定的。它表達了路徑對語義表達式的貢獻,概率將被用作路徑的權重。
輸入層的輸入節點初始化向量由隱藏層進行累加和,得到輸出層的Huffman樹。Huffman樹上,每個葉節點表示一個目標詞,每一目標詞還具有指示編碼規則的通路。采用邏輯回歸的方法,沿著左子樹游走,對Huffman樹進行1編碼;沿著右子樹走,Huffman樹編碼是0。同時各非葉節點都表示二分類問題。使用各葉節點所對應Huffman代碼,并進行二分類處理,計算所述任意兩節點同時發生的可能性。通過兩個節點出現的概率確定元路徑實例存在的可能性。最后,判斷當前元路徑是否存在概率。
對一條路徑實例的存在概率計算:
pk=∏mi=1pl,j=∏mi=1euj∑Vj′=1euj′(3)
其中:pk表示目前這一條路徑實例存在的可能性;m為元路徑長度;V為材料異質網絡中的節點數;pl,j為輸出層中節點j和窗口內任一節點數的概率值;uj表示通過TFIDF-CBOW得到的輸出。
最后,得到該元路徑的存在概率。公式為
Pt=∑ni=1(Pt)in(4)
其中:n是路徑實例數量;Pt表示目前這條元路徑存在的可能性。
經由元路徑的存在概率,計算出不同的符合條件的元路徑的權重后,加權求和計算得到最后的相似性度量。元路徑權重計算公式為
Wt=Pt∑kt=1Pt(5)
其中:t是目前的元路徑;k代表符合條件的元路徑的條數。
3.3 基于PathSim的元路徑融合相似性度量
PathSim算法僅考慮了元路徑中相同類型節點之間的關系,而忽略了不同類型節點之間的關聯程度,同時亦未考慮同一節點間可能存在的相似語義所帶來的影響。但是材料異質信息網絡包含了許多不同種類的節點與邊,為此提出一種可以測度任意種類節點與邊之間相似性的建模方法,通過分析不同種類節點之間及與邊在拓撲上的關系來描述材料信息資源。材料相似性度量計算公式如下:
s(mi,mj)=2×|{pmi→mj:pmi→mj∈P}||{pmi→mi:pmi→mi∈P}|+|{pmj→mj:pmj→mj∈P}|Tmi=Tmj|{pmi→mj:pmi→mj∈P}|+|{pmj→mi:pmj→mi∈P}||{pmi→mi:pmi→mi∈P}|+|{pmj→mj:pmj→mj∈P}|Tmi≠Tmj(6)
其中:pmi→mj表示mi和mj間的路徑實例數;pmi→mi表示mi和mi間的路徑實例數;pmj→mj表示mj和mj間的路徑實例數;s(mi,mj)表示mi和mj的材料相似性;Tmi=Tmj表示節點類型相同;Tmi≠Tmj表示節點類型不同。
利用線性融合方法,通過式(5)(6)實現了元路徑的加權求和,獲得了一種基于PathSim的元路徑融合相似性度量算法:
s=∑kt=1Wtst(mi,mj)(7)
該計算模型通過引入權重,細化了不同元路徑對相似性度量的影響,解決PathSim算法在節點類型及元路徑的局限性,從而利用網絡的異構性來預測不同材料之間的相似程度。
4 實驗結果與分析
4.1 數據來源
本文選取的數據集為AMiner[21]和CMC。a)AMiner數據集。包括論文、作者、引用文獻和概念四種類型的節點,論文-作者、論文-引用文獻和論文-概念三種類型的邊。b)CMC數據集。通過使用Elsevier Scopus API方式抓取的2011—2022年有關銅基復合材料的文獻作為原始數據,并采用基于規則匹配的正則化方式抽取相應的實體、關系信息,最終由抽取出的實體、關系數據構成CMC材料數據集。其包括復合材料、性能名、性能值以及文獻來源四種類型的節點,四種類型的邊包括復合材料-性能名、復合材料-性能值、性能名-性能值和復合材料-文獻來源。數據集的統計信息如表2所示。
其中數字代表對應節點和邊的數目。在AMiner數據集中,p1a1p2元路徑表示論文p1和p2都由作者a1撰寫,CMC數據集元路徑語義信息可見表1。此外,圖5是從材料異質信息網絡中構建而成的最小生成樹,其說明了CMC數據集中不同實體之間的相互作用。
4.2 評價指標
為了對算法進行有效性和準確性評估,在實驗中,分別用AUC和precision對整體和局部的元路徑相似性算法進行測度[12]。AUC指標是從全局出發度量算法精確度的指標,定義如下:
AUC=n′+0.5n″n(8)
其中:n為所有的組合比較次數;n′表示正樣本的得分大于負樣本的得分的組數,本文實驗將隨機抽取測試集邊的數目設置為正樣本得分,不存在的邊的數目設置為負樣本得分;n″代表二元組中正負樣本的得分相等的組數。
m表示預測標簽和實際標簽相同的數量,若在前K個預測結果中有m個結果是準確的,那么準確率precision值則被定義為
precision=mK(9)
4.3 實驗結果
本文使用目前常用的一些元路徑相似性度量算法來比較基于PathSim的加權求和材料相似度計算方法WM-PathSim。
a)PathSim[7]。其用于計算異質信息網絡中不同節點之間的相似度。它考慮了網絡中節點之間的路徑以及路徑的長度,利用路徑相似性來計算節點之間的相似度。
b)HeteSim[10]。與PathSim不同,HeteSim能夠更好地處理不同類型節點之間的相似性計算問題。HeteSim使用了一個基于矩陣的方法來計算相似性,同時還考慮了節點在不同路徑中的重要性以及路徑之間的權重。
c)AvgSim[22]。其為一種基于平均相似度的相似性計算方法。它通過正向隨機游走和反向隨機游走在兩個節點之上的概率取算術平均值。
d)WgtSim[11]。其為一種基于加權路徑相似性的節點相似度計算方法。通過比較兩個用戶對項目的偏好,使其能夠準確地度量屬于同一類型的對象的相似度。
為了說明基于PathSim的加權元路徑相似度計算方法能夠實現任何節點的相似性度量,實驗分別在對稱元路徑和非對稱元路徑上進行。
首先利用不同路徑關系,在對稱元路徑中分別對算法準確率進行了驗證。對于AMiner數據集,作者關系的元路徑是APLPA,引用關系的是LPAPL,論文關系的元路徑采用PAPLPAP。就全局相似度的測度結果而言,通過與PathSim、HeteSim、AvgSim、WgtSim算法作比較,如圖6、7所示,該研究模型AUC值分別平均增加5.02百分點、4.3百分點、3.34百分點、0.37百分點;從局部精度的計算結果來看,本文模型精度值分別比其他算法高7.33百分點、3.33百分點、3.33百分點、1百分點,說明本文算法對相似度的測量具有較高的精度,測量效果較好,結果如圖6、7所示。
然后驗證非對稱元路徑相似性度量準確率。由于PathSim只能度量同種類型節點,所以后面的實驗是通過HeteSim、AvgSim、WgtSim算法與本文WM-PathSim算法作對比,如圖8、9。針對AMiner數據集,論文-作者關系的元路徑為APLPCP,論文-引用關系的元路徑為APCPL。對比實驗結果發現,WM-PathSim比其他三種算法具有更高的性能,AUC分別提升了4.99百分點、4.48百分點和1.47百分點;對比precision值,WM-PathSim較HeteSim有2百分點的提升,較AvgSim來說降低了1百分點的準確率,與WgtSim相比并無改進。這是因為precision通常只從局部考慮算法的準確率,而AUC是對算法準確性的總體測度。因此,WM-PathSim對非對稱元路徑具有較好的整體度量結果,實驗結果如圖8、9所示。
通過在不同路徑關系下對模型的性能進行對比分析后,將基準模型與WM-PathSim應用于CMC數據集進行AUC和precision對比,結果如表3所示。
可以看出,相比于基準模型,WM-PathSim準確度有所提升,其AUC和precision值分別提高6.4百分點和4.5百分點,說明該模型適用于材料數據集,對之后相似材料查詢有所幫助。
分別使用PathSim和WM-PathSim計算與某種復合材料相似的復合材料top-10,以CNTs/Cu為例,表4展示在CMC數據集中與CNTs/Cu最為相似的前十種復合材料。如表4所示,通過WM-PathSim計算得出的材料相似度略高于由PathSim計算得出的結果,說明本文模型的有效性。對于結果的分析比較,在下節案例分析中展開。
4.4 材料實體檢索實驗結果分析
本文以Al-Si-Cu為例,使用WM-PathSim計算得到的與Al-Si-Cu相似的材料top-10排名如表5所示。
在抽取出的材料數據中,Al-Si-Cu的屈服強度和拉伸強度在100~400 MPa,硬度在85~95HV。通過WM-PathSim進行相似材料檢索時,能夠找到與Al-Si-Cu最為接近的元素,并進行相似度排序。其中排名第一的Al-Si-Cu與自身最為相似,其相似度值為1。根據實驗結果,進一步對比排名第二至第十的材料機械性能。Al-Mg-Si-Cu的屈服強度在130~200 MPa,硬度為59.5 HV;Al-11.3Si-2Cu的屈服強度和拉伸強度在125~160 MPa;Al7Si0.5Cu的屈服強度為261 MPa,拉伸強度為282 MPa;Cu-1.5CNTs-0.5Al2O3的屈服強度和拉伸強度在324~345 MPa;CNT/Al-Cu的屈服強度和拉伸強度在110~384 MPa;10vol.% CNT/Cu的拉伸強度區間為68~296 MPa,硬度在68~135 HV之間;1.5wt%Mg2Si/Al-5Cu的拉伸強度為315 MPa;Al-Cu-Li的屈服強度和拉伸強度分別為125~632 MPa、253~632 MPa;10Ti2AlC/Cu的拉伸強度為103 MPa。
可以看出,這九種銅基復合材料的屈服強度、拉伸強度以及硬度均與Al-Si-Cu相似,但也存在一定的誤差,例如Al-Mg-Si-Cu的硬度為59.5 HV,10Ti2AlC/Cu的拉伸強度為103 MPa,都與上述Al-Si-Cu的機械性能對應的性能值范圍不符。這種誤差存在的原因主要是本文抓取的文獻數據僅來源于通過Elsevier Scopus API的網頁抓取,對于如今已經構建完成的材料數據庫以及國內外材料科學網站中的結構化、半結構化數據研究薄弱,故構建的CMC數據集數據量不大,致使通過元路徑進行材料相似度檢索的結果存在偏頗。雖然如此,但通過WM-PathSim抽取出的結果基本合乎實際發展規律,并未得到與Al-Si-Cu不相似的復合材料,并且結果與PathSim相比有了進一步的提升。同時,對于有些復合材料缺失性能數據,如Al7Si0.5Cu、Cu-1.5CNTs-0.5Al2O3等沒有有關硬度的性能值,由于這些復合材料與Al-Si-Cu相似,所以可以判斷它們的硬度在85~95 HV。
總的來說,本文算法能夠發現與某種材料相似的一些材料,可以幫助研究人員快速了解材料的性質、特點和應用范圍,為材料的選擇、設計和改進提供依據。
5 結束語
針對材料異質信息網絡的元路徑進行數據分析和挖掘,提出了一種基于PathSim的可度量任意節點的加權材料相似度計算模型WM-PathSim,能夠對材料進行相似性比較。首先,需要將材料數據表示為異質信息網絡。通過實體關系抽取得到的材料、性能、性能值以及文獻來源可以看做圖中的節點,而它們之間的關系可以看做圖中的邊。接下來,定義一組元路徑作為圖的特征。元路徑是一種從一個節點到另一個節點的序列,其中每個節點都具有特定的標簽。例如,可以定義元路徑材料-性能-性能值表示某一材料所具備性能的性能值。然后,利用metapath2vec獲得異質信息網絡的路徑實例,并通過TFIDF-CBOW計算符合條件的元路徑的權重。最后,可以將多條元路徑加權求和的相似度作為材料實體檢索的相似性度量。對于給定的查詢材料,可以計算它與網絡中所有材料之間的相似度,并返回相似度最高的材料作為檢索結果。實驗結果表明,該方法比其他元路徑相似性度量算法更加準確和有效。在接下來的研究工作當中,將探索更加精準的相似性度量方法,包括異質信息網絡表示學習方法、結合自然語言處理技術的材料實體檢索等,以及利用已有的材料相似性計算方法指導材料的預測和設計。
參考文獻:
[1]宿彥京,付華棟,白洋,等.中國材料基因工程研究進展[J].金屬學報,2020,56(10):1313-1323.(Su Yanjing,Fu Huadong,Bai Yang,et al.Progress in materials genome engineering in China[J].Acta Metallurgica Sinica,2020,56(10):1313-1323.)
[2]Haug A.Acquiring materials knowledge in design education[J].International Journal of Technology and Design Education,2019,29(2):405-420.
[3]石川,王睿嘉,王嘯.異質信息網絡分析與應用綜述[J].軟件學報,2022,33(2):598-621.(Shi Chuan,Wang Ruijia,Wang Xiao.Survey on heterogeneous information networks analysis and application[J].Journal of Software,2022,33(2):598-621.)
[4]Sun Yizhou,Han Jiawei.Mining heterogeneous information networks:a structural analysis approach[J].ACM SIGKDD Explorations Newsletter,2013,14(2):20-28.
[5]Ming Ji,Han Jiawei,Danilevsky M.Ranking-based classification of heterogeneous information networks[C]//Proc of the 17th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.New York:ACM Press,2011:1298-1306.
[6]Sun Yizhou,Norick B,Han Jiawei,et al.Pathselclus:integrating meta-path selection with user-guided object clustering in heterogeneous information networks[J].ACM Trans on Knowledge Discovery from Data,2013,7(3):1-23.
[7]Sun Yizhou,Han Jiawei,Yan Xiefeng,et al.PathSim:meta path-based top-k similarity search in heterogeneous information networks[J].Proceedings of the VLDB Endowment,2011,4(11):992-1003.
[8]Lao Ni,Cohen W W.Fast query execution for retrieval models based on path-constrained random walks[C]//Proc of the 16th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.New York:ACM Press,2010:881-888.
[9]Glen J,Widom J.SimRank:a measure of structural-context similarity[C]//Proc of the 8th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.New York:ACM Press,2002:538-543.
[10]Shi Chuan,Kong Xiangnan,Huang Yue,et al.HeteSim:a general framework for relevance measure in heterogeneous networks[J].IEEE Trans on Knowledge and Data Engineering,2014,26(10):2479-2492.
[11]Yang Chunxue,Zhao Chenfei,Wang Hengliang,et al.A semantic path-based similarity measure for weighted heterogeneous information networks[C]//Proc of International Conference on Knowledge Science,Engineering and Management.Cham:Springer,2018:311-323.
[12]趙宇紅,薛維佳.基于元路徑加權融合的異構網絡相似性度量[J].計算機工程與設計,2021,42(2):309-315.(Zhao Yuhong,Xue Weijia.Similarity measurement of heterogeneous networks based on meta-path-weighted fusion[J].Computer Engineering and Design,2021,42(2):309-315.)
[13]Yuan Peisen,Sun Yi,Wang Hengliang.Heterogeneous information network-based recommendation with metapath search and memory network architecture search[J].Mathematics,2022,10(16):2895.
[14]Zheng Susu,Guan Donghai,Yuan Weiwei.Semantic-aware heterogeneous information network embedding with incompatible meta-paths[J].World Wide Web,2022,25(1):1-21.
[15]Zhang Yun,Yu Minghe,Zhang Tiancheng,et al.Semantic enhanced top-k similarity search on weighted HIN[J].Neural Computing and Applications,2022,34(19):16911-16927.
[16]Zhou Wei,Huang Hong,Shi Ruize,et al.Temporal heterogeneous information network embedding via semantic evolution[J].IEEE Trans on Knowledge and Data Engineering,2023,35(12):13031-13042.
[17]Zhai Xuemeng,Tang Zhiwei,Liu Zhiwei,et al.Sparse representation for heterogeneous information networks[J].Neurocomputing,2023,525:111-122.
[18]Xu Yueshen,Zhao Xinyu,Jiang Zhiping,et al.Intelligent semantic annotation for mobile services for IoT computing from heterogeneous data[J].Mobile Networks and Applications,2023,28(1):348-358.
[19]Dong Yuxiao,Chawla N V,Swami A.Metapath2vec:scalable representation learning for heterogeneous networks[C]//Proc of the 23rd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.New York:ACM Press,2017:135-144.
[20]Mikolov T,Sutskever I,Chen Kai,et al.Distributed representations of words and phrases and their compositionality[C]//Proc of the 26th International Conference on Neural Information Processing Systems.Red Hook,NY:Curran Associates Inc.,2013:3111-3119.
[21]Tang Jie.AMiner:toward understanding big scholar data[C]//Proc of the 9th ACM International Conference on Web Search and Data Mi-ning.New York:ACM Press,2016:467-467.
[22]孟曉峰.基于異質信息網絡的相似性度量研究[D].北京:北京郵電大學,2015.(Meng Xiaofeng.Research on relevance measure in heterogeneous information networks[D].Beijing:Beijing University of Posts and Telecommunications,2015.)
收稿日期:2023-12-08
修回日期:2024-03-11
基金項目:國家自然科學基金資助項目(62062046)
作者簡介:黃華澤(1999—),男(壯族),云南文山人,碩士研究生,CCF會員,主要研究方向為數據挖掘;胡紫璇(1998—),女,新疆克拉瑪依人,碩士,主要研究方向為知識圖譜;游進國(1977—),男(通信作者),湖南新化人,教授,碩導,博士,主要研究方向為大數據分析、數據倉庫與數據庫等(jgyou@126.com);黃星瑞(1996—),男,云南文山人,碩士,主要研究方向為數據挖掘、機器學習;陶靜梅(1979—),女,云南昆明人,教授,博導,博士,主要研究方向為新型金屬基復合材料、納米結構材料;易健宏(1965—),男,湖南株洲人,教授,博導,博士,主要研究方向為粉末冶金材料與技術、稀貴金屬材料和納米材料與技術.