










摘要:[目的/意義]深入分析AI4Science中的實驗方案,通過分析科技文獻中的實驗方案,揭示AI技術在科研方法、工具和手段中的應用,為科研工作者提供新的研究視角。[方法/過程]首先,利用本體建模技術,實現不同學科領域實驗方法與實驗原理的統一知識建模,在本體建模的基礎上構建有機太陽能電池領域知識圖譜。然后,在領域知識圖譜中挖掘實體之間關系,實現實驗方案智能化推薦。[結果/結論] 結合圖嵌入表征技術Graph2vec和大模型語義嵌入表征GPT embedding,提出一種全新的知識圖譜語義融合的實驗方案推薦算法—GraphGPT Net,在Recall@20推薦核心指標上表現最為出色,達到了0.0299,能夠證明知識圖譜在實驗方案推薦領域的有效性以及GraphGPT Net在推薦實驗方案方面的顯著能力。
關鍵詞:知識圖譜;有機太陽能電池;實驗方案;推薦系統
分類號:G202
引用格式:張凱, 石棲. 基于知識圖譜的實驗方案推薦研究——以有機太陽能電池為例[J/OL]. 知識管理論壇, 2024, 9(5): 448-459 [引用日期]. http://www.kmf.ac.cn/p/405/. (Citation: Zhang Kai, Shi Qi. Experimental Scheme Recommendation Based on Knowledge Graph: A Case Study of Organic Solar Cells[J/OL]. Knowledge Management Forum, 2024, 9(5): 448-459 [cite date]. http://www.kmf.ac.cn/p/405/.)
數百年以來,科學研究的發現都是基于科學假設生成與驗證的循環過程產生的,在科研全流程中,科學知識的獲取、科學假設的提出和實驗方案的推薦生成都可以由AI來完成[1]。因此在當前AI4Sicence的大背景下,知識服務機構如何利用人工智能的方法更好地加速科研流程、助力科學發現、推動科研進展,成為當下知識服務機構的研究熱點。
在目前的實驗科學研究范式中,科研人員一般采用“試錯法”逐條探索實驗的合成條件,科研效率低下。科研人員需要付出巨大的時間成本閱讀大量的論文以獲取其中的實驗方法,且對整個實驗的流程和細節掌握不充分,需要反復閱讀論文才能復現實驗結果。因此,實驗方法的推薦系統對科研人員而言具有很大的作用,能夠幫助他們快速獲取實驗方法的思路,組織實驗設計的流程,極大地縮短科研實驗設計階段的時間。
本文旨在以科技文獻為數據源,基于AI技術助力實驗學科高效篩選、推薦最具有可行性的實驗方案,力圖縮小科研人員的查找范圍,節省科研人員的實驗準備時間,進而提高科研效率。
1" 研究綜述/Literature review
知識圖譜(knowledge graph, KG)最早由谷歌在2012年提出,用于增強其搜索引擎的功能。知識圖譜G=(V, E)是一個有向圖,其節點是實體,邊是(headentity, relation, tailentity)的三元組。每一條邊表示為lt;eh, r, etgt;,揭示了從頭實體到尾實體的關系r[2]。例如,(YaoMing, live_in, Shanghai)表示了姚明居住在上海這一事實。知識圖譜的本質是一種解釋實體之間關系的語義網絡,可以對現實世界的事物及其相互關系進行形式化的描述[3]。目前,知識圖譜已經被廣泛應用在搜索引擎、問答系統、推薦系統[4]等多個領域,用來降低信息的粒度,幫助人們更精準地獲取所需要的知識。
為了解決信息過載(information overload)的問題,人們提出了推薦系統(recommendation system),通過用戶的歷史行為或者用戶的興趣偏好來生成推薦算法,再運用推薦算法來產生用戶可能感興趣的項目列表。
推薦算法的任務是向給定的用戶推薦一個或一系列未觀察過的項目,其過程可以表述為如下步驟:首先,系統學習目標用戶ui和候選項vj的向量化表征ui和vj;然后,系統學習一個評分函數,對ui對vj的偏好進行建模;最終,通過用戶對項目的偏好分數進行排序來生成推薦結果。推薦系統作為解決信息過載問題的有效手段,已經被廣泛應用在興趣點(point of interest, POIs)[5]、新聞[6]、交通[7]、教育[8]等多個領域。
傳統的協同過濾算法認為,為特定用戶找到其真正感興趣的內容的方法是首先找到與此用戶有相似興趣的其他用戶,然后將他們感興趣的項目推薦給此用戶[9]。協同過濾一般采用最近鄰技術,利用用戶的歷史喜好信息計算用戶之間的距離,然后利用目標用戶的最近鄰用戶對商品評價的加權評價值來預測目標用戶對特定商品的喜好程度,從而根據這一喜好程度來對目標用戶進行推薦。一種常見的做法是將用戶與商品一起轉化為通用的向量,并將其輸入到有監督學習(supervised learning, SL)模型中,具有代表性的模型有因子分解機(factorization machines,FM)[10]、中性因子分解機(neutral factorization machines,NFM)[11]等。
盡管這些方法提供了強大的性能,但其不足之處在于沒有考慮項目之間的關聯關系,從而無法準確表達用戶的偏好。為了解決協同過濾算法的局限性,將知識圖譜作為輔助信息引入到推薦算法逐漸成為眾多學者關注的研究熱點。知識圖譜中的節點表示實體,有向邊表示實體之間的關系,包含了用戶和項目的信息和關聯關系,可以更好地捕獲用戶偏好。此外,還可以將用戶和用戶側信息集成到圖譜中,構建協同知識圖譜(collaborative knowledge graph, CKG),從而更精準地捕獲用戶與項目之間的關系以及用戶的偏好。
基于知識圖譜的推薦系統算法主要可以分為:基于嵌入的方法、基于路徑的方法和基于傳播的方法。①基于嵌入的方法使用知識圖譜中的信息來豐富用戶或項目的表示,如基于知識圖譜的協同過濾(collaborative filtering with knowledge-graph,CFKG)[12]、協同知識嵌入(collaborative knowledge base embedding,CKE)[13]等。這種方法通過知識圖譜嵌入將知識圖譜中的實體和關系表征為低維向量,保留了知識圖譜原有的結構。知識圖譜嵌入的方法主要是基于平移距離模型,包括TransE[14]、TransH[15]、TransR[16]、TransD[17]和TranSparse[18],進行特征表示。②基于路徑的方法(如RKGE[19])通過構建用戶項目圖并利用圖中實體的連接關系,學習用戶到項目的路徑之間的連接相似性進行推薦。這種方法主要的挑戰是如何設計合理的路徑和如何為實體間的連接關系建模。③基于傳播的方法整合實體和關系的語義表示以及連接信息,聚合知識圖譜中多跳鄰居節點的嵌入來深化實體表示,如Ripple Net[20]、KGAT(knowledge graph attention network)[21]等。然后,獲得用戶和項目的豐富表示,并預測用戶的偏好。
在先前研究的基礎上進行綜合評估,筆者提出了一種創新性算法——GraphGPT Net,旨在改進現有基于知識圖譜的推薦算法在深層語義表達上的不足。具體而言,該算法整合知識圖譜和大規模模型的語義嵌入技術,通過結合圖嵌入方法Graph2vec與大規模模型的GPT embedding,有效實現實驗方案的向量化描述。進而,應用余弦相似度計算為每位用戶推薦與其歷史瀏覽實驗方案高度相關的Top5實驗方案。本研究實現了基于圖語義融合的推薦機制,可以為識別相似實驗方案提供有效的方法。
2" 研究路線/Research route
本文的研究框架見圖1,主要分為以下兩個部分:
(1)實驗方案知識抽取與建模。在論文和專利數據的基礎上,首先進行有機太陽能電池領域Schema本體建模獲取相關本體Schema[22]。按照知識抽取、知識融合、知識校驗和知識存儲的構建流程,利用實體抽取、實體消歧、關系抽取、知識鏈接、本體及實體對齊等技術,將文獻數據中抽取出的實驗方法知識表示為三元組形式,并建立“概念—實體—屬性—關系”等數據模型,進而形成有機太陽能電池實驗方案知識圖譜。
(2)基于知識圖譜的實驗方案智能推薦研究。筆者聚焦于基于知識圖譜的有機太陽能電池實驗方案智能推薦機制的開發,利用協同過濾[11]、基于路徑[19]、基于傳播[20]的推薦算法在知識圖譜中挖掘實體之間的關聯關系;通過將實體之間的關聯關系與用戶數據進行融合,實現實驗方案智能化推薦。在現有算法框架的基礎上,進一步結合圖嵌入技術Graph2vec與大規模模型語義嵌入GPT embedding,提出了創新的實驗方案推薦算法——GraphGPT Net。該算法通過圖語義融合技術,可以有效推進實驗方案推薦系統的發展。
3" 實驗方案知識抽取與建模/Experimental scheme knowledge extraction and modeling
筆者基于科技文獻構建一個知識抽取—建模—服務的智能化系統,利用AI驅動的知識自動抽取技術從科技文獻中解析出大量細粒度創新方法,利用知識圖譜技術對不同類型和來源的方法知識進行組織和建模以形成創新方法知識圖譜,作為推理發現的底層知識基礎設施。
3.1" 科學實驗本體建模
首先,將科學實驗定義為研究問題和實驗方案兩大部分,而核心的實驗方案下分實驗方法、實驗步驟、實驗元素、實驗結果共4個大類,同時將科學實驗核心的實驗目標、實驗原理和實驗來源等設置為實驗方案對應的屬性,實驗元素下分實驗涉及的材料、試劑、儀器、條件和數據,具體如圖2所示:
3.1.1" 實驗方法
有機太陽能電池(organic solar cell, OSC)的實驗方法分為五大類,其中器件的制備方法可進一步細分為活性層的制備方法、界面層的制備方法和電極的制備方法,每種方法的屬性都包括方法類型、方法描述,器件結構經過咨詢專家只設定類型,而無具體的方法描述,如圖3所示:
3.1.2" 實驗元素
實驗元素建模為材料、試劑、儀器和數據,其中材料包括電極材料、活性層材料和界面層材料,而活性層材料又分為給體材料和受體材料,界面層材料包括空穴傳輸層材料和電子傳輸層材料,數據分為數據描述和光伏性能測試結果,該結果包括OSC性能測試最核心的4個指標[23],即能量轉換效率(power conversion efficiency, PCE)、開路電壓(open circuit voltage, Voc)、短路電流密度(Short-circuit current density, Jsc)和填充因子(Fill factor, FF),如圖4所示:
3.1.3" 實驗步驟
有機太陽能電池(OSC)的實驗步驟分為器件制備類和性能測試類兩種實驗步驟,其中器件制備類又分為正置器件制備和倒置器件制備,具體如圖5所示:
3.2" 科學實驗知識圖譜構建
選取的OSC領域的數據包括期刊論文和專利。經過專家咨詢,筆者將OSC分為五大類,分別是單質結有機太陽能電池、異質結有機太陽能電池和染料敏化太陽能電池,并在專家指導下分別構建期刊論文檢索式(見表1),共計獲取期刊論文3 369篇,均來自材料領域的英文頂刊,將在Web of Science平臺上下載的PDF原文作為待標數據集;專利來自IncoPat專利數據庫,包括中國、德國、日本等14個國家和組織的421篇三方專利。經過專家遴選,最終確定1 810篇論文和123篇專利共1 933篇文獻作為人工標注數據集。
經過本體建模、實例構建和知識圖譜創建,最終獲得34類節點和7類關系(見圖6和圖7),在Neo4j中導入數據后,共有24 348個節點和123 642個關系。
4" 基于知識圖譜的實驗方案智能推薦研究/Research on intelligent recommendation of experimental scheme based on knowledge graph
筆者在構建出的有機太陽能電池實驗方案知識圖譜基礎上,基于AI技術助力實驗學科高效篩選、推薦最具有可行性的實驗方案,力圖縮小科研人員的查找范圍,節省科研人員的實驗準備時間,進而提高科研效率。
4.1" 實驗方案推薦數據集
本文所用的數據集如下:SolarCell_KG包含1 810個有機太陽能領域論文中的實驗方案項目和1 000個與這些實驗方案交互過的用戶信息。用戶與實驗方案的交互為隱性反饋,對于其中每個實驗方案,標簽為1表示用戶對該項目很感興趣,并對每個用戶的未交互集進行抽樣,選取等量實驗方案;標記為0表示該用戶對該項目不感興趣。
筆者構建的有機太陽能電池知識圖譜融合用戶與實驗方案的交互數據后得到SolarCell_KG,其具體的數據量如表2所示:
4.2" 對比實驗
將用戶與項目的交互數據分為訓練集和測試集。對于測試集中的每個用戶,將用戶未與之交互的所有項視為負項。然后,每個算法輸出用戶除了訓練集中的正例外項目的偏好分數。為了評估Top-K推薦和偏好排序的有效性,筆者采用了兩種常用的評價指標[24]:前K項召回率(Recall@K)和前K項歸一化折損累計增益(NDCG@K)。默認情況下,設置K=20,計算得到測試集中所有用戶的平均指標得分,使用以下模型進行實驗對比:
(1)FM[10]:一個標準的因式分解模型,其中考慮了輸入之間的二階特征交互。將用戶的id、物品及其知識(即與之相關的實體)視為輸入特征。
(2)NFM[11]:一種最先進的因式分解模型,它將FM包含在神經網絡中。特別地,該方法在輸入特征上使用了一個隱藏層。
(3)BPRMF[25](Bayesian personalized ranking matrix factorization):通過學習用戶和物品的潛在特征向量,來建模用戶對物品的偏好,進而進行個性化推薦。BPRMF 的獨特之處在于,它采用了基于排名的訓練方法,旨在優化模型使用戶感興趣的內容排名更高。。
(4)ECFKG[26](enhanced collaborative filtering for knowledge graphs):結合協同過濾和知識圖譜嵌入技術,以改善推薦的準確性和個性化程度。其旨在解決傳統協同過濾算法在處理冷啟動問題、數據稀疏性和推薦的解釋性方面的不足。
(5)CKE[27](collaborative knowledge enhanced recommendation):一種典型的基于正則化的方法,它利用TransR派生的語義嵌入來增強矩陣分解。
(6)KGAT[21]:一種基于圖神經網絡的推薦模型,具有圖注意力網絡的特性。KGAT 將知識圖譜和用戶—物品圖的混合結構作為協同知識圖譜,引入注意力機制,用于區分圖中不同鄰居節點的重要性。
(7)Graph2vec[28]:一種用于學習圖表示的算法,旨在將整個圖映射到一個向量空間中。通過考慮圖的子結構來捕獲圖的全局屬性,類似于詞嵌入技術(如Word2Vec)在文本處理中的應用。Graph2vec算法首先識別出圖中的重要子結構,然后使用這些子結構作為序列來訓練神經網絡,從而生成圖的低維度、密集向量表示。
(8)GPT詞嵌入[29]技術:通過預訓練的生成式預訓練變換器(GPT)模型為文本數據生成密集的向量表示。該技術利用GPT模型的深層語義理解能力,將文本轉換為固定長度的向量。這些向量捕獲了文本的上下文信息和語義特征,使得文本數據可以被應用于各種下游機器學習任務,包括文本分類、情感分析和文本相似性比較,提高了處理效率和效果。
對于FM與NFM,設置隱藏層為[64, 32, 16];對于ECFKG,設置訓練集batch_size=2 048,測試集batch_size=10 000;對于 CKE,設置L2正則器權重lambda=e-5;對于KGAT,設置深度為2,卷積層為[64, 32, 16],agg = bi-interaction,lap = random-walk。所有模型的向量維度為128,學習率為0.000 1,訓練epoch=1 000。此外,執行早停(early stopping)策略,如果驗證集上的Recall@20在連續10個epoch中沒有增加,則執行早停策略。
實驗的硬件與軟件設置如下:
· Operation System:Linux
· RAM:32G
· CPU:Intel(R) Xeon(R) CPU E5-2683 v4
· GPU:Nvidia RTX 3090 - 24G
· SSD:50G
· Software:NVIDIA CUDA 11.7, Python 3.8, Pytorch 1.13.1, Numpy 1.18
實驗方案推薦實驗結果如表3所示:
從表3可以得出如下結論:
(1)協同過濾算法:NFM算法在Recall@20和NDCG@20方面表現出色,分別為0.025 4和0.058 7,FM算法也表現良好,分別為0.022 0和0.041 9。這表明這兩種傳統的協同過濾算法在推薦任務中具有良好的性能,尤其是在Recall@20指標上。
(2) BPRMF算法:在Recall@20和NDCG@20上表現一般,分別為0.013 7 和0.021 2。這表明BPRMF在推薦任務中表現一般。
(3)基于知識圖譜的算法:KGAT算法在Recall@20和NDCG@20上表現較差,分別為0.012 8和0.018 9。這表明基于知識圖譜的方法在這兩個指標下的性能較低,可能需要進一步改進。CKE算法在Recall@20和NDCG@20方面表現較好,分別為0.019 3和0.0228,這表明它在推薦任務中具有較高的性能。ECFKG算法在Recall@20和NDCG@20上都表現良好,分別為0.019 8和0.021 5。
(4)GraphGPT Net:在Recall@20上表現最為出色,達到了0.029 9,超越了基線算法中表現最好的算法NFM。這表明知識圖譜與實驗方案語義融合的推薦算法在推薦任務中具有更好的效果,尤其在提高Recall@20方面表現出色,在NDCG@20上優于所有基于知識圖譜的算法,但與協同過濾算法相比還有一定的差距。
綜合考慮,本實驗結果強調了不同推薦算法在不同指標下的性能差異。傳統的協同過濾算法(如FM、NFM)在多數情況下表現出色。基于知識圖譜的算法總體來看表現不佳,這可能是由于知識圖譜中的實體和關系稀疏,算法可能難以捕捉足夠的上下文信息來進行有效的推薦。CKE和KGAT在Recall@20和NDCG@20方面都表現良好。選擇最適合特定推薦任務的算法取決于具體情況,可能需要進一步的研究和實驗。
針對基于知識圖譜的推薦算法存在的限制,筆者提出了一種知識圖譜與實驗方案語義融合的推薦算法。該算法旨在克服現有方法的局限性,通過更深層次的語義融合技術,優化推薦結果的準確性和相關性。實驗結果顯示,相比傳統算法和基于知識圖譜的算法,筆者提出的GraphGPT Net算法在Recall@20關鍵性能評估指標上展現出更優的效果。筆者對GraphGPT Net在不同推薦個數下的表現結果進行實驗(見圖8),發現隨著推薦個數K值的增加,算法的Recall和NDCG指標持續提升。這證明了筆者提出的知識圖譜與實驗方案語義融合的推薦算法的優越性,強調了為特定推薦任務精心選擇和設計算法的重要性,同時也指出通過進一步的研究和實驗來不斷完善推薦系統的必要性。
5" 研究總結與展望/Research summary and prospects
筆者首先在論文和專利數據的基礎上,進行有機太陽能電池領域Schema本體建模。在本體框架的基礎上,按照知識抽取、知識融合、知識校驗和知識存儲的構建流程,利用實體抽取、實體消歧、關系抽取、知識鏈接、本體及實體對齊等技術,將文獻數據中抽取出的實驗方法知識表示為三元組形式,并建立“概念—實體—屬性—關系”等數據模型,進而形成有機太陽能電池實驗方案知識圖譜。
基于有機太陽能電池實驗方案知識圖譜,筆者利用協同過濾、基于路徑、基于傳播的推薦算法在知識圖譜中挖掘實體之間的關聯關系;通過將實體之間的關聯關系與用戶數據進行融合,實現實驗方案智能化推薦。推薦算法對比實驗的結果顯示筆者提出的GraphGPT Net在Recall@20指標上表現最為出色,可以有效地對實驗方案進行推薦。本文的創新點如下:①圖嵌入技術與大模型語義嵌入的融合。通過結合圖嵌入表征技術Graph2vec和大模型語義嵌入表征GPT embedding,本文提出了一種新的實驗方案推薦算法——GraphGPT Net。這種融合不僅優化了實驗方案的向量化表示,而且通過融合圖語義和大模型的深度學習能力,提升了推薦系統的智能化水平。②知識圖譜語義融合的實驗方案推薦。本文提出的GraphGPT Net算法實現了知識圖譜語義融合的實驗方案推薦。不同于傳統的論文和專利推薦,本文構建了實驗方案的本體架構;在此基礎上不僅能夠識別出與特定實驗方案相似的方案,還能夠更準確地理解和處理復雜的實驗方案推薦問題,從而提供更為精確和個性化的推薦結果。
本文的局限性在于:①只標注了1 933篇論文專利,得到的知識圖譜實體和關系數量較少,知識圖譜有待進一步擴充。后續考慮通過大語言模型,對文本中顯性與隱性的知識進行分析、推理,從中抽取出實驗方法、實驗原理、研究問題和解決方案等不同類型的知識元素,進一步擴充有機太陽能電池實驗方案知識圖譜。②只討論了基于知識圖譜的推薦,還可以基于大語言模型按照有機太陽能電池實驗步驟,根據提示學習設計prompt推薦實驗方案,并通過微調或者注入本地知識庫的方法,進一步優化推薦結果。
致謝/Acknowledgement:
感謝中國科學院成都文獻情報中心胡正銀老師的團隊對本研究在數據和技術上的大力支持。
參考文獻/References:
[1] 孫蒙鴿, 黃雨馨, 韓濤, 等. 科研智能化新趨勢下知識服務的挑戰與機遇[J]. 情報雜志, 2022, 41(6): 173-181, 107. (SUN M G, HUANG Y X, HAN T, et al. Challenges and opportunities of knowledge service under the new trend of intelligent scientific research [J]. Journal of information technology, 2022, 41(6): 173-181, 107.)
[2] GUO Q, ZHUANG F, QIN C, et al. A survey on knowledge graph-based recommender systems[J]. IEEE transactions on knowledge and data engineering, 2022, 34(8): 3549-3568.
[3] 徐增林, 盛泳潘, 賀麗榮, 等. 知識圖譜技術綜述[J]. 電子科技大學學報, 2016, 45(4): 589-606. (XU Z L, SHENG Y P, HE L R. Review on knowledge graph techniques[J]. Journal of University of Electronic Science and Technology of China, 2016, 45(4): 589-606.)
[4] DIOMEDI D, HOGAN A. Question answering over knowledge graphs with neural machine translation and entity linking[EB/OL]. [2024-06-19]. https://doi.org/10.48550/arXiv.2107.02865.
[5] XI D, ZHUANG F, LIU Y, et al. Modelling of bi-directional spatio-temporal dependence and users’ dynamic preferences for missing POI check-in identification[EB/OL]. [2024-06-19]. https://doi.org/10.48550/arXiv.2112.15285.
[6] WANG H, ZHANG F, XIE X, et al. DKN: deep knowledge-aware network for news recommendation[EB/OL]. [2024-06-19]. https://doi.org/10.48550/arXiv.1801.08284.
[7] LIU H, TONG Y, HAN J, et al. Incorporating multi-source urban data for personalized and context-aware multi-modal transportation recommendation[J]. IEEE transactions on knowledge and data engineering, 2022, 34(2): 723-735.
[8] HUANG Z, LIU Q, ZHAI C, et al. Exploring multi-objective exercise recommendations in online education systems [C]//Proceedings of the 28th ACM international conference on information and knowledge management. New York: Association for Computing Machinery, 2019:1261-1270.
[9] SHI Y, LARSON M, HANJALIC A. Collaborative filtering beyond the user-item matrix: a survey of the state of the art and future challenges[J]. ACM computing surveys, 2014, 47(1): 1-45.
[10] RENDLE S. Factorization machines [C]// Proceedings of IEEE international conference on data mining. Sydney: IEEE, 2010: 995-1000.
[11] HE X, CHUA T S .Neural factorization machines for sparse predictive analytics[J]. ACM SIGIR forum, 2017, 51(cd): 355-364.
[12] ZHANG Y, AI Q, CHEN X, et al. Learning over knowledge-base embeddings for recommendation[EB/OL]. [2024-06-19]. https://doi.org/10.48550/arXiv.1803.06540.
[13] ZHANG F, YUAN N J, LIAN D, et al. Collaborative knowledge base embedding for recommender systems[C]// Proceedings of the 22nd ACM SIGKDD international conference on knowledge discovery and data mining(KDD ‘16)., New York: Association for Computing Machiner, 2016: 353-362.
[14] BORDES A, USUNIER N, GARCIA-DURAN A, et al. Translating embeddings for modeling multi-relational data[C]//Proceedings of the 26th international conference on neural information processing systems - Volume 2 (NIPS’13).New York: Curran Associates Inc, 2016: 2787-2795.
[15] WANG Z, ZHANG J, FENG J, et al. Knowledge graph embedding by translating on hyperplanes[C]//Proceedings of the 28th AAAI conference on artificial intelligence(AAAI’14). Quebec: AAAI Press, 2014: 1112-1119.
[16] LIN Y, LIU Z, SUN M, et al. Learning entity and relation embeddings for knowledge graph completion[C]//Proceedings of the 29th AAAI conference on artificial intelligence. Austin: AAAI Press, 2015: 2181-2187.
[17] JI G, HE S, XU L, et al. Knowledge Graph Embedding via Dynamic Mapping Matrix[C]//Proceedings of the 53rd annual meeting of the Association for Computational Linguistics and the 7th international joint conference on natural language processing (Volume 1: Long Papers). Beijing: Association for Computational Linguistics, 2015: 687-696.
[18] JI G, LIU K, HE S, et al. Knowledge graph completion with adaptive sparse transfer matrix[C]//Proceedings of the 30th AAAI conference on artificial intelligence. Phoenix: AAAI Press, 2016: 985-991.
[19] SUN Z, YANG J, ZHANG J, et al. Recurrent knowledge graph embedding for effective recommendation[C]//Proceedings of the 12th ACM conference on recommender systems. Vancouver: ACM, 2018: 297-305.
[20] WANG H, ZHANG F, WANG J, et al. RippleNet: propagating user preferences on the knowledge graph for recommender systems[C]//Proceedings of the 27th ACM international conference on information and knowledge management (CIKM ‘18). New York: Association for Computing Machinery, 2018: 417-426.
[21] WANG X, HE X, CAO Y, et al. KGAT: knowledge graph attention network for recommendation[C]//Proceedings of the 25th ACM SIGKDD international conference on knowledge discovery amp; data mining (KDD ‘19). New York: Association for Computing Machinery, 2019: 950-958.
[22] 呂爽. 基于敘詞表的醫學領域本體的構建研究[D]. 長春:吉林大學, 2011. (Lü S. Research on the construction of medical domain ontology based on thesaurus[D]. Changchun: Jilin University, 2011.)
[23] 嚴婷婷. 高效三元有機太陽能電池的制備及性能研究[D]. 寧波:中國科學院大學(中國科學院寧波材料技術與工程研究所), 2022. (YAN T T. Preparation and properties of high efficiency terpolymer solar cells[D]. Ningbo: University of Chinese Academy of Sciences (Ningbo Institute of Materials Technology and Engineering, Chinese Academy of Sciences), 2022.)
[24] HE X, LIAO L, ZHANG H, et al. Neural collaborative filtering[C]//Proceedings of the 26th international conference on World Wide Web (WWW ‘17). Perth: International World Wide Web Conferences Steering Committee, 2017: 173-182.
[25] RENDLE S, FREUDENTHALER C, GANTNER Z, et al. BPR: bayesian personalized ranking from implicit feedback[C]//Proceedings of the 25th conference on uncertainty in artificial intelligence (UAI ‘09). Arlington: AUAI Press, 2019, 452-461.
[26] AI Q, AZIZI V, CHEN X, et al. Learning heterogeneous knowledge base embeddings for explainable recommendation[J]. Algorithms, 2018, 11(9): 132-137.
[27] ZHANG F, YUAN N J, LIAN D, et al. Collaborative knowledge base embedding for recommender systems[C]//Proceedings of the 22nd ACM SIGKDD international conference on knowledge discovery and data mining (KDD ‘16). New York: Association for Computing Machinery, 2016: 353-362.
[28] NARAYANAN A, CHANDRAMOHAN M, VENKATESAN R, et al. Graph2vec: learning distributed representations of graphs[EB/OL]. [2024-06-19]. https://doi.org/10.48550/arXiv.1707.05005.
[29] DAI D, SUN Y, DONG L, et al. Why can GPT learn in-context? language models implicitly perform gradient descent as meta-optimizers[EB/OL]. [2024-06-19]. https://doi.org/10.48550/arXiv.2212.10559.
作者貢獻說明/Author contributions:
張" 凱:撰寫論文,基于論文數據進行技術分析;
石" 棲:構建數據庫,提出修改意見。
Experimental Scheme Recommendation Based on Knowledge Graph: A Case Study of Organic Solar Cells
Zhang Kai1,2" Shi Qi2,3
1National Science Library, Chinese Academy of Sciences, Beijing 100190
2Department of Information Resources Management, School of Economics and Management, University of Chinese Academy of Sciences, Beijing 100190
3National Science Library (Chengdu), Chinese Academy of Sciences, Chengdu 610299
Abstract: [Purpose/Significance] Currently, the paradigm of data-intensive scientific discovery in scientific research is evolving towards intelligence. AI-driven scientific research (AI4Science) is becoming the engine of technological innovation and a new paradigm for scientific research. This study will delve into the experimental schemes within AI4Science, revealing the application of AI technology in research methods, tools, and means through the analysis of experimental schemes in scientific literature, providing new research perspectives for scientific researchers. [Method/Process] ① Knowledge extraction and modeling of the experimental scheme. Ontology modeling technology was used to realize the unified knowledge modeling of experimental methods and experimental principles in different subject areas. The domain knowledge graph of organic solar cells was constructed on the basis of ontology modeling. ② Research on intelligent recommendation of the experimental scheme based on the knowledge graph. The relationship between entities was mined in the domain knowledge graph to realize the intelligent recommendation of the experimental scheme. [Result/Conclusion] On the basis of Graph2vec representation technology and GPT embedding representation, GraphGPT Net is proposed as a new algorithm for knowledge graph semantic integration of the experimental scheme. The best performance is achieved on Recall@20 with a score of 0.0299, which proves its remarkable ability to recommend experimental schemes.
Keywords: knowledge graph; organic solar cells; experimental scheme; recommendation system
Fund project(s): This work is supported by the National Social Science Fund of China titled “Supporting AI4Science Science Library Knowledge Service Content Research” (Grant No. 22BTQ019) and Chinese Academy of Sciences Literature and Information Capacity Building Project titled “‘Smart data +AI’ Supporting Scientific Innovation Experimental Method Inference Discovery Research” (Grant No. E329090905).
Author(s): Zhang Kai, master candidate, E-mail: zhangkai@mail.las.ac.cn; Shi Qi, master candidate.
Received: 2024-03-04" " Published: 2024-09-19