吳璇 徐源 宋亦兵



摘要:[目的/意義]探討微信小程序在學科知識服務中的應用價值。[方法/過程]該文分析了當前學科知識發現的服務現狀,微信小程序的應用現狀。提出以微信小程序為載體,融合知識圖譜、機器學習、大數據處理等前沿技術,從信息服務、知識服務、個性化服務等多個角度進行服務內容的研究,來設計一款便于用戶隨時隨地進行學科知識發現的輕量級應用。[結果/結論]筆者認為盡管小程序只是一款輕量級應用,但如能在服務模式、規劃布局、功能實現上突出其相較于傳統技術載體的優勢,小程序能夠適用于海量的知識發現服務中,并從移動端開辟一條新的道路為廣大用戶提供科研創新服務。
關鍵詞:知識發現;微信小程序;知識圖譜;機器學習;科技大數據
中圖分類號:TP311? ? ? 文獻標識碼:A
文章編號:1009-3044(2021)26-0074-05
開放科學(資源服務)標識碼(OSID):
1 背景
自20世紀90年代以來,通信技術與網絡技術飛速發展,它促進了各學科與計算機學科的交叉融合[1]。信息資源的數字化轉型,拉近了我國與歐美發達國家的距離,一定程度上打破了彼此間的學術壁壘。據2018年中國科技論文統計結果顯示,我國在國際頂尖學術期刊上的發表的論文排名上升到世界第4位,發表在各學科最具影響力國際期刊上的論文數連續第八年排在世界第2位[2]。這昭示著我國已進入了高質量科技論文產出階段。基于對部分高水平科技論文參考文獻的研究發現,外文數據庫所收錄的文獻對我國科研人員撰寫高水平論文以及科學研究起到了重大推動作用。然而,一個不可否認的事實是,國內高校及科研院所投入大量經費購買的外文數據庫利用率較低,且存在重復購買數據庫的情況,不可避免地造成了資源浪費[3]。傳統數據平臺重建設、輕推廣,訪問限制等問題依舊制約著學科服務的高效展開,平臺的學術價值無法得到充分的應用[4-5]。面對大數據時代科研信息化與知識發現服務模式的新形勢與新挑戰,中國科學院“十三五”信息化專項旨在契合國家戰略,發展科學大數據[6]。圍繞干細胞領域知識發現的科研信息化需求,結合中國科學院廣州生物醫藥與健康研究院干細胞領域科研優勢和中國科學院成都文獻情報中心信息數據資源優勢,開發了一款集成干細胞領域大數據、知識計算、知識發現的綜合科技服務平臺。為了增強平臺在傳播、推廣方面的競爭力,提升科學數據資源共享水平和科學大數據應用水平。筆者以微信小程序為媒介,結合干細胞平臺底層數據,換一種思路與方法推廣知識發現服務。
2 知識發現服務特性與現狀
網絡信息技術的飛速發展以及數字化環境的日臻成熟,大數據時代產生的信息風暴席卷而來,海量的數字化資源使得傳統的知識服務模式面臨極大挑戰。傳統的知識平臺數據體量已達到一定級別,但在內容檢索的精準性與數據的關聯性上表現不佳,用戶無法在海量數據中快速檢索自己所需要的信息。隨著互聯網信息總量的爆炸式增長,基于各類排序算法檢索顯然無法滿足用戶全面獲取信息資源的多樣化需求。國內外不少知識服務機構或團隊采用知識挖掘、知識圖譜等相關技術對大量結構化或半結構化的復雜數據進行了知識提取,并挖掘、分析海量數據背后不為人所知的信息,使用戶能夠簡潔、迅速地獲取所需的信息。
在知識圖譜的應用中。Google搜索引擎基于Google Knowledge Graph,依托Google后臺強大的計算力,能夠智能分析用戶的輸入,區別于傳統的列表鏈接,提供一系列結構化的主題信息,并生成與之關聯的百科圖譜。通過一次搜索即可展現出一幅與主題內容關聯密切的智能圖譜,極大程度地提升了用戶的體驗。但當前國內互聯網訪問Google受限,使得我們無法完美地使用這套強大的搜索工具[7]。Wolfram則更進一步,其開發的WolframAlpha是一個強大的計算知識引擎而非搜索引擎。它支持自動聯想與模糊語意識別,能夠根據輸入,快速的理解,并直接向用戶返回答案,它是邁向語義網終極目標道路上的一大飛躍[8]。
基于知識圖譜構建的學術知識發現平臺層出不窮。Springer Nature的學術領域開放數據平臺通過知識圖譜提升了學術資源的可獲取性。在平臺組織架構上,融合了諸如期刊、論文、專著、組織、專利、臨床試驗、會議、研究資助者等多個內容,通過對海量數據深度挖掘與內容計算,使數據的內容價值得到大幅度提升[9]。由Tahir Mansoori團隊構建的Wizdom ai平臺,其龐大的數據源來自他們持續監控全球研究生態系統的數十億動態數據點,涵蓋研究者,機構,出版物,論文,專利等實體。結合先進的算法,它能夠生成關于科學發展的分析,針對用戶角色的不同,獲得對過去,現在,未來的強大見解,為機構或個人的決策提供可行的方案[10]。清華大學研發的AMiner知識服務平臺以科研人員、科技文獻、學術活動三大類數據為基礎,構建三者之間的關聯關系,深入挖掘面向全球科研機構及相關工作人員,提供學者、論文文獻等學術信息資源檢索以及面向科技文獻、專利、新聞的語義搜索、語義分析、成果評價等知識服務[11]。
上述各類研究平臺對筆者團隊構建知識大數據平臺提供了完美的借鑒。綜合中國科學院廣州生物醫藥與健康研究院以及中國科學院成都文獻情報中心各自優勢,聯合構建了干細胞知識發現平臺(https://stemcell.kmcloud.ac.cn),如圖1。平臺以論文專利、基金項目、專家機構、期刊專著、政策法規等12類核心科技信息為基礎,從科學儀器、動物模型、實驗方案、細胞器官等8個視角,進行多維度、深層次、細粒度地挖掘領域知識內涵,將分散的多源異構數據經過清洗、挖掘、融合和關聯等處理,實現了干細胞領域科技信息與科技數據的集成化管理。基于知識實體構建數據關聯,打通了鏈接專家機構、科技成果、產品服務等科技服務資源的孤島。從項目、論文、專利、新聞、師承關系等視角,實現了科學家、科研機構、前沿熱點問題的知識畫像構建。以此來建立科研信息化應用示范,推進科研活動與信息化融合,支撐研究機構科研重大創新,提升科研信息化應用水平[12]。