崔欣卉



摘要:數字化、網絡化、智能化等新起的信息技術驅動數字中國建設向縱深邁進,以數字媒介和人工智能為基礎的新興文化形態和知識生產體系正日見雛形,并展現出廣闊的發展前景。文章提出一種基于主題圖的多元資源整合模型,從資源收集到資源關聯可視化,構建了基于主題圖的多元資源組織模型,并以賽珍珠研究資源為具體案例展示,為其他領域整合多元模型提供參考。
關鍵詞:主題圖;多元資源
一、引言
在全面推進我國數據強國和數字中國的建設過程中,互聯網、物聯網等技術普遍適用于社會各領域,引發了信息資源收集、分析、組織、運用模式的變革,驅動多元主體從多方視角、多個維度對信息資源展開多層次分析與應用。在此背景下,眾多學者越來越關注各研究領域下分布在不同系統中且種類多樣的資源合理轉化與關聯問題,并希望在此基礎上實現資源關聯可視化服務。本文以賽珍珠研究資源為例,旨在構建多元資源整合模型,探究各領域研究資源的組織管理模式,選取多來源、多種類的不同研究資源,通過主題圖資源組織方式,揭示賽珍珠研究資源的語義內容主題結構,探尋多元資源整合方式。
二、相關研究
大數據環境下多元資源的多樣性為各學科的研究提供了巨大空間。目前常見研究資源來源渠道有中國知網、百度學術、萬方、網絡資源等,來源渠道分散且單一,主要方法還是文獻計量學。在多元資源整合方面,如將期刊文獻和專利文本的整合、基金項目和數據的整合等,都為較成功的實踐。但如何對于整合不同平臺、不同維度、不同類型等的多元資源,進行主題發現與關聯,從而實現更全面、深入的資源整合研究較少。
主題圖作為一種知識管理和信息導航的技術,在信息資源關聯聚合的應用上引起了廣泛的關注。Steve在《尋求全球知識交換點》(A Perspective on the Quest for Global Knowledge Interchange)的文章中詳細描述了主題圖的歷史,在這之后,主題圖的開發者在數據模型、TAO模型與XTM技術規范等文檔中對主題圖的結構要素、技術標準等做了詳細介紹;主題圖技術在引入我國后,艾丹祥、黃曉斌、秦鐵輝等學者對主題圖技術的核心概念、基本結構和功能做了詳細介紹,趙金海等對開源主題圖引擎TM4J技術工具做了分析,李清茂對開源主題圖引擎Ontopia的工作機制做了詳細分析;郭黎等利用主題圖技術對多源地理空間數據做了有效關聯和查詢;王文寧等學者基于主題圖技術構建了洪災應急信息的關聯場景模型;張云中基于主題圖技術提出了數字檔案的標注系統資源聚合研究。由此可見,運用主題圖技術對于整合不同平臺、不同維度、不同類型的多元資源具有可行性。
三、多元資源整合主題圖構建
(一)構建方法
構建一個成功的多元研究資源庫是一項龐大的工程。在模型的設計前期,需要研究者設計模型的構建流程,對資源的種類和來源進行梳理,反復確認資源收集渠道,更新逐漸成熟的計算機技術,才有可能構建出較完善、讓用戶滿意的知識資源共享庫。
從宏觀上來看,主題圖是一個多維度的空間模型。資源和主題分為上下兩層。在資源層,可以上傳信息資源,也可以加入動態鏈接,將網絡資源和已有的資源放入資源層中,為多元資源的收集和存儲提供了便利;在主題層,通過對資源的外部特征和語義特征進行描述,提取出主題詞,從主題的角度建立關聯關系,另外還可以構建獨立的主題,既實現了資源之間的關聯性,也可以描述資源的獨立性。
從微觀來看,在主題圖這個多維的主題空間中,主題層中有不同的主題,每個主題代表一個結點,分別指向不同的資源。兩個主題結點之間的距離可以用資源的關聯次數來表示。在主題間相互關聯的過程中形成了一個巨大的立體網狀網絡,網絡中有錯綜復雜的關系,通過關聯關系的設定,系統地梳理了資源和主題間的關系,也挖掘了資源之間更大的潛在價值。
(二)構建過程
主題(Topic)、關聯(Association)、資源出處(Occurrence)為主題圖(TAO)的三個主要元素,對構建主題圖模型起到了引領的作用,在進行合理設置前,首先要梳理它們的涵義與關系。T就是主題。主題可以是任何“事物”,無論是實體還是概念,它可以具有任何特征;Association 為關聯的意思,主題在設置好后,需要描述多個主題間的關系,通常情況下,主題與主題間有多重關系來關聯,并通過關聯的次數實現主題間的聚合;Occurrence 就是資源實體,也稱為資源出處,這就是主題圖的資源層,功能是存儲資源,將資源與主題相關聯。主題和一個或多個與該主題相關的信息資源以某種關聯關系相關聯。
本文依據主題圖的基本組成要素(TAO)即主題(T)、關聯(A)和資源實體(O),分析設計了基于主題圖的賽珍珠研究資源關聯聚合模型與構建過程,如圖1。該模型由3個層次構成:
領域研究資源層,該層主要目的是建立研究資源庫,選擇合理有效的資源集,反映領域研究資源的主題特點;基于領域多元研究資源的特點,可從幾個方面開展:文獻信息資源:包括期刊文獻、電子圖書、會議文獻等;網絡信息資源:利用搜索引擎得到的檢索結果,包括文本、新聞、數據、圖像、視頻等多種類型資源; 專業數據庫:包括書目數據庫、文摘數據庫與全文數據庫等。研究領域專家:包括研究專家的私藏作品與研究資源。
主題生成層,在本文主題圖的主題層的設置中,需要依次從資源中提取主題、編輯主題和合并主題??紤]到在對某研究資源檢索的過程中,大多數學者可通過研究資源的名稱、作者、機構或者關鍵詞字段進行檢索,因此本文在一級主題的設置中,將研究學者、研究機構、研究資源設為一級主題,根據文本的外在特征和內在特征建立資源間的關聯,如圖2,包括資源的種類、日期、作者等,內在特征能夠描述資源內容含義的一些特征,可用標題、摘要、關鍵詞等表示。
功能層,主要實現的功能有研究資源導航、用戶資源檢索以及資源推薦、后期的資源庫更新等功能。
四、實例分析
上文分析了多元研究資源整合的主題圖模型,本部分以賽珍珠研究多元資源的為例,構建賽珍珠研究資源整合模型,實現資源主題關聯可視化服務。
(一)資源收集
通過不同平臺獲取賽珍珠研究的資源,首先通過學術數據庫平臺CNKI中國知網收集當前賽珍珠研究的期刊文獻,另外通過讀秀學術搜索平臺補充賽珍珠研究的電子圖書,最后,為獲取時事新聞與相關報道,選擇人民日報網等平臺作為數據來源,使用NLPIR大數據語義智能系統自動收集資源,三類平臺分別以“賽珍珠”為主題進行檢索與收集,時間統一為近十年,檢索后對不相關結果的資源,如“賽珍珠鐵觀音”、“八馬茶葉”等進行刪減和合并,最終得到的檢索結果為期刊899條、電子圖書67本、新聞報道40條。
(二)主題確定
對資源深層次分析,需要進一步的對外在特征和內在特征分析,根據設置的一級主題:研究學者庫,共抽取到期刊文獻作者1185名,圖書作者57名(含主編),新聞報道記者18名;研究機構庫收集到賽珍珠研究領域期刊366種、電子圖書出版機構43個和新聞報道出版機構22個。研究主題庫的收集由期刊文獻的電子圖書和新聞報道的主題詞組成。在本研究中,由于期刊文獻的作者已為文獻標引了關鍵詞,可直接使用關鍵詞反映文獻的主題;本文直接從899條題錄中抽取關鍵詞,剔除重復不相關的關鍵詞,如“研究”、“學報”等,合并具有相同含義的關鍵詞,共得到關鍵詞2911個;電子圖書的編輯也相應為圖書標引了主題詞,但主題詞過于寬泛,故電子圖書保留標題、關鍵詞(主題詞)、摘要(對于部分缺少摘要電子圖書選取目錄部分)三部分內容,利用平臺所提供功能自動下載其相關信息;新聞報道由于篇幅較少,缺少關鍵詞、主題詞和摘要等標引內容,保留標題、作者(平臺)、文章內容三部分內容。采用中科院開發的NLPIR自然語言處理系統。具體的操作步驟為:首先對每一本圖書的標題、摘要和每一篇新聞報道的新聞漢語分詞,繼而去除停用詞,如“的”、“一個”、“和”、“與”等,提取高頻詞與特征詞,根據分詞和頻次統計結果,同時人工輔助,每篇選取3~5個高頻關鍵詞作為該篇文檔的關鍵詞,剔除重復,最終得到新聞報道57個關鍵詞,電子圖書72個關鍵詞。
(三)主題關聯
在構建賽珍珠研究資源主題圖中,根據資源的外在特征和內在語義特征可以定義三種主要的關聯類型,即出版/發表關聯、著作關聯、語義關聯,三種特征用賽珍珠研究資源(R)、題名(T)、作者(A)、作者機構(O)、出版物/發表網址(P)、關鍵詞(K)等元素來體現,三種關聯關系在一定程度上揭示了資源間的關系。
(四)整合實現
在完成主題關聯后,需要對賽珍珠研究資源進行關聯聚合。目前主題圖組件中OKS知識組件在各領域中應用比較廣泛,主要用于創建、維護和管理主題圖,其核心組件包括主題圖引擎、主題圖編輯框架、導航框架、可視化框架。
依據前文描述的對賽珍珠研究資源的主題及關聯分析,在Ontology編輯器中完成的主題類型定義,如圖3所示,將賽珍珠研究資源庫的主題設置為賽珍珠研究資源主題庫、賽珍珠研究資源庫、賽珍珠研究學者庫、賽珍珠研究機構庫。
前文分析了賽珍珠研究資源的外在特征和語義特征,根據此特征又分析了不同的關系,主要設置了以下相關關系,分別為相關作者、相關學術圖書、相關新聞報道、相關期刊文獻和相關機構。
在主題和關聯關系設置好后,可對其可視化。主題圖的可視化采用知識圖譜的方式來展現主題之間的關聯和網絡關系,用戶不需要在網頁中查詢,而是直接在新的窗口進行查看,如圖4和圖5分別展示了賽珍珠研究學者和資源的關聯。在賽珍珠研究領域范圍內,不同種類、不同主題的資源通過相同的特征或其他關系互相關聯在一起,利用主題圖技術不僅識別這些關聯,導航知識,還可以識別潛在的關系,如學者的潛在合作關系、資源間的主題聯系等。
五、經驗啟示
本文以賽珍珠研究多元資源為例,利用主題圖工具Ontopia構建賽珍珠研究主題圖,構建主題圖之后利用其可視化工具實現了賽珍珠研究多元主題圖的可視化,驗證了主題圖技術應用于多元研究資源的可行性。
利用主題圖技術將多元資源整合,用于描述多元資源之間的關聯關系,其不僅有導航功能,還提供了語義檢索和語義挖掘的等功能,便于用戶深層次挖掘資源的主題,既集成了傳統信息組織方式的優勢,在主題表達和關聯的層次也做了突破,進一步的實現了資源間的共享與語義挖掘,實現了資源的集成性、關聯性和語義化需求。
參考文獻:
[1]張玲玲,張宇娥,杜麗.基于期刊文獻與專利文獻的科學技術互關聯研究方法對比分析[J].情報雜志,2017,36(07):116-121.
[2]劉博文,白如江,周彥廷,王效岳.基金項目數據和論文數據融合視角下科學研究前沿主題識別——以碳納米管領域為例[J].數據分析與知識發現,2019,3(08):114-122.
[3]艾丹祥,張玉峰.利用主題圖建立概念知識庫[J].圖書情報知識,2003(02):48-50+53.
[4]黃曉斌.網絡主題圖的原理及應用[J].情報理論與實踐,2004(03):305-307.
[5]秦鐵輝,郭延吉,孫琳.信息時代的“全球定位系統”——主題地圖[J].江西圖書館學刊,2005(01):1-3+7.
[6]趙金海,滿紅芳,張嘯宇.開源主題圖搜索引擎(TM4J)及結構研究[J].信息系統工程,2010(11):51-53.
[7]李清茂.開源主題圖Ontopia引擎工作機制研究[J].西昌學院學報(自然科學版),2010,24(02):40-44.
[8]郭黎,姜晶莉,李豪,王云閣.基于主題圖的多源地理空間數據關聯關系表達[J].地理信息世界,2019,26(06):1-5+13.
[9]王文寧,劉濤,杜萍,邵達青,楊國林.面向洪災全生命周期的應急場景模型[J].測繪科學,2018,43(12):44-49.
[10]張云中,馮雙雙.基于主題圖的數字檔案標注系統資源聚合研究[J].圖書情報工作,2018,62(14):116-124.
[11]劉丹. 主題圖在圖書館特色數據庫構建中的應用研究[D].南京:南京農業大學,2008.
(作者單位:江蘇大學科技信息研究所)