張佼 占偉鵬 王乾杰 馮明杰 江曉 吳琪



編者按:知識圖譜是一種通過對大量復雜信息進行處理,對其內在的關聯關系進行更加直觀的可視化展示的方法。本文以智能圖書推薦系統為例進行介紹。該智能圖書推薦系統以知識圖譜可視化為基礎,把用戶搜索關鍵詞相關的圖書信息以知識體系的方式進行展現。該系統能夠給每個用戶建立自身的知識圖譜,結合用戶的歷史搜索、歷史借閱等數據的挖掘處理,基于用戶當前搜索關鍵詞,自動推薦用戶最可能喜歡的圖書。圖書智能推薦系統具備傳統的圖書管理能力,適用于傳統的線下傳統圖書館以及電子圖書館。
引言
隨著信息時代的快速發展,快速而高效地獲取知識,成為了每個人必備的技能。不論是在校學習階段還是畢業后的工作中,查閱圖書必然是獲取專業知識的一個重要途徑。幾個世紀前,同樣的學科或者專業,其知識涵蓋的范圍遠遠無法和現在相提并論。在實際的場景中,人們往往會花費大量的時間去查閱資料、盲目地搜索、反復地試錯,才能獲取到有用的知識。
近些年快速發展起來的一些諸如數據挖掘技術、大數據技術等新技術,提供了很好的解決思路。本文則依托于這些對海量數據進行分析、處理及可視化展示的相關技術,提出并設計了一個基于可視化知識圖譜的圖書智能推薦系統。借此,用戶可將自己從海量數據中搜尋書籍的情況中解放出來,把有限精力聚焦到知識或業務本身,從而大大提升自己學習效能。
關鍵技術
知識圖譜技術
隨著互聯網的蓬勃發展,網絡數據內容呈現爆炸式增長的態勢。由于互聯網內容具備規模大、組織結構松散的特點,給人們有效獲取信息和知識提出了挑戰。知識圖譜(Knowledge Graph) 以其強大的語義處理能力,為互聯網時代的知識化組織和智能應用奠定了基礎。知識圖譜旨在描述現實世界中存在的實體以及實體之間的關系。知識圖譜的提出,是為了提高搜索引擎的能力,改善用戶的搜索質量以及搜索體驗。隨著人工智能的技術發展和應用,知識圖譜作為關鍵技術之一,已被廣泛應用于智能搜索、智能問答、個性化推薦、內容分發等領域。知識圖譜一般包含以下節點:實體、語義類概念、內容、屬性值、節點關系。通過節點間的關系的建立,可建立起基于關鍵詞的知識圖譜,利用可視化的方式,即可直觀地展示一個知識點的多元結構樹。知識圖片的構建如下圖所示,一般由知識提取、知識標識、實體對齊、質量評估等功能域組成,能夠將松散游離的結構化數據、非結構化數據、第三方數據庫的數據源進行數據整合處理,形成基于實體的知識圖譜進行可視化展示。
數據挖掘技術
數據挖掘是人工智能和數據庫領域研究的熱點問題,數據挖掘是指從數據庫的大量數據中揭示出隱含的、先前未知的并有潛在價值的信息的非平凡過程。數據挖掘是一種決策支持過程,它主要基于人工智能、機器學習、模式識別、統計學、數據庫、可視化技術等,高度自動化地分析數據,做出歸納性的推理,從中挖掘出潛在的模式,幫助決策者調整市場策略,減少風險,做出正確的決策。知識發現過程由以下三個階段組成:①數據準備;②數據挖掘;③結果表達和解釋。數據挖掘可以與用戶或知識庫交互。
數據挖掘是通過分析每個數據,從大量數據中尋找其規律的技術,主要有數據準備、規律尋找和規律表示三個步驟。數據準備是從相關的數據源中選取所需的數據并整合成用于數據挖掘的數據集;規律尋找是用某種方法將數據集所含的規律找出來;規律表示是盡可能以用戶可理解的方式(如可視化)將找出的規律表示出來。數據挖掘的任務有關聯分析、聚類分析、分類分析、異常分析、特異群組分析和演變分析等。
利用詞頻進行數據分析是一種用于文本挖掘的技術,該方法可以評估一個資料庫中一個詞語的重復程度,出現次數越多說明它越受重視。本文使用定量分析方法基于用戶搜索的詞頻分析篩選有意義的關鍵詞,可推測當前訪問用戶的搜索熱點,能夠形成基于用戶數據的搜索排行。
網絡數據交換技術
Web Service是一個平臺獨立的、低耦合的,自包含的、基于可編程的web的應用程序,可使用開放的XML(標準通用標記語言下的一個子集)標準來描述、發布、發現、協調和配置這些應用程序,用于開發分布式的交互操作的應用程序。Web服務通過Internet協議向外提供服務調用的接口,并定義了應用程序如何在Web服務上實現互操作性。由于其具備平臺的無關性和良好的可擴展性,目前移動端和服務器端的數據交互采用基于REST風格的Web服務技術來完成。移動平臺通過HTTP發送(GET、POST)請求對數據庫資源進行獲取、創建、修改和刪除等操作。同時,服務器端和移動端之間數據交互采用JSON格式,JSON格式是一種輕量級的數據交互方式,易于閱讀和編寫,效率較高。
系統總體設計
系統設計原則
智能圖書推薦系統在設計和實現過程中遵循以下原則。
1.實用性
系統設計上考慮各類數據接入的情況,對于數據源來說,系統可引接第三方數據庫,可挖掘互聯網上的實體關聯信息等。通過對結構化數據、非結構化數據的整理和整合,將實體-屬性-關系以可視化的方式進行展示,可快速幫助用戶篩選出自己感興趣的圖書。
2.跨平臺性
考慮到移動終端的快速發展及應用,系統同時支持PC端和移動端的訪問和使用,因此系統開發需要考慮Android和IOS等主流操作系統平臺的兼容性,使得該系統可同時運行在多種移動平臺上。
3.軟件開發框架
系統的架構設計采用B/S與C/S模式相結合的方法。用戶既可以使用App終端登錄系統,也可以通過用瀏覽器登錄系統,實現更多豐富功能,滿足不同平臺用戶的不同使用需求。平臺應用使用MMVC模式進行構建,分離了視圖、數據、邏輯,系統各個功能模塊相對獨立,可降低系統耦合性,降低系統維護升級成本。服務器端包括了Web應用服務器以及數據服務器。數據服務器搭載有Oracle數據庫,用于存儲移動平臺用戶信息、權限信息等。
系統功能設計
用戶設計
系統用戶設計包括兩大類:瀏覽用戶、后臺維護人員。通過角色完成訪問權限的管理。
瀏覽用戶可使用賬號管理、信息維護、查詢搜索、充值管理、借閱購買管理等功能模塊。用戶可注冊并維護自己的個人信息,完成儲值,查詢自己感興趣的圖書,并完成圖書電子版的借閱或購買操作。而對于紙質圖書,系統則通過匹配后臺數據庫的數據,展示書籍存放的圖書館的相應信息,如該圖書館提供預約授權,可通過該系統進行圖書預約操作。同時,系統具備接入電商平臺的能力,可鏈接到第三方平臺進行書籍的購買。
后臺維護人員可使用信息維護、數據接入、數據管理、用戶管理等功能模塊,維護人員可對后臺數據進行維護管理,包括對用戶的管理和對圖書的管理兩大功能域。
搜索及可視化模塊設計
利用知識圖譜的技術,實現對錄入的圖書的信息整合。本系統的數據源以結構化的數據為主,通過對導入的數據庫數據的整合,完成知識體系的構建。
當用戶輸入關鍵詞進行搜索時,通過語義匹配和關聯查詢,將該關鍵詞作為知識實體的中心節點,結合對用戶歷史搜索數據及借閱圖書數據進行信息整合處理,完成對基于該中心節點的知識圖譜的構建,最終通過可視化的方式對其進行展示,如下圖所示。同時給出最多三級關聯節點的展示,使用戶可不斷點擊新的中心節點進行關聯圖書的查詢。
當用戶選中某個節點(圖書)時,如果存在對應的電子版圖書,將會從下方彈出頁面對其簡述信息進行展示,用戶可自行確定是否訂閱或購買,同時系統會保留用戶的閱讀進度,以便用戶利用碎片化時間進行閱讀。
用戶信息挖掘管理模塊
用戶信息管理模塊包括用戶基礎信息管理、用戶搜索歷史管理、用戶借閱歷史管理。通過對用戶搜索歷史、借閱歷史的存儲和處理,系統可以推薦用戶感興趣的書籍,并可根據用戶借閱歷史及借閱習慣,自動形成推薦信息的相關書籍組成的知識圖譜,用戶只需點擊即可進行查閱。該模塊能夠使用戶更加系統化地掌握知識網絡,具備同時提升用戶體驗、增加用戶粘度等優勢。
多元化信息展示模塊
智能圖書推薦系統具備多元化信息展示功能,通過書籍合集展示、借閱排行榜、用戶推薦榜等方式,通過用戶的內驅力完成對信息的整合展示。
書籍合集展示:系統對錄入系統的圖書進行分類管理,通過對互聯網數據的挖掘,形成諸如“中國文學經典合集”“外國文學的經典合集”等推薦合集,能夠使用戶聚焦“重點”圖書。
借閱排行展示:通過對系統用戶的閱讀數據整合處理,形成圖書搜索和借閱排行榜,讓用戶通過自己的查詢及借閱行為對后臺數據進行“加工”,讓用戶自己創造數據,成為大數據的親歷者。
推薦榜展示:用戶在閱讀完書籍后,可通過收藏、點贊、評論的方式對圖書內容、質量等各個維度進行評價,而系統會形成針對圖書的各類榜單,包括收藏排行榜、點贊排行榜、評論排行榜等,讓獨自讀書變成用戶集群參與的一種群體性行為,使枯燥的知識獲取過程變得不那么乏味。
后臺數據管理模塊
系統提供對后臺數據的維護管理,后臺維護人員能夠對系統數據進行管理,包括電子版圖書管理、圖書信息錄入、網購平臺信息維護、數據庫備份、會員管理、系統日志等功能,維護人員通過對系統后臺數據的維護管理,確保系統用戶訪問系統、搜索圖書、在線閱讀、購買圖書等功能的正常使用。
結語
本文設計并實現了基于知識圖譜的可視化圖書推薦系統,該系統通過對大量無序的數據進行整合和處理,通過可視化的方式對數據進行了有效的展現,體現了較強的用戶交互性。同時該系統可擴展性較強,可接入第三方的電子圖書館數據庫、電商平臺甚至是傳統的圖書館,真正做到了大數據互聯互通,讓用戶能夠更加便捷地獲取到自己感興趣的知識。
參考文獻:
[1]王勇,宋增祿,陳亞琳,等.基于知識圖譜的國內職業教育改革現狀分析[J].職業技術,2021,20(05):1-6.
張潔,王紅.基于詞頻分析和可視化共詞網絡圖的國內外移動學習研究熱點對比分析[J].現代遠距離教育,2014(02):76-83.
[3]鐘良.青年馬克思主義者培養工程研究熱點述評和前瞻——基于Citespace可視化圖譜分析(2007-2020)[J].新生代,2021(03):4-12.
[4]劉迪.基于CiteSpace圖譜的學科領域研究發展歷程分析——以泰國華文教育為例[J].現代職業教育,2020(26):32-34.
[5]顏昌武,楊鄭媛.我國基本公共服務均等化研究的知識圖譜——基于Citespace的可視化計量分析[J].中國延安干部學院學報,2020,13(04):58-67.
[6]楊國立,李品,劉竟.我國圖書館學研究知識圖譜分析[J].國家圖書館學刊,2012,21(01):52-59.
作者簡介:張佼(1989—) ,男,漢族,四川巴中人,工程師,工學碩士,計算機軟件開發,西南電子設備研究所;馮明杰(1988—) ,男,漢族,四川成都人,工程師,工學碩士,計算機軟件開發,西南電子設備研究所;占偉鵬(1990—) ,男,漢族,江西九江人,工程師,工學碩士,計算機軟件開發,西南電子設備研究所;江? 曉(1988—) ,女,漢族,四川達州人,工程師,工學碩士,計算機軟件開發,西南電子設備研究所;王乾杰(1995—) ,男,漢族,湖北武漢人,助理工程師,工學碩士,計算機軟件開發,西南電子設備研究所;吳? 琪(1990—) ,男,漢族,四川自貢人,工程師,工學碩士,計算機軟件開發,西南電子設備研究所。