馬金鵬
摘 要 知識服務是一種新興的目標驅動型服務方式,是將用戶的精準需求與清晰的使用場景相結合,研究提出人性化的智慧服務解決方案。本文以新聞出版行業為例,利用工具書結構化特性進行知識點的梳理抽取,應用信息檢索與數據挖掘加權(TF-IDF)算法,測算出知識與資源之間的關系強度,構建出涵蓋圖書、圖片、視頻、知識點等多形態的知識庫,通過對知識服務平臺的建設,探索和挖掘知識與資源之間的互聯關系,提供知識內容檢索、關聯資源推薦及深入學習的支持服務。通過深入挖掘行業縱深領域的真實需求,形成知識服務的實踐工作流程,總結知識服務的共性技術、工具和系統,在其他行業內起到示范和推廣的作用,為知識服務之路開創新里程。
關鍵詞 數據處理;知識服務;示范推廣
本文主要是利用現有知識服務技術,嘗試設計一套基于新聞出版行業的知識服務平臺,內容主要涵蓋三個部分:①知識加工,以現有資源為依據,以人工編輯為主,采用可視化構建工具完成知識體系框架建設,形成知識圖譜文件;②知識儲備,以知識體系為依托,對原始資料中的結構化數據、半結構化數據、非結構化數據進行科學抽取,然后進行數據清洗、關聯,形成知識點,并進行知識關系強度計算,計算出知識點與知識點、圖片與圖書等元素的關系;③知識利用,平臺搭建遵循質量管理規范體系,采用多種編程語言、數據庫等開發工具,搭建面向專業領域的知識服務平臺,實現知識檢索、知識呈現和關聯知識、關聯資源推薦服務。
1 總體設計
系統實現的總體過程:知識加工過程采用手工加算法輔助的方式,輸出知識內容和關系強度給知識存儲過程,知識存儲后,提供多個應用程序編程接口為知識利用服務作為支撐;知識應用環節,以知識庫為內容支撐,以部分外部服務輔助,將用戶與知識通過簡單的檢索,有效的連接起來[1]。
2 知識加工
知識加工過程中,專家參與確定知識體系形成結果輸出,使用可視化手工構建工具形成知識體系圖譜;將從工具書中抽取的知識點結構文本、圖示和停用詞等共同輸入,經過核心算法的計算,完成關鍵詞的抽取,通過分詞、相似度的計算以及排序,形成關系強度的計算結果值[2]。主要步驟設計如下:
(1)根據已確認的知識體系表格,建設專業領域知識體系,形成知識體系文件。知識體系即為知識點的分類。
(2)選定專業領域內的權威辭典、辭書為知識點抽取的來源,先抽取知識點,以根據知識體系中的屬性抽取三元組的類型,每個知識點由多個知識三元組組成,抽取的每個知識點,系統自動生成唯一標識。
(3)知識點抽取完成后,人工進行數據的清洗和校驗,從知識點的重要程度、知識點抽取的正確與否兩個角度篩選,最終保留少量的知識點關鍵詞,以備計算關系強度使用。
(4)整理現有版權的可用資源,圖書、圖片、視頻資源分別進行批量加工、標引,提供完整的、符合規范的數據內容,圖書包括封面、元數據和內容文件。圖片包括元數據、瀏覽級圖片和高精度大圖,視頻包括元數據和音視頻文件。
(5)通過信息檢索與數據挖掘的加權計算出知識點與知識點、知識點與圖書、知識點與圖片、知識點與視頻間的關系強度,形成規范的帶有唯一標識的結果文本,以備建立知識庫使用。加工流程如下圖:
3 知識存儲
知識存儲即為知識庫的建立過程,是知識數據、知識關聯結果、各類型資源的入庫過程。知識存儲過程中,將知識加工形成的結果文件以及圖書、圖片、視頻資源,全部入庫到關系型數據庫中,同時將知識相關的數據入到搜索應用服務器庫中,知識存儲的過程就是所有資源入庫的過程。該過程提供多個應用程序編程接口,為知識利用提供數據支撐[3]。
系統采用關系型數據庫和搜索應用兩個數據庫作為數據支撐,使用搜索應用服務器提供索引服務。知識數據、圖書、圖片、視頻,所有的資源匯總到關系型數據庫管理系統進行結構化存儲,知識三元組、知識點和知識體系同步入庫到搜索應用服務器中,建立索引庫,提升檢索的性能。知識存儲的架構圖如下圖:
知識儲備需要支持將已經加工標引完成的圖書、圖片、視頻、知識點以及知識關系統一組織,建立便捷知識庫。所有的資源入庫后,需要按資源類型分別存儲,提供各種檢索查詢服務,使得各類別資源具備可獨立建庫服務的能力,知識建庫完成后,還需要同時完成索引庫的創建,用以提升用戶檢索的性能[4]。
4 知識利用
在知識利用過程中,用戶登錄認證后便可實現通過檢索服務,進行知識的獲取和利用,繪制的知識圖譜可呈現知識點與知識點間的關系強度,通過在線瀏覽器的接口調用,進行關聯圖書中段落內容的閱讀,包括下載和播放與之相關聯的圖片和視頻。
由專業領域知識服務平臺來提供終端用戶的注冊、登錄,知識檢索,知識圖譜的呈現,知識關聯資源的推薦,以及知識的學習等服務。利用依托于知識點和知識點之間的關系強度,進行知識圖譜相關的展示;利用知識點和資源的關系強度,為用戶推薦與該知識點相關聯的圖書、圖片、視頻資源。在關系強度的計算過程中,可點擊推薦圖書直接跳轉到內容進行學習使用[5]。
5 結束語
研究認為,在專業知識服務平臺建設上,還有很多亟須完善和持續深入的地方:首先,在資源內容方面,知識點的范圍局限限制了持續建設擴充的可能性,知識點的錄入還應充分考慮對時下熱點的關注;其次,在知識加工方法上,現有知識體系還可以依據某一個細分應用場景進一步細化,使得維度更多,體系更加精準;再次,還應持續深入得研究文本抽取技術,對于結構化不好的數據,依然可以依據知識體系的屬性抽取出三元組信息,同時增加對于三元組數據的置信度計算,以確保數據的可用性。希望通過此次對專業知識體系、知識庫的構建以及應用場景的設計中積累的經驗,可以有效促進專業知識服務在具體行業中應用于發展進程,更好的體現專業知識服務的應用價值與現實意義。
參考文獻
[1] 馮宏聲.新聞出版業“十三五”時期的科技工作思考[J].科技與出版,2016,(06):28-35.
[2] 吳赟,孫夢如.中國出版業發展知識服務的路徑思考——從愛思唯爾ClinicalKey超級醫學平臺談起[J].出版廣角,2017,(13):13-16.
[3] 劉涵宇.如何有效的向用戶傳遞信息[EB/OL]. https://wenku.baidu.com/view/bd30a447844769eae109ed2a.html,2014-05-09.
[4] 王海艷.基于領域本體的可信服務組合[J].計算機應用研究,2012, 29(11):4193-4198.
[5] 梁瑩.大數據分析在出版中的應用與展望[J].出版廣角,2015,(2): 15-17.