房棟
摘要:本文提出,知識圖譜系統通過大數據和可視化技術,建立以關鍵詞為中心的知識體系,能讓資源以結構化、可視化的方式呈現,讓知識的獲取更加快速、準確。同時,在移動互聯時代為學校的數字資源建設、管理、服務提供了一個獲取、存儲、組織、管理、更新和展示的有效手段。
關鍵詞:知識圖譜;大數據;數字資源;可視化
中圖分類號:G434 文獻標識碼:A 論文編號:1674-2117(2018)15/16-0164-04
當今的信息化社會,從商業經濟運行到科研醫療創新,從政府管理到互聯網服務支持,各個領域都爆炸式產生巨量的數據,谷歌公司每天要處理超過24拍字節的數據,谷歌子公司YOUTUBE每月接待多達8億的訪客,平均每一秒鐘就有一段長度在一小時以上的視頻上傳,FACEBOO每天更新的照片量超過1000萬張,每天人們在網站上點贊或評論次數大約有三十億次,TEITTER上的信息量幾乎每年翻一倍,每天都會發布超過4億條微博,這些數據支撐了社會各方面的運行,也成為人類發展進步歷程的寶貴財富積累。2015年,一個名為AlphaGo的計算機程序橫空出世,在短短25個月的時間里斬落了中日韓的圍棋頂尖高手,不斷地挑戰人類對圍棋的認知。從這些事例可以看出,知識圖譜、大數據和深度學習成為推動人工智能發展的核心驅動力。高校作為人類社會知識創造、記錄和傳承的智力機構,聚集了大量的科研和教學數據資源,因此,高校可利用人工智能技術整合校內外數字數據資源,構建基于校本特色的知識圖譜,為學校的智力支持構建一個智能、高效的知識組織方式,形成信息技術與資源的新融合,幫助師生更加快速而準確地查找自己需要的信息。
谷歌公司于2012年首先提出知識圖譜的概念,表示將在其搜索結果中加入知識圖譜的功能,同年5月推出谷歌知識圖譜,強化其搜索引擎的搜索結果,標志著大規模知識在互聯網語義搜索中的成功應用。知識圖譜力求通過將知識進行更加有序、有機的組織,對用戶提供更加智能的訪問接口,使用戶可以更加快速、準確地訪問自己需要的知識信息,并進行一定的知識挖掘和智能決策。近年來在機構知識庫和互聯網搜索引擎等方面,學者和機構紛紛在知識圖譜上深入研究,希望以更加清晰、動態的方式展現各種概念之間的聯系,實現知識的智能獲取和管理。有調查數據顯示,Google在2015年時完成KG知識圖譜系統的構建,實體超過5億個,實體關系信息達到35億條;微軟公司在2016年構建的知識圖譜系統Probase已經擁有總量超過千萬級的概念,核心概念數達到了270萬個;上海交通大學是國內最早構建知識庫的單位,建設的shizhi.me系統通過提供關聯開放數據進行知識庫服務;中國科學院后來建設了國內規模最大的知識庫CAS-IR,累計采集和保存超過44萬個科研成果供搜索下載;國內知名的搜索引擎百度公司推出的“知心”、數字資源知識服務供應商維普資訊公司推出的“智立方”和超星公司推出的“發現系統”都是利用知識圖譜技術搭建的知識服務平臺。與以往的搜索引擎相比,知識圖譜系統通過大數據和可視化,讓知識更加快速、準確和智能地獲取,使數據以結構化、可視化的方式呈現,同時建立以關鍵詞為中心的知識體系,直觀地展示數據間的相互關系。
知識圖譜的構建基礎是龐大的數據,高校擁有大量的數字資源供科研和學習用,數字資源作為當今資源重要的存在形式,存儲于光盤、硬盤、閃存等非紙質介質載體中,并通過網絡通信、計算機或移動終端再現出來,數字資源有動態的也有靜態的,具體呈現為文字、視頻、音頻、動畫等多種形式。為數字資源構建知識圖譜系統,需要突破不同數據庫的限制,通過提升搜索能力來實現更快速更精準的知識查找,為此就必須對繁雜的結構化數字資源數據進行包括數據標記格式標準和數字資源描述標準建設。
1.格式規范
通過規范不同類型數字資源的標準文件格式,實現數字資源在不同計算機系統間無障礙交換,格式規范有文本格式標準(如TXT、WORD、PDF)、圖形格式標準(如JPEG、TIFF、GIF)、音頻格式標準(如WAV、APE、MP3)、結構信息標準(如SGML)等。其中SGML通用標記語言、HTML超文本標記語言與XML可擴展標記語言作為元數據編碼語言,是用于數字資源組織標準化的典型語言,所有數據庫都需要參照標準進行各自的規范。數據標記格式標準的制定是數字資源組織標準化的必要保證。
2.描述規范
數字資源的數據庫以字段為單位,需對每個數字資源的屬性進行標準化描述,如標題、作者、單位、關鍵詞等。描述方法主要有元數據規范和著錄規范兩種,元數據規范提供框架體系和行為方法來描述數字資源的基本特征,使用通用編碼將來源各異的數字資源歸納到一個標準元數據體系中;著錄規范提供了對數字資源描述的著錄規則,按規則對數字資源著錄項目、著錄順序、著錄用的符號、各個著錄項目的著錄方法以及參考文獻在正文中的標注等內容進行描述,從而實現數字資源的共享。
數字資源知識圖譜以Nodejs為開發平臺,異步、時間驅動模型和非阻塞式的IO處理使得系統在相對低資源消耗下仍具備出眾的負載能力。系統采用B/S架構,用戶可隨時查詢和瀏覽信息。系統結構分為客戶層、服務層、數據處理層和數據存儲層,采用分層設計,可降低耦合性提高維護性。客戶層需考慮用戶的使用體驗,實現系統的交互和可視化呈現,滿足知識點的伸縮、移動和保存功能。服務層需解析用戶請求,獲取Post參數,訪問不同數據集合以JSON格式回傳驗證。數據處理層包含數據爬取和數據解析兩個模塊,數據爬取因數據源中URL數據量巨大,應采用多線程的廣度優先的爬蟲策略,數據解析則是為了得到結構清晰統一的數據,因HTML網頁語言規范化程度低,需要對數據進行容錯、過濾和提取等操作,將其轉化為DOM樹進行封裝和抽象化。數據存儲層需要建立校本知識數據庫以提高圖譜繪制的實效性,選用NoSQL類型的MongoDB能夠隨時存儲自定義的數據格式,具有較高的易擴展性和讀寫性能。
系統構建所需數據資源主要來自兩個方面:一類是校本已有的結構化和半結構化異構語義資源,一類是互聯網空間中,開放的、共享的海量非結構化異構資源。
對于校本資源知識圖譜的構建需要重視知識的表達和組織工作,需要服從于數字資源知識系統整體的需求定位和框架,目前采用面向師生用戶對象的思想來搭建知識表示框架,將教學課件、教學案例、研究報告、制度流程等數據庫知識拆解成實體、實體屬性和實體之間的關系三個要素,基于現有存儲的校內知識數據,將其格式和描述進行規范,經過分類和序化,結合系統的分析等深度學習功能,對知識系統中的實體和關系進行表示學習,將知識中蘊含的語義信息表示為稠密低維實值向量,從而實現在低維空間中高效計算實體和關系的語義聯系,實現結構化校本資源數據的處理,從而幫助師生實現知識獲取、融合和推理的目的。
購買的數據庫的數據結構整齊、順序存儲,便于重新組織,所以可聯系供應商按照知識圖譜構建中實體、實體屬性和實體之間的關系三個要素制定開放獲取資源統一接口協議來獲取結構化數據和擴充其他數據。可借鑒與OA相關的重要標準,如解決開放獲取系統之間數據互通問題的OAI協議、支持全文檢索的OAI-PMH協議、解決開放獲取版權問題的創作共同署名許可等標準。
通過知識交換和互聯網平臺爬取的共享數據往往呈現出結構不一致、規范化程度低等問題。互聯網平臺網頁共享數據作為知識圖譜最大的數量來源,通過爬取來獲得。針對百科類的網頁包含了許多結構化的信息,標題、分類標簽、分類系統、信息模塊、摘要等都作為固定條目出現,可以將其結構化處理,還有大量的其他普通類網頁也是知識圖譜構建的重要數據來源,因大量的冗余信息和不可信信息,所以需要建立構造一個面向網站的包裝器,利用網站的相似性對代表性網頁進行標注,利用模式學習算法實現對網站中知識的自動化抽取,這種方法也需通過手動調整和添加適當的模式來彌補數據挖掘質量。
1.知識服務的中心化
基于數字資源知識圖譜系統的建設從底層實現了“資源聚合、信息共享”,面向師生提供知識服務對學校的學習管理和資源建設都提出了更高的要求,以用戶為中心的服務理念和系統設計都要求我們在客戶應用層建設集中統一的知識服務中心,這里有四個“中心”的概念:一是“資源中心”,將教學資源集中、教學工具集中、研究材料集中,將傳統檔案等多種資源進行匯聚共享,將數字資源進行分類,形成資源、學習和專題三大板塊;二是“工具中心”,整合期刊、論文、圖書、報紙、視頻、專刊等資源元數據,利用知識圖譜系統進一步提升一站式檢索的高效性和精準性;三是“推薦中心”,通過收集用戶在使用知識服務平臺過程中產生的數據基礎上,在個人中心里進行關注熱點和研究領域的知識協同推薦;四是“服務中心”,收集熱門實用問題建設知識庫,搭建以問題形式呈現的智能問答系統,對師生在使用過程中遇到的問題進行智能機器人服務,利用知識圖譜系統的語義學習功能對新產生的問題和描述進行分析,形成新的知識條目。在整個知識服務中心化的建設過程中要注意知識服務實體與虛擬的融合,將物理環境的建設與虛擬空間的建設打通,將服務從線下延伸到線上。
2.知識服務的跨平臺呈現
基于數字資源知識圖譜系統的建設,其經梳理整合的數字資源不僅可以提高檢索質量和效益,還可以將相關知識實體和關系描述以節點關系圖的方式直觀化呈現,這不僅打破了原有以單個數據庫為單位的信息壁壘,形成并凝聚起某領域學術共同體,而且適應了用戶閱讀習慣向移動端轉型的問題。數字資源知識圖譜系統的構建,實現了具有時代特征的流媒體格式多終端同時上線,無并發、使用次數和時空的限制,方便解決個性化閱讀需求的采集、專業化閱讀線索和閱讀方案的提供、社區化閱讀的交流與傳播、線上閱讀和線下閱讀的互動以及知識的全媒體解讀與可視化呈現。
在信息大爆炸的時代,大數據、深度學習和人工智能已經成為決勝未來的重要技術,知識圖譜作為人工智能的重要應用,為學校的數字資源建設、管理、服務等提供了有效手段。在教育部啟動教育信息化2.0建設的重要歷史節點上,利用好知識圖譜系統,為師生用戶提供更友好和便捷的知識服務方式是助力學校優質校建設的重要任務。
參考文獻:
[1]劉靜.“互聯網+”時代數字資源組織標準研究[J].河南圖書館學刊,2016(9):129-131.
[2]李濤,王次臣,李華康.知識圖譜的發展與構建[J].南京理工大學學報,2017,41(1):22-34.
[3]李涓子,侯磊.知識圖譜研究綜述[J]山西大學學報:自然科學版,2017,40(3):454-459.
基金項目:本文系浙江省教育技術研究規劃重點課題“高校數字資源在移動互聯下的再分配策略研究”(項目編號:JA056)研究成果。