


[摘 要]介紹知識圖譜建設流程、目前網絡資源保存項目現狀及在資源建設方面存在的問題。提出基于網絡保存項目所采集的網絡資源建設知識圖譜的構想,理清以結構化、半結構化數據為切入點分步建設知識圖譜的思路,并對建設中存在的難點及后續應用方向進行闡述。
[關鍵詞]網絡資源保存 知識圖譜 知識可視化 智慧服務
[分類號]G250.73
1 引言
為了提高谷歌搜索引擎的搜索能力,幫助用戶得到更精確的搜索結果,谷歌公司于2012年提出了知識圖譜的概念[1]。經過十多年的發展,知識圖譜已經在智能搜索、問答系統、個性推薦等多個方向得到了廣泛的應用,在智能搜索領域的應用效果最為顯著,極大地提升了搜索引擎“理解”用戶意圖的能力。知識圖譜本質上是語義網絡,表示現實世界中存在的實體、概念及其相互關系,是一種基于圖的數據結構。知識圖譜的出現改變了傳統的知識獲取模式,將知識工程“自上而下”的方式轉變為挖掘數據、抽取知識的“自下而上”方式[2]。知識圖譜用機器更容易理解的方式表示數據,其主要由節點和邊組成,節點代表實體和屬性,邊代表實體之間的關系。知識圖譜通過這種互相聯結的方式,把網絡上的數據轉變成計算機易于理解分析的知識,最終形成基于語義的知識庫。
知識圖譜的構建一般來說要經過知識抽取、知識融合、知識加工3個階段,整個流程需要多種技術的支持。首先,從原始的結構化和非結構化數據中抽取實體、屬性、關系等可用知識單元;其次,對抽取到的知識單元進行實體對齊與消歧,完成知識融合;最后,在前兩步的基礎上展開知識加工,對基本的事實進行處理,形成結構化的知識體系和高質量的知識集合,實現對知識的統一管理。
根據覆蓋范圍,知識圖譜可以分為開放通用知識圖譜和垂直行業知識圖譜兩種[3]。前者注重廣度,強調融合更多的實體,相較后者而言準確度不夠高,并且受概念范圍的影響,很難借助本體庫對公理、規則以及約束條件的支持能力規范其實體、屬性、實體之間的關系,主要應用于智能搜索等領域。而垂直行業知識圖譜要依靠特定行業的數據來構建,具有特定的行業意義。
2 知識圖譜研究與應用案例
知識圖譜最先是由搜索引擎行業提出的,也最先在智能搜索領域迅速發展,近幾年國內外很多搜索引擎相關的科技企業都推出了知識圖譜相關產品與服務,在提升搜索引擎搜索能力的同時也促進了知識圖譜及相關技術的發展。國外的谷歌Knowledge Vault、FreeBase和微軟的Bing Satori等較為出名,國內比較知名的有搜狗知識圖譜知立方和百度知識圖譜等。以百度為例,其打造了目前為止業界規模最大的多源異構中文知識圖譜,覆蓋超過50億實體和5500億事實,同時,建成了醫療、法律、金融和能源等多個行業知識圖譜[4]。百度知識圖譜廣泛應用于搜索、推薦等領域的產品,大幅提升了產品的智能化水平。與傳統的信息檢索不同,知識圖譜可以幫助搜索引擎理解用戶搜索的語義,并給出相應的答案。比如,用戶輸入“姚明的身高”,搜索引擎會根據知識圖譜的內容,直接給出“226cm”這個答案,而不是簡單列出包含“姚明的身高”這個關鍵詞的網頁。甚至“國慶還有多少天”“李白關于送別的詩”這類開放性的問題,也可以通過預先建立的知識圖譜獲得準確詳盡的解答。在智能推薦方面,當用戶搜索某個人時,系統會自動根據人物關系給出推薦人物(如圖1所示)。
知識圖譜在搜索引擎領域的成功應用使其迅速獲得了其他行業的關注與研究,圖書館界也對此表現出了濃厚的興趣。趙夕姝[5]從圖書館館藏數字資源知識圖譜的構成及應用兩個方面詳細研究設計了基于知識圖譜的圖書館館藏數字資源管理與檢索系統,將知識圖譜引入其中,建立了不同類型、結構數字資源之間的關聯關系,理順了數字資源間的邏輯層次,在方便圖書館館藏數字資源存儲的同時,提升了圖書館館藏數字資源系統檢索能力。胡汗林、鄧三鴻[6]對青銅器概念與術語進行分析,構建青銅器知識圖譜并探討相關應用,實現對青銅器知識的關聯與挖掘,從而促進知識共享與發現,力爭解決文物資源信息分散、數據質量不佳、數據關聯性不強等問題,為青銅器數字館藏建設提供了新思路。范昊等[7]結合標準文獻內容結構特征和情報需求,歸納多維知識發現框架,提出基于知識圖譜的標準文獻多維知識發現流程,構建標準文獻知識圖譜,進行知識發現實例論證,為標準文獻資源語義深度關聯及知識發現提供支撐,開辟標準文獻開發利用新方向。針對知識圖譜的應用,圖書館界已經有了不少宏觀上的研究,也有根據實際工作將其在某類數字資源方面應用的嘗試,但成規模、夠系統、可應用的研究較少。
3 網絡資源保存項目發展現狀
進入網絡時代后,人們逐漸認識到網絡信息中蘊含的巨大價值。早在20世紀末,英美等發達國家就著手開展了一批網絡信息保存的相關項目。從2003年起,國家圖書館也啟動了自己的網絡信息資源保存項目,進行網絡資源收集保存等工作。在國家圖書館的引領下,超過200家地方館也加入這一行列中,開展了網絡資源采集、政府信息整合等項目。經過近二十年的持續努力,國家圖書館和各級地方館共同建立了較為完整的網絡資源保存體系,到2021年,國家圖書館主導的網絡資源保存項目總數據量已達300TB[8],網絡資源已經成為圖書館數字資源的重要組成部分,且所占比重還在迅速加大。
隨著這項工作的深入進行,國家圖書館在網絡資源采集策略、采集方式及保存方案等方面都有長足的進展。比如在采集方式上,國家圖書館利用虛擬化技術提升采集效率,建設云共享式網絡資源采集和保存平臺[8],支持國家圖書館與多個地方館開展共享式、分布式、協同式合作,解決了地方館在開展工作中由于技術力量不足而遇到的問題。針對近年來網絡資源產生的新變化,國家圖書館持續進行技術更新,創新優化采集與管理的算法與策略,實現了增量采集、增量回放等功能,并實現了視頻資源的高效采集與流暢回放,更好地適應了互聯網資源的移動化、視頻化趨勢。
在采集與保存得到充分發展的同時,資源的利用效率并沒有得到同步提升。網絡資源保存項目大多采用的還是關鍵詞檢索和數據直接展示的傳統對外展現方式,對數據的利用還停留在較低的水平。如圖2中國政府公開信息整合服務平臺所示[9],平臺缺乏主動、智能化、個性化的對外揭示手段,其他參與項目的地方館也基本采用了同樣的展示方式。這樣很多數據只能停留在存儲的狀態,難以做到從數據到信息,再到知識,最終到智慧化服務的轉變。
提升服務能力是網絡資源保存所面臨的巨大挑戰,解決這一問題的關鍵在于資源建設的智慧化,知識化是智慧化的基礎[10],智慧化的資源是智慧化服務的前提。知識圖譜是在搜索引擎行業發展起來的,最早處理的就是各種網絡資源,這與圖書館網絡資源保存相契合,其發展過程中的很多經驗和方法值得借鑒。
4 知識圖譜在網絡資源保存項目中的應用思路
4.1 引入知識圖譜的意義
知識圖譜有助于建立網絡資源之間的聯系及網絡資源與外部其他資源之間的聯系。基于網絡資源建立的知識圖譜可以把靜態的信息轉變成動態信息,把本來僅處于存儲狀態的信息置于和外界的有機聯系中,為以后的深度開發利用打下基礎。知識圖譜可以降低用戶使用數據的門檻,以前需要由專業的檢索人員運用復雜的檢索技術才能得出的檢索結果,在知識圖譜幫助下,普通人直接用類似自然語言交流的方式就可以輕松獲得。知識圖譜的建立相當于生成了許多可直接利用的知識,完成資源從信息到知識的轉變,將提高資源利用的水平,為智慧化服務奠定基礎,有助于網絡資源保存整個項目融入智慧圖書館建設的大浪潮中。
4.2 知識圖譜構建整體思路
在知識圖譜的構建流程中,非結構化數據的知識抽取較為復雜,包括數據清洗后的實體、屬性、關系的抽取等,如果從零開始,每一項都將面臨不小的挑戰。知識圖譜的建設需要以海量的與行業無關的資源為基礎來抽取相關知識,海量異構數據的融合也需要極為專業的技術與人員作為保障,難度較大,并非網絡資源保存項目目前可以完成的。從網絡資源保存項目的實際出發,在相關項目中引入知識圖譜技術,可采用分批、分步處理的方式。
一方面是從項目中保存的結構化數據入手,嘗試知識圖譜的起步建設工作。在網絡資源保存相關工作中建立了大量的元數據,有些是人工標注的,有些是機器自動生成并加以一定人工干預的。比如,網絡政府信息就依據標準建立了相對完善豐富的元數據,數據量已經超過了兩千萬條。這些結構化數據相對精細、準確地記錄了很多網絡資源的相關信息。元數據大多直接保存在關系型數據庫中,結構清晰,表述準確,且易于機器自動處理,可以較為容易地轉化為RDF(資源描述框架)或其他形式的知識庫內容。基于這些元數據建立知識圖譜,可保障其可靠性,極大降低知識抽取階段實體抽取、屬性抽取等步驟的難度,并使后續的知識融合、知識加工更為高效,容易比較快速地看到建設成果。比如,政府信息融合中保存有“來源網站”“發布機構”等政府信息的元數據項,形成了機構之間轉發信息的關系,可以根據此種關系建立相關機構之間關于信息轉發的圖譜,此種圖譜可顯示信息從發布到被多個機構轉發的過程、信息的轉發量、機構的轉發量等,這些數據對每條政府信息的重要性、機構的權威性等都有所揭示。除此之外,政府信息的關鍵詞、體裁分類等都可以作為建立圖譜的切入點。基于結構化數據建設的知識圖譜不僅有助于提高結構化數據的利用效率,還可以為基于半結構化、非結構化數據建設知識圖譜奠定基礎。
另一方面是處理其中的半結構化數據,比如表格、格式相對有規律的網絡百科、新聞報道、政府公報等。與結構化數據不同,半結構化數據有一定的格式,每部分都有相對固定的語義信息[11],只是其中的結構需要進一步整理,這給機器自動處理帶來了一定的障礙。但相較于非結構化數據,這種相對的規律性,又使得每類半結構化數據在該類內部有可能采用統一的自動處理方式。通常使用包裝器的方式從半結構化數據中抽取相關信息,對于不同類的半結構化數據可能要定義不同的包裝器來抽取相關信息,其難點在于包裝器的定義、自動生成及更新維護等。網絡資源保存中重大事件等專題資源可以采用這種方式建立知識圖譜,記錄某些事件發生的時間、地點、參與者、影響等信息或者周期性發生的事件在不同時間段的不同表現等。
從國內網絡資源保存的現狀來看,項目的參與者大多是全國各地的圖書館,軟硬件水平參差不齊,普遍缺乏高精技術力量;但在資源采集之初對目標進行了較多人工選擇,制定了一系列的建設標準。網絡資源保存偏重于重要性較高的網站、權威性較高的政府信息及影響較大的事件專題等類別。從項目參與者的實際情況和已獲取資源的覆蓋范圍來看,暫不適合建立通用的知識圖譜,應該把重點放在對結構化和半結構化數據的處理上,在處理好這兩部分數據的基礎上,可以針對非結構化數據進行實體抽取、屬性抽取、事件抽取等,并以此為基礎建立更為細粒度的垂直行業知識圖譜。
以采集到的網絡資源為基礎,優先建立結構化、半結構化數據相應的知識圖譜,完成數據知識化,依托知識化資源開展各類智慧化服務,提高網絡資源深度利用水平與效率,這就是知識圖譜在網絡資源保存中應用的基本框架,如圖3所示。目前,智慧圖書館的建設正處于實踐階段,2021年國家圖書館提出建設全國智慧圖書館體系,推動圖書館由數字化向智慧化發展,網絡資源保存相關工作應該利用好這一形勢與政策上的優勢促進自身的智慧化轉型,并及時向參與其中的各個地方館推廣經驗與成果,推動網絡資源保存在全國的發展。
4.3 構建知識圖譜的難點
基于結構化數據建立知識圖譜的知識抽取步驟相對容易,也便于機器自動批量處理,其難點主要在于不同來源知識的融合。基于半結構化數據建立知識圖譜相較于結構化數據多配置一個包裝器,不同類型的資源以及同一類型資源內部結構變化都較大,形式多種多樣,并沒有統一的處理方法。因此,針對不同格式的內容要配置不同的包裝器以完成數據的解析。為了保證效率與準確度,通常采用機器學習與人機結合的方法來配置包裝器。而對于完全非結構化的網絡資源,知識抽取、知識融合、知識計算與應用這些流程都涉及很多專業技術,其中關系抽取、事件抽取、圖計算等,至今仍然是各自領域的難點,這些問題的高效解決需要人工智能、自然語言處理、大數據等行業的深度配合。基于實際考慮,在網絡資源保存項目中主要基于結構化和半結構化資源來建立相應的知識圖譜是當前階段比較務實的選擇。當然,項目參與人員也應保持前瞻性眼光,緊跟技術潮流,持續學習了解前沿技術,努力提高項目建設的智慧化水平。
4.4 應用方向
4.4.1 助力高級檢索知識問答
知識圖譜的應用初衷就是解決傳統搜索的準確性問題,引入知識圖譜后用戶搜索從面向關鍵詞變為由各種“知識”組成的語義網絡,知識圖譜可以對用戶輸入內容進行“理解”,識別其中的實體、概念屬性等元素,不僅能反饋直接的知識,還能反饋與之相關的實體、關系等豐富的結果。知識問答更是用互動的方式拉近了普通用戶與知識的距離,降低了知識獲取的門檻,讓用戶直接以人與人之間日常交流的方式就可以高效找到自己感興趣的信息,而不用關心其背后復雜的實現技術。
4.4.2 知識可視化展示
利用知識圖譜能以直觀、動態的方式展示知識網絡;或根據用戶喜好的社會熱點、時間節點等因素動態調整展示的內容與方式,主動推出相關知識;又或讓用戶在知識構成的網絡地圖中巡航,來發現自己感興趣的部分。這可以改善目前網絡資源保存項目內容展示單調被動的現狀。
4.4.3 提供和外界的關聯,發現新的知識
知識圖譜本質上是基于知識的語義網絡,網絡的重要特征就是互相關聯。根據用戶的興趣利用內部關聯關系,推薦其他可以借閱的館藏資源,甚至其他知識圖譜的內容,以提高網絡資源的利用質量,使其真正變成館藏的有機組成部分。知識圖譜建設到一定程度,其中包含的實體、關系、屬性等數量會不斷增加,各項元素之間的關系也變得更為復雜,可能會出現一些人們注意不到的隱藏聯系,利用圖計算、規則推理等方法,可以挖掘出這些隱藏知識,豐富知識圖譜的構成,其難點在于對建立的知識圖譜的規模、性能等要求較高。
網絡資源保存項目引入知識圖譜技術是一次較新的嘗試,并沒有一蹴而就的辦法,很多問題需要在工作中逐步顯現與解決,這就要求工作人員在建設中不斷積累經驗,改進工作方法,調整工作思路,在使用中逐步完善知識圖譜構建。
5 結語
筆者根據網絡資源采集項目的現狀,分析其在資源利用與服務等方面存在的問題,提出引入知識圖譜技術解決相關問題的思路,以期推動網絡資源采集知識服務、智慧服務的發展。另外,除了知識圖譜,其他人工智能的相關技術都可以運用到網絡資源采集的建設與服務中。
參考文獻:
[1] AMIT S.Introducing the knowledge graph[R].America:Official Blog of Google,2012.
[2] 田玲,等.知識圖譜綜述——表示、構建、推理與知識超圖理論[J].計算機應用,2021(8):2161-2186.
[3] 楊正洪,郭良越,劉瑋.人工智能與大數據技術導論[M].北京:清華大學出版社,2019.
[4] 百度知識圖譜——匯聚知識,理解世界,賦能產業[EB/OL].[2023-04-13].https://kg.baidu.com/#/.
[5] 趙夕姝.基于知識圖譜的館藏數字資源管理系統設計研究[J].圖書館研究與工作,2022(10):75-78,95.
[6] 胡汗林,鄧三鴻.知識圖譜在青銅器數字館藏建設中的應用[J].數字圖書館論壇,2023(4):1-8.
[7] 范昊,等.基于知識圖譜的標準文獻多維知識發現研究[J].情報理論與實踐,2023(9):175-184.
[8] 魏大威,季士妍.國家圖書館網絡信息資源采集與保存平臺關鍵技術實現[J].圖書館,2021(3):45-50.
[9] 中國政府公開信息整合服務平臺[EB/OL].[2023-03-26].http://govinfo.nlc.cn/.
[10] 初景利,段美珍.智慧圖書館與智慧服務[J].圖書館建設,2018(4):85-90,95.
[11] 朱巧明,等.中文信息處理技術教程[M].北京:清華大學出版社,2005.
張學青 男,1984年生。碩士,館員。研究方向:數字資源建設、網絡資源保存、智慧圖書館建設。
(收稿日期:2023-04-21;責編:劉清揚。)