黃 程
(華中師范大學 信息管理學院,湖北 武漢 430079)
20世紀70年代,謝拉(J.H.Shera)曾說過“圖書館已經從書籍世界走進了信息世界”,反映了當時社會信息化給圖書館資源管理內容與模式帶來的巨大變化:從傳統紙質文獻管理走向以多元化信息媒介及自動化為特征的信息管理。20世紀90年代,隨著信息技術與知識經濟快速發展,圖書館從信息世界走進了知識世界,知識管理成為圖書館資源管理的新模式,數字圖書館作為一種全新的圖書館形態出現在人們的視野中,其本質上是基于網絡環境下共建共享的可擴展知識網絡系統。數字教育全球化趨勢,使得企業、國家開始重視知識管理。非洲和印度等欠發達國家增長緩慢,而數字圖書館的知識共享、傳播功能能為教育帶來顯著效益,因而數字圖書館的知識管理受到越來越多的關注[1]。為了進一步滿足人們精細化知識獲取與利用要求,數字圖書館中的知識載體被碎化為更小的單位,即知識元,以突破現有文獻層面的知識服務的局限性。知識元作為目前知識管理的最小單位,可以通過排列組合形式形成各種各樣的知識元,不同知識單元可以根據不同的邏輯關系形成多種知識元鏈接,從而實現知識價值不斷提升。目前,人們對知識的控制還停留在文獻層次,使得文獻內包含的知識元沒有得到應有的揭示,也就得不到應有的利用。面對浩如煙海的互聯網信息,傳統信息檢索所存在的弊端日漸顯露,其查準率與查全率已經無法滿足人們精細化信息需求。基于文獻單元的知識組織,所揭示的知識信息是粗糙的、表面的、不精確的,很難揭示知識內在聯系,形成新的知識。而基于知識單元的知識組織,仍然沒有細化到知識最小單位——知識元。基于主題圖的知識組織,提供給用戶的實際是一個完整的知識結構,相當于一個主題索引。知識元概念的出現徹底改變了人們以往停留在文獻層面的信息組織的觀念與做法,將傳統文獻擁有的信息資源進行碎化,通過建立知識元庫的形式將同一主題或領域問題集成起來,使得研究者無需瀏覽檢索全篇文獻,能將更多時間和精力投入到研究中。同時,在同一知識庫中所存儲的知識形式的多樣性,也豐富學習過程改善學習體驗,提高人們的學習興趣和學習能力。在不同知識主題、領域之間,大量的知識元鏈接形成知識鏈,相互交織的知識鏈進一步形成知識網絡,有助于人們系統、全面、高效地了解某一領域的知識,激發人們的創新能力。相較于理論方法型知識元和數值知識元,事實型知識元研究文獻更加匱乏,且中國知網已建立起理論方法型知識元庫和數值型知識元庫。故本文以知識元類別中的事實型知識元為研究對象,明確其特點并列舉相關流程,梳理其識別與標引的相關文獻。
根據中國知網文獻收錄情況,近年來,國內知識元研究領域發文量逐年穩步上升,研究“知識元”相關問題的主要學者有溫有奎、汪玲、郭德俊、徐國華、周瑩、徐端頤等,研究內容主要分為知識元理論研究、知識元技術研究和知識元應用研究3個方面:一是知識元理論研究包括知識元的概念、分類、特征和模型研究;二是知識元技術研究包括知識元的抽取、標引和鏈接;三是知識元應用領域包括數字圖書館領域、突發事件應急管理領域、教育領域等。此外,知識元還在知識科學與知識工程、知識挖掘與知識發現和知識管理等領域得到了一定的應用。
姜永常[2]認為,應以知識元為基本單元,以知識鏈接為樞紐,進行數字圖書館的知識構建,通過對數字圖書館中文獻信息進行知識元抽取、標引、建立知識元庫和知識倉庫,從而達到提供知識服務的最終目的;王泰森等[3]根據高校、科研機構的師生、科研人員及其他以學習、文獻調研為目的的讀者的知識資源全面系統整合要求,運用數據庫與知識元鏈接理論與技術,提出一種知識元層次的學習型知識元數據庫系統,從而實現按照學科、專業隊高校圖書館數字資源與實體資源中的知識資源整合;黃曉斌等[4]認為,知識元的自動抽取在數字圖書館知識網絡發展中具有重要作用,并對數字圖書館VISION模式、CNKI模式、Wiki模式3種典型的知識網絡模式進行了梳理,對數字資源中知識元、和知識鏈接等要素進行了深入分析;劉薇等[5]將知識標引應用于數字圖書館中的知識管理,利用學科的相對獨立性,對中書名、大標題、小標題、內容提取的知識元進行分類標引,并用從中文 Wikipedia 概念庫中獲取的語義信息進行語義鏈接,建立起一個數字圖書館學科標引系統。
國內其它關于知識元研究的代表性文獻有:馬費成在《情報學的進展與深化》中表示,知識信息的表達和組織必須從物理層次的文獻單元開始;陸汝鈐[6]在《從基于知識的軟件工程到基于知件的軟件工程》中指出,知識元是采用本體形式表示知識的基本單位,大量的知識元集合成為知識工程的素材;陳雪龍等[7]聯合發表的《非常規突發事件應急管理的知識元模型》,給出了知識元屬性間關系的隱性描述方法,為非常規突發事件的應急管理提供綜合知識支持;溫有奎撰寫的《知識元挖掘》和《基于知識元的知識發現》,為知識元研究打下了堅實的基礎;溫有奎和溫浩[8]在《一種創新點挖掘的知識單元標引系統》提出了一種創新點挖掘的知識單元標引模型,并用軟件流程圖描述了標引創新點的過程;原小玲[9]在《基于知識元的知識標引》中深入討論了知識元標引的各環節,并用系統流程圖表示了知識元標引的過程;付蕾[10]在《知識元標引系統的設計與實現》中描述了知識元標引系統結構以及系統實現流程,最后給出了實現方案和具體步驟。
知識元的應用前景廣闊,相關研究也日漸增多和深入,但無論是在理論領域還是技術領域,知識元都存在著若干空白。例如,關于知識元類型的劃分問題,仍然缺少統一劃分標準,而知識元本身具有的連續性和不可分性,更加大了其類型劃分難度,因而在知識元邊界確定上仍然存在著主觀性;在知識元應用上,目前在數字圖書館、應急管理等方面研究相對較多,但距離真正建立完備的知識元庫還存在一定的距離;知識元庫建立面臨的主要問題是知識獲取和存儲的問題。如知識元提取中,還缺乏有效方法將主觀知識與客觀知識區分開來,導致獲取的知識元中含有主觀知識比率較高,降低了整體知識元庫的準確性。這意味著對搜索引擎的智能化程度要求越來越高,需要提高整體效率[11]。總的來說,目前國內關于知識元的研究還處于成長階段,涉及知識元抽取、標引等技術理論依據還不夠完善[12]。此外,值得注意的是,在涉及知識元抽取和標引的研究過程中,計算機網絡起著巨大的輔助與推動作用。因此,著力科學技術創新、建立更加先進的計算機平臺也是推動知識元抽取與識別的有效力量。
事實知識元的定義是建立知識元定義的基礎上的,要想了解事實知識元的定義首先要先了解知識元的定義。隨著知識管理和知識經濟研究的興起,知識元逐漸進入研究者視野。國際上,知識元概念定義出現在20世紀70年代后期,由弗拉基米爾·斯拉麥卡提出,知識控制單位將從文獻深入到其中的數據、公式、事實、結論等最小的獨立“知識元”(又稱數據元)。國內最早提出知識單元(Knowledge Element)概念的是我國科學計量學開創者趙紅州[14],他在1984 年將其界定為能夠用數學公式表示的科學概念。自此,知識元研究在知識管理領域拉開序幕。關于知識元的定義,朱曉蕓等[15]提出原子知識元的概念,可視為國內知識元研究的開端;孫成江等[16]認為,知識元是人的知識結構中的基本元素,由信息元、經驗、智慧和問題解決4個方面共同復合而成;溫有奎[17]提出了知識元鏈接理論,認為知識元是構造知識機構的基元,是可獨立使用的最小單位;文庭孝[18]認為,知識元應該是可以自由切分、表達、存取、組織、檢索和利用知識的最小的獨立的知識單位;李銳、王泰森[19]認為,知識元既是一個獨立的學科知識單元,也是一個事物的過程或者結果;廖開際等把組成文檔的一個個相對獨立的知識元素稱為知識元;溫有奎[20]認為,知識元定義由名稱、屬性、操作、導航等七要素組成。
關于事實知識元的定義,張靜[21]認為,事實類知識元反映一個事實,如歷史事件、地理現象、社會現象等;廖開際[22]根據文獻段落的主題類型,將知識元分為事實型、主體型和任務型,并將事實型知識元定義為對名詞性短語起解釋和說明作用的、解決“about what”問題的知識單位;于秀慧[23]按照內容特征不同對知識元進行細致分類,并將事實(信息報道)型知識元的特征定義為描述時間的發生或反映一個事實,具有真實性、準確性或及時性等特點,時間、地點、人物等特征性很強;原小玲[9]將事實型知識元定義為有關自然、社會存在和演變的事實信息;史忠植[24]所定義的陳述性知識與部分學者對事實知識元的理解相似,認為陳述性知識是使人們了解掌握是什么的知識,包含概念和事實的知識;蔣玲認為,事實知識是指某種術語或是問題解決的基本要素,既含有術語中的知識和本質特征,又含有元素的知識。
綜上所述,本文以原小玲對知識元的分類為基礎,結合現有事實知識元的定義,將事實知識元進行描述為通常包含時間、地點、人物等要素的有關自然和社會存在及現象的信息。
針對事實知識元的研究鮮見,但對知識元劃分中含有事實型這一類別研究很多,本文通過分析不同學者對事實知識元的分類,給出中事實知識元的特點。含有事實型知識元這一類別的常見分類有:張靜[21]根據中小學各學科課程教材中的知識特點,將課本中所涉及的知識元分為概念類、原理類、方法類、事實類和陳述類五大類;廖開際[22]根據文獻段落的主題類型將知識元分為事實型、主體型和任務型;于秀慧[23]按照內容特征不同對知識元進行細致分類,并將事實(信息報道)型知識元的特征定義為描述時間的發生或反映一個事實,具有真實性、準確性或及時性等特點,時間、地點、人物等特征性很強;原小玲[9]將知識元按照表達內容的不同分為理論與方法型知識元、事實型知識元及數值型知識元;史忠植[24]將知識分為3種類型:陳述性知識、過程性知識和控制性知識。根據以上分類及研究,本文對事實知識元的特點進行總結:
(1)事實知識元具有獨立性。事實在不同領域的涵義是不同的。在新聞領域,事實是指存在現實生活中的事物或發生在現實世界中的事件,如社會政治事件,自然界現象等。在認識論范疇,事實是指客觀事物、事件或現象本身,也是指對以上3種的反映和描述。但無論如何,事實知識元屬于知識元的一種,能夠獨立表達一個完整的事實。
(2)事實知識元具有拓撲性。每個事實知識元都具有完整的結構,由知識元名稱、描述及關系組成。
(3)事實知識元具有鏈接性。由于知識元在表達上具有獨立性和完整性,事實知識元之間可通過不同組合方式產生新的知識,推動知識創新,有效提升現有信息資源價值。
(4)事實知識元具有外顯型。人們可以通過口頭、書籍、媒體等方式進行事實知識元獲取與傳播。
(5)事實知識元的易存儲性。一個完整的事實知識元所包含的基本要素相同,因此很容易建立起數據存儲結構,實現其快速存取。
近年來,關于知識元抽取的研究慢慢興起,現有關于知識提取的研究有:周寧等[25]就知識元表示與抽取正確與否的問題,提出了一種以XML平臺為基礎的知識元表示與抽取模型,對文檔進行分段讀取后,從中搜尋具有知識特征的基本知識元,以結構、長度和內容為3個維度為標準,通過約束這3個維度表示知識元,并通過解析這3個維度抽取知識元;毛永吉等[26]對科技文獻的句子類型進行劃分,設計了SELD語言和基于SELD 語言的知識獲取系統的SELKAS,用SELD語言改寫科技文獻后,可用SELKAS系統實現自動編譯、知識抽取和整理,從而形成領域知識庫;朱麗萍[27]以句子級別為基礎,將文本按照背景知識、問題分析、工作描述進行劃分。統計總結出引導詞、線索詞、等特征,建立起規則庫,利用規則進行結構化抽取信息;蘇牧等[28]依據自然語言的群集現象,結合知識體系信息更新的動態要求,提出了一種基于語句聚類識別的知識動態提取方法,并以機械 CAD為基本背景,利用實例進行了該方法的有效性證明。關于知識元的抽取,溫有奎等[8]針對提高論文創新知識的掘與利用程度問題,以對科技論文為實體對象,提出以創新點為基礎構建知識元,通過探討文獻所涉及的知識創新生產、知識增值管理、知識集成利用,梳理文本創新點的表現形式,證明了這種基于創新點的知識元挖掘方法的有效性。
依據CSSCI核心期刊排名情況,選取若干情報學核心期刊,并從萬方、維普、中國知網等數據庫下載題錄信息,對題錄信息進行整合去重等處理后,整理出一份關鍵詞表,然后從該表中獲取事實描述術語,構建其術語表。根據該描述術語表對情報學某核心雜志某年的全文進行識別,得出所有關于事實描述的句子,對識別出的句子進行規則提取和構建,以流程圖的形式對事實知識元描述規則構建過程進行描述(見圖1)。

圖1 事實知識元描述規則構建流程
描述規則構建,首先對選取的文章進行文本讀取,運用構建術語表進行識別,獲取其中含有事實的句子,利用分詞技術將這些句子進行分詞,最后用關鍵詞表去掉不含領域主題詞的句子,得到關于事實知識元的句子結構。將得到的句式結構進行人工審核和校對,篩選出關于事實知識元的句式結構,將這些結構進行分類匯總,得出事實知識元描述規則。依據上述提取流程進行事實知識元的描述規則提取,得到常見的事實知識元描述規則有:“……年,……在……,……創立/建立/創建……”、“……世紀……年代,……在……提出/證明/證實……”、“在/當……時(時間),……于……,……發明/發現/出現/產生/進行……”、“……也就是……”等。其中,關于事件類事實知識元描述規則中,經常出現的元素有事件發生的時間、地點、發生主體等信息。
實現知識元識別與標引的首要步驟是從中提取知識元。值得注意的是,本文研究范圍是數字圖書館中的數字資源,因此,除傳統文獻數據庫中的知識資源外,還需關注專利數據、行業標準、科技報告等特色資源庫中的知識資源。明確研究所涉及的知識資源范圍和性質是實現知識元準確識別與標引的基礎。將實體資源的知識本文統一為文本形式的知識資源中知識元識別與標引,不涉及非文本形式實體資源的知識資源向文本轉化過程研究(見圖2)。
知識元提取第一步,對實體資源進行預處理,即刪減資源中與主題無關的信息,減少數據量,減輕后續數據組織處理的工作量,提高整體效率。在此過程中,應考慮實體資源存在形式,若為非文本形式,如圖像、音頻、視頻等,應轉化為文本形式再進行文本信息讀取及后續處理;若實體資源本身為文本形式,即可直接進行文本信息進行分段讀取,搜尋文本段落中存在的知識特征。依據前文中不同知識元的描述規則,依據相應類型的知識元結構,對符合知識特征的文本段落抽取知識元。最后,將抽取的知識元按不同類型存儲在數據庫中,一次知識元抽取工作完成。重復以上步驟,直至實體資源中所有文本段落均完成抽取工作。

圖2 知識元抽取流程
以知識元為信息組織單位的研究日漸增多和深入,但在理論、技術領域,知識元研究還有很大的上升空間。目前,關于知識元的研究很多,但真正涉及其抽取及標引的研究鮮見。本文以事實知識元為研究對象,給出了事實知識元的定義,基于事件類知識元的特征對事實知識元描述規則和結構進行歸納總結,并進行了檢索測試實驗。總體而言,本文主要成果可分為以下幾個方面:
(1) 提出事實知識元的概念。本文通過對知識元相關理論的梳理,對知識元概念及其特點和分類有了深入了解。在此基礎上,本文綜合各領域對事實的定義,結合自身的理解,認為事實知識元描述的是某個實體的演化過程、最終狀態、涉及領域以及與其他實體之間的關系,并據此給出事實知識元的概念。
(2)建立事實知識元描述模型。知識元模型是知識標引的基礎,參考現有關研究,指出現有研究的不足,從標識、描述及關系3個方面對事實知識元的實體結構進行描述,并將改模型應用于后續檢索系統的數據庫設計中。
(3)提出基于規則的知識元標引方法。知識元抽取模塊是知識元標引系統的重要組成部分,本文采用流程圖的形式介紹了知識元描述規則形成及知識元抽取的整體流程。
在事實知識元描述架構方面,其描述組及關系組還可進行進一步細分,如關系組可增加該事實知識元與其它類似知識元之間的聯系。關于事實知識元的提取規則還需進一步改進。本文主要借鑒溫有奎對知識元結構的定義,根據事實知識元通常包含事件時間、地點、主體等要素的特點,對事實知識元結構進行定義。但在實際提取過程中,由于中文語義豐富的特點,許多詞語如“科技研究所”,既可以作為時間發起的主體,又可以作為事件發生的場所,這就為知識元屬性特征識別帶來了一定的難度。隨著不斷學習和探索,關于事實知識元還存在許多值得深入研究的問題。