文/丁晟春 史金晶
面向南海問題的智庫知識庫構建研究
文/丁晟春 史金晶
“南海問題”主要是指中國南海諸島主權及其附屬海域權益歸屬問題,是中國與南海周邊國家關系中一個復雜而重要的議題。由于南海是太平洋上重要的戰略軍事要地,南海問題受到了國際上多方力量的關注和影響,國家間的博弈使得南海局勢的穩定和問題的最終解決變得更加艱難。因此如何制定出南海問題的最佳解決方案成為我國政府面臨的一項重要任務。建立面向南海問題的智庫,對南海問題進行深入研究,可以更好地服務我國南海戰略。智庫高質量產品的“質變”依賴于知識資源的組織、利用和創造。智庫作為知識型的組織機構,有效的知識組織和知識管理是智庫研究的基礎保障。如何對搜集到的數量龐大、資源異構的信息資源進行科學地組織管理是一個需要探討的問題。TTCSP(Think Tanks and Civil Societies Program)全球性報告中特別強調,迅速變化的信息環境和競爭激烈的行業環境要求智庫構建完善的知識庫以應對挑戰。因此本文將知識工程領域的知識庫理論應用到智庫中來,面向南海問題構建知識庫。
知識庫(Knowledge Base)是關于某一領域各種知識的集合,用于實現知識的存儲、管理和重用。就其內涵而言,知識庫是一種基于數據庫技術,針對特定領域問題求解的需要進行知識抽取,并且根據一定的知識體系實現知識分類和組織后,針對知識特點和需求存儲在計算機中的相互關聯的有序化的知識集合,是一種專業化的面向用戶需求的知識服務系統。許鑫參照知識庫的定義,將智庫知識庫表述為,通過積累來自各種渠道的和保留自身研究產生的各類信息資源,支持研究人員進行產品開發和咨詢服務的平臺工具。
知識庫的構建研究是知識工程領域內非常重要的問題,國內外相關學者對知識庫構建的理論與技術的研究近年來不斷深化發展,取得了一定的成果并得到了有效地應用。目前主要有4種常規的構建方法:(1)基于聚類方法的知識庫構建方法;(2)基于可拓知識表示的知識庫構建方法;(3)基于神經網絡的知識庫構建方法;(4)基于本體的知識庫構建方法。本體是一種共享的概念定義集,能在語義和知識層次上描述概念及概念間的關系,消除領域概念間的混亂與歧義,最大程度地實現知識的共享與重用。國內已有很多領域引入了基于本體的知識庫,如產品設計、軍事等領域。饒國政認為理想的知識庫是應該建立在本體的基礎之上的,將本體用于知識庫建設有許多突出的優點。本體可以為知識庫的構建提供一個基本的結構,既可以描述靜態實體,也可以描述事物或概念的運動和變化。在邏輯建模中,本體的使用可以幫助人們清楚地理解特定領域的相關元素、關系和概念,讓知識表達更加準確便捷,從而有助于更好地管理和維護領域知識庫。
構建南海問題知識庫首先應對信息的來源及信息的要素進行總結歸納。其次針對南海問題研究的目的,分析目標用戶對知識庫的需求,明確知識庫中需要存儲的知識以及知識類型,在需求分析的基礎上對知識庫進行總體結構設計,根據南海問題知識類型的不同,設計知識庫的存儲模式。最后,完成南海問題本體庫和數據庫的構建。
(一)南海問題知識庫信息源分析
由于網絡信息的不同形式,南海問題相關信息的獲取來源主要有網站和社交媒體兩方面。
1.網站是因特網上發布資訊和提供服務的主要平臺,有關南海問題的網絡信息主要來源于機構網站和新聞類網站。機構網站是相關機構在網絡上發布信息的平臺,可以分為政府機構網站和研究機構網站。政府機構網站是官方權威信息發布的主要平臺,在這類網站上不僅可以獲取南海問題相關的法律法規、最新的國家政策,還可以了解到官方對南海問題重大事件的明確態度。新聞類網站是綜合性網絡媒體,是以新聞為主的大型網上信息交互平臺,具有報道完整、要素齊備等特征。新聞類網站會以專題的形式對重大突發事件進行全方位的報道,為有關南海問題的信息收集提供便利。
2.社交媒體是web2.0時代興起的新的信息傳播途徑,主要包括論壇、博客、微博等。近年來微博的用戶數量激增,影響力急劇擴大,逐漸成為網絡信息傳播最重要的載體。微博的傳播速度非常快,突發事件一經曝光,短時間內就可以迅速擴散,形成全網大討論的態勢。例如“中菲黃巖島對峙”事件發生后,微博實時更新事件的進展,網民就此事件展開了激烈的討論。微博具有評論、轉發、點贊等功能,民眾可對相關事件發表觀點意見,這些輿情信息是南海問題研究的重要內容。
(二)南海問題知識庫需求分析
南海問題知識庫的目標用戶主要是南海問題的研究人員,他們在分析研究過程中需要了解或參考大量的南海問題相關知識。這些底層的信息資源直接影響南海問題分析結果的科學性與客觀性,所以對相關知識的完備性與準確性就提出了較高的要求。目前與南海問題相關的知識來源非常廣泛、內容多樣、數量眾多,并且不斷地變化更新,根據知識類別的不同,南海問題研究人員的知識需求總結為以下3個方面:
1.南海問題基本信息。南海問題涉及的島嶼及海域的概況:南海是指中國確立九段線內群島及其附屬海域。基本信息主要包括南海諸島及海域的行政劃分、島嶼的地理位置、島嶼名稱、目前實際控制狀態等。
南海問題的參與主體:南海問題主要涉及南海周邊六國,包括中國、菲律賓、文萊、馬來西亞、越南和印度尼西亞,在南海問題研究中被稱為南海聲索國。近來南海問題涉及的主體開始多元化,美國、日本等大國以“自由航行”等借口介入到南海主權爭端中。此外,東南亞國家聯盟是南海局勢穩定的重要影響力量,也成為需要研究的主體之一。
2.南海爭端事件信息。由于歷史遺留等原因,中國與周邊國家在南海主權問題上的爭端時有發生。這些爭端事件是南海問題研究的重點,研究人員需要了解事件的相關信息及發展態勢。包括事件的基本信息,如發生的時間、地點、人物、原因、經過、內容等。同時事件的傳播信息也是分析的重要內容,包括事件衍生出的輿情信息、事件關注者的基本信息等。
3.南海問題文獻信息。南海問題研究開始于20世紀70年代,從多學科的視角進行深入研究,可總結為歷史地理研究領域、法律與國際因素研究領域、中國視角對策研究領域、非傳統安全研究領域等。目前國內已涌現了一大批該領域優秀的專家學者,建立了一批以南海問題為研究方向的學術機構。國外研究機構對南海問題也相當關注,主要研究集中在南海問題的根源、解決方案、影響因素和前景等幾方面。這些學術研究成果是南海智庫重要的知識支撐,因此在南海問題知識庫中應該存儲有關的文獻信息。
(三)南海問題知識庫結構設計
南海問題知識庫的總體結構包括本體庫和數據庫兩個部分,其中本體庫中存儲南海地理信息、南海爭端事件信息、南海問題中涉及到的國家與關注方的信息,這些信息通過南海爭端事件本體建立語義關聯。南海問題數據庫包括輿情信息庫、文獻信息庫和觀點庫3個子庫,輿情信息庫負責存儲收集的輿情信息,如網頁、博客、微博和網民評論等,文獻信息庫存儲書記、期刊等相關文獻資源的著錄信息,觀點庫存儲通過相關輿情分析技術處理得到的關注者的觀點立場信息。
南海問題本體主要是對南海問題相關信息進行表示,在本體中體現為類、數據屬性、對象屬性與實例。根據南海問題智庫研究的實際情況和需要,以斯坦福大學的七步法為主體提出了南海問題本體的構建方法,其步驟如下:(1)確定南海問題本體的應用領域,主要用于南海問題的研究,為南海問題智庫提供知識支持;(2)考慮現有事件本體的復用性,本文參考ABC共享本體的語義規范來指導南海問題本體的構建;(3)列出領域中重要概念和術語,列舉出南海問題研究領域的重要概念和術語;(4)定義類與類的層次,采用自頂向下的方法定義南海問題本體中類的層次結構;(5)根據類的特征定義數據屬性和對象屬性,規定屬性的約束條件;(6)創建實例,在完成上述步驟后為定義的每個類創建實例,并且添加該實例具體的屬性值;(7)本體的檢驗及評價,檢驗構建的本體中是否存在錯誤,是否能滿足本體構建最初的目標。
(一)南海問題本體概念和類的提取
依據上文所確定的研究領域與范疇,在知識分類的基礎上,參考文獻資料,對核心概念進行提取。在此基礎上,對這些概念進行評估,按照一定的邏輯規則分組,確定從南海爭端類、國家類、島嶼類、關注者類這4個方面構建南海問題本體;然后對每一組概念自頂向下進行分層。(1)南海爭端類是指南海爭端事件,將其分為事件類和過程類。一個事件有一個或多個過程。事件過程類表示一個動態事件的概念,表示事件在某個時間區域上的劃分,刻畫突發事件在時間演進中的狀態。(2)國家類是指南海問題所涉及到的國家。本文以國家在南海問題上的角色為分類標準,將國家類分為利益主體類和一般國家類這兩個二級子類。在利益主體類下分為南海聲索國類、外部利益國類、聯盟類這3個三級子類。(3)關注者類指對南海問題進行報道研究的個人或機構。本文將關注者類分為個人類、研究機構類、媒體類、政府類這4個二級子類。(4)島嶼類是對南海諸島的概括。本文根據已有的地理區域劃分,分為東沙群島、西沙群島、南沙群島、中沙群島4個二級子類。
(二)數據屬性的定義
數據屬性是表示類或概念與值的關系。如南海爭端類的數據屬性有編號、名稱、起始時間、結束時間、參與主體、受影響客體、事件性質、手段、內容、來源,島嶼類的數據屬性有編號、中文名稱、英文名稱、別名、所屬地區、地理位置。在此基礎上進一步定義這些數據屬性的約束,用來描述屬性的值類型、允許值(領域和范圍)、值基準,以及值的其他特性,等等。
(三)非等級關系的定義
本體的對象屬性用來表示類之間的相互關系,南海問題中的相互關系有15種,這些關系描述了南海本體類之間以及對應的實例之間的詳細聯系。部分本體非等級如下:(1)包括與是……的過程關系,這是一對互逆關系,表示事件和過程之間的關系,即事件由多個過程組成,而多個過程的發生形成了整個事件;(2)起因關系,表示南海爭端之間的因果關系,表現為南海爭端類與南海爭端類自身的關聯,能夠為事件類和過程類繼承;(3)繼……之后關系,表示過程之間先后順序發生的關系;(4)介入與被介入關系,這是一組互逆關系,表示國家與南海爭端類之間的干涉關系;(5)發起與發起國關系,這是一組互逆關系,表示某一南海爭端是由哪國首先挑起的;(6)發生地點關系,表示南海爭端類與島嶼類之間的爭端或侵占情況。
在當今大數據背景下,基于本體的方法構建南海問題知識庫來管理智庫信息資源,對南海問題相關知識進行有效的搜集、組織、存儲和管理,為專業智庫決策提供堅實的知識基礎,這是專業智庫未來發展的一個方向。
(丁晟春系南京理工大學經濟管理學院副教授,史金晶系南京理工大學經濟管理學院碩士研究生;摘自《智庫理論與實踐》2016年第2期)