秦長江 侯漢清
摘要概述知識圖譜的概念和主要應用領域,明確與知識地圖、信息可視化、知識管理之間的關系,簡介構建知識圖譜的理論、關鍵技術、相關軟件,總結知識圖譜的發展歷史、國內研究存在的不足和國內外最新研究進展,提出建議和對策。
關鍵詞知識圖譜信息管理知識管理
1955年加菲爾德發表題為《引文索引用于科學》的論文,系統地提出用引文索引檢索科技文獻的方法,1961年開始編制面向全部科技領域的綜合性引文索引《科學引文索引》(簡稱SCI)并于1963年出版1965年,普賴斯借助《SCI》發表了論文《科學論文的網絡》,這篇論文研究了科學論文之間的引證和被引證關系,以及由此形成的引證網絡。普賴斯指出在這個網絡圖上,有密集分布的小條或小塊,如果把這些小條小塊研究清楚,就可以繪制當代科學的“地形圖”。由此引文分析普遍開展起來,而信息技術的廣泛運用,更使得引文分析、共現分析等方法如虎添翼。進入新世紀以來,知識圖譜的理論與方法,以其理論上的綜合化、方法上的可視化、描繪上的形象化等諸多特征,獲得迅猛的發展,一躍成為當代科學計量學的研究熱點與最新前沿,研究極為活躍。但在文獻計量學的發源地——圖書館學情報學領域,知識圖譜卻不是非常重視。當代著名情報學家加菲爾德和權威科學學家默頓都認為:科學計量學、文獻計量學、信息計量學都屬于同一門學科—科學計量學。因此,本文擬對知識圖譜的理論與方法作一簡要介紹,以期引起國內同行的重視和研究。
1知識圖譜概述
1.1知識圖譜的概念
知識圖譜(Mapping Knowledge Domain,在圖書情報界也稱為知識域可視化或知識領域映射地圖),是顯示知識發展進程與結構關系的一系列各種不同的圖形,用可視化技術描述知識資源及其載體,挖掘、分析、構建、繪制和顯示知識及它們之間的相互聯系。具體來說,知識圖譜是把應用數學、圖形學、信息可視化技術、信息科學等學科的理論與方法與計量學引文分析、共現分析等方法結合,用可視化的圖譜形象地展示學科的核心結構、發展歷史、前沿領域以及整體知識架構的多學科融合的一種研究方法。它把復雜的知識領域通過數據挖掘、信息處理、知識計量和圖形繪制而顯示出來,揭示知識領域的動態發展規律,為學科研究提供切實的、有價值的參考。迄今為止,其實際應用在發達國家已經逐步拓展并取得了較好的效果,但它在我國仍屬研究的起步階段。
1.2知識圖譜與知識地圖、信息可視化、知識管理之間的關系
為了確切地理解知識圖譜的概念,首先要明確它與知識地圖、信息可視化、知識管理之間的關系:
1.2.1知識圖譜是知識地圖的一種高級表現形式
英國著名的情報學家布魯克斯(B.c.Brooks)在他的經典著作《情報學基礎》中最早提出了“知識地圖”的概念。布魯克斯指出情報學的真正任務應該是組織、加工和整理人類客觀知識,將知識結構繪制成以各個知識單元概念為節點的學科“認識地圖”,通過對文獻中的邏輯內容進行分析,找到人們思想的相互影響及聯系的結合點,從而為用戶提供知識之間關系的一種知識組織的理想狀態。布魯克斯所提出的“知識地圖”是從知識網絡的形式出發,說明知識單元發展變化的過程,促進知識的變化過程向理想的狀態發展。而目前信息管理界研究的應用于知識管理的知識地圖,其思想來源于布魯克斯,但與他提出的“知識地圖”的概念是不同的。目前研究的知識地圖就是對組織知識資源總體分布情況的可視化描述,包括組織知識資源的存在情況及其載體,以及資源之間可能存在的聯系。實質上就是利用現代信息技術制作的組織知識資源的總目錄和各知識條目之間關系的綜合體以及組織專家的導航系統。是利用構造地圖的方法將各類知識資源中的知識關聯起來,使之成為一個網絡。IBM的The Lotus Knowledge Discovery System推出了強大的知識地圖集成方案;微軟公司的知識地圖包含了137項顯性知識及200項隱性知識。由此可見,目前研究的知識地圖建立的只是文獻信息之間的,最多是知識之間的一種關聯,而無法說明知識單元發展變化的過程,因此,并不能稱為嚴格意義上的知識地圖。而知識圖譜正是實證研究科學共同體結構與發展的方法,通過把最先進的信息技術運用于知識圖譜的繪制,來實現動態發展著的學科知識的可視化,揭示學科發展規律。在知識圖譜中,學科前沿之間的交互關系是以空間的形式展現出來的,這樣就能夠探明有關學科之間的親緣關系和結構,劃定某學科的作者集體以及“無形學院”(無形學院是特定的學術社群,即具有共同信念的合作群體中的學者形成的交流網絡),分析推測學科間的交叉、滲透和衍生趨勢,對某一學科的產生背景、發展歷史、突破性成就、今后發展方向進行分析,從而揭示學科的動態結構。因此,知識圖譜遵循了布魯克斯“知識地圖”的思想,可以說是布魯克斯所提出的“知識地圖”的真正雛形,并向著這一理想目標邁出了堅實的一步。
1.2.2知識圖譜是信息可視化的一個分支
信息可視化是利用計算機支撐的、交互的、對抽象數據的可視表示??梢暬夹g不僅在揭示信息資源的廣度與深度上有很大的優勢,還能夠將隱藏在信息資源內部的、復雜的、抽象的語義以直觀的圖形方式呈現給用戶,為用戶直觀、方便獲取、過濾、理解大規模數據和信息提供了有效途徑,從而發現信息之間的關系特征和規律。知識可視化是將數據挖掘和知識發現等方法所獲得的知識和規律,尤其是知識的構成和知識之間的邏輯關系,以及具有復雜結構的知識,利用可視化的方法表現出來,使得知識便于理解。該類型的可視化可以是靜態的關聯、聚類、分類知識,也可以是反映系統演化規律的知識。知識圖譜就是利用信息可視化技術,根據共引分析、共現分析等理論基礎,構建的一種知識之間關系的網絡圖,常見的網絡有時序網絡、共引網絡、共詞網絡、耦合網絡、合作網絡等。它包含了以文獻等信息為節點、以它們之間關系為邊的鏈型、樹型、網型等結構的圖形。這些關系聚類圖的可視化包括作者、文章、期刊、關鍵詞、學科等類型,節點分別是作者、文章或期刊等,邊即權重。知識圖譜這種擴展到深層次的知識發現和數據挖掘領域中的可視化方法,在信息管理界被稱為知識領域可視化。因此,知識圖譜和信息檢索過程可視化、信息檢索結果可視化一樣都屬于信息可視化的一個重要分支。
1.2.3知識圖譜是知識管理中數據挖掘和知識發現的有效手段
數據挖掘是從大量數據中挖掘隱含的、先前未知的、具有潛在價值的知識或規則。這些規則蘊含了數據之間的特定關系,揭示出有價值的知識¨…。數據挖掘的主要模式有聚類、關聯規則、序列模式、分類等。聚類是把一組個體按照相似屬性歸成若干類別,其目的是使得屬于同一類別的個體之間的距離盡可能小,而不同類別的個體間的距離盡可能大;
序列模式主要是分析數據間的前后序列關系;分類要解決的問題是為一個事件或對象歸類。知識圖譜就是將數據挖掘和知識發現的有關方法和模式移植到文獻信息之間的共引、共現關系上,采用關聯、序列、聚類、分類等方法進行深層次的分析,發揮它能夠從大量的、不完全、模糊的、隨機的、事先未知的數據中自動、有效、智能地提取隱含于其中的有用信息和知識的優勢??茖W發展的繼承性可以從引證關系上體現出來;通過對引證關系的挖掘分析,發現科學理論和方法的歷史演變過程;用共現、共引、耦合關系按年代分布所構成的歷史圖和網狀關系進行研究,能夠揭示學科結構特點、研究熱點、發展源流、專業相關程度以及突破性成就、未來發展方向等。知識管理提供容易使人們理解和使用的知識,而不是分散的、復雜的、難以理解的信息單元。知識管理強調系統化地處理和利用信息,發掘知識內涵,建立以先進信息技術為基礎的知識管理系統,促進知識的廣泛共享。因此,知識圖譜方法就是知識管理的一種有效形式,在揭示信息關聯及規律方面具備其他許多方法不可比擬的優越性和獨到之處。
1.3知識圖譜的主要應用領域
知識圖譜的主要應用領域包括:(1)從事科學技術活動的學術共同體和作為其知識載體的網絡;(2)某一學科主要研究領域之間的內部聯系,各研究領域之間的知識輸入與知識輸出;(3)研究主題的衍生、滲透與擴散趨勢;(4)學科領域內顯性或編碼化的知識(作者、機構、專利、期刊和其他出版物等)之間的關系;(5)科學社會網絡(科學合作網絡)等。
2構建知識圖譜的理論
2.1引文分析理論與共引、耦合網絡
所謂引文分析,就是利用各種數學及統計學的方法和比較、歸納、概括等邏輯方法,對科學期刊、論文、著者等各種對象的引用與被引用現象進行分析,揭示其數量特征和內在規律的一種文獻計量方法??茖W文獻的引用與被引用,說明了科學知識的繼承和利用。通過引文間的網狀關系進行研究,能夠探明有關學科間的關系和某些發展規律。當兩篇文獻共同出現在第3篇文獻的參考文獻中,這兩篇文獻就成為被共引的關系。共引頻率定義為這兩篇文獻一起被引用的頻率。一對文獻被共引的頻率越高,它們就越相似。兩篇文獻共同引用第3篇文獻,這兩篇文獻就成為耦合關系,耦合頻率與共引頻率相同。利用文獻間的相似性特征,就能夠構造學科的層次結構,為洞察其變化趨勢提供直觀的工具。同傳統的學者個人歸納、訪談調查等主觀分類方法相比,共被引分析最大的優勢是它的客觀性、分類原則的科學性和數據的有效性。共被引分析又可以分為文獻、期刊、作者、學科分析等。引文分析理論與共引、耦合網絡可以:(1)揭示科學研究間的隱含關系,發現學科歷史淵源,作為分析科學史的依據;(2)反映學科間的交叉融合,生成學科關系圖,分析科學結構;(3)用于探索交叉學科研究前沿,尋找新的研究方向,促進交叉學科發展等。
2.2詞頻分析理論與共詞網絡
詞頻分析法是利用能夠揭示或表達文獻核心內容的關鍵詞或主題詞在某一研究領域中出現的頻次高低來確定該領域研究熱點和發展動向的文獻計量方法。由于一篇文獻的關鍵詞或主題詞是文章核心內容的濃縮和提煉,因此,如果某一關鍵詞或主題詞在其所在領域的文獻中反復出現,則可反映出該關鍵詞或主題詞所表征的研究主題是該領域的研究熱點。共詞分析方法屬于內容分析方法的一種,它通過對一組詞兩兩統計它們在同一文獻中出現的次數,并以此為基礎對這些詞進行聚類分析,從而反映出這些詞之間的親疏關系,進而分析這些詞所代表的學科研究熱點、主題的結構變化和轉移趨勢。這種方法的優點是方法靈活,結果直觀,同時詞和詞共現不僅出現在科學期刊中,也出現在專利和政策報告等灰色文獻中。共詞分析法是對當前發表文獻的直接統計,所尋找的是當前論文所集中關注的主題,適合尋找前沿領域。因為前沿領域的研究往往人數眾多而不集中,作品比較分散,被引用情況不穩定,而關鍵詞卻很好地體現了該學科的研究熱點、發展方向。
2.3社會網絡分析理論與科研合作網絡
社會網絡分析(SNA)是人、集團、組織或者其他信息與知識處理實體的關系和流動的映射和測量。網絡中的節點是人和集團而鏈接表示節點間的關系或者流動。它將社會結構界定為一個網絡,強調的是每個行動者都與其他行動者有或多或少的關系,更多地聚焦于成員之間的聯系而非個體的特征,一個社會網絡是一個人群的集合,其中的每一個人都與其中某個子群體的人相互熟悉。這樣一個網絡可以用點(或矢量)的集合來代表人,用線的連接來表示相識。在理論上,社會網絡分析可以為任何共同體構建一個社會網絡,建立這些網絡關系的模型,描述群體關系的結構,研究這種結構對群體功能或者群體內部個體的影響。在一個科學合作網絡中,如果兩個科學家共同發表了一篇合作文獻,就被界定為他們之間存在聯系。除了作者間的合作外,合作網絡還包括合作者的數量、合作論文數、聚類的度等等。社會網絡分析提出了若干定量分析的指標,主要概念有:緊密性、中介性、中心性、橋、簇、團、叢等,通過這些概念,可以借助可視化技術了解有重要地位的作品、作者、學科力量和群體分布等。
3構建知識圖譜的關鍵技術方法
知識圖譜的關鍵技術最主要的是解決在圖形生成過程中的數據降維問題,傳統的映射技術有多元統計分析方法,包括因子分析(主要是主成分分析)、多維尺度分析和聚類分析,目前比較先進的映射技術有:尋徑網絡、自組織特征映射、力矢量布局算、潛在語義分析、最小生成樹算法、三角測量等新的先進算法,這些都只在國外有試驗報道,在國內只有尋徑網絡的方法有實驗報道,其他都是簡單的評介,還無相關實驗研究。共詞分析采用的主要可視化方法包括包容圖、臨近圖、戰略坐標圖等方法,戰略坐標圖更為常用。戰略坐標圖可以可視化的形式概括地表現一個知識領域的結構。
4構建知識圖譜可用軟件評介
目前構建知識圖譜應用較多的是一些用于社會網絡分析的軟件,下面就國內外文獻報道所使用的軟件做一簡要分析介紹。
4.1Pajekt
Pajek是一個網絡分析和可視化的程序,專門為處理大型數據集而設計,是基于Windows的免費社會科學軟件,它允許用戶對大量抽象的數據進行分析。它能夠同時處理若干網絡,包括雙模式網絡、時間事件網絡、縱向網絡等的分析功能,用戶也能夠生成一系列局部交叉的網絡進行各種分析。軟件的結構是建立在幾種數據結構(網絡、分區、轉置、群、層級和向量)和這些結構的轉換之上的。繪圖功能較強,繪圖窗口給用戶很多選項來處理圖表。能夠支持二維、三維網絡和3D的可視化,能使用多種格式存儲:EPS、SVG、KIN、BMP以及VRML。
4.2UCINETE
UCINET是網絡分析集成軟件,其中包括一維與二維數據分析的Netdraw,還有正在發展應用的三維展示分析軟件Mage等,同時集成了Pajek用于大型網絡分析的Free應用軟件程序。UCINET5,O是菜單驅動的Windows程序,通過速度按鈕能夠輸出到Pajek和Mage,能夠登錄到Netdraw,這3個程序和UCINET是搭配的。它有兩種輸出形式:文本型(保存成日志型在屏幕上顯示)和數據型(能夠作為其他程序的輸入)。UCINET是面向矩陣的,數據集合是一個或多個矩陣的集合。一個簡單的UCINET文件包含兩個文件:事實數據和關于數據的信息。UCINET數據可以直接導入也可以新建表單直接錄入。UCINET提供大量的數據管理和轉換工具,例如選擇子集、合并數據集、序化、轉化或記錄數據。UCINET不包含可視化的過程,但是它卻和軟件Mage、Netdraw和Pajek集成在一起,從而能夠實現可視化。
4.3Netdraw
Netdraw是簡單的繪制網絡圖的工具,它可以讀取UCINET系統文件、UCINET文本文件、Pajek文本文件。繪制的圖片以WMF、BMP和JPG文件格式保存。它可以同時處理多種關系,并可以根據節點的特性設置顏色、形狀和節點的大小。是一個非常靈活的可視化軟件,并可做數據分析,如中心性分析、子圖分析、角色分析等,也具有很強的矩陣運算能力。
4.4bibexcel
Bibexcel是由瑞典科學計量學家開發的用于科學研究的科學計量學免費軟件。其功能包括:文獻計量學分析、引文、共引、藕合分析、聚類分析、知識圖譜繪制等等。
4.5WordStat
該軟件是Simstat的一個模塊,具有所有基本分析功能,還有一些注釋功能和各種信息的計量統計功能,如按各個字段來統計人名、作者、關鍵詞、主題詞等的出現頻率,這種統計功能可用于文獻計量學的分析。Winisis1.4版漢化版命名為C_Winisis,可供國內圖書情報機構免費使用。
4.6Wordsmith
是英國牛津大學開發的商業性詞頻分析軟件。其主要功能是Wordlist和Concord tool兩種。Wordlist可以將一個文本中的所有單詞按出現頻次進行排序;應用Concord tool可以找到與任意一個單詞搭配的詞組。該軟件在國外計量學領域中得到了大量的應用。
4.7Citespace
是2003年由Drexel大學Chaomei Chen開發的,該系統的首要目標就是利用可視化技術在知識域中幫助用戶進行突發趨勢和技術預測的分析。對某一領域根據時間順序進行“快照”,然后把這些“快照”連接起來,演繹出這一領域研究熱點的變化過程和發展趨勢。
4.8HistCite
2003年Garfield博士等開發了HistCite軟件包,它是一個很好的引文歷史可視化分析工具。該工具利用共引理論通過一系列相關數據產生時代和其他類型的表格及編年圖表,以此實現知識領域的分析功能。
4.9xInsight
該工具是知識可視化工具,通過相似性組織大規模的數據元素,用3D虛擬風景畫描繪數據元素的密度,國外已將其成功用于可視化核物理領域。
5國內外知識圖譜研究的發展歷程
5.1共詞圖譜的發展
詞頻分析方法被國內外的許多文獻和科學計量學研究者應用于學科前沿的研究。例如,中國科學計量學家梁立明借助詞頻分析方法研究了56位情報學家對科學的關注視角及解讀方法;荷蘭科學計量學家用共引分析與詞頻分析相結合的方法,繪制出了生物化學領域研究前沿的知識圖譜等等。1973年,法國文獻計量學家最早提出共詞分析法這個概念,1986年,法國國家科學研究中心CNRS的Callon、Law和Rip出版了《Mapping the Dynamics ofScience and Technology》一書,該書的出版是共詞分析方法的重要里程碑。隨后法國的Law等率先運用共詞分析法分析環境酸化研究中的政策和科學變化地圖,并撰文驗證共詞分析方法,Qin也撰文專門探討如何用共詞分析法發現學科知識結構,Courtial等人對專利文獻的題目詞做了共詞聚類分析,得到食品類專利的研究熱點問題,同時用戰略坐標將這些研究熱點顯示出來。國內的張晗等對生物信息學文獻做了高頻主題詞的共詞聚類分析,很好地顯示了該主題的研究熱點,同時做了戰略坐標圖,定量地分析了各熱點的發展階段。中國醫科大學的崔雷等人從1996年開始,通過采用共主題詞和共關鍵詞聚類分析的方法發表了多篇以醫學和生物類為主題的文獻計量學文章,探究該領域的研究熱點及學科結構變化。
5.2共引圖譜的發展
1981年White和Griffith合作發表的《作者共引:科學結構的文獻測量方法》一文開創了同引研究的先河,該文通過對1972~1979年39位情報學家的共引情況,描繪了他們在學科中的位置和情報學的學科結構。此后20多年間的研究主要有:1989年White和McCain通過共引分析,將情報學分為兩個主要領域——計量學(包括引文分析)和情報檢索;Small等人開發了基于共引理論的單機系統SCt-Map來描繪科學文獻間的結構;1997年美國肯塔基大學的Linxia首先嘗試將自組織映射技術用于共引矩陣,并在2000年生成了一個將情報學家聚到幾個主題域的圖譜;1998年,White和Mc—Cain再次采用ACA技術,通過對1972—1995年24年間的一些代表性的文獻特征(作者共引數目)歸納總結情報學領域的結構特征和24年來的發展情況,并做出情報學科的知識圖譜。1999年Cha-omei Chen把尋徑網絡(Pathfinder Network,簡稱PF-NET)技術引入作者同被引分析,并生成了有關超文本研究的同被引圖譜。后來他還用該方式生成的新的知識圖譜,是一種三維空間彩色圖,用不同的色彩、動畫展示其中的突出點。2003年他還用同被引分析對物理學的前沿及發展趨勢進行了深入研究,繪制出一系列的知識圖譜。2005年LoetLeydesdorff等人運用新型知識圖譜分析軟件Pajek和傳統的多元統計分析方法相結合,將同被引研究延伸到網絡領域,為同被引分析開辟了一片新天地,近些年他還致力于研究期刊間的引用關系,通過對期刊間引用頻次的可視化分析,圖示它們的網絡關系,他利用從SCI和SSCI套錄的數據,通過計算2000年7349種期刊的引用和被引用頻次,利用VxInsi曲t作為知識圖譜軟件,構造了期刊引用和同被引關系的知識圖譜。西班牙的FelixMoya—Anegon搜集西班牙在2000年被SCI和SSCI以及A&HCI收錄的文獻,根據發表這些文獻的期刊在
ISI-JCR中所屬的類別,對應到西班牙分類法的25個大類中去,從而得到西班牙大科學結構分析的知識圖譜。國內同被引分析研究的也不少,武漢大學、大連理工、中科院圖書館等都有不少成果。具有代表性的有:中國醫科大學的崔雷利用SCI數據,對丙型肝炎這一專題文獻4年間的高被引論文進行連續的同被引聚類分析,反映了該專題研究的結構及這些結構的發展過程。
5.3知識圖譜研究的最新進展
5.3.1與信息檢索可視化結合
HistCite、CitespaceⅡ、Vxlnsight都是面向知識域分析開發的,可視化分析能力強,形式豐富,但卻沒有將可視化技術運用到信息檢索領域。美國Drexel大學的White帶領研究小組開展了實時環境下AcA繪圖及主題檢索研究,利用Dialog和SCI的數據,開發出了AuthorLink檢索系統,成為用實時共引映射圖譜實現檢索重要數據庫的開創者。利用Au—thorLink檢索時,用戶從該系統得到的不僅是一個作者的信息,而是與該作者高頻共引的24位作者,以及基于共引強度以圖的形式展示的作者間的相互關系。后來他們又相繼開發了基于共引分析理論的PNASLink和基于共詞的ConceptLink系統,都是運用PFNET、SOM等多種可視化映射算法實現的。ConceptLink主要特征是利用基于不同算法的可視化圖形揭示概念之間的關系,系統目前與PubMed搜索引擎連接提供文獻檢索,根據與查詢匹配的前200篇文獻的同現頻率列出所有這些文獻的MeSH詞。用戶可以選擇任何一個MeSH詞來構建概念圖,通過區域、鏈接和距離近似等概念圖來可視化醫學概念之間的復雜關系。PNASLink除了包括兩個系統的所有特征外,還能映射作者、關鍵詞及期刊間的關系,同時還提供許多檢索功能,可以通過專門設計的列表如“熱點主題”,“NAS成員”或“引用最多的作者”進行瀏覽。
5.3.2知識圖譜研究向網絡結構的延伸和移植
網絡站點的鏈接關系類似于文獻的引用關系,因而文獻的共引分析可以移植到網絡站點。用共鏈分析反映網絡本身的結構,并揭示發掘網絡中蘊涵的知識結構。
5.3.3知識圖譜應用于識別學科研究前沿
研究前沿的可視化能提供重要的學科發展趨勢,使研究人員能更好地融入主流研究領域。研究前沿可視化的應用范例是ISI的科學前沿分析。ISI利用共引分析進行科學前沿可視化分析,定期以熱點問題、研究前沿等形式對分析結果進行跟蹤報道。分析過程是通過識別5年內多學科中引用率最高的文獻,用共引強度來確定研究前沿需要處理的共引文獻集,將關系緊密的文獻聚類。然后從符合臨界值的一個共引對開始,進行單連結聚類,以此構建研究前沿的知識圖譜,進行學科跟蹤、趨勢預測。例如,在2006年《自然》最后一期中刊登了一幅由80萬篇ISI公司提供的科學文獻分析產生的科學地圖。將這樣大規模的文獻通過聚類分析,產生700多個聚類,以此為節點,文獻之間引用關系作為邊,同時將聚類文獻關鍵詞作為描述,繪出了各學科及子學科的關聯分布圖和國家和地區維度的科學地圖,通過對比分析就可清晰得到各國家和地區的科學研究戰略重點及優勢領域。
5.3.4知識圖譜應用于技術跟蹤的可視化
通過可視化技術,將共引關系、共現關系、網絡關系等各種關聯規則轉化成可視化形式,獲得該技術領域的發展圖譜,以識別重要技術,挖掘重點研究領域,觀測技術轉移,對比國家間、機構問的研發實力和創新能力、技術優勢和劣勢。
5.3.5知識圖譜應用于技術創新的可視化
由于專利數據具有易得、完整、準確、時間序列長的特點,故常用專利數據測度一定時期內的技術創新狀況,通過專利共引、共現分析,將與專利相關的大量數據轉化成成某一領域的技術創新可視化圖譜,較好的識別和把握當今技術前沿潛在的技術創新機會。
6國內外知識圖譜研究的不足
大量的文獻調研表明:國外的知識圖譜研究存在的突出問題是:雖然很多先進的算法和優秀的軟件都不斷涌現,但在學界和社會上都沒有廣泛推廣應用,也沒有建立起評判這些工具和軟件功能優劣的有效方法和標準,影響了進一步的集成、大規模的研究。而國內知識圖譜的研究與國外相比有極大的差距,主要問題有以下幾個方面;
6.1研究手段和方法的嚴重滯后
國內近幾年有關知識圖譜的研究也有一些,如大連理工大學的劉則淵教授帶領的團隊進行了科學計量學、管理學人機工程學學科以及國內所有工程領域研究前沿的知識圖譜構建;武漢大學的馬費成、劉青林、社科院的蔣穎等也對國內外知識管理、數字資源管理、戰略管理、文獻計量學等領域進行了共詞圖譜的繪制;南京大學的鄧三鴻、浙江大學的潘有能等初步建立了圖書情報學科的學科知識地圖;金瑩以CSSCI的數據粗略構建了我國社會科學的學科知識地圖;中科院、中信所的研究人員也進行了研究。但幾乎所有的研究都是采用最傳統的多元統計分析方法(因子分析、多維尺度分析和聚類分析),最先進的就是使用了Pajek軟件。截止2008年5月,國內文獻分別僅有一篇使用了PFNET算法,另一篇運用了最新的商用軟件Thomson Data Analyzer對人類基因組領域進行共詞圖譜繪制的實例。
6.2研究層次低
對一些比較先進的技術(算法、軟件)更多的都是理論上的探討和介紹,國內對HistCite、CitespaceⅡ、PFNET、SOM、潛在語義分析和最小生成樹算法都有零星的介紹,但很少進行實際的試驗研究。這可能與相關軟件獲取比較困難、有些是商用軟件,研究經費缺乏等有關。
6.3研究對象范圍過窄
目前國內知識圖譜構建研究的領域都是范圍很窄的某一學科方向的國際化研究,數據來源一般都選自SCI、SSCI等大型英文引文數據庫,很少一部分選自中國的引文數據,而文獻報道國內開發成功的兩個共現系統卻沒有任何實證研究的報道,這些都阻礙了知識圖譜這一先進方法在國內的發展。這一現象產生的原因是中國目前已有的引文數據庫系統提供的檢索入口和數據套錄功能很有限,用戶很難獲取大量的原始數據,從而影響了研究的積極性。
7幾點建議和對策
7.1組織力量,聯合攻關,促進知識圖譜在國內的進一步研究
知識圖譜的研究需要人力、物力和財力的支撐。圖書情報界應該利用選聘學科館員、專業館員的契機,在研究院所、大學圖書館中開展此項研究,同時和重點學科知識服務、學科導航、學科專業咨詢等工作結合開展。同時要取得相關專業人員的支持和配合,最好能協同攻關,因為知識圖譜的構建專業性很強,不僅僅需要圖書情報人員就可以把此項研究作好,中科院圖書館的經驗就很值得借鑒。如果形成了良性循環,這項工作可以大大提高圖書情報界知識服務的質量和效益。
7.2應加強與國內大型數據庫商的合作
應加強宣傳,在數據庫商中宣傳國外數據庫商的最新技術成果,使國內數據庫商提高技術和服務水平,促進數據資源共享,方便用戶獲取原始數據,改進引文數據庫的數據套錄等功能,力爭取得用戶和數據庫商的雙贏。