〔摘 要〕本文對鏈接分析法的概況、發(fā)展背景等情況作了簡單介紹并以西部地區(qū)10所高校網(wǎng)站為對象對鏈接分析法在情報(bào)學(xué)中的應(yīng)用進(jìn)行了分析,并利用相關(guān)分析法計(jì)算出鏈接分析法變量間的相關(guān)系數(shù),從而確定出與高校綜合實(shí)力顯著相關(guān)的因子。
〔關(guān)鍵詞〕鏈接分析;網(wǎng)絡(luò)影響因子;WIF
〔中圖分類號〕G350 〔文獻(xiàn)標(biāo)識碼〕A 〔文章編號〕1008-0821(2009)01-0184-04
Link Analysis Method and Its Application in Intelligence
——Taking 10 South Western Universitys Sites as Example
Yu Xiaoping1 Yan Xianyang2
(1.School of Economics and Business Administration;Chongqing University,Chongqing 400500,China;
2.Library,Southwest University,ChongQing 400715,China)
〔Abstract〕Based on the discussion of the link analysis method,10 southwestern universitys sites were taken as example,researches for the application of the method in intelligence,the relations between the WIFs and the strength of the universities were made.
〔Key words〕 link analysis;web impact factor;WIF
隨著網(wǎng)絡(luò)的發(fā)展和普及,互聯(lián)網(wǎng)逐漸成了人們搜集、檢索、利用和發(fā)布信息的主要平臺,網(wǎng)絡(luò)上信息急劇增加,信息爆炸、信息超載等現(xiàn)象給人們有序的利用信息帶來很大麻煩,對網(wǎng)上信息進(jìn)行計(jì)量研究暨利用鏈接分析法以發(fā)現(xiàn)網(wǎng)絡(luò)鏈接和內(nèi)容之間的聯(lián)系成為人們面臨的一個(gè)新課題。
鏈接分析法是網(wǎng)絡(luò)信息計(jì)量學(xué)中的一個(gè)重要方法,本文擬以西部10所高校網(wǎng)站為研究對象對鏈接分析法在情報(bào)學(xué)中的應(yīng)用進(jìn)行分析并探討大學(xué)的網(wǎng)站的總鏈接量和外部鏈接量及網(wǎng)絡(luò)影響因子是否與其在大學(xué)排名中的綜合排名和綜合得分存在相關(guān)關(guān)系。
1 鏈接分析法概述
1.1 鏈接分析法的背景
Mc Kiernan于1996年首先提出了sitation這一新術(shù)語,用以研究網(wǎng)頁之間的引用關(guān)系。Roussea認(rèn)為對網(wǎng)頁鏈接關(guān)系的研究與對發(fā)表文章的引文研究相似,但又不盡相同。他對網(wǎng)址的分布模式和進(jìn)入網(wǎng)頁的鏈接作了分析,發(fā)現(xiàn)在他所研究的343個(gè)網(wǎng)址中最高層域名服從洛特卡分布,而且對這些網(wǎng)址的引用也符合洛特卡分布,自引比例約為30%。
李彥宏于1996年率先提出使用超鏈分析增加網(wǎng)頁排序的相關(guān)性。
Ingwersen則受期刊影響因子的概念的啟發(fā)于1998年提出了網(wǎng)絡(luò)影響因子的概念來評價(jià)網(wǎng)站在網(wǎng)上的影響力。Rousseau通過對域名和網(wǎng)站鏈接的研究,發(fā)現(xiàn)域名和網(wǎng)站鏈接的分布都服從洛特卡定律。GOOGLE則通過對搜索到的網(wǎng)頁的超鏈接進(jìn)行定量分析來對搜索結(jié)果排序。
1.2 鏈接分析法的定義
鏈接是因特網(wǎng)的重要元素,它將分散在各個(gè)物理地域的信息有機(jī)地結(jié)合在一起,使人們能夠在網(wǎng)上方便、自在地游歷,獲取所需的信息。網(wǎng)絡(luò)鏈接之間的關(guān)系非常復(fù)雜,鏈接分析法通過研究網(wǎng)絡(luò)鏈接自身屬性、鏈接對象及鏈接網(wǎng)絡(luò)之間的復(fù)雜的關(guān)系,對網(wǎng)絡(luò)鏈接進(jìn)行定量化分析,從而發(fā)現(xiàn)復(fù)雜的網(wǎng)絡(luò)鏈接背后存在的特征和規(guī)律。它就是運(yùn)用網(wǎng)絡(luò)數(shù)據(jù)庫、數(shù)據(jù)分析軟件等工具,利用數(shù)學(xué)(主要是統(tǒng)計(jì)學(xué)和拓?fù)鋵W(xué))和情報(bào)學(xué)方法,對網(wǎng)絡(luò)鏈接自身屬性、鏈接對象、鏈接網(wǎng)絡(luò)等各種對象進(jìn)行分析,以便揭示其數(shù)量特征和內(nèi)在規(guī)律,并用以解決各方面問題的一種研究方法[1]。
1.3 鏈接關(guān)系的復(fù)雜性
鏈接是因特網(wǎng)的重要元素,是網(wǎng)頁之間關(guān)系的紐帶,它將分散在各個(gè)物理地域的信息有機(jī)地結(jié)合在一起,使人們能夠在網(wǎng)上方便、自在地游歷,獲取所需的信息。所有網(wǎng)頁通過鏈接相互關(guān)聯(lián)在一起,形成交錯(cuò)復(fù)雜的網(wǎng)絡(luò)即互聯(lián)網(wǎng)。
1.3.1 根據(jù)網(wǎng)站的外部特征,鏈接的類型可分為[4]:
推薦鏈接:施鏈網(wǎng)頁多在“精彩網(wǎng)站鏈接”、“推薦網(wǎng)站”、“熱門網(wǎng)站”等標(biāo)題下列出他認(rèn)為質(zhì)量好或熱門的站點(diǎn),使施鏈網(wǎng)頁對被鏈網(wǎng)頁的直接肯定。
合作鏈接:合作鏈接的主要原因:①使用了被鏈網(wǎng)頁的服務(wù)功能;②主辦單位之一;③信息來源;④內(nèi)容相關(guān)。
相關(guān)鏈接:施鏈網(wǎng)頁與被鏈網(wǎng)頁內(nèi)容關(guān)聯(lián)程度最高。
資源鏈接:鏈接了被鏈網(wǎng)頁的某種資源。如:通訊鏈接(郵箱、論壇、聊天室等)。
廣告鏈接:通常在網(wǎng)頁、訪問量多的頻道和網(wǎng)頁上設(shè)一個(gè)Banner,再由此鏈到相關(guān)網(wǎng)頁上去。4種類型:①為其他企業(yè)做廣告;②為自己的商業(yè)性服務(wù)做廣告;③個(gè)人網(wǎng)站資助性廣告;④上午咨詢公司監(jiān)理的與電子商務(wù)網(wǎng)站的鏈接)。
1.3.2 從相關(guān)性角度,根據(jù)鏈接的特性可將鏈接類型分為[1]:
內(nèi)容相關(guān)性:網(wǎng)絡(luò)信息從整體看是離散的,但是就某一局部而言,往往表現(xiàn)為相關(guān)內(nèi)容的聚集。如:學(xué)科導(dǎo)航。
結(jié)構(gòu)相關(guān)性:這是指在內(nèi)容上沒有太大關(guān)聯(lián)的鏈接,他的存在是為了將特定網(wǎng)頁組織到一起,其紐帶作用。常出現(xiàn)在同一網(wǎng)站的不同內(nèi)容板塊之間如:西南大學(xué)圖書館網(wǎng)站內(nèi)容板塊之間。
功能相關(guān)性:為實(shí)現(xiàn)特定的功能而建立的鏈接。如:網(wǎng)頁上的廣告鏈接,搜索引擎的導(dǎo)航鏈接等。
1.3.3 根據(jù)鏈接的指向不同,鏈接的類型可分為:
自鏈接:一個(gè)鏈接指向自己所在的網(wǎng)絡(luò)實(shí)體,稱其為自鏈接。如:西南大學(xué)圖書館。
互鏈接:這種鏈接的兩個(gè)鏈接的起止點(diǎn)正好相反,一般揭示了實(shí)體間的密切聯(lián)系。
傳遞鏈接:如果甲實(shí)體鏈接到乙實(shí)體,而乙實(shí)體又鏈接到丙實(shí)體,則我們可以稱甲實(shí)體傳遞鏈接到丙實(shí)體。
同被鏈接:甲乙同被丙實(shí)體所鏈接,主要應(yīng)用于信息檢索。
鏈接耦合:甲乙兩實(shí)體同時(shí)鏈接到丙實(shí)體,甲乙之間必然也在特性上存在一定關(guān)系。
1.4 鏈接分析的基本理論前提
鏈接分析之所以能夠在一定程度上對復(fù)雜的鏈接現(xiàn)象進(jìn)行測度,在于承認(rèn)引文分析中的基本假設(shè)在網(wǎng)絡(luò)環(huán)境下的可推廣性。
假設(shè)之一:網(wǎng)頁間鏈接的存在表明,網(wǎng)頁間必然存在某種內(nèi)在相關(guān)性,如內(nèi)容相關(guān)性、結(jié)構(gòu)相關(guān)性、功能相關(guān)性以及其他相關(guān)性等,并且網(wǎng)頁與被鏈網(wǎng)頁的質(zhì)量有正向的聯(lián)系。
假設(shè)之二:若鏈接形式一樣,則網(wǎng)頁間內(nèi)容聯(lián)系的程度一樣,對于每種內(nèi)容間的聯(lián)系均可定義相應(yīng)的計(jì)量單位。
假設(shè)之三:上述聯(lián)系均具有簡單的可加性[1]。
因此,鏈接分析通過特定網(wǎng)絡(luò)空間被鏈接的次數(shù)(尤其是外部鏈接數(shù))反映該網(wǎng)絡(luò)空間的質(zhì)量。外部鏈接數(shù)越多,其影響力越大。上述3條假設(shè)實(shí)現(xiàn)了網(wǎng)頁間聯(lián)系到形式間的數(shù)量聯(lián)系的轉(zhuǎn)換,使鏈接分析法的實(shí)現(xiàn)存在現(xiàn)實(shí)基礎(chǔ)。
1.5 鏈接分析法的基本評價(jià)指標(biāo)——網(wǎng)絡(luò)影響因子
網(wǎng)絡(luò)影響因子是指指向該網(wǎng)站的鏈接數(shù)除以該網(wǎng)站的網(wǎng)頁數(shù)所得到的一個(gè)比率,它可以反映出網(wǎng)站的被重視和利用的程度,并由此確定網(wǎng)上的核心網(wǎng)站。
Ingwersen計(jì)算了3種網(wǎng)絡(luò)影響因子:
①自鏈接WIF,測度在特定網(wǎng)頁空間內(nèi)的鏈接;
②外部WIF,測度外部空間指向特定網(wǎng)頁空間的鏈接;
③全面WIF,測度所有指向網(wǎng)頁空間的鏈接。
2 鏈接分析法在情報(bào)學(xué)中的應(yīng)用
2.1 鏈接分析在網(wǎng)站評價(jià)和發(fā)現(xiàn)中的應(yīng)用
運(yùn)用網(wǎng)絡(luò)搜索引擎和數(shù)據(jù)庫等工具,對鏈接進(jìn)行數(shù)量上的統(tǒng)計(jì)分析,主要用于評價(jià)網(wǎng)頁和網(wǎng)站,測度網(wǎng)絡(luò)影響因子等。通過對網(wǎng)站、數(shù)據(jù)庫的定量分析評價(jià),確定某些專業(yè)的核心網(wǎng)站或核心信息來源,確定圖書館特色館藏,重點(diǎn)建設(shè)特色主題。
2.2 鏈接分析在搜索引擎中的應(yīng)用
這種應(yīng)用是指在沒有進(jìn)行檢索時(shí),先用鏈接分析法分析并評價(jià)網(wǎng)絡(luò)上的信息資源,然后在檢索時(shí),按信息的評價(jià)順序提交結(jié)果。這種方法最具代表性的就是Google搜索引擎所采用的PageRank算法。
2.3 鏈接分析在社會網(wǎng)絡(luò)研究中的應(yīng)用
運(yùn)用鏈接分析法,對不同鏈接之間的關(guān)系和鏈接網(wǎng)絡(luò)進(jìn)行研究,以揭示學(xué)科的發(fā)展與聯(lián)系,并展望學(xué)科未來前景。
3 鏈接分析法在情報(bào)學(xué)中的應(yīng)用實(shí)例分析
3.1 研究對象的選擇
筆者有選擇性地挑選了西部地區(qū)10所高校的網(wǎng)站為研究對象,對西部地區(qū)高校網(wǎng)站的總鏈接量、外部鏈接量和網(wǎng)絡(luò)影響因子進(jìn)行比較,并利用相關(guān)分析法對各變量間的關(guān)系進(jìn)行計(jì)算、比較分析,從而確定出西部地區(qū)高校網(wǎng)站的網(wǎng)絡(luò)影響度,探究西部地區(qū)高校網(wǎng)站哪些指標(biāo)與其高校在大學(xué)綜合實(shí)力排名顯著相關(guān)。
3.2 檢索工具的選擇
我們主要使用搜索引擎和檢索工具來測度網(wǎng)絡(luò)影響因子。在檢索工具的選擇上,搜索引擎應(yīng)對所選擇的網(wǎng)頁空間有最大的覆蓋率,能較為全面的統(tǒng)計(jì)網(wǎng)頁和鏈接的情況;能夠提供多樣化的檢索命令表達(dá)檢索意圖,并且能夠?qū)z索結(jié)果進(jìn)行布爾邏輯運(yùn)算,以便對結(jié)果進(jìn)行處理。
AltaVasta能夠提供網(wǎng)站鏈接的搜索功能,可為網(wǎng)絡(luò)信息計(jì)量研究提供有效的數(shù)據(jù)源。能夠提供多種類型的限制檢索如:主機(jī)名限制、域名限制、link限制、文件類型限制、主題限制等,同時(shí)它還支持布爾邏輯檢索、截詞檢索等多種檢索功能。故筆者在借鑒前人的基礎(chǔ)上,最后選擇AltaVasta為檢索工具。
3.3 統(tǒng)計(jì)鏈接分析數(shù)據(jù)
利用AltaVista的高級檢索界面,我們對每個(gè)大學(xué)都是用2個(gè)檢索式進(jìn)行檢索,重慶大學(xué)的檢索式為:
(1)Link:www.cqu.edu.cn(檢索所有指向重慶大學(xué)的鏈接的網(wǎng)頁鏈接,得到總鏈接量)
(2)Link:www.cqu.edu.cn AND NOT host:www.cqu.edu.cn(剔除重慶大學(xué)內(nèi)部的網(wǎng)頁鏈接,得到外部鏈接量)
而對于有些高校有幾個(gè)域名或者近期合并的高校,我們結(jié)合采用多個(gè)域名進(jìn)行檢索,如:西南大學(xué)2005年由西南師范大學(xué)和西南農(nóng)業(yè)大學(xué)合并組建,故其檢索式為:
(1)檢索其總鏈接量的布爾邏輯檢索式為:
link:www.swu.cn OR link:www.swu.edu.cn OR link:www.swnu.edu.cn OR link:www.swau.edu.cn
(2)檢索其外部鏈接量的布爾邏輯檢索式為:
(link:www.swu.edu.cn OR link:www.swu.cn OR link:www.swnu.edu.cn OR link:www.swau.edu.cn)NOT host:www.swu.edu.cn AND NOT host:www.swu.cn AND NOT host:www.swnu.edu.cn AND NOT host:www.swau.edu.cn
(3)網(wǎng)站的網(wǎng)頁數(shù)的布爾檢索式:
host:www.swu.edu.cn OR host:www.swnu.edu.cn OR host:www.swau.edu.cn
3.4 網(wǎng)站原始數(shù)據(jù)
根據(jù)表3,我們可以得出各變量間的相關(guān)系數(shù),對變量間的相關(guān)系數(shù)進(jìn)行假設(shè)檢驗(yàn),結(jié)合圖1、圖2可以得出如下結(jié)論:外部網(wǎng)絡(luò)影響因子與全面網(wǎng)絡(luò)影響因子顯著相關(guān)。外部網(wǎng)絡(luò)影響因子與大學(xué)綜合實(shí)力排名中的綜合得分顯著相關(guān),全面網(wǎng)絡(luò)影響因子與高校綜合實(shí)力總得分次顯著相關(guān)。網(wǎng)站的總鏈接量、外部鏈接量與大學(xué)的綜合實(shí)力不具備顯著的相關(guān)性。
3.5 結(jié)論分析
綜合以上數(shù)據(jù)分析得出,大學(xué)網(wǎng)站的外部網(wǎng)絡(luò)影響因子與大學(xué)的綜合實(shí)力排名顯著相關(guān)。大學(xué)網(wǎng)站的全面網(wǎng)絡(luò)影響因子與大學(xué)的綜合實(shí)力排名次顯著相關(guān)。大學(xué)網(wǎng)站的外部鏈接量與大學(xué)的綜合實(shí)力排名有一定的相關(guān)性。大學(xué)網(wǎng)站的網(wǎng)絡(luò)影響因子與全面網(wǎng)絡(luò)影響因子可以作為評價(jià)大學(xué)綜合水平的2個(gè)主要評價(jià)指標(biāo),大學(xué)網(wǎng)站的外部鏈接量可以作為評價(jià)大學(xué)綜合水平的參考指標(biāo)。
4 鏈接分析法的局限性和前景
鏈接分析法借鑒了引文分析法的方法和思路,是引文分析法在網(wǎng)絡(luò)環(huán)境下的新應(yīng)用,但是網(wǎng)絡(luò)環(huán)境和網(wǎng)絡(luò)鏈接本身的復(fù)雜性、鏈接分析前提的假設(shè)性及鏈接分析工具的不成熟等問題必然導(dǎo)致鏈接分析法應(yīng)用存在很多問題。
但隨著網(wǎng)絡(luò)信息技術(shù)如人工智能、網(wǎng)絡(luò)信息檢索、計(jì)算機(jī)網(wǎng)絡(luò)、知識挖掘、自然語言處理等的發(fā)展和搜索引擎等專業(yè)工具的完善和統(tǒng)計(jì)學(xué)方法在情報(bào)學(xué)中的廣泛應(yīng)用,鏈接分析法作為情報(bào)學(xué)的新方法必然得到更為廣泛的應(yīng)用。
參考文獻(xiàn)
[1]董江山,等.鏈接分析法及其應(yīng)用[J].情報(bào)科學(xué),2004,(9):1082-1084.
[2]吳華香,鐘少丹.鏈接分析法——網(wǎng)絡(luò)計(jì)量學(xué)方法初探[J].情報(bào)科學(xué),2002,(1):71-73.
[3]楊濤.鏈接分析法存在的問題及改進(jìn)方法[J].圖書情報(bào)知識,2002,(3):641-647.
[4]劉雁書.Web網(wǎng)站站外鏈接類型與特征調(diào)查——鏈接分析法可行性研究[J].大學(xué)圖書館學(xué)報(bào),2001,(5):65-68.
[5]吳華香.鏈接分析法在網(wǎng)絡(luò)計(jì)量中的應(yīng)用[J].情報(bào)雜志,2003,(6):75-76.
[6]姚湘中.我國211重點(diǎn)大學(xué)圖書館網(wǎng)站的鏈接分析[J].圖書館學(xué)刊,2007,(4):138-140.
[7]邱均平,等.中國大學(xué)網(wǎng)站鏈接分析及網(wǎng)絡(luò)影響因子探討[J].中國軟科學(xué),2007,(6):151-155.
[8]邱均平.信息計(jì)量學(xué)[M].武漢:武漢大學(xué)出版社,2007.1.
[9]張梅琳.應(yīng)用統(tǒng)計(jì)學(xué)[M].上海:復(fù)旦大學(xué)出版社,2004.11.
注:本文中所涉及到的圖表、注解、公式等內(nèi)容請以PDF格式閱讀原文