瞿瓊丹 沙勇忠 李慧佳 (蘭州大學管理學院 甘肅蘭州 730000)
蔡國瑞 (美國賓夕法尼亞州立大學信息科學與技術學院)
鏈接作為互聯網的基本構成要素和最顯著特征,從一開始就是計算機科學和信息科學研究者所共同關注的對象和研究內容,[1]鏈接的類型、數量和分布在一定程度上反映了網站的類型、質量和網絡空間結構。研究網站鏈接特征,對規范和優化網站建設、合理配置網絡信息資源具有重要的理論和實踐意義。
考察和解釋學術網絡空間中的鏈接數量及關系在網絡鏈接分析研究中受到了廣泛的關注,Ingwersen[2]、Thelwall[3]、Bar-Ilan[4]、Wilkinson[5]、邱均平[6]等學者均對此作過研究?!?85工程”大學作為我國最高水平大學的集合體,其網站體系是我國學術網絡空間的一個典型代表,研究它的內部鏈接情況對揭示學術網絡空間的特征具有重要價值。2006年,我們曾對“985工程”大學網站構成的Web空間內部的鏈接分布與特征進行了分析,得出了一些基本的研究結果。[7]時隔5年,“985工程”大學新增了華東師范大學,與此同時,隨著信息化水平的不斷提高與數字化校園建設的不斷推進,大學網站在網絡交流中發揮著越來越重要的作用,大學網站之間的關聯度也日漸加強,這勢必造成“985工程”大學Web空間內部鏈接結構與特征的變化。通過鏈接分析跟蹤這種變化,探究其產生的原因和機理,為優化大學網站自身的建設提供依據,是本文研究的目的所在。
我們選擇39所“985工程”大學的網站(見表1)構成的Web空間為研究樣本?;阪溄颖旧淼念愋?,選取“985大學”網站之間的鏈入、鏈出數據為基礎分析指標,同時收集它們各自的總外部鏈接數、來自edu的外部鏈接數及在此基礎上形成的網站間的連通情況等作為輔助分析指標。
搜索引擎All the web與Altavista在鏈接分析研究中具有良好的性能[8],但兩者在 2003年均被 Yahoo!收購,因此,本文選擇Yahoo!為數據收集工具。由于Yahoo!與Altavista兩者使用同一數據庫,本文所收集的數據與前文具有可比性??紤]到搜索引擎數據的更新,為了保持數據的一致性,我們在2011年1月8日~10日集中采集數據,形成39×39的非對稱鏈接數據矩陣(見表2)、外部鏈接數據表(見表3)及39所學校間的連通情況表(見表4),具體的檢索語法如下:
(1)從A大學網站指向B大學網站的鏈接數:
linkdomain:B大學網站域名site:A大學網站域名
(2)A大學網站總外部鏈接數:

表1 “985工程”大學及網址

表2 39所大學網站間的鏈接數據(部分)

表3 39所大學網站各自的外部鏈接數據表(部分)
linkdomain:A大學網站域名-site:A大學網站域名
(3)A大學網站來自edu的外部鏈接數:
linkdomain:A 大學網站域名 site:edu.cn-site:A 大學網站域名

表4 39所學校網站間的連通情況
表中各指標的含義如下:(1)link:各大學網站總外部鏈接數;(2)edu.cn link:各大學網站來自edu的外部鏈接數;(3)edu.cn link%:各大學網站來自edu的外部鏈接數占總外部鏈接數的百分比;(4)38U link:各大學網站來自其他38所大學網站的外部鏈接數目;(5)38U link%:各大學網站來自其他38所大學網站的鏈接數目占其來自edu外部鏈接數的百分比;(6)鏈出連通:該大學網站向外鏈接到空間內的學校數目;(7)鏈出連通率:該大學網站向外鏈接到空間內的學校數目占其他38所學校的百分比;(8)鏈入連通:空間內具有指向該大學網站鏈接的學校數目;(9)鏈入連通率:空間內具有指向該大學網站鏈接的學校數目占其他38所學校的百分比;(10)相互連通:空間內與該大學網站具有相互鏈接關系的學校數目;(11)相互連通率:空間內與該大學網站具有相互鏈接關系的學校數目占其他38所學校的百分比;(12)總連通:空間內與該大學網站具有鏈接關系的所有學校的數目;(13)總連通率:空間內與該大學網站具有鏈接關系的學校的數目占其他38所學校的百分比。
2.2.1 聚類分析與多維尺度分析
為了探究鏈接特征的規律性,對39所大學網站間的鏈接數據(表2)分別按行和列進行聚類分析和多維尺度分析,其中,行為鏈出數據,列為鏈入數據。聚類分析采用層次聚類,方法選用離差平方和法;多維尺度分析采用古典多維尺度分析(CMDS)模式。
2.2.2 Web空間內部的連通率
根據本文定義的連通概念(表4),以39所大學的網站為節點,將它們之間的相互連通作為路徑,利用圖論的方法考察網站之間的連通情況。
2.2.3 Web空間內部鏈接數據與現實地域的相關性分析
(3)壓潰力效率CFE(Crush force efficiency),即平均壓潰載荷Pm與初始峰值載荷Pmax的比值。對于理想吸能結構,CFE=1。
以Web空間內部的學校之間的相對距離為基礎,構造了與鏈接數據矩陣相對應的距離矩陣(表5)。其中,兩所學校同城賦值為1,同省賦值為2,不相鄰加1,以跨越最少省份為準。

表5 距離矩陣(部分)
將距離矩陣中的行與鏈接數據對應的行、列與對應的列作相關分析,以此得到各大學網站鏈出數據(行)、鏈入數據(列)與現實地域的Pearon相關系數。
按照上述方法對數據進行處理分析,對比2006年的數據,可以從以下幾個方面的來跟蹤和探討“985工程”大學Web空間內部鏈接的特征與變化。
“985工程”大學網站之間的平均鏈接數約為187,相比于2006年(8.6),這個水平已經是相當高的。但是在對鏈接數據進行頻數統計時,發現其分布并不均衡 (見圖1)。在1521個數據中,0出現227次,占總體的14.9%;1出現144次,占總體的9.5%;2出現97次,占總體的6.4%。5或5以內的累積頻次為680,占總體的44.7%;10或10以內的累積頻次為916,占總體的60.2%;在50以上的為321頻次,占總體的21.1%;而鏈接數量在平均水平之上的約占總體的10.1%。由此可見,39所大學網站間的鏈接數據普遍比較小,主要分布在0~30這個區域,但也存在一部分網站鏈接活動密切,鏈接數據比較大。

圖1 各學校間鏈接數據頻率分布
與2006年相比,在鏈接數據的數量分布上,0、1、2出現的頻率大幅下降,頻次大于50的比重增加顯著(見圖2),Web空間內部鏈接水平大大提高,說明隨著信息化程度的提高,大學網站在學術交流中的門戶作用日益凸顯。

圖2 2006年與2011年web空間鏈接數量分布變化情況
此外,我們對各大學網站的總外部鏈接數、來自edu的外部鏈接數及來自該Web空間內其他38所學校的外部鏈接數(見表3)進行了對比分析,并繪成它們的構成分布圖(見圖3)。從中發現,各大學網站的總外部鏈接中,來自edu的外部鏈接非常少,最高僅占到33.16%,最低占4.10%,整體的平均僅為15.08%,而來自“985工程”大學的外部鏈接所占的比重更加少,在圖中幾乎趨近于0。與2006年相比,這三組外部鏈接在數量上大幅增長,但在構成與比重上并無太大的差異。可見,學術鏈接在“985工程”大學網站的總外部鏈接中所占的比例仍是相當低。

圖3 各大學網站3項外部鏈接的構成分布圖

圖4 各大學網站鏈入鏈出數據與現實地域之間Pearon相關系數分布圖
圖4為39所大學鏈入鏈出數據與現實地域之間的Pearon相關系數分布圖。從圖中可以看到,39個鏈出相關系數分布在-0.4~0.3之間,39個鏈入數據分布在-0.5~0.4之間,雖然有個別絕對值相對比較大,但是整體上不存在統一的規律性。因而,39所學校間的鏈入鏈出數據與現實的地域遠近并無直接的關系。
與此形成對照的是,Thelwall對英國大學的研究發現大學網站鏈接與大學地理距離之間存在著相關性,[9]雖然通信技術不斷在發展,位置相近的大學仍比相近較遠的大學之間更容易互相鏈接,地理距離對網站鏈接創建的潛在影響,這與本文的研究結果不同。究其原因,除了信息化水平的差異外,主要在于英國大學校際之間的鏈接很大程度上是普通研究活動的副產品,[10]比如合作,而在一些國家(英國)這種合作是受距離影響的。我國學者梁立明通過著者分析,發現“985工程”大學的校際科學合作也存在著極強的同省、同城合作傾向,[11]但在鏈接數據上卻不存在這樣的傾向??梢姡覈?85工程”大學網站作為學術網站在教育與研究中的作用并不凸顯,在網絡信息資源的質量、組織和建設水平上仍與發達國家存在差距。
各大學網站的背景、鏈接目的與動機等的不同使得其所表現出的鏈接特征不盡相同,但在一定程度上總會存在相似性。為此,我們對39所大學網站間的鏈接數據進行聚類與多維尺度分析(見圖5、圖6)。
在鏈接特征的分布上,與2006年所呈現的分散狀態不同,各大學網站的集聚現象顯著,但是分類特征也不明顯。從鏈出角度分析(見圖5),除了北京大學、清華大學、南開大學與吉林大學這四所大學之外,其余35所學校在多維尺度分析圖中都是聚集在一起的。從鏈入角度分析(見圖6),各大學網站無論是在聚類龍骨圖還是在多維尺度分析圖中集聚與分散狀態非常明顯,并且每一個類都是相互對應的,在圖中用相同的字母加以標識(見圖6)。其中,北京大學與清華大學聚為一類(B類),蘭州大學與四川大學聚為一類(C類),復旦大學、浙江大學、人民大學、西安交通大學、南京大學與上海交通大學這六所學校聚為一類(D類),而剩余29所學校緊緊聚在一起(圖6多維尺度象限中部的點集)。雖然我們排除了地理因素對現階段我國“985工程”大學Web空間內部鏈接特征的影響,但是在現有資料的基礎上我們很難解釋這個分類的實際意義,有可能是學校校園文化與學科背景不同造成的,這還有待于進一步的研究。

圖5 鏈出數據的聚類龍骨圖與多維尺度分析圖

圖6 鏈入數據的聚類龍骨圖與多維尺度分析圖
從總體上說,各大學網站雖然在一定程度上表現出分類特征,但是仍是較多大學的集聚現象更為顯著,鏈接特征相異性不大,這與做過類似研究的英國學者Peter B.Musgrove[12]得出的結論很不相同。 在 Peter B.Musgrove 的研究中,歐洲15個國家的大學網站很清晰并均勻地聚為4個大類。最主要的原因在于Peter B.Musgrove是對歐洲不同國家的大學做的分析,它們文化、語言、地理、經濟、政治等因素差異非常大,比較容易形成明顯的聚集和分離態勢,而我們選用的是同一國家的樣本,相比較而言,不同省份各方面因素差異并不明顯。另外,大學網站之間交流的不穩定造成了鏈接數據存在較多的極端現象(0、12900等),這些極端數據通常出于某些特殊的原因(如域名的變更、新聞網頁的頻繁更新、校慶等),這在一定程度上也影響了聚類的效果。
經過5年的發展,“985工程”大學Web空間內部鏈接特征發生了顯著的變化,具體表現在以下幾個方面:
無論是39所大學網站之間的鏈接數,還是外部鏈接總數都有明顯增長的趨勢,Web空間的整體鏈接水平提高顯著,這與通信技術的發展與教育信息化程度的提高密不可分。但是,“985工程”大學網站各自外部鏈接的構成與比重并沒有較大變化,學術鏈接所占的比重仍然比較低。可見,該Web空間鏈接有量的增長,在鏈接分類與構成上沒有質的區別。
網站鏈出連通率、鏈入連通率、空間整體的連通率大幅度提高,幾乎每所學校與空間內的其他學校都存在著聯系。這從一個側面上反應了數字校園建設在近幾年所取得的成就與大學網站在網絡交流、校際合作中日漸凸顯的渠道作用。
在鏈接特征分布上,不同于以往的分散狀態,各大學網站的集聚現象顯著,雖然在一定程度上表現出分類特性,但是鏈接特征相異性不大。究其原因在于大學網站間日益頻繁的交流使得它們之間的聯系更為密切,而大學網站建設自身存在的不足與鏈接動機的不明確影響和模糊了網站鏈接特征的提取與歸類。
綜上所述,雖然“985工程”大學Web空間內部鏈接水平和連通情況得到了很大的改善,但在鏈接結構與分類特征上仍存在很大的不足。Wilkinson等人[13]的研究發現,鏈接到大學網站的鏈接中只有不到1%的鏈接是正式的研究引用。因此,如何優化大學網站的建設,合理配置網絡信息資源,最大程度的發揮大學網站在教育和研究中的作用,是我們亟待解決的問題。
[1]段宇峰.網絡鏈接分析與網站評價研究[M].北京:北京圖書館出版社,2005:70-71.
[2]Ingwersen P.The calculation of Web impact factors[J].Journal of Documentation,1998,54(2):236-243.
[3][10](英)邁克.賽沃爾.孫建軍等譯.鏈接分析:信息科學的研究方法[M].南京:東南大學出版社,2009:61-99.
[4]Judit Bar-Ilan.Self-linking and self-linked rates of academic institutions on the Web[J].Scientometrics,2004,59(1):29-41.
[5][13]Wilkinson D,Harries G,Thelwall M.Motivations for academic web site interlinking:evidence for the Web as a novel source of information on informal scholarly communication [J].Journal of Information Science,2003,29(1):49-56.
[6]邱均平等.中國大學網站鏈接分析及網絡影響因子探討[J].中國軟科學,2003(6):151-155.
[7]牛春華,沙勇忠.Web空間內部鏈接特征的聚類分析[J].圖書情報知識,2006,(6):22-27.
[8]Thelwall,M.The responsiveness of search engine indexes.[EB/OL].[2011-04-27].http://www.cindoc.csic.es/cybermetrics/articles/v5i1p1.html.
[9]Thelwall M.Evidence for the existence of geographic trends in university Web site interlinking [J].Journal of Documentation,2002,58(5):563-574.
[11]梁立明,沙德春.985高校校際科學合作的強地域傾向[J].科學學與科學技術管理,2008,(11):112-116.
[12]Peter B.Musgrove.Musgrove,et al.A Method for I-dentifying Clusters in Sets of Interlinking Web Spaces.Scientometrics,2003,(3):657-672.