張駿 孫臻


【摘要】? ? 校園網環境下的互聯網應用以教學科研為主,對圖書館文獻信息庫訪問的需求不斷增加,優化網絡資源實現快捷查詢是一項重要工作。結合校園網出口帶寬用量數據和《電子資源訪問分析系統》項目中讀者訪問數據,采取定期檢測為主、忙時檢測為輔的方式,著重在用網高峰時段和查詢高峰時段,對訪問目標文獻信息庫的網絡響應速度等狀態進行自動檢測,形成多維度優化策略,提升訪問體驗,提高查詢效率,增強服務能力。
【關鍵詞】? ? 校園網? ? 文獻信息庫訪問? ? 優化
The Realization of the Optimization of Library Document Information Database Access Based on Big Data
ZHANG jun,SUN zhen (Ocean University of China,Qingdao 266100,China)
Abstract: The Internet application in the campus network environment is mainly for teaching and research, and the demand for access to the librarys document information database is increasing. It is an important task to optimize network resources to achieve quick query. Combining the campus network export bandwidth usage data and the reader access data in the “Electronic Resource Access Analysis System” project, adopt the method of regular detection as the main and busy hour detection as the supplement, focusing on the peak hours of network usage and query peak hours, and access to target documents The network response speed and other status of the information database are automatically detected to form a multi-dimensional optimization strategy to improve access experience, improve query efficiency, and enhance service capabilities.
Keywords: campus network; document information database access; optimization
引言
利用國內外著名文獻信息庫獲取科研信息資料,成為高校師生日常工作中必不可少的技能。但由于國內互聯網運營商眾多,網間互聯和國際互聯帶寬的不同,產生訪問文獻信息庫的速度快慢的差異。本文試著從分析影響網絡訪問的變量因素出發,基于校園網產生的網絡大數據分析,提出一種圖書館文獻信息庫訪問優化的方法。
一、影響變量因素
打開瀏覽器,輸入網址,填入關鍵字,點擊回車,返回結果,這一連串網絡通訊過程中的變量因素,可能影響目標是否可達,或者影響訪問速度。
1.1域名解析
瀏覽器應答的第一步是DNS域名解析,它將我們輸入的英文域名轉譯成對應的IP地址。由于中國聯通、中國電信、中國移動以及各大互聯網云服務提供商并存,同一個域名對應著多個IP地址信息,這些IP的歸屬可能包含上述服務商的一種或者多種,也可能是IPv4或IPv6的一種或者多種。解析返回哪個IP信息能夠訪問更快捷,是第一個變量因素。
1.2路徑選擇
當域名解析成IP地址后,第二步就該選擇走哪條路到達對方。校園網一般配置多運營商互聯網出口,通過鏈路負載均衡設備進行預設和動態調整算法控制著各鏈路流量占比和路由選擇情況。當流量進入鏈路負載均衡設備后,鏈路負載均衡設備會根據訪問流量的目的IP地址對照運營商列表進行逐一匹配。在匹配的過程中該地址如果命中某運營商的IP地址,鏈路負載均衡設備則將流量引導向該運營商所對應的接口,從而將流量成功的進行分流引導。選擇從那條路走,這是第二個變量因素。
1.3帶寬情況
第三個變量因素是帶寬,包含內部設備互聯帶寬和互聯網出口帶寬。校園網內接入層、匯聚層、核心層、邊界層等設備的性能和接口帶寬擁塞程度,也影響著訪問互聯網的體驗。中國海洋大學部署千兆到桌面,萬兆骨干互聯的網絡硬件設備,配置中國教育和科研計算機網(以下簡稱教育網)、中國聯通、中國電信、中國移動共計13.3Gbps的IPv4和Cernet2[1]總計4Gbps的IPv6互聯網容量。對關鍵設備進行流量統計,按需采取QoS流量保障,優化特定應用或訪問。
二、校園網大數據
與文獻信息庫訪問關系最為密切的校園網大數據,主要包含出口帶寬用量和讀者訪問數據兩部分。通過SNMP協議[2]讀取負載均衡設備的互聯網接口屬性,形成帶寬用量歷史數據,便于我們了解出口使用情況。大數據項目《電子資源訪問分析系統》中,通過鏡像梳理校園網全流量,便于我們了解用戶關心的文獻數據庫情況,如統計訪問文獻信息庫站點域名熱度排名,或是單列訪問cnki.net的條目數量及內容。
三、系統設計建設
分析檢測系統采用tracert、ping方式檢測用戶到目標站點的連通情況,加入校園網大數據的統計信息進行系統功能設計,輔以優化效果對比。系統功能設計主要確定各模塊組成以及功能關系,優化效果對比舉例比較調整前后的差異。
3.1系統功能設計
前面提到的影響變量因素中,因DNS工作機制具有緩存、老化和更新周期等因素,除檢測到某解析不可達時修改外,我們不對它進行過多調整。校園網雖具備IPv6通訊資源,但僅由Cernet2唯一提供,不具備多運營商多路由條件,不在本文討論范圍內,本系統設計僅考慮在IPv4環境下。所以路徑選擇和帶寬情況這兩個因素,是本系統主要控制單元。
本系統通過模擬四個運營商的網絡環境,按大數據平臺輸出的讀者訪問量排名的目標站點進行測試,算法分析將最優者的DNS解析IP地址信息設定至負載均衡設備列表中,以實現訪問目標站點的最快路徑,優化圖書館文獻數據庫訪問體驗。
檢測模塊:部署四臺Windows 2012R2虛擬機,在鏈路負載均衡設備上對其設置強制出入向流量分流,分別模擬教育網、聯通、電信、移動的單一網絡環境,配置對應運營商提供的DNS信息。虛擬機上部署腳本,對目標站點進行預設周期的tracert、ping檢測,返回躍點和時延存儲至SQL數據庫。通過tracert回顯檢測站點是否可達;通過ping回顯檢測站點網絡層延遲情況。
采集模塊:部署一臺Windows 2012R2虛擬機,部署SNMP程序獲取出口鏈路帶寬用量情況和內網設備接口情況,記錄用網高峰時間點;調用大數據分析平臺的API接口獲取讀者訪問量排名信息,記錄查詢高峰時間點和目標站點信息。上述信息存儲至SQL數據庫,并將用網高峰時間點和查詢高峰時間點反饋給檢測模塊,在下一個周期增加一次額外檢測記錄。
分析模塊:調用記錄數據對比tracert躍點、ping時延和抖動等多種參數進行算法分析,并輸出設備操作命令行以供執行模塊修改相關設備配置。同時將初步輸出結果進行瀏覽器加載測試,形成最優路徑選擇。
執行模塊:通過SNMP的write權限,將目標站點的IP地址信息寫入到鏈路負載均衡的對應運營商列表庫內,將QoS流控操作執行到相應節點設備間的鏈路上。
分析檢測系統與其他設備的邏輯結構見下圖1:
3.2優化效果對比
根據讀者訪問排名,選取apps.webofknowledge.com為例,按照校園網默認訪問路由經由聯通至互聯網,網頁打開速率不是很快。經分析檢測系統判斷處理,截取四次部分檢測數據形成表格,可見經過系統算法分析得到優選從教育網訪問目標站點。將該域名解析IP添加到教育網列表,tracert檢查從教育網出互聯網,實際從瀏覽器加載時長可知,網站打開速度變快,系統預判正常。
四、意義和結語
一切以數據說話,依托讀者訪問量排名等大數據為基礎進行的調整具有準確定位,實時性高等特點,符合現代高校在教學科研方面標新立異、多維度發散、融會貫通的趨勢。結合校園網出口用量、設備接口情況等大數據評估體系,由內而外、自下而上的疏通整個網絡架構體系,優化資源配置,保障重點應用。在圖書館文獻信息庫訪問的研究過程中,將大數據信息價值作用于實際需求,變被動接收反饋問題為主動發現梳理隱患,提升了網絡服務能力,提高了文獻信息庫服務質量。
由于受時間和條件有限,系統還有很多待完善的功能。比如,目前基于腳本后臺執行方式,沒有圖形化交互界面,對非開發人員不友好,暫時不支持手工輸入站點計算,系統在執行前未通過任何途徑告知管理員,也未形成包含修改時間和內容的日志文件等存在尚待增改的地方。
參? 考? 文? 獻
[1]吳建平,李星,李崇榮.CNGI核心網CERNET2的設計[J].中興通訊技術,2005(03):16-20.
[2] 網絡管理協議及應用開發[M].清華大學出版社,岑賢道,安常青編著, 1998