近年來,隨著IPv6行動計劃方案的出臺,我國大力推進IPv6規模部署,力求在未來能夠搶占下一代互聯網的先機。中國教育和科研計算機網CERNET目前擁有上百萬的大規模IPv6用戶群體,是我國研究下一代互聯網技術、開發重大應用、推動下一代互聯網產業發展的重要基礎試驗設施。
基于CERENT龐大的IPv6用戶群體,上海交通大學搭建了CERENT全國教育行業IPv6資源共享與監測平臺,在分布式架構和自行開發的IPv6爬蟲和搜索引擎的基礎上,實現了對全國各省市/學校的IPv6網站情況的持續監測,通過采集各類數據,提供多種數據分析和使用場景。
通過該項目,能夠實現對全國各省市/學校網站域名的IPv4/IPv6解析動態監測;實現對全國各省市/學校申請IPv6地址段的動態管理;實現對IPv6網站的存活性和訪問性能的持續動態監測,形成全國教育系統的IPv6資源目錄列表;提供全國教育系統IPv6網站的全文搜索/網頁源碼快照/網頁截圖;提供分類和全局的各類IPv6發展指標動態排名;提供分類和全局的各類IPv6發展指標趨勢分析;完成對全國教育行業IPv6網站的自動發現和自我增長機制;實現和IPDB(高等教育行業網絡信息基礎數據庫)和GEDB(教育部信息資產管理平臺)的數據對接等。
全國教育行業IPv6資源共享與監測平臺的總體目標有以下幾個方面:

上海交通大學
1.按照一定的時間周期,對十萬量級網站進行DNS監測、存活監測與首頁采集;2.按照單次檢索時間不超過3秒,對千萬量級網頁的全文檢索;3.對十萬量級的網頁進行周期性截圖,每輪時間不超過1天;4.對IPv6的動態排名機制與歷史記錄統計,提供可選擇的、不同粒度的可視化報表;5.對IPDB與GEDB的數據每天進行同步。
全國教育行業IPv6資源共享與監測平臺共分為四個模塊:1.Web前端模塊。Web模塊使用Vue.js和webpack作為項目的前端框架;2.Web后端模塊。Web后端模塊使用基于Python的Django框架與Django-Rest-API框架進行開發;3.爬蟲模塊。爬蟲部分使用自研的快速抓取引擎,實現高速抓取;4.搜索引擎模塊。使用ElasticSearch集群,配合中文分詞進行搜索引擎模塊的構建。
本項目依托IPDB與GEDB,對全國高校的IPv6網站進行了即時緩存。從宏觀視角對教育網IPv6站點普及情況能夠做定期檢測、統計并形成IPv6趨勢變化報表,同時利用上海交通大學的IPv6網絡資源與計算資源,對IPv6站點進行數據爬取、數據存儲、數據索引,完成了首個關注于教育類IPv6站點的搜索引擎。
項目優勢在于IPDB作為中國高等教育行業網絡信息基礎數據庫,具有國內最權威的高校網站數據。同時在GEDB的開發過程中,開發團隊積累了對大規模爬蟲、大規模數據存儲、高并發網絡請求的經驗,在上海交通大學網絡信息中心的支持下順利完成。