(蘇州健雄職業技術學院,蘇州 215411)
在基于爬蟲技術的數字資源檢測軟件的設計和開發中,這類軟件能夠實現免安裝、免要求和高速度資源檢索目的,所以在這一軟件的具體應用中,可以更好完成對整個系統的完善和優化工作。在后續的運行和發展中,可使用這一軟件實現對當前技術形式和檢測系統的替代,提高對資源的檢測質量。
在人工檢測法的應用中,采用的方法為讓工作人員通過登錄的方式,找到網站和服務器中的失效資源,并確定是否需要將這些資源去除。從方法的應員工方法上來看,可以發現工作人員需要投入大量的工作,從整體上來看,在具體的工作中,由于工作人員難以在短時間之內完成對所有數字資源的研究和審查,在具體的工作中,會出現一些失效資源被遺漏現象,降低了這一網站的服務質量[1]。另外在人工檢測方法中,要求參與該項工作的人員要能夠及時發現被檢測資源中的問題,并將資源存在的問題提交,從這一方法的作用形式上來看,對工作人員的個人素質提出的要求較高,要求其能夠準確識別各項數據,對于大部分工作人員來說,其工作情況難以滿足這一要求。
在當前的數字資源檢測中,行業內已經開發出了多種資源的檢測軟件,取得了較好的效果,然而也可以發現當前的商用軟件存在一定問題,其一為軟件的售價較高,對于一些機構來說難以負擔,導致這類軟件在當前的實際應用效果較差,其二為軟件對網絡資源的占用量較高,導致對資源的處理和識別速度降低,導致整個系統的運行成果下滑。在當前的一些機構中,為降低成本,采用的方法為采用自研軟件完成對數字資源的檢測工作,但是從實踐結果來看,這類自研軟件的開發成本較高,并且對資源的檢驗人員工作素質提出了較高要求,從整體上來看,數字資源的檢測效率較低。
在整體框架的建設中,網絡層包括資源層、執行層、信息的表現層和功能的實現層,這4個不同的層級發揮作用不同,其中資源層的作用為實現對所有數字資源的檢測和研究,為了能夠讓這一系統更好運行,通過免安裝的方式發揮應有作用,采用的方法為檢測系統的URL地址,然而在系統的整體運行中,必然會生成大量的監測信息,在該系統的具體應用中,采取的方法為采用日志文件的方法替代傳統的信息存儲構件,這一方法的優勢在于,可以實現對相關軟件的免安裝。執行層的作用為完成對數字資源的檢測工作,在具體的工作中,該子系統詢問URL的地址,并逐個訪問系統中的信息,確定各類資源的網絡連接是否可用,當發現某連接失效時,則需要完成信息反饋工作。功能實現層的作用為,解析軟件運行中爬取的各類網頁信息,同時從中獲取有價值或者相關人員需求的信息,從整體上來看,在這一系統的運行和完善工作中,要從這一角度出發,提供相應的反饋信息,包括信息的獲取時間、檢測結果的代碼等,從而讓工作人員能夠更好分析各類資源的實際效果。信息表現層的功能為,在功能實現層之后,將獲取的信息通過人機交互界面等設備展示,讓工作人員找到失效的資源。
在這一系統的功能實現中,要按照具體的工作流程完成對數字資源的檢測工作,整個工作流程為URL地址讀取-訪問請求發送-響應信息接收-網頁解析-日志文件處理-數據對比。其中最關鍵的步驟為訪問請求發送、響應信息接收和網頁解析三個過程,對于請求的發送過程,需要應用的工具為蜘蛛引擎,在這一工具的使用中,可以在短時間內完成對大量訪問請求數據的發送,在此基礎上才可獲取相應的反饋信息,在后續的研究和分析中,通過對這類數據的研究,實現對資源的整合與分析。對于響應信息接收,根據向系統中輸入的控制信息,分析該項工作當前存在的問題,可以以200ms為周期,分析各類網頁信息的響應速度,其中時間在200ms之內時,反饋值為“快”,高于200ms,反饋值為“慢”,無反饋時,系統自動發送3次訪問請求,若依然無響應信息,反饋值為“失效”。對于網頁解析,要通過上述的分析過程,找到這一網頁的實際運行質量,當發現系統中存在運行問題時,則需要采用合理方法對這類網頁和資源進行處理。
在關鍵技術的應用中,其一為蜘蛛引擎,其作用為從數據流中提取URL網頁,并接受相應的反饋信息,當可以獲取反饋值時,輸出的代碼為“200”,無法獲取反饋值時,輸出的代碼為“404”,由于復雜頁面中含有多種編碼形式,要實現對這類復雜信息的提取,在網頁的代碼中抓取相關信息[2]。其二為對日志文件的處理方法,這一子系統的運行中,會生成4個日志文件,發揮的作用為記錄上次信息、記錄本次信息、檢測信息的對比,在此基礎上生成最終的檢測結果展示日志,工作人員通過對這一日志中信息的研究和分析,可以及時找到和優化當前系統中的失效網頁和資源,在后續的工作中,將這類資源清除。
綜上所述,在數字資源的檢測工作中,傳統方法為人工檢測和自研軟件檢測,從取得的檢測效果來看,當前的技術條件下取得的質量較為一般。在基于爬蟲技術的數字資源檢測軟件的開發中,要建成整個網絡體系的框架,在此基礎上加入蜘蛛引擎等工具,實現對所有信息的有效識別和分析,通過生成的日志完成信息展示。