顧偉
摘要:檔案信息智能采集技術是大數據環境下獲取數字檔案信息資源的重要技術手段。本文在分析檔案信息智能采集技術現有研究成果的基礎上,根據檔案信息智能采集方法的不同,提出了改進檔案信息智能采集技術應用的創新方式,以達到提高檔案信息智能采集技術實用性和有效性的目的。
關鍵詞:檔案信息 智能采集 改進方式 應用研究
大數據環境下,智能信息采集技術是實現電子檔案齊全完整收集的重要手段,尤其是對網站網頁、社交媒體等“新領域”電子檔案的收集有著重要意義。這些“新領域”的檔案信息不僅來源渠道廣、數量大,而且更新速度快、存在時間短,若不能做到及時發現、主動采集,就會被新的信息所覆蓋。因此,利用檔案信息智能采集技術實現檔案信息自動采集變得日益迫切和重要。
目前,已有學者從不同角度對檔案信息智能采集問題進行了研究,張倩認為利用自動搜集方式是獲取檔案信息資源的新方式[1],王維娜提出了互聯網條件下檔案信息采集的原則[2],符昌慧從個性化服務的角度指出有效采集檔案數據的困難之處,以及如何制定合理的采集策略和選用合適的采集工具[3],程知構建了檔案數據智能采集模型[4],冉朝霞基于輿情數據研究了檔案信息跨維度收集與分類方法[5]。但是,這些研究較少地關注檔案信息智能采集技術的實際應用,故此,本文從實踐創新的角度研究檔案信息智能采集技術。
檔案信息智能采集技術是在電子環境下,為齊全、完整、及時、準確地收集數字檔案信息資源,將檔案實踐工作與計算機信息采集技術相結合而產生的應用技術。檔案信息采集是檔案數據存儲、清洗、分析和應用的首要環節,在豐富數字檔案信息資源和開展檔案數據治理工作中占有重要的作用。從檔案信息采集技術的發展階段來看,檔案信息采集技術經歷了人工采集、計算機自動采集、網絡信息搜集和智能信息采集四個階段。
本文所研究的檔案信息智能采集是檔案信息采集技術的第四個階段,它是利用信息爬取技術主動在互聯網上按照預設采集規則對來源不同的檔案信息進行采集,并對采集到的檔案信息進行數據類型解析和異構數據分類存儲,并在分析檔案信息有效性和關聯性的基礎上,智能化地篩選和提取出與采集主題高度相關的檔案信息及其元數據,以此實現檔案信息精準化自動采集目標的技術。與前三個階段相比,檔案信息智能采集不僅要能實現檔案信息的自動搜集,而且還要對搜集到的檔案信息進行分析與處理,達到檔案信息精準聚合的目的。這是融合檔案學、情報學、計算機科學等相關領域的專業知識,通過語義理解、邏輯推理、數據分析、知識發現與關聯等技術模擬人類認知功能和智能活動而開展的一項智能化工作。檔案信息智能采集技術能夠為實現檔案信息的完整收集提供技術保障,有助于實現檔案信息采集由被動向主動的轉變,在新媒體、網站網頁信息歸檔、檔案編研等方面有著重要的應用價值。
(一)檔案信息自動采集方式
檔案信息自動采集是按照一定的智能采集算法將搜索路徑上所有檔案信息都保存下來的方法。它在采集過程中不設置任何條件,可以做到檔案信息的完整捕獲和實時保存,適合輿情類檔案信息的采集。該方式的不足之處在于這種采集方式未做信息過濾,采集到的信息雖較為完整,但也存在部分無用信息,為后續檔案信息的處理增加了難度,不利于檔案信息資源的開發利用。
(二)檔案信息自定義采集方式
檔案信息自定義采集是一種能夠根據檔案用戶需求,定向采集檔案用戶所需要的檔案信息的采集方式,適用于網頁網站類檔案信息的采集。與檔案信息自動采集方式不同的是,它能根據檔案用戶采集需求自動生成采集規則,做到精細化的智能采集,避免了大量無用信息對采集結果質量的影響。同時,這種采集方式能夠對網站網頁中文字、圖片、視頻等不同格式數據進行智能解析和分類存儲,這為檔案信息利用打下了良好的數據基礎。但該方式的難點在于采集規則的準確描述與設置。
(三)檔案信息定制采集方式
互聯網上的信息展現形式和技術實現方式是多種多樣的,在高安全性的網站中,其內容是通過技術手段動態加載實現的,因此,使用靜態頁面采集技術是無法采集到網站信息的。針對這類情況,我們需要使用定制采集的方法來實現。這里的“定制”是指在分別分析每個網站技術框架的基礎上,采用相應的采集策略以實現檔案信息實時準確地采集。這種采集方式的優點在于針對性強,能精準獲取需要采集的檔案信息,缺點在于成本較高,通用性不強。
(四)移動端檔案信息采集方式
移動端檔案信息采集方式是對微信公眾號、微博等移動端的檔案信息進行采集所采用的方式。在網絡媒體時代,移動端的信息發布數量和擴散效應已明顯高于Web端,所以,移動端的檔案信息采集變得越加重要。與Web端檔案信息采集相比,移動端檔案信息采集在采集方法上與其完全不同,在技術實現上也更為復雜,不同移動端的信息采集方法不完全相同,因此,移動端檔案信息采集的開發難度和成本更高。
(一)合理優化檔案信息智能采集的輸入方式
明確檔案信息采集需求,合理優化輸入方式是提升檔案信息智能采集效果的有效手段。目前,改進檔案信息智能采集輸入方式至少有三種方法:一是采用同義詞等價替換的方法。在信息采集之前,我們利用同義詞識別技術對輸入內容進行同義關系分析,根據相似性、顯著性和易理解性等原則將用戶輸入替換為采集系統最能理解的表達方式,從而得到較好的采集結果。二是利用自然語言處理技術,在語義層面提取采集需求的關鍵信息。用戶需求表達方式是多樣的,直接將這些需求輸入采集系統,采集系統不一定能智能化地準確把握采集需求的關鍵內容及其之間的相互聯系。因此,我們可以對用戶采集需求做語義分析,提取關鍵語義信息,然后,利用深度學習和機器學習等人工智能技術找出這些關鍵信息之間的關聯關系和限制關系,最后,將這些關鍵信息和限定信息以正則表達式的方式輸入采集系統,實現精準描述用戶采集需求的目的。三是設置簡單、合理的信息采集規則。已有實踐經驗表明,在信息采集過程中,設置太過復雜的規則往往不利于獲得較好的采集結果。簡單、明確、合理即是精準。采集要求過多、描述詞匯過長反而會誤導采集系統,產生錯誤的采集結果。
(二)改進檔案信息智能采集策略
檔案信息智能采集的目標是獲得高質量的采集結果。我們可以從采集策略上進行調整,不斷提高采集系統的適用性。一是在技術上做好網絡站點反爬措施的應對,擴大采集的來源和范圍。現在,網絡信息爬取技術是一種常見的信息采集手段,安全性高的網站都會采取反爬措施以防止信息采集系統對網站信息的自動爬取。因此,我們應該采用多種的技術手段,如采用動態調整采集時間間隔、使用代理IP方法和基于深度學習的驗證碼識別平臺等技術,降低反爬技術對采集系統的影響。二是要注意對采集目標的保護,將集中式采集變為分散式采集,避免因為信息采集造成采集目標的宕機。在短時間內頻繁地對網絡站點進行信息采集,會產生大量的網絡并發訪問,客觀上會增大網絡站點服務器的壓力。如果該服務器并發處理能力有限,則信息采集的過程相當于是對該網絡站點做一次網絡攻擊,必然造成服務器的宕機。因此,從保護采集目標和實現信息長期持續采集的角度來說,應將集中式的連續采集變為控制訪問次數的分散采集。
(三)加強檔案信息智能采集系統的數據處理能力
通過采集系統采集到的原始信息可能存在一些與采集需求關聯度較小的信息,這些信息的存在使采集結果含有“雜質”。將含有“雜質”的原始采集結果進行“提純”處理,并以直觀方式展現采集信息的價值,也是檔案信息智能采集必須解決的問題。為此,我們可以采用無監督聚類算法,對原始采集結果進行智能化甄別。通過聚類算法建立采集信息的數據模型,利用該模型找出與采集需求關聯度較小的誤采信息,并將誤采信息刪除,以提高采集結果準確性。
(一)檔案信息采集的法律和隱私保護問題
檔案信息采集的目的是利用技術手段在互聯網上收集檔案信息,但客觀上,檔案信息采集也存在著促進檔案信息資源共享與侵犯檔案主體信息權利的兩面性。檔案信息采集的正當性和有效性源于檔案信息主體的授權,而區分這種兩面性和界定這種授權的關鍵之處在于檔案信息的開放程度和訪問權限[6]。因此,我們在進行檔案信息采集時,首先要明確檔案信息采集的法律邊界和個人隱私的保護范圍,依法合規的采集檔案信息。
(二)檔案信息采集標準化建設問題
制定檔案信息采集標準,明確檔案信息采集規范,既有助于提升檔案信息采集的質量,又能為檔案信息資源共享提供保障。但在實踐中,筆者僅發現一項與檔案信息采集有關的標準即《建設工程檔案信息數據采集標準》。因此,我們應該針對不同領域和行業,因地制宜做好檔案信息采集標準化建設工作,為檔案信息治理奠定良好的數據基礎。
(三)異構檔案信息的集成管理問題
檔案信息的采集將產生大量多源異構的數據,表現為數據來源、數據結構和數據存儲的多樣性。多源異構問題給信息整合和數據應用帶來了較大的困擾,因此,為多源異構數據提供統一表示、統一存儲和統一管理的方法變得日益重要。在實踐中,我們應該結合應用場景的要求,盡可能將異構數據集成到統一數據平臺中進行管理,實現檔案信息的有效匯集。
在大數據環境下,檔案智能信息采集是獲取檔案信息的有效方式,也是開展數字檔案信息資源建設、開發和利用的前提。目前,檔案信息智能采集技術處于探索階段,在實踐中未有完善的解決方案。但隨著實踐工作的深入開展和信息采集技術的不斷發展,檔案信息智能采集技術必會朝精細化、實用化方向前進。
*本文系安徽大學校史研究項目《安徽大學校史研究資料智能搜集系統》的階段性研究成果。
注釋及參考文獻:
[1]張倩.應用Web數據挖掘技術捕獲網絡檔案信息資源的個性化服務研究[J].檔案與建設,2008(7):15-18.
[2]王維娜.互聯網條件下檔案采集與存儲的技術方式和管理原則[J].機電兵船檔案, 2016(5):49-50.
[3]符昌慧.基于數據采集的互聯網檔案服務個性化轉變[J].山西檔案,2017(3):72-74.
[4]程知.基于數據魔方的異構檔案信息資源采集方法分析[J].浙江檔案,2018(8):60- 61.
[5]冉朝霞.基于輿情數據的檔案信息跨維度收集與分類研究[J].檔案管理,2019(6): 53-55.
[6]楊志瓊.數據時代網絡爬蟲的刑法規制[J].比較法研究,2020(4):1-19.
作者單位:安徽大學檔案館