韋艷玲

摘 要:大數據時代下,檔案信息化建設成為了檔案事業發展的重要方向,對檔案信息化建設展開探討具有十分重要的意義。本文分析了大數據時代下,交通規劃勘察設計行業檔案信息化建設面臨的機遇和挑戰,并對大數據技術在檔案信息化建設中的應用進行了詳細的介紹。
關鍵詞:大數據;交通規劃勘察;檔案信息化;建設
1 引言
交通規劃勘察設計行業是可以承接公路、橋隧、交通工程、水運勘察設計、工程咨詢、建筑等多種建設項目的綜合型企事業單位。就交通規劃勘察設計部門來說, 在項目建設過程中所形成的具有保存價值的設計圖紙、文字材料、數據、聲音圖像等均應歸入科技檔案。在大數據時代下,檔案信息化建設成為了經濟與社會發展的必然趨勢,各項先進技術的發展為檔案信息化建設帶來了巨大的機遇,同時也對檔案信息化建設提出了新的要求。如何做好交通規劃勘察設計檔案信息化建設,提高檔案資源的利用效率是當前的一個重要課題。
2 大數據給檔案工作帶來的機遇和挑戰
大數據是時代發展的必然趨勢,它作為一種技術、一種理念,其出現對交通規劃勘察設計行業檔案部門來講既是機遇又是挑戰。
(1)利于檔案價值的挖掘。隨著全國各級各類檔案館館藏檔案數字化的快速推進以及數據的增加,可供分析與利用的檔案數據正在匯聚成數量宏大的海量信息。大數據技術的應用,更利于從中挖掘出蘊藏的巨大知識寶藏。
(2)有利于檔案資源共享。大數據技術的應用為真正實現資源共享提供了條件。大數據技術可以將交通規劃勘察設計行業檔案間的共享數據資源進行整合,共同構筑信息共享空間,這樣各地的檔案館就可以分享由大量系統連接在一起而形成的信息。
(3)檔案數據存儲能力的挑戰。檔案行業直接面對著對社會原始記錄的收集、整理、鑒定、保管、檢索、利用等任務。在大數據時代,系統將會面對TB級的數據集,急速增長的數據對交通規劃勘察設計行業檔案的存儲能力提出了極大的挑戰。
(4)檔案數據安全問題的挑戰。數據安全對交通規劃勘察設計行業檔案來說至關重要。檔案信息資源的開發和利用會涉及檔案信息的泄密、檔案信息的丟失和篡改等問題。因此,檔案館在應用大數據技術時需要注意這些潛在的風險,通過采取新的措施來應對這些風險的發生。
3 大數據技術在檔案信息化建設中的應用
隨著現代科學技術的不斷發展,信息技術在各行業的運用促進了生產效率的極大提高。
因此,在交通規劃勘察設計行業檔案管理工作中,相關部門要加快交通檔案信息的數字化設計,提高交通檔案工作的質量,交通規劃勘察設計行業檔案信息化建設不僅包括無紙化辦公模式,還包括對當前各種室內紙質檔案的數字化建設。
3.1 高質量檔案數據采集及存儲,為檔案管理精細化奠定基礎
交通規劃勘察設計行業檔案資料數據類型繁多, 有Office 文檔、純文本、圖片資料以及包含基礎地形圖、現狀專題圖、規劃設計成果圖等多種圖件的AutoCAD 文件, 并且數據量巨大, 文件數目極多。因此要保證新系統能夠高效安全地管理檔案資料, 良好的數據庫設計成為關鍵之所在。高質量的數據是大數據技術發揮效能的前提,大數據技術只有在高質量的大數據環境下才能提取出隱含的、有用的信息。數據采集層要收集不同數據源產生的數據,為交通規劃勘察設計行業檔案數據挖掘的后續工作做好準備。同時,數據存儲是為數據處理和計算、特別是為應用服務的,交通規劃勘察設計行業檔案數據存儲和管理必須研發高效的數據存儲模型、存取技術與交換算法,盡可能大地提升數據存取的速度、效率以及存儲管理的靈活性和適應性。
3.2 基于語義本體和靜態離線排序策略,凸顯檔案管理模式精細化
經過各種渠道獲取的檔案數據種類繁雜、結構多樣,而傳統的檔案著錄和標引難以適應數字化檔案信息描述和利用的要求,成為制約檔案信息資源開發利用的瓶頸。當前,交通規劃勘察設計行業檔案數據管理中所遇到的手工著錄標引工作效率極低、機器自動標引精確度無法保證,以及其內容查詢的智能化程度不高,無法同時保證較高的查全率和查準率等當前亟待解決的關鍵問題。
3.2.1 基于語義本體的檔案數據結構轉換 現代互聯網應用呈現出半結構化和非結構化數據大幅度增長的趨勢,這些資源將成為館藏的重要來源,在傳統的信息檢索技術基礎之上,利用語義處理技術可以進一步實現:①查詢擴展,使用誤導詞義消歧技術對查詢詞匯進行詞義判定;②查詢優化,避免擴展查詢詞的“主題偏移”,采用詞匯語義相關性度量;③結果評價,基于向量空間模型計算檢索返回文檔與用戶查詢的語義相關性;④個性化推薦,綜合利用多項數據源(語義數據,歷史評分數據)和數據挖掘方法(如圖1所示)。由此使得人們需要將結構復雜的數據轉換為單一的或便于處理結構的數據,如對檔案系統運行日志資料等數據,就需要轉換成結構化數據,形成檔案統一的語言。
從技術層面上分析探討在人工智能領域中得到應用的本體理論以及檔案數據本體構建過程中的原則、目標、主要技術等問題,實現對檔案數據內容信息資源描述的結構化、有序化、規范化以及管理利用的自動化、智能化和動態化。
3.2.2 基于靜態離線排序策略的檔案智能檢索 面對大量的檔案信息,對檔案進行有效搜索是建立檔案數據過程中的關鍵步驟。使用基于語義的智能檢索方法有效解決檢索精度低、個性化程度不高、檢索召回率低、返回文檔太多、排序不合理等問題,實現檔案數據的智能檢索。基于該方法研發語義智能檢索系統,能夠檢索到與關鍵字相關的信息,如同義、近義及上下位關系,從而提高了檢索的査全率和查準率,并在一定程度上解決“信息過載”間的問題。
3.3 檔案數據深度挖掘分析,反映檔案管理精細化思維模式
為了使交通規劃勘察設計行業檔案數據深度挖掘與用戶需求雙向控制達到最優,檔案數據挖掘需要從包括對用戶檔案數據的挖掘及檔案數據同用戶的多種相關分析兩方面著手。
3.3.1 基于用戶的檔案數據挖掘 通過對用戶數據深度挖掘做到精確洞察,精準服務,提升檔案用戶認同感,實現檔案服務價值。一是對用戶信息進行數據挖掘。提取用戶的信息需求,查看用戶訪問服務器時留下的日志文件,跟蹤用戶行為,推測用戶興趣,提供個性化利用服務。二是對用戶統計檢索和瀏覽記錄進行挖掘。例如,利用統計分析的方法,通過分析用戶對檔案目錄的點擊率,選取點擊率高的檔案進行數字化;通過分析用戶檢索時使用的檔案檢索詞,充實和完善數據倉庫中的檢索關鍵詞,以提高查準率;通過統計分析用戶對網頁的訪問頻率,進而開展深層次的信息服務。
3.3.2 數據相關關系洞察及趨勢分析 無論是檔案資源和用戶數據,通過挖掘得到的僅是某一方面的數據,這些數據往往是孤立的數據點,因此,要使這些數據集成為一個完整的網絡,必須對數據網絡后面的數據關系進行深人分析。如單對檔案收集情況進行挖掘,得到的僅是檔案人員與檔案之間的關系;對檔案利用情況進行挖掘,得到的僅僅是檔案與用戶之間的數據關系。然而,要想精準洞察檔案之間、用戶之間及檔案與用戶之間的關系,必須將以上各個孤立的數據點進行整合,得到一個完整的檔案數據網絡,這樣才能對檔案發展、社會服務等趨勢做到更為準確的預測。
3.4 檔案管理系統三維可視化,提升檔案數據管理應用價值
所謂數字檔案館實物檔案可視化,就是運用計算機技術,在展示實物檔案顯性信息的基礎上兼顧隱性信息的挖掘,實現實物檔案的數字化和實物檔案管理、實物檔案利用的可視化。實物檔案數字化屬于檔案信息采集,在此不做贅述。下文筆者從以下兩個方面進行討論:其一,運用物聯網技術實現實物檔案管理的可視化;其二,通過互聯網平臺實現實物檔案利用的可視化。實現數字檔案館的可視化,需要應用虛擬現實技術。
通過虛擬現實技術在計算機網絡上對交通規劃勘察設計行業檔案館進行真實的模擬,以營造出類似實體檔案館的功能和氛圍。虛擬檔案館模擬類似于傳統檔案館的真實環境,其宗旨是為網上用戶創建比傳統檔案館更為舒適方便的閱覽及檢索利用的環境和條件,更好地實現檔案館的網上服務功能。
4 結語
綜上所述,大數據時代下,交通規劃勘察設計行業檔案信息化建設對提高檔案信息化水平,確保檔案信息的安全,提高檔案資源的利用率具有十分重要的作用。因此,相關檔案工作人員要合理應用大數據技術,完善檔案信息管理體系制度,加強檔案信息化建設工作,從而促進檔案事業的健康、可持續發展。
參考文獻
[1]葉丹麗.大數據時代企業檔案信息化建設[J].黑龍江科技信息.2017(01)
[2]關紹鵬.大數據時代事業單位檔案信息化建設的現狀與發展途徑探討[J].赤子(上中旬).2016(23)