文/茂名職業技術學院 許琪瑋
(一)大數據技術的含義。大數據(big data)是指在一定空間、時間維度內使用常規軟件和開源工具捕捉、采集到的數據,是信息分析機制、數據采集模式所需決策力、洞察力和數據組織機制優化能力的快速、高效率增長的信息資產。基于海量的數據資源分布和快速增長的信息資源,以計算機技術為基礎科學化、組織化的處理數據,針對大數據的分布結構、信息類型以程序控制為導向創造出了人工數據處理方法,也就是“大數據技術”。信息化情景中,數據資源結構、形式呈現多元化,關聯性越來越弱,借助數據庫、信息網絡對生活實踐中產生的數據資源存儲分類。通過分析大量具有相似特征的數據資源確定事物未來的變化趨勢,實現對未來發生事物的技術性預測。
(二)大數據技術的特征。大數據技術作為一種從大量網絡結構性、非結構性、異構類數據提取有價值信息的能力,所需處理的數據,規模巨大。例如,自人類文明產生以來所有的印刷材料的數據存儲量為200PB,典型的個人計算機硬盤容量為TB級別,一些互聯網公司的數據量接近EB級別。所以大數據技術的處理數據規模巨大。其次是數據類型多樣。人們使用網絡產生的數據資源有多種類型,包括音視頻資料、文本數據、地理位置信息、上網記錄等,符合用戶個人預期的個性化數據占主導位置。同時,利用大數據技術對數據資源進行分析,運算效率較高,遵循“1秒定律”可以從各種結構的網絡數據中快速找到有價值的信息供用戶使用。最后是價值密度低。“大數據”是海量信息資源的總稱,計算對象是大規模的網絡數據,但真正有價值的信息可能是整體數據的一小部分。以視頻資源為例,一小時的視頻,在不間斷的數據分析中,有價值的信息可能只有一秒鐘。所以,大數據技術應用的主要目的是從海量的信息數據中提取有價值的信息。
(一)建立檔案數據資源趨勢分析機制。在高校檔案管理中,檔案管理員為了滿足用戶的個性化需求,從海量的數據資源中提取有價值的信息提供給師生或是學校行政部門,有必要建立數據資源趨勢分析機制,基于用戶行為及個體意愿從大量結構化、異構化的數據資源中提取有價值的信息數據提供給使用者。所謂數據資源趨勢分析機制是指檔案管理機制的構建者利用大數據技術、分布式數據庫、算法工具構建面向網絡資源、館藏資源進行分析、處理、獲取、管理的邏輯系統。一方面高校檔案管理部門要以師生用戶的隱性信息需求為核心,分析用戶的需求變化和分布狀態提供專業的數據平臺供用戶使用,另一方面檔案管理部門利用算法工具分析館藏資源、網絡資源的使用情況及資源中所包含的價值性信息,針對使用者使用需求進行匹配。值得注意的是,用戶的資源需求是多元的,所應用的算法工具及分析模型要在不同的時間節點內自適應調整,能隨著檔案信息資源更新、用戶需求變化做出改變,實現用戶需求管理與知識挖掘同步進行。
(二)創建關聯性數據標注系統。數據標注系統是高校檔案管理部門針對用戶需求管理、信息資源挖掘和價值性信息使用所形成的知識標注機制,主要是針對用戶的需求變化、檔案信息資源使用情況、價值性信息挖掘,對用戶使用過、未使用的數據資源進行數據性關聯性標注。高校檔案管理部門針對海量的數據信息、檔案信息資源進行知識挖掘最重要的原則是根據資源的價值進行數據標注,使之具有標簽管理特征。用戶根據檔案資源的標注,借助標簽管理系統能夠根據檔案信息資源的數據邏輯特征快速找到關聯性數據,準確查詢。
(三)實現檔案資源可視化處理。在檔案信息資源挖掘和標注過程中利用計算機可視化技術,對結構化的檔案數據進行分析對比,能根據算法工具就資源的類型、時間、作者、價值等信息進行統計,依托計算機網絡生成分析報告,以可視化的數據模型呈現出來。同時,利用計算機可視化技術能對有關資源主題深入分析,基于關聯性數據資源生成可視化圖表,用戶充分了解檔案信息發展建設情況,選擇有價值的信息資源。值得注意的是利用計算機可視化技術能夠幫助檔案管理部門以更加直觀的方式查看基于數據挖掘機制產生的價值信息,為后期開展用戶的個性化檔案管理服務進行經驗積累。
(四)設置智能輔助工具。傳統的檔案信息檢索使用模式主要是通過輸入相應的關鍵詞,得到檢索結果從中發現有價值的信息資源。基于大數據技術產生的智能輔助工具是在信息資源合理利用、合理使用的基礎上加上智能算法形成的。通過主動推送信息,在用戶輸入關鍵詞時,系統根據用戶的搜索行為自動向用戶提供信息數據。例如,在檢索某一時間節點信息時,系統會根據用戶的輸入法使用變化,自動篩選數據資源,及時向用戶提供與之對應的檔案信息,方便用戶快速作出決策。
綜上所述,在高校檔案信息管理中應用大數據技術可以快速提高檔案信息檢索效率,根據師生用戶需求和學校的檔案管理建設需要及時匹配信息數據,便于師生及學校管理部門快速作出選擇,直接獲取檔案信息。