黃榮梅 唐權
摘要:為解決常規數字化檔案系統調取識別性較低的不足,提出了實物大數據手段在數字化檔案系統中的應用。基于實物大數據與數字化檔案系統的連接,以及數字化檔案的識別,完成實物大數據搜索單元的引入;依托搜索關鍵字的載入,數字化信息的甄別與顯示,實現了實物大數據手段在數字化檔案系統中的應用。實驗數據表明,提出的實物大數據手段在數字化檔案系統中的應用,較常規數字化檔案系統,調取識別性提高75.35%。能夠實現數字化文檔系統文件的快速調取。
關鍵詞:實物大數據;數字化檔案;檔案系統;數據調取
中圖分類號:TM72 文獻標識碼:A
文章編號:1009-3044(2019)09-0005-02
常規數字化檔案系統采用關鍵字檢索的方式,能夠實現數字化檔案系統的調取,但僅限于關鍵字錄入部分,例如對數字化檔案標題進行關鍵字錄入,搜索關鍵字則可以找到該數字化檔案,但搜索該數字化檔案的內容將無法查詢到該檔案,存在調取識別性較低的不足[1],為此提出實物大數據手段在數字化檔案系統中的應用。基于TCP/IP通信協議,實現實物大數據與數字化檔案系統的連接,利用大數據識別機制,實現數字化檔案的識別,完成實物大數據搜索單元的引入。依托搜索關鍵字的載入,數字化信息的甄別與顯示,實現了實物大數據手段在數字化檔案系統中的應用。為了保證提出的數字化檔案系統中應用有效性,進行試驗驗證,試驗結果表明,提出的實物大數據手段在數字化檔案系統中的應用,較常規數字化檔案系統,具有更高的調取識別性。
1引入實物大數據搜索單元
1.1實物大數據與數字化檔案系統的連接
實物大數據與數字化檔案系統的連接是采用常規TCP/IP通信協議進行通信的,TCP/IP通信協議具有可擴展性,溯源性良好,能夠保證實用大數據技術的可靠運行[2]。
TCP/IP通信協議是連接大數據服務端與數字化檔案系統的通信橋梁,采用環形拓撲架構的方式進行連接,通信連接測試數據量不得小于45Mbyet/s[3]。以保證數據傳輸的穩定性。其設計的TCP/IP通信協議共有四個層次結構,分別是網絡接口層、網絡層、傳輸層和應用層,網絡接口層是連接網絡的層級結構,使網絡有效連接,進行有效通信。而網絡層就是為通信提供網絡支撐的層級,傳輸層是使大數據傳輸的介質層級。在應用層進行整合,實現實物大數據與數字化檔案系統的連接。
1.2數字化檔案的識別
大數據識別機制與常規檢索機制不同,數字化檔案的識別是采用大數據識別機制進行識別的。大數據識別機制是利用模糊集計算方式進行統計,根據嵌入方式進行自定義子集,采用子集與統計集合對比的方式進行數字化檔案檢索。其模糊集識別數字化檔案計算過程如下:
首先,利用實物大數據的優勢,將數字化檔案管理系統,構建成不同分類的模糊集合。其中一個文檔可屬幾個大類模糊集合,也可單屬于一類的模糊集合當中。
然后,根據載入的關鍵字信息,進行模糊化處理,確定模糊化子集,根據模糊化子集對應數字化檔案系統中的模糊集合。
最后,子集在模糊集合內,進行對比,實現檢索內容的顯示,優化傳統檢索方法,將輸入信息與整個檔案系統數據庫進行逐一對比,提高檢索能力,縮短檢索時間,降低對數據庫資源的耗損。
2實現數字化檔案系統快速調取
2.1搜索關鍵字的載入
搜索關鍵字的載入,是基于用戶在輸入端輸入的關鍵字信息,數字化檔案管理系統識別關鍵字信息,載入其關鍵字信息,完成關鍵字的載入。關鍵字的范圍為用戶輸入范圍,包含數字化檔案的標題內容、作者、發表日期、類型等關鍵信息等。
載入過程中應保證數據傳輸的一致性和準確性,若載入數據傳輸有誤,則會造成顯示不準確,將會給后續的數字化信息甄別帶來一定的影響。同時為解決因輸入有誤而造成的查詢調取不準確,采用模糊集計算方式進行運算。
2.2數字化信息的甄別與顯示
數字化信息的甄別,是在顯示給用戶前進行系統自我內部的甄別,甄別過程為對預提供給用戶的數字化信息進行精算,確定提供的數字化信息為用戶所檢索的數字化信息[4]。精確計算與模糊集計算不同,精確計算為單字符對于單字符的對比計算,根據用戶輸入的信息進行判斷,若與用戶輸入的信息,相同則給予顯示,若與用戶輸入的信息不同則不予顯示,再進行重復計算,若重復計算未發現用戶輸入的信息,這顯示與搜索相近的數字化檔案信息。
數字化信息的顯示為物理顯示,即依托輸入端的外部設備(計算機顯示器)進行顯示[5],依托實物大數據與數字化檔案系統的連接,引入大數據識別機制,通過對關鍵字的載入,基于設計的數字化檔案調取過程,與數字化信息的甄別,完成顯示,實現提出的實物大數據手段在數字化檔案系統中的應用。
3實例分析
為保證提出的實物大數據手段在數字化檔案系統中應用有效性,現采用兩種數字化檔案系統,進行對比實驗,分析兩種數字化檔案系統的調取識別性情況。采用對比調查的方式進行實驗。
3.1實驗準備與實驗過程
實驗地點為某省圖書館,實驗過程征求圖書館管理員意見,采用兩種數字化檔案系統進行服務,征求圖書館閱讀人員作為志愿者,對兩種數字化檔案系統進行有針對性的調取實驗,分析兩種數字化檔案系統的調取識別情況。其中兩種數字化檔案系統為采用關鍵字檢索的常規數字化檔案系統、本文提出的應用于實物大數據的數字化檔案系統。
為了準確驗證應用不同方法的數字化檔案系統的調取識別情況,在實驗過程中,應保證兩種數字化檔案系統內的數字化檔案完全一致,且占用儲存空間大小相等,儲存排列方式應完全相同。僅分析應用不同手段的數字化檔案系統的調取識別情況。本次實驗,兩種數字化檔案系統儲存內容如表1所是:
實驗過程中,采用數字化檔案系統儲存大小作為自變量,調取反應時間作為因變量,利用調取反應時間衡量調取識別情況。記錄不同數據量調取所需時間形成圖表。
3.2試驗數據分析
根據實驗過程,記錄存儲文件由0~20GB,應用不同手段的數字化檔案系統,所調取文件所需要的時間。如圖1所示:
上圖中,圖(a)代表提出的數字化檔案系統應用調取反應時間,圖(b)代表常規的數字化檔案系統應用調取反應時間。根據圖1顯示,計算提出的數字化檔案系統應用調取平均反應時間為0.35s,常規的數字化檔案系統應用調取平均反應時間為1.42s。得出提出的實物大數據手段在數字化檔案系統中的應用,較常規數字化檔案系統,調取識別性提高75.35%。能夠實現數字化文檔系統文件的快速調取。
4總結
本文提出了實物大數據手段在數字化檔案系統中的應用,基于實物大數據搜索單元引入,依托搜索關鍵字的載入,數字化信息的甄別與顯示,實現本文的研究。試驗數據表明,本文設計的數字化檔案系統具備較高的有效性。希望本文的研究能夠為數字化檔案系統提供理論依據。
參考文獻:
[1] 米永寧, 耿志杰. 應用大數據技術開發數字檔案信息資源的現實困境與策略研究[J].北京檔案, 2016(11):16-19.
[2] 李俊豪. 2017(貴陽)檔案大數據應用與安全高端論壇暨第五屆檔案信息化建設峰會召開[J].中國檔案, 2017(9):17-17.
[3] 張志忠, 朱水琴, 沈偉民. 大數據時代地稅數字檔案室建設的建議[J].檔案與建設, 2016(11):69-73.
[4] 陳小莉. 基于大數據的計算機數據挖掘技術在檔案管理系統中的研究應用[J].激光雜志, 2017(2):146-149.
[5] 李鵬. 大數據時代下的服務導向型圖書館用戶檔案管理[J].山西檔案, 2018,242(6):31-33.
【通聯編輯:光文玲】