999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大數據時代的文件結構化數據和非結構化數據管理

2024-05-27 00:00:00張榮娟
消費電子 2024年4期

【關鍵詞】文件;結構化數據;非結構化數據;文件結構化平臺;數據管理

結構化數據是指由二維表結構來邏輯表達和實現的數據,如表格數據、面向對象數據庫中的數據等。結構化數據主要通過關系數據庫進行存儲和管理,嚴格遵循數據格式與長度規范,字段之間相互獨立,是傳統數據的主體[1]。在電子文件發展的初期,電子文件的結構化數據主要是電子文件的各類元數據,元數據是描述文件背景、內容、結構及其整個管理過程的數據,能夠有效記錄文件的各個活動過程,能夠反映文件的形成階段。元數據是傳統文件結構化數據的主體。

非結構化數據是指數據結構不規則或不完整,沒有預定義的數據模型,不方便用數據庫二維邏輯表來表現的數據。包括所有格式的辦公文檔、圖片、圖像、音頻、視頻信息等[2]。非結構化數據比結構化數據更難理解和標準化,不便于數據應用,如何將非結構化數據轉換為結構化數據,實現對數據的全生命周期管理,增強數據應用效果,提高數據資產利用率是本文要探討解決的問題。

一、文件結構化數據和非結構化數據的現狀

(一)文件結構化數據現狀

目前文件結構化數據主要是文件元數據,雖然有國家標準《文件元數據原則》作為指導,但在實際執行過程中,各單位在進行各類文件元數據管理時仍然存在很多問題,這些問題主要分為幾類:一是同一個文件類型下元數據重復,元數據名稱不一致,但實際采集的數據值一樣,例如內部文件責任單位、產生部門、發文單位等,實際在采集時都是文件產生部門,可以化繁為簡;二是不同類型元數據名稱有差異,比如有的文件類型是責任單位,有的文件類型是責任單位名稱,需要統一;三是元數據著錄標準不統一,以設備碼為例,有的著錄為1RPA001PO,有的著錄為1-RPA-001-PO,有的著錄是RPA\001\PO;四是元數據著錄不完整,大量非必填元數據在實際工作中并未著錄,沒有數據;五是著錄的元數據不準確,如生效日期、保密期限等著錄錯誤。

(二)文件非結構化數據現狀

非結構化數據由于沒有前置的數據模型來收集、記錄相關數據,導致數據結構不完整、不規則,難以用數據庫二維邏輯表來表現。非結構化數據是目前文件的主體,其格式繁多,包括所有格式的辦公文檔、文本、圖片、XML、HTML、各類報表、圖像和音頻/視頻信息等。[3]各組織普遍存在文件類型多樣、數量龐大,文件利用需求高,目前多數文件只有文件元數據作為結構化數據應用,非結構化數據比結構化數據更難標準化和理解,缺乏對文件內容的深度標引、挖掘。非結構化數據來源廣泛,不光在文件管理系統中生成,還在大量功能異構的業務系統中產生。各個業務系統中產生的非結構化數據往往缺乏統一標準,彼此孤立,各個業務系統中的數據缺乏有效的流動、聯通、推送。有的組織已經開始重視在業務系統、文件管理系統中建立接口,打通數據傳輸通道,但仍存在橫向數據接口不統一,即使建立接口以后也難以實現有效的集成和應用。這些現狀都導致非結構化數據在應用上非常局限,不僅不能支持移動化、智能化的工作應用場景,有的文件格式連全文檢索都不支持。例如,傳統非結構化圖紙只能進行低效的視覺瀏覽,不支持全文檢索,無法搜索定位,在圖紙上點擊某項設備圖例也無法跳轉到這個設備相應的其他圖紙上;傳統版式管理制度難以實現與上游制度、標準、法規聯動等。

二、文件數據結構化的意義

(一)確保文件的真實性、可靠性、完整性

文件結構化數據能夠更好地維護文件的原始記錄性,體現文件的憑證價值,通過結構化數據能夠記錄文件形成時的背景信息、結構信息和相關的信息系統參數,記錄文件管理各個環節的有關信息,如文件的編制、審核、批準、升版等環節相關信息,自動記錄這些環節審批的日期、時間等。文件結構化平臺能夠將非結構化數據轉換為結構化數據,不光能記錄文件的形成、修訂過程,還能夠支持訪問管理、隱私管理和權限管理,有利于確保文件的真實性、可靠性、完整性。

(二)創新文件應用場景

結構化數據比非結構化數據更易于理解和標準化,不僅能支持高效率的檢索,還能在文件與其形成的背景信息之間進行邏輯鏈接,并以一種結構化的、可靠的和有效的方式維護這種鏈接,維系文件間有機聯系,實現建立在相關關系分析基礎上的數據預測,支持更多數字化、移動化、智能化的應用場景。

三、建立文件結構化平臺

為增強數據應用效果,提高數據資產利用率,可以建立文件結構化平臺,將非結構化數據轉化為結構化數據。在建立平臺之前,先梳理文件管理系統和各個業務系統上存儲的海量的各類文件,選出復用率高的文件類型,通過文件結構化平臺將其非結構化數據轉化為結構化數據,打通數據孤島,開展數據治理,提高數據利用率。通常每個單位利用最頻繁的文件是管理制度、運行或維修技術規定,可以從這兩類文件入手推進文件結構化工作。

管理制度結構化要從前端控制的角度,把管理制度內容數字化,將原來的版式文件通過結構化平臺轉換為結構化數據,使管理制度每個章節內容都成為單獨的元數據,將管理制度與上游法律法規、標準、制度進行有效關聯,當上游法律法規、標準、制度發生變化時,能夠及時準確地提醒編制單位、編制人開展管理制度識別、修改,同時能夠提醒下載或打印過本管理制度的人有新的管理制度發布,讓用戶能夠及時利用新的管理制度。管理制度一般會規定與本制度相關的組織機構和職責,往往當組織機構和職責調整時,管理制度就需要修改相關內容,通過管理制度結構化,當組織機構和職責變化時,結構化平臺能精準地識別需要修改的制度清單,并統一發起修訂流程。還可以導出制度規定的各單位、各崗位的職責數據,進行對比分析和利用,或建立數據庫在制度編寫時使用,使其管理規范化。在傳統管理制度發布前,需要由人工檢查、調整文件格式,通過文件結構化平臺自動規范管理制度格式,省去文檔檢查環節,能夠提高管理制度編制效率。

通過運行或維修技術規定結構化,以部件或設備作為數字化對象,建立維修、設備管理、備件管理、設備運行和維護“端到端”的數據互通應用,以便負責人在現場使用移動端完成技術規定相關工作的執行,并結構化地記錄現場檢查所得數據,以實現現場工作過程移動化,實現運行、維修人員無紙化辦公。依據結構化技術規定的運行活動、運行測量點編碼等,對編寫生效的結構化技術規定進行數據控制和文檔屬性解釋,從而實現在工作執行過程中記錄設備狀態變化、運行參數信息,以及指令的執行時間、執行人資格授權、各類管理控制點數據,并依據設備管理等需要提供相關數據,同時記錄和觸發技術規定執行過程的反饋。參數測量點錄入的數據能夠自動比對標準,超標數據自動提示,實現歷史數據的比對和分析,趨勢判斷,實時讀取設備狀態參數,進行報警提醒等應用。

目前文件結構化平臺轉換的數據仍是較為規范、章節清晰的文件,對于沒有固定格式、清晰度差、有的還帶有云線標識的圖紙,結構化平臺將非結構化數據轉換為結構化數據的效果還不理想,需要結合海量存儲、智能檢索、知識挖掘等技術,識別分析各類圖紙內容數據,制定數據提取規則,提取文件關鍵內容信息,如設備功能位置碼、管道號、支架號等。能夠實現圖紙檢索定位,檢索到的內容在圖紙上進行高亮標注或者提示,實現在文件上的快速定位等。

四、加強文件數據管理

(一)制定數據規范和標準

文件數據管理已成為文件管理中必不可少的一部分,制定文件數據管理規范和標準是順理成章的事。文件數據標準是文件數據的命名、定義、結構和取值的規則,在設置的時候要從業務角度、文件管理角度、使用角度考慮,捕獲文件特征和文件背景信息,既包括文件內容、結構和顯現的數據,也包括文件業務處理和文件使用過程中文件在內容、結構上發生變化的數據。

文件管理歸口部門在設置文件數據標準時,不光要考慮文件管理系統中的數據標準,還要考慮業務系統中產生的文件數據標準,否則在后期要花大量精力開展數據治理,在業務系統文件歸檔時文件數據不全、不準確等問題會影響歸檔進度和質量。尤其對于新建業務系統,在編制業務需求書的階段就要把文件數據命名、定義、結構和取值的規則落實到業務需求書中,在設置時還可以制定檢驗標準,例如設備功能位置碼,只能是2RPA001PO的格式,固化字符長度和格式,如果錄入“-”等其他符號或長度不符合要求都無法提交,并給用戶提示原因。增加文件捕獲節點自動捕獲功能要求,由文件系統和業務系統自動捕獲編制人、編制單位、修改人、簽收人等信息,減少人員填寫的工作量,并且能夠保證數據準確、不被篡改。在系統開發過程中還要確保相關接口標準落地,保證文件主要數據在系統間能夠順利交互,還可以在文件產生時就將檔案分類設置為一個數據,在產生時就確定檔案分類,方便業務系統歸檔時進行聯動。通過建立統一的文件數據標準,從源頭規范文件數據名稱和內容,提高文件數據質量,才能保障文件數據準確性和規范性,為數據共享利用創造條件。

(二)對數據實施全生命周期管理

參考文件全生命周期理論,對數據實施全生命周期管理。數據全生命周期是指將原始數據轉化為可用于行動的知識的一組過程,包括數據規劃、獲取、傳輸、存儲、整合、分析、應用、呈現、歸檔和銷毀等過程。對數據實施全生命周期管理,圍繞數據全生命周期各階段開展一系列管理活動,使數據在各個階段都處于良好的管理狀態,避免數據產生后才發現各種影響應用的問題,再開展數據治理,費時費力,還難以達到預期效果。

(三)對數據實施分級管理

分級管理有兩個維度,一是管理責任分級,二是數據分級管理。管理責任分級是指按照“誰主管誰負責、誰產生誰負責、誰使用誰負責”的原則開展分級管理,承擔相應責任。文件歸口管理部門對文件數據進行統籌管理,制定文件數據標準,承擔文件數據管理和應用的全面責任。業務歸口管理部門對業務范圍內的文件數據進行管理和維護,對相應文件數據質量和應用效果承擔主要責任。文件數據的使用單位對數據應用效果進行管理,并將數據需求、改進建議反饋到業務歸口管理部門,對數據應用效果承擔直接責任。數據分級管理是指將文件數據分為主數據和其他數據,文件主數據是文件管理必備的核心數據,會影響文件真實性、完整性、有效性的數據,或是需要跨系統、跨部門進行共享的核心數據。文件主數據作為各個業務系統必須配置的數據進行推廣,其他數據可由業務歸口管理部門自行管理。

(四)做好數據質量控制

建立文件數據質量指標,對相關部門進行考核,可從唯一性、完整性、準確性、一致性、及時性五個維度設置。相同的文件元數據在同一系統中應該有唯一命名、描述,對于舊的信息系統,可通過與新的數據命名建立對照關系來解決,使文件數據保持唯一性。文件數據的實體、屬性、字段值等要保持精確可靠,符合文件數據標準,準確無誤地表達其真實含義,在不同系統之間或同一系統內不同類型之間的定義和規則保持一致。文件數據質量指標的設置和考核會推動文件編寫人、審核人、批準人在編寫、審批時除了關注文件內容外,還會再關注文件數據的質量。

(五)增強數據共享和交易

做好文件數據管理工作的重要環節是規范文件數據共享,建立數據共享機制和數據共享審批流程,用戶在申請文件數據共享時應該明確需要共享的數據的目的、范圍、應用場景、使用方式、期限等。在文件數據產生時,就確定文件數據資產共享屬性,有條件共享的文件數據使用需要經過審批,不予共享的文件數據要嚴格執行相關規定,采取措施防止數據泄露。從宏觀層面來說,文件數據是資產,文件數據不僅是被交易的對象,還能夠支持交易,文件數據的價值不限于特定的用途,也不限于眼前的用途,它有更多的潛在價值,等著人們去發現和挖掘。

數據已經成為理解和解決許多問題所不可或缺的重要工具,它不僅能幫助人們解決當下的問題,還能夠預測未來。而文件相關的數據是眾多數據中數量較為龐大的一類,文件管理歸口部門要積極開展文件數據管理工作,梳理、分析結構化數據和非結構化數據,將非結構化數據轉換為結構化數據,建立數據規范和標準,實現對數據的全生命周期管理和分級分類管理,推進數據共享,增強數據應用,充分發揮文件數據的價值,推動組織和個人發展。

主站蜘蛛池模板: 欧美日韩午夜| 老司机精品一区在线视频| 亚洲中文无码av永久伊人| 精品视频福利| 欧美日韩国产成人在线观看| 亚洲天堂成人在线观看| 日韩毛片在线播放| 国产网站一区二区三区| 91激情视频| 亚洲欧洲自拍拍偷午夜色| 澳门av无码| 无码国内精品人妻少妇蜜桃视频| 中文字幕第1页在线播| 五月激情综合网| 91精品专区国产盗摄| 欧美三級片黃色三級片黃色1| av无码一区二区三区在线| 免费av一区二区三区在线| 久久毛片网| 中国国产A一级毛片| 成人在线欧美| 久久天天躁狠狠躁夜夜躁| 日韩欧美亚洲国产成人综合| 国产香蕉国产精品偷在线观看 | 亚洲一级毛片在线播放| 女人毛片a级大学毛片免费| 四虎精品黑人视频| 亚洲欧美一区二区三区图片| 激情无码字幕综合| 无码AV日韩一二三区| 国产91小视频| 国产精品第三页在线看| 国产一二三区在线| 99资源在线| 成人亚洲国产| 91麻豆精品国产高清在线| a色毛片免费视频| 国产99在线| 日韩毛片在线播放| 亚洲第一区欧美国产综合| 在线无码私拍| 中文字幕在线看| 国产自在线播放| 久久人体视频| 欧美成a人片在线观看| 久青草国产高清在线视频| 欧美日韩国产一级| 538国产在线| 香蕉视频在线精品| 亚洲成人免费看| 黄色a一级视频| 国产在线一区二区视频| 午夜不卡视频| 国产成人区在线观看视频| 亚洲一级毛片免费观看| 国产一级特黄aa级特黄裸毛片| 国产一区三区二区中文在线| 亚亚洲乱码一二三四区| 免费A∨中文乱码专区| 国产99久久亚洲综合精品西瓜tv| 亚洲激情99| 手机在线免费不卡一区二| 老司机午夜精品网站在线观看| 久久久成年黄色视频| 九九香蕉视频| 精品91自产拍在线| 午夜视频www| 日韩小视频在线观看| 91啪在线| 全午夜免费一级毛片| 亚洲国内精品自在自线官| 国产精欧美一区二区三区| 激情综合五月网| 亚洲综合18p| 日韩无码黄色| 欧美色综合网站| 亚洲免费毛片| 超清无码熟妇人妻AV在线绿巨人| 成人在线亚洲| 毛片久久网站小视频| 超碰aⅴ人人做人人爽欧美 | 五月激情综合网|