999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于五庫分離架構(gòu)的企業(yè)集團(tuán)檔案管理系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)
——以華潤(集團(tuán))有限公司為例

2023-04-14 10:17:40李春偉華潤集團(tuán)有限公司
浙江檔案 2023年3期
關(guān)鍵詞:數(shù)據(jù)庫

李春偉/華潤(集團(tuán))有限公司

在數(shù)字化轉(zhuǎn)型時(shí)代下,海量電子檔案收集、保管、利用高度依賴于功能完善、快速流暢、安全可靠、低成本的檔案管理系統(tǒng)。對(duì)于企業(yè)集團(tuán)而言,出于統(tǒng)一管控、規(guī)范治理、共享利用、提高效率、節(jié)約成本等需求考慮,檔案管理系統(tǒng)采取“統(tǒng)一建設(shè)、集中部署”模式成為首選。隨著歸檔數(shù)據(jù)量、用戶數(shù)量的劇增,特別是各類業(yè)務(wù)系統(tǒng)形成的海量電子文件歸檔后,檔案管理系統(tǒng)的性能、穩(wěn)定性受到嚴(yán)峻的挑戰(zhàn),嚴(yán)重影響電子檔案的收集、保管、利用,需要引起充分的重視并采取有效措施解決。

2021年,筆者所在單位華潤(集團(tuán))有限公司(以下簡稱“集團(tuán)”)建設(shè)了基于五庫分離架構(gòu)的電子檔案管理系統(tǒng)2.0。集團(tuán)作為國資委直接監(jiān)管的國有重點(diǎn)骨干企業(yè),具備業(yè)態(tài)多、層級(jí)多、用戶多等特點(diǎn),面臨著歷史檔案存量大、新增速度快等問題。在建設(shè)完成后,有效提升系統(tǒng)性能,實(shí)現(xiàn)了高性能、高并發(fā)、高可用、快速響應(yīng),從而滿足企業(yè)集團(tuán)十億、百億級(jí)檔案數(shù)據(jù)的高并發(fā)讀寫、高效檢索、低成本存儲(chǔ)的需求。

1 檔案管理系統(tǒng)設(shè)計(jì)需求

傳統(tǒng)的檔案管理系統(tǒng)由于采取單體架構(gòu)設(shè)計(jì),通常只有一個(gè)共享的關(guān)系型數(shù)據(jù)庫,數(shù)據(jù)通常在不同的組件之間共享。由于數(shù)據(jù)存儲(chǔ)在一個(gè)數(shù)據(jù)庫中,系統(tǒng)開發(fā)更簡單,但是單個(gè)共享數(shù)據(jù)庫設(shè)計(jì)在性能方面易出問題。如集團(tuán)于2014年正式上線運(yùn)行的檔案管理系統(tǒng)1.0,隨著歸檔數(shù)據(jù)量、用戶數(shù)量的劇增,特別是在存儲(chǔ)過億級(jí)別數(shù)據(jù)后,易造成系統(tǒng)性能、穩(wěn)定性嚴(yán)重下降,批量處理大批量數(shù)據(jù)容易失敗,檔案檢索速度慢、不準(zhǔn)確、不完整,數(shù)據(jù)庫擴(kuò)展更加困難、部署成本大幅增加,數(shù)據(jù)安全風(fēng)險(xiǎn)加大。單一數(shù)據(jù)庫架構(gòu)不能滿足企業(yè)集團(tuán)數(shù)字檔案館建設(shè)要求,嚴(yán)重影響檔案工作的正常開展。同時(shí),傳統(tǒng)關(guān)系型數(shù)據(jù)庫存在的缺陷更加突出,主要表現(xiàn)在:

高并發(fā)讀寫性能低。企業(yè)集團(tuán)的用戶數(shù)量較多,特別是檔案整理歸檔高峰時(shí)期,用戶并發(fā)量非常高,往往達(dá)到每秒上萬次的讀寫請求,數(shù)據(jù)庫負(fù)載非常高,硬盤I/O(讀寫)性能較差,且容易出現(xiàn)死鎖等并發(fā)問題,導(dǎo)致其讀寫速度性能下降非常嚴(yán)重。

可擴(kuò)展性差。關(guān)系型數(shù)據(jù)庫的縱向擴(kuò)展空間非常有限,橫向擴(kuò)展也面臨較大挑戰(zhàn),主要是如何在多個(gè)服務(wù)器之間協(xié)調(diào)數(shù)據(jù)的存儲(chǔ)和訪問,如何維護(hù)數(shù)據(jù)的一致性和完整性等,無法簡單地通過增加服務(wù)器和服務(wù)節(jié)點(diǎn)來擴(kuò)展性能和負(fù)載能力。

支撐容量有限。各類業(yè)務(wù)系統(tǒng)形成的大量電子文件需要?dú)w檔到檔案管理系統(tǒng),數(shù)據(jù)量通常以十億、百億級(jí)計(jì)算,關(guān)系型數(shù)據(jù)庫無法支撐過億級(jí)別數(shù)據(jù)存儲(chǔ)和復(fù)雜查詢。

部署成本高,維護(hù)難度大。本地部署的關(guān)系型數(shù)據(jù)庫許可成本高,并且隨著數(shù)據(jù)量增大而不斷上升,需要專業(yè)人員進(jìn)行配置、調(diào)優(yōu)、容錯(cuò)、打補(bǔ)丁、更新等運(yùn)維,運(yùn)維成本很高。

數(shù)據(jù)格式的限制。關(guān)系型數(shù)據(jù)庫所采用的二維表格數(shù)據(jù)模型不能有效處理多維數(shù)據(jù),不能有效處理互聯(lián)網(wǎng)應(yīng)用中的半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),如Web頁面、電子郵件、音頻、視頻等。

分布式數(shù)據(jù)庫是一個(gè)數(shù)據(jù)集合,這些數(shù)據(jù)分布在由計(jì)算機(jī)網(wǎng)絡(luò)連接起來的若干節(jié)點(diǎn)上,每個(gè)節(jié)點(diǎn)可以管理本地的數(shù)據(jù)應(yīng)用,也可以參與全局?jǐn)?shù)據(jù)應(yīng)用。同時(shí)這些數(shù)據(jù)在邏輯上形成一個(gè)整體,由統(tǒng)一的數(shù)據(jù)庫管理系統(tǒng)進(jìn)行管理。相關(guān)產(chǎn)品主要包括:HBase、OceanBase、BigTable等數(shù)據(jù)庫。以HBase數(shù)據(jù)庫為例,HBase是一個(gè)高可靠、高性能、面向列、可伸縮、開源的分布式數(shù)據(jù)庫,主要用來存儲(chǔ)非結(jié)構(gòu)化和半結(jié)構(gòu)化的松散數(shù)據(jù),設(shè)計(jì)它的目的就是用于處理非常龐大的表——通過水平擴(kuò)展的方式,用計(jì)算機(jī)集群就可以處理由超過10億行數(shù)據(jù)和數(shù)百萬列元素所組成的數(shù)據(jù)表。

因此,需要一種基于多庫分離、分布式部署的數(shù)據(jù)架構(gòu)支撐檔案管理系統(tǒng)的建設(shè)。相較于傳統(tǒng)關(guān)系型數(shù)據(jù)庫,應(yīng)用HBase分布式數(shù)據(jù)庫和Elasticsearch搜索引擎技術(shù),可以有效解決海量電子檔案的保存和利用。

2 檔案管理系統(tǒng)架構(gòu)設(shè)計(jì)

2.1 五庫分離架構(gòu)設(shè)計(jì)

為徹底解決單一數(shù)據(jù)庫架構(gòu)造成的問題,提高系統(tǒng)性能,集團(tuán)開始建設(shè)電子檔案管理系統(tǒng)2.0,新系統(tǒng)規(guī)劃6個(gè)子系統(tǒng),系統(tǒng)服務(wù)全部基于微服務(wù)架構(gòu),數(shù)據(jù)架構(gòu)采取五庫分離架構(gòu),根據(jù)子系統(tǒng)功能定位,將數(shù)據(jù)分別存放于5個(gè)不同類型數(shù)據(jù)庫:預(yù)歸檔庫、管理庫、利用庫、長期保存庫、銷毀庫(見圖1)。

圖1:功能架構(gòu)圖

根據(jù)電子文件歸檔與電子檔案管理流程,歸檔電子文件在進(jìn)入電子文件接收系統(tǒng)、綜合檔案管理系統(tǒng)預(yù)歸檔庫后,檔案數(shù)據(jù)保存在預(yù)歸檔庫;歸檔電子文件移交歸檔后,檔案數(shù)據(jù)轉(zhuǎn)移到綜合檔案管理系統(tǒng)的管理庫,同時(shí)根據(jù)需要復(fù)制一份數(shù)據(jù)到檔案利用系統(tǒng)的利用庫;管理庫中有長期保存價(jià)值的數(shù)據(jù)根據(jù)需要備份到長期保存系統(tǒng),電子檔案元數(shù)據(jù)保存在長期保存庫;電子檔案經(jīng)鑒定銷毀審批流程,電子檔案原文和長期保存信息包徹底刪除,電子檔案元數(shù)據(jù)從管理庫、利用庫、長期保存庫轉(zhuǎn)移到銷毀庫,并作為銷毀記錄永久保存。

將已完成收集整理的數(shù)據(jù)轉(zhuǎn)移到管理庫,可以有效避免經(jīng)過多年積累的預(yù)歸檔庫數(shù)據(jù)量急劇膨脹,保障預(yù)歸檔庫收集整理電子文件的性能、穩(wěn)定性。預(yù)歸檔庫僅用于保存上年度待收集整理數(shù)據(jù),數(shù)據(jù)量可以始終維持在較低水平,從而確保電子文件接收系統(tǒng)、綜合檔案管理系統(tǒng)收集整理功能的高可用、高并發(fā)、高性能、快速響應(yīng)。

2.2 架構(gòu)設(shè)計(jì)特點(diǎn)

由于傳統(tǒng)關(guān)系型數(shù)據(jù)庫和分布式數(shù)據(jù)庫各有優(yōu)勢與不足,集團(tuán)電子檔案管理系統(tǒng)“五庫”通過“分庫+并用”方式建設(shè),充分發(fā)揮兩者所長。根據(jù)檔案業(yè)務(wù)特點(diǎn),以及不同類型數(shù)據(jù)庫所支持的最大數(shù)據(jù)量,預(yù)歸檔庫使用Oracle關(guān)系型數(shù)據(jù)庫,管理庫、利用庫、長期保存庫、銷毀庫使用HBase分布式數(shù)據(jù)庫(見圖2)。

圖2:數(shù)據(jù)架構(gòu)圖

2.2.1 保障預(yù)歸檔工作需求

由于預(yù)歸檔工作需要集中維護(hù)、整理電子檔案,本架構(gòu)可利用關(guān)系型數(shù)據(jù)庫滿足預(yù)歸檔需求。一是基于數(shù)據(jù)庫特點(diǎn),易于維護(hù)及訪問預(yù)歸檔數(shù)據(jù);二是通過數(shù)據(jù)庫的權(quán)限分配和管理,保障預(yù)歸檔數(shù)據(jù)的安全性;三是數(shù)據(jù)庫可依據(jù)業(yè)務(wù)需求及時(shí)開通所需資源,無需在業(yè)務(wù)初期采購高成本硬件,有效減少初期的資產(chǎn)投入及避免資源閑置浪費(fèi);四是數(shù)據(jù)庫可提供快速高效的事務(wù)處理能力,輕松應(yīng)對(duì)高并發(fā)、大規(guī)模預(yù)歸檔數(shù)據(jù)處理需求。

2.2.2 提升海量數(shù)據(jù)檢索能力

通過結(jié)合主流的搜索引擎Elasticsearch和基于HDFS的HBase分布式數(shù)據(jù)庫對(duì)“四庫”建設(shè),滿足了檔案業(yè)務(wù)數(shù)據(jù)持續(xù)增長的需要,檔案管理系統(tǒng)可支撐十億、百億級(jí)條目數(shù)據(jù)記錄檢索和電子全文檢索。前者提供友好的Rest API,原生支持集群部署,后者是一個(gè)多分區(qū)、列式存儲(chǔ)的海量存儲(chǔ)數(shù)據(jù)庫,通過Rowkey可以快速地查詢出對(duì)應(yīng)的數(shù)據(jù)記錄。創(chuàng)建基于ES的HBase二級(jí)索引(見圖3),在HBase上存儲(chǔ)數(shù)據(jù)記錄,使用Elasticsearch做數(shù)據(jù)記錄的二級(jí)索引,按照檢索內(nèi)容查詢到數(shù)據(jù)記錄對(duì)應(yīng)的Rowkey后,再從HBase上檢索完整的原數(shù)據(jù)記錄。通過結(jié)合Elasticsearch全文檢索的能力和HBase的單記錄快速檢索,可以實(shí)現(xiàn)檔案電子全文的快速檢索和檔案條目數(shù)據(jù)的海量存儲(chǔ)。

圖3:基于ES的HBase二級(jí)索引方案

2.2.3 突破數(shù)據(jù)庫瓶頸

Elasticsearch和HBase均具有原生的支持集群的橫向擴(kuò)展,當(dāng)集群因數(shù)據(jù)量上升帶來性能瓶頸時(shí),可以通過添加集群節(jié)點(diǎn)來實(shí)現(xiàn)計(jì)算資源的擴(kuò)容,實(shí)現(xiàn)性能的提升。

2.2.4 保障檔案數(shù)據(jù)安全

在數(shù)據(jù)存儲(chǔ)方面,Elasticsearch和HBase這兩項(xiàng)技術(shù)都自帶數(shù)據(jù)副本的能力,在少數(shù)節(jié)點(diǎn)掉線或者硬件損壞的情況下,并不會(huì)導(dǎo)致數(shù)據(jù)的丟失,對(duì)檔案數(shù)據(jù)的保存也提供很好的安全保障。在數(shù)據(jù)權(quán)限查詢方面,涉及用戶數(shù)據(jù)權(quán)限查詢的屬性字段一并放到Elasticsearch和HBase上存儲(chǔ),在檢索前對(duì)用戶數(shù)據(jù)權(quán)限字段的值進(jìn)行提取(例如:通過用戶角色反向解析出用戶擁有的權(quán)限過濾字段的值),再把值傳入Elasticsearch進(jìn)行檢索,實(shí)現(xiàn)帶數(shù)據(jù)權(quán)限檢索的能力,對(duì)檔案利用提供了安全保障。

2.3 五庫分離架構(gòu)驗(yàn)證結(jié)果

該設(shè)計(jì)首先完成了前期的調(diào)研和開發(fā)環(huán)境代碼驗(yàn)證,隨后在生產(chǎn)環(huán)境標(biāo)準(zhǔn)配置的集群進(jìn)行實(shí)測和調(diào)優(yōu)。在測試環(huán)境2C 8G 3節(jié)點(diǎn)ES集群下測試結(jié)果寫入吞吐量達(dá)到30000+docs/s,默認(rèn)查詢(所有文檔score 為1)耗時(shí)在170ms內(nèi)返回結(jié)果,term規(guī)則查詢在55ms內(nèi)返回結(jié)果,phrase規(guī)則下的查詢最差在2662ms返回了查詢結(jié)果。測試環(huán)境HBase的數(shù)據(jù)存儲(chǔ)容量達(dá)到億級(jí),請求速度是毫秒級(jí)。

綜上所示,此架構(gòu)可充分滿足企業(yè)集團(tuán)對(duì)海量電子檔案在收集、保管、利用過程中數(shù)據(jù)庫響應(yīng)速度的要求,可有效解決數(shù)據(jù)庫瓶頸,確保檔案管理系統(tǒng)高可用、高并發(fā)、高性能、快速響應(yīng)。

3 成果簡析

基于五庫分離架構(gòu)的檔案管理系統(tǒng)設(shè)計(jì)對(duì)于企業(yè)集團(tuán)檔案信息化建設(shè)具有積極的推動(dòng)作用和顯著的經(jīng)濟(jì)效益,有效滿足企業(yè)集團(tuán)數(shù)字檔案館建設(shè)需求。

3.1 適應(yīng)大數(shù)據(jù)時(shí)代發(fā)展,提升檔案信息資源價(jià)值。本架構(gòu)可以存儲(chǔ)十億、百億級(jí)檔案數(shù)據(jù),運(yùn)用大數(shù)據(jù)解決方案分析各種不同來源的結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),全面提升檔案信息資源價(jià)值。

3.2 支撐容量巨大。HBase數(shù)據(jù)庫的單表可以有百億行、百萬列,縱向和橫向支持的數(shù)據(jù)量級(jí)都非常有彈性,分布式數(shù)據(jù)庫采用橫向擴(kuò)展思路,可以實(shí)現(xiàn)無限水平擴(kuò)展,海量數(shù)據(jù)可以使用一定的分片策略分散到不同的服務(wù)器。集團(tuán)下屬企業(yè)3000余家,核心業(yè)務(wù)系統(tǒng)約3000個(gè),采用分布式數(shù)據(jù)庫可以滿足各類業(yè)務(wù)系統(tǒng)海量數(shù)據(jù)的歸檔和存儲(chǔ)需求。

3.3 擴(kuò)展性強(qiáng)。分布式數(shù)據(jù)庫去掉關(guān)系型數(shù)據(jù)庫的關(guān)系特征,數(shù)據(jù)之間弱關(guān)系,橫向擴(kuò)展性能非常優(yōu)越,容易實(shí)現(xiàn)支撐數(shù)據(jù)從TB到PB級(jí)別的過渡。同時(shí),分布式數(shù)據(jù)庫支持熱擴(kuò)展,可以在不停止現(xiàn)有服務(wù)的前提下,可以隨時(shí)添加或減少節(jié)點(diǎn)。

3.4 系統(tǒng)性能大幅提高。分布式數(shù)據(jù)庫可以通過并行處理和負(fù)載均衡來提高性能,由于數(shù)據(jù)分散在不同的節(jié)點(diǎn)上,系統(tǒng)可以同時(shí)處理多個(gè)請求,從而加快數(shù)據(jù)的訪問和處理速度。

3.5 降低部署成本。與傳統(tǒng)關(guān)系型數(shù)據(jù)庫不同,分布式數(shù)據(jù)庫對(duì)計(jì)算機(jī)系統(tǒng)的性能要求大大降低,可以使用普通的PC服務(wù)器,硬件成本極大降低,同時(shí),Hbase為開源數(shù)據(jù)庫,免除了高昂的數(shù)據(jù)庫許可費(fèi)用。

3.6 充分應(yīng)用新技術(shù)。使用多庫分離設(shè)計(jì),不同電子檔案庫可以根據(jù)業(yè)務(wù)場景使用不同類型數(shù)據(jù)庫,充分發(fā)揮不同類型數(shù)據(jù)庫優(yōu)點(diǎn)、避免缺點(diǎn),有效應(yīng)用最新信息技術(shù),同時(shí),可以減輕、分散單一數(shù)據(jù)庫承擔(dān)的數(shù)據(jù)讀寫壓力,實(shí)現(xiàn)讀寫分離。

3.7 提高檔案管理系統(tǒng)安全性。不同類型用戶、不同網(wǎng)絡(luò)用戶共同訪問單一數(shù)據(jù)庫,存在較高的數(shù)字安全風(fēng)險(xiǎn)。采取五庫分離架構(gòu)后,檔案管理人員、系統(tǒng)管理員、檔案利用者可以分別訪問和操作不同的數(shù)據(jù)庫,極大地提高檔案數(shù)據(jù)安全性,防范檔案信息泄露。例如:外網(wǎng)用戶可以通過互聯(lián)網(wǎng)訪問檔案利用系統(tǒng),數(shù)據(jù)訪問范圍僅限于利用庫數(shù)據(jù),避免接觸到企業(yè)內(nèi)網(wǎng)的其他四庫數(shù)據(jù)。

3.8 滿足企業(yè)集團(tuán)數(shù)字檔案館建設(shè)要求,實(shí)現(xiàn)數(shù)據(jù)互聯(lián)互通。國家檔案局持續(xù)推動(dòng)中央企業(yè)建設(shè)企業(yè)集團(tuán)數(shù)字檔案館,驗(yàn)收標(biāo)準(zhǔn)之一就是要求企業(yè)集團(tuán)總部與下屬企業(yè)數(shù)字檔案室實(shí)現(xiàn)互聯(lián)互通,由于采用五庫分離架構(gòu),下屬企業(yè)已歸檔數(shù)據(jù)全部保存在檔案利用系統(tǒng)的利用庫,從而實(shí)現(xiàn)企業(yè)集團(tuán)內(nèi)部各類檔案數(shù)據(jù)的互聯(lián)互通,共享企業(yè)集團(tuán)檔案信息資源。

3.9 滿足集中部署需求,切實(shí)為企業(yè)降本增效。通過五庫分離架構(gòu),徹底解決數(shù)據(jù)庫瓶頸,滿足了企業(yè)集團(tuán)檔案管理系統(tǒng)“統(tǒng)一建設(shè)、集中部署”的需求,避免下屬企業(yè)分別建設(shè)、部署帶來的各種問題,極大地降低檔案管理系統(tǒng)建設(shè)和推廣成本,切實(shí)為企業(yè)降本增效。由于系統(tǒng)功能完善、性能較高,集團(tuán)下屬企業(yè)積極開展系統(tǒng)上線工作,目前已有1500個(gè)全宗正式上線運(yùn)行,本架構(gòu)有效滿足了企業(yè)集團(tuán)高并發(fā)、高效檢索的需求。

猜你喜歡
數(shù)據(jù)庫
數(shù)據(jù)庫
數(shù)據(jù)庫
兩種新的非確定數(shù)據(jù)庫上的Top-K查詢
數(shù)據(jù)庫
數(shù)據(jù)庫
數(shù)據(jù)庫
數(shù)據(jù)庫
數(shù)據(jù)庫
數(shù)據(jù)庫
數(shù)據(jù)庫
主站蜘蛛池模板: 久草热视频在线| 激情视频综合网| 无码福利视频| 欧美精品另类| 国产麻豆永久视频| 亚洲区第一页| 亚洲AⅤ无码日韩AV无码网站| 精品日韩亚洲欧美高清a| 最新国产成人剧情在线播放| 久久国产香蕉| 欧美不卡二区| 免费欧美一级| 丝袜亚洲综合| 亚洲视频四区| 中国国产A一级毛片| 综合色区亚洲熟妇在线| 久久www视频| 丁香五月激情图片| 国产精品美女自慰喷水| 国产青青操| 日韩中文精品亚洲第三区| 国产一二视频| 亚洲国产成熟视频在线多多| a级毛片网| 日本91视频| 第九色区aⅴ天堂久久香| 久久久国产精品免费视频| 精品国产成人高清在线| 久久久久久尹人网香蕉| 国产毛片一区| 国产精品不卡永久免费| 久久一级电影| 曰AV在线无码| 成人免费一级片| 五月天久久综合国产一区二区| 国产丰满大乳无码免费播放| 国产黄色免费看| 国产精品免费p区| 日韩福利在线观看| 久久国产亚洲偷自| 色综合久久无码网| 精品视频一区二区观看| 激情综合激情| 亚洲第一香蕉视频| 97精品国产高清久久久久蜜芽| 亚洲日本中文字幕乱码中文| 国产麻豆另类AV| 日本成人精品视频| 国产精品国产主播在线观看| 精品一區二區久久久久久久網站| 日韩毛片在线视频| YW尤物AV无码国产在线观看| 91在线播放免费不卡无毒| 免费国产好深啊好涨好硬视频| 中文无码伦av中文字幕| 午夜影院a级片| 日韩精品久久无码中文字幕色欲| 一区二区影院| 91成人免费观看| 五月婷婷精品| 久久久久亚洲Av片无码观看| 中文字幕av无码不卡免费| 免费毛片a| 深夜福利视频一区二区| 久久情精品国产品免费| 99视频精品在线观看| 国产一区二区影院| 亚洲 欧美 偷自乱 图片| 亚洲成人精品久久| 白丝美女办公室高潮喷水视频| 国产拍在线| 久久久久无码国产精品不卡| 午夜毛片免费观看视频 | 亚洲精品综合一二三区在线| 亚洲va视频| 99久久精品免费看国产免费软件| 国产精品永久在线| 精品无码国产一区二区三区AV| 国产综合欧美| 亚洲国产成人麻豆精品| 国产精品区网红主播在线观看| 中文字幕在线欧美|