摘 要:為提高企業(yè)電子文檔的集中化管理的效率,本文基于知識(shí)管理的理念,提出了一個(gè)基于云服務(wù)的企業(yè)文庫管理平臺(tái)設(shè)計(jì)方案。該方案采用搜索引擎、非結(jié)構(gòu)化數(shù)據(jù)管理和分布式處理等技術(shù),以及相應(yīng)的硬件設(shè)施來實(shí)現(xiàn)企業(yè)文庫云存儲(chǔ),結(jié)合一定的安全控制和智能檢索機(jī)制,有效實(shí)現(xiàn)企業(yè)電子文檔的一體化、多層次、多方位的共享協(xié)作。經(jīng)綜合調(diào)研論證,該方案將能夠較好整合企業(yè)內(nèi)部文檔資源,從而提高企業(yè)電子文檔的管理和服務(wù)效率。
關(guān)鍵詞:企業(yè)文庫;云服務(wù);云存儲(chǔ)
1 問題的提出
在信息時(shí)代,電子文檔已成為公司最重要的信息載體之一。現(xiàn)代企業(yè),特別是集團(tuán)化公司的日常業(yè)務(wù)與辦公過程中每天都會(huì)產(chǎn)生大量的各類不同格式和形式的電子文檔(doc、xls、ppt、pdf、txt等),內(nèi)容涉及企業(yè)管理過程、產(chǎn)品和技術(shù)研發(fā)、市場(chǎng)宣傳等不同方面的文檔,如公司制度、會(huì)議記錄、產(chǎn)品手冊(cè)、客戶資料、設(shè)計(jì)文檔、推廣文案、培訓(xùn)材料、項(xiàng)目文檔等;這些文檔來源也多種多樣,如員工撰寫、傳真機(jī)、掃描儀以及網(wǎng)絡(luò)文檔和電子郵件等等。
這些文檔通過是粗放式管理,分散存儲(chǔ)在各部分服務(wù)器或員工個(gè)人電腦中,日積月累,很多有價(jià)值的文檔無從查閱,在企業(yè)化溝通和管理過程中引發(fā)各種問題。常見文檔管理問題如下表所示:
2 基于云服務(wù)的企業(yè)文庫平臺(tái)的設(shè)計(jì)
針對(duì)上述問題,通過分析常見的文檔管理需求和云計(jì)算技術(shù)特點(diǎn),本文提出基于云服務(wù)構(gòu)建企業(yè)文庫平臺(tái),該平臺(tái)利用云存儲(chǔ)和云服務(wù)實(shí)現(xiàn)企業(yè)電子文檔的集中式管理,在企業(yè)電子文檔的安全控制和智能檢索的支持下,能夠充分地實(shí)現(xiàn)各類文檔的共享協(xié)作,旨在有效減少企業(yè)設(shè)備、時(shí)間、人力成本的浪費(fèi),并在一定程度提高企業(yè)文檔管理水平和服務(wù)效率。
2.1 企業(yè)文庫平臺(tái)的系統(tǒng)架構(gòu)
2.2 系統(tǒng)層次結(jié)構(gòu)
結(jié)合上述需求分析和WEB系統(tǒng)特點(diǎn),整個(gè)系統(tǒng)分三層:應(yīng)用層、基礎(chǔ)服務(wù)層、系統(tǒng)層。層與層之間功能相對(duì)獨(dú)立,便于系統(tǒng)平臺(tái)的擴(kuò)展和維護(hù)。
2.2.1 應(yīng)用層
應(yīng)用層以文檔協(xié)作門戶為主要入口提供文檔存儲(chǔ)-文檔管理-文檔檢索-安全控制-統(tǒng)計(jì)分析等功能,面向企業(yè)文庫用戶提供全方位、多層次、一站式的文檔服務(wù)功能:
(1)文檔協(xié)作門戶:提供企業(yè)用戶訪問系統(tǒng)的主要界面,用于進(jìn)行日常的文檔協(xié)作和信息的發(fā)布,具有身份認(rèn)證、界面友好、易于操作的特色。(2)文檔管理:提供文檔的在線發(fā)布、在線預(yù)覽的功能,并且文檔之間能相互關(guān)聯(lián),用戶可以評(píng)注和查閱版本等。(3)文檔存儲(chǔ):提供文檔目錄分類、樹狀瀏覽方式、回收站管理和歸檔等應(yīng)用。(4)文檔檢索:提供給用戶全文檢索、按屬性檢索和對(duì)屬性元數(shù)據(jù)進(jìn)行管理或擴(kuò)展的能力,方便用戶不斷擴(kuò)展的文檔管理需求。(5)文檔安全管理:同時(shí)具有對(duì)文檔庫、文件夾的權(quán)限控制和單獨(dú)文檔的訪問授權(quán),通過數(shù)字版權(quán)管理控制對(duì)文檔的打印和復(fù)制,并具備文檔有效時(shí)間和電子簽章的能力,有效的控制了文檔的安全和保密。(6)其他輔助功能:提供文檔協(xié)作的相關(guān)輔助功能如消息通知、統(tǒng)計(jì)分析報(bào)表和非結(jié)構(gòu)化數(shù)據(jù)管理等,擴(kuò)展平臺(tái)的功能應(yīng)用。
2.2.2 基礎(chǔ)服務(wù)層
基礎(chǔ)服務(wù)層主要從存儲(chǔ)、安全、流程、檢索、擴(kuò)展等五個(gè)主要方面提高企業(yè)內(nèi)部電子文檔的服務(wù)效率:
(1)存儲(chǔ)服務(wù):提供高效、穩(wěn)定的存儲(chǔ)引擎,保證文檔存儲(chǔ)的可靠性。(2)安全性服務(wù):具備標(biāo)準(zhǔn)安全控制和強(qiáng)安全控制能力;系統(tǒng)管理員通過設(shè)置角色和權(quán)限模板,簡化安全管理的復(fù)雜度,最大程度保證文檔的安全。(3)流程服務(wù):流程引擎提供了圖形化的流程設(shè)計(jì)界面,方便文檔管理員和系統(tǒng)管理員定義和修改,適應(yīng)企業(yè)不斷變化的管理流程,并提供了監(jiān)控工具和擴(kuò)展接口。(4)管理服務(wù):對(duì)整個(gè)文檔庫和文檔Web站點(diǎn)進(jìn)行統(tǒng)一管理,通過圖形化的界面對(duì)文檔使用進(jìn)行審核、跟蹤和日志查看,也提供備份和恢復(fù)的功能。(5)搜索:搜索引擎提供全文檢索和屬性檢索需要的索引建立和更新,并具備搜索任務(wù)調(diào)度的能力,提高搜索的準(zhǔn)確性和效率。(6)擴(kuò)展服務(wù):通過提供系統(tǒng)的對(duì)象模型、接口方法、Web Service標(biāo)準(zhǔn)對(duì)系統(tǒng)進(jìn)行擴(kuò)展,通過事件觸發(fā)機(jī)制,響應(yīng)外部其他相關(guān)系統(tǒng)的訪問請(qǐng)求,為系統(tǒng)間的整合提供了靈活、良好的工具。
2.2.3 系統(tǒng)層
如前所述,文檔內(nèi)容和形式包羅萬象。如何提煉每份文檔的關(guān)鍵信息對(duì)于文檔庫的利用效率至關(guān)重要。本文提出針對(duì)各類文檔進(jìn)行元數(shù)據(jù)設(shè)計(jì),把數(shù)據(jù)向知識(shí)轉(zhuǎn)化,科學(xué)有效地組織資源。元數(shù)據(jù)是描述流程、信息和對(duì)象的數(shù)據(jù),這些數(shù)據(jù)一般指數(shù)據(jù)屬性,如結(jié)構(gòu)和行為、特征、業(yè)務(wù)定義,以及包括字典、分類法和操作特征等。合理的元數(shù)據(jù)設(shè)計(jì)為數(shù)據(jù)的檢索和分類充當(dāng)路標(biāo),從而能夠?qū)@些數(shù)據(jù)進(jìn)行高效地管理、控制和分發(fā)。
為了促進(jìn)文檔庫系統(tǒng)的有效運(yùn)用,通過系統(tǒng)去分析部門的文檔規(guī)范、數(shù)據(jù)全面性、訪問量等指標(biāo)排名,并抽象出元數(shù)據(jù)模型,并要求各部門在創(chuàng)建企業(yè)文檔內(nèi)容時(shí)嚴(yán)格執(zhí)行元數(shù)據(jù)模型,從而實(shí)現(xiàn)元數(shù)據(jù)對(duì)結(jié)構(gòu)化文檔的管理目標(biāo)。
(2)利用索引文件管理非結(jié)構(gòu)化數(shù)據(jù)
非結(jié)構(gòu)化數(shù)據(jù),它們大多以文件(File)的形式保存。我們建立的文檔庫系統(tǒng),除少數(shù)重要的、且大小很小的文件保存在數(shù)據(jù)庫中,其它的都是以文件形式保存,用技術(shù)手段可以直接對(duì)不同的文檔類型進(jìn)行預(yù)掃描的方法來實(shí)建立中文分詞和索引結(jié)構(gòu),將數(shù)據(jù)分詞和索引保存在關(guān)系數(shù)據(jù)庫中,然后運(yùn)用索引運(yùn)算算法、索引緩沖算法實(shí)現(xiàn)了海量數(shù)據(jù)的高速搜索。
3 系統(tǒng)關(guān)鍵技術(shù)
互聯(lián)網(wǎng)應(yīng)用蓬勃發(fā)展,提供了豐富多彩用戶體驗(yàn),同時(shí)也提出了越來越高的計(jì)算需求。云計(jì)算將計(jì)算任務(wù)分布在大量計(jì)算機(jī)構(gòu)成的資源池上,使各種應(yīng)用系統(tǒng)能夠根據(jù)需要獲取計(jì)算力、存儲(chǔ)空間和各種軟件服務(wù)。這種資源池稱為“云”,云計(jì)算將所有的計(jì)算資源集中起來,并由軟件實(shí)現(xiàn)自動(dòng)管理,無需人為參與。本文中云計(jì)算技術(shù)包括云存儲(chǔ)、云服務(wù)等不同的應(yīng)用形式。
3.1 基于云存儲(chǔ)實(shí)現(xiàn)企業(yè)文庫的集中式管理
企業(yè)文庫包含的文檔既有結(jié)構(gòu)化數(shù)據(jù),又有非結(jié)構(gòu)化數(shù)據(jù)。結(jié)構(gòu)化數(shù)據(jù)通過Oracle來實(shí)現(xiàn)管理維護(hù)。非結(jié)構(gòu)化數(shù)據(jù)無法用數(shù)字或統(tǒng)一的結(jié)構(gòu)來表示,如文本、圖像、視頻、音頻、報(bào)表、網(wǎng)頁等。可有兩種存儲(chǔ)方式:一種是以文件的方式存儲(chǔ),將文件的鏈接或路徑存儲(chǔ)在數(shù)據(jù)表中,這種方式讀寫速度較快,但數(shù)據(jù)管理不方便;另一種是存儲(chǔ)在數(shù)據(jù)表的大對(duì)象字段中,這種方式能利用數(shù)據(jù)庫特性,但在數(shù)據(jù)查詢和讀寫的性能不高。
解決上面兩種方式的缺點(diǎn),利用其所長,最新的非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)技術(shù)在磁盤格式、網(wǎng)絡(luò)協(xié)議、空間管理、重做和撤銷格式、緩沖區(qū)緩存以及智能的I/O子系統(tǒng)等方面發(fā)生重大轉(zhuǎn)變,在保證了文件數(shù)據(jù)的性能的同時(shí),還保留了數(shù)據(jù)庫的優(yōu)勢(shì)。本文提出由Oracle SecureFiles進(jìn)行非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)。
因此可以通過Oracle的一體化部署、訪問和備份機(jī)制實(shí)現(xiàn)企業(yè)文庫中結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)的統(tǒng)一集中式管理,包括統(tǒng)一部署、統(tǒng)一訪問、統(tǒng)一備份。
3.2 基于云服務(wù)的企業(yè)文庫共享協(xié)作
文檔庫以云服務(wù)技術(shù)集中管理個(gè)人文檔及部門內(nèi)的制度規(guī)范、工作流程、培訓(xùn)資料、案例經(jīng)驗(yàn)、各項(xiàng)專題等,從而強(qiáng)化個(gè)人和部門文檔規(guī)范,實(shí)現(xiàn)資源的層次化管理和共享。
(1)文檔所屬范圍和權(quán)限劃分:文檔庫按管理范圍分為個(gè)人文檔庫、部門文檔庫和公司文檔庫,個(gè)人可以發(fā)布只限自己瀏覽的文檔,也可以設(shè)置屬性或直接發(fā)布?xì)w屬部門的文檔。文檔根據(jù)權(quán)限分為公眾文檔和限制文檔,公眾文檔是公司所有人可以瀏覽,其來源是由個(gè)人文檔或部門文檔進(jìn)行相應(yīng)屬性設(shè)置;限制文檔是指設(shè)置了訪問權(quán)限的文檔,其來源由部門管理員對(duì)部門對(duì)部門屬性進(jìn)行設(shè)置。
(2)文檔自由組織與管理:公司協(xié)作所需的全部文檔均可放心的存入文檔庫中,采用標(biāo)簽?zāi)J竭M(jìn)行多維度自由分類,由公司相關(guān)成員共同編寫和整理,合作更高效。
(3)高效溝通與協(xié)作:文檔中內(nèi)容的每次變更,都會(huì)實(shí)時(shí)呈現(xiàn)和留下痕跡,主要有關(guān)注某個(gè)成員,了解他的所有動(dòng)態(tài),包括他何時(shí)新建或修改了哪篇文檔;關(guān)注某個(gè)文檔,當(dāng)有人修改它時(shí),會(huì)為相關(guān)人員推送提醒消息;對(duì)認(rèn)為有用的文檔分享給同事,還可以附上幾句評(píng)論或展開討論。
(4)隨時(shí)隨地移動(dòng)工作:平臺(tái)應(yīng)提供Andriod、iPhone手機(jī)和平板客戶端,可以保證公司內(nèi)部成員隨時(shí)隨地投入工作。只要有網(wǎng)絡(luò)的地方,就可以與公司內(nèi)部保持連接,工作協(xié)作不再受異地的困擾。
3.3 運(yùn)用搜索引擎實(shí)現(xiàn)全文檢索
由于在搜索之前就已經(jīng)生成了搜索結(jié)果,所以在搜索時(shí)系統(tǒng)只需要做簡單的合并處理,從而實(shí)現(xiàn)了高速搜索;由于可以通過對(duì)中間結(jié)果進(jìn)行不同的合并而得到不同的搜索效果,這提高了搜索的靈活度,再通過科學(xué)的合并算法可提高搜索的準(zhǔn)確度。系統(tǒng)將采用開源的lucence引擎執(zhí)行全文檢索工作。
3.4 數(shù)據(jù)挖掘-智能關(guān)聯(lián)和聚類方法
關(guān)聯(lián)分析即發(fā)現(xiàn)關(guān)聯(lián)規(guī)則,是數(shù)據(jù)挖掘的重要功能,也是文檔分類的重要手段。關(guān)聯(lián)規(guī)則有很多種分類,基于不同的屬性劃分,有布爾型和數(shù)值型,有單層關(guān)聯(lián)規(guī)則和多層關(guān)聯(lián)規(guī)則,有單維關(guān)聯(lián)規(guī)則和多維關(guān)聯(lián)規(guī)則。利用關(guān)聯(lián)規(guī)則對(duì)大量的文件內(nèi)容進(jìn)行分析,獲得各類數(shù)據(jù)之間的關(guān)聯(lián),為文件類型、文件關(guān)鍵信息提供分析依據(jù)。
文檔聚類主要是依據(jù)著名的聚類假設(shè),即同類的文檔相似度較大,而不同類的文檔相似度較小。聚類不需要預(yù)先對(duì)文檔手工標(biāo)注類別,具有一定的靈活性和較高的自動(dòng)化處理能力,是對(duì)文本信息進(jìn)行有效地組織、摘要和導(dǎo)航的重要手段。文檔聚類應(yīng)用主要對(duì)搜索引擎返回的結(jié)果進(jìn)行聚類、對(duì)用戶感興趣的文檔聚類,對(duì)文本分類的結(jié)果和用戶提出查詢記錄進(jìn)行聚類等。
4 結(jié)束語
基于云服務(wù)的企業(yè)文庫管理平臺(tái)利用云存儲(chǔ)和云服務(wù)的模式,建立了一個(gè)以企業(yè)文庫管理數(shù)據(jù)中心,實(shí)現(xiàn)企業(yè)電子文檔的安全控制和智能檢索,實(shí)現(xiàn)多方位的共享協(xié)作來提高工作效率,一方面集中式管理,減少電子文檔匯總和傳遞的繁瑣過程,強(qiáng)化信息意識(shí)和提高企業(yè)管理水平,另一方面實(shí)現(xiàn)了有效處理個(gè)人文庫、部門文庫和企業(yè)文庫的關(guān)系,促進(jìn)平臺(tái)的知識(shí)積累、共享、利用和創(chuàng)新,對(duì)企業(yè),特別是集團(tuán)化企業(yè)具有較高的實(shí)用價(jià)值。
參考文獻(xiàn)
[1]劉邦凡,張婷婷.論基于云服務(wù)的G2C電子政務(wù)[J].安徽電子信息職業(yè)技術(shù)學(xué)院學(xué)報(bào),2012(5).
[2]顧穎,杜葵,謝華.基于“云服務(wù)”模式的電子政務(wù)集成應(yīng)用平臺(tái)[J].信息化建設(shè),2012(12):33-35.
[3]田超.同步盤牽手阿里云構(gòu)建企業(yè)文檔管理利器[EB/OL].http://ww
w.programmer.com.cn/15107.
[4]金麗娜.基于云服務(wù)的圖書館信息檢索服務(wù)的研究[J].現(xiàn)代情報(bào),2010(3):61-63.
[5]李艷華.云計(jì)算技術(shù)研究現(xiàn)狀綜述[J].電腦知識(shí)與技術(shù),2009,5(22):6314-63l5.