999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

電子資源海量訪問(wèn)行為的采集優(yōu)化研究

2017-08-12 12:22:06宋惠鶯姚思勤章民融
關(guān)鍵詞:數(shù)據(jù)庫(kù)優(yōu)化資源

宋惠鶯 姚思勤 章民融

1(上海復(fù)旦光華信息科技股份有限公司 上海 200433) 2(上海市計(jì)算技術(shù)研究所 上海 200040)

?

電子資源海量訪問(wèn)行為的采集優(yōu)化研究

宋惠鶯1姚思勤1章民融2

1(上海復(fù)旦光華信息科技股份有限公司 上海 200433)2(上海市計(jì)算技術(shù)研究所 上海 200040)

隨著電子資源在高校圖書(shū)館中的普及,復(fù)雜多樣的電子資源數(shù)據(jù)給訪問(wèn)跟蹤和數(shù)據(jù)挖掘帶來(lái)了日益嚴(yán)峻的挑戰(zhàn)。為了從海量的電子資源訪問(wèn)數(shù)據(jù)中更快和更好地進(jìn)行行為分析和數(shù)據(jù)挖掘,基于復(fù)旦光華的ERU系統(tǒng)和其在復(fù)旦大學(xué)圖書(shū)館的歷年運(yùn)行結(jié)果,重點(diǎn)闡述了在海量數(shù)據(jù)采集分析中的各個(gè)優(yōu)化步驟和手段,特別是原始數(shù)據(jù)清洗或過(guò)濾和數(shù)據(jù)庫(kù)優(yōu)化。通過(guò)介紹的優(yōu)化方案,復(fù)旦大學(xué)現(xiàn)場(chǎng)實(shí)現(xiàn)了高性價(jià)比的采集分析方案。該方法不但可以應(yīng)用在圖書(shū)館中電子資源,而且對(duì)其他的海量數(shù)據(jù)處理有著較好的借鑒性。

電子資源 用戶信息行為 ERU 大學(xué)圖書(shū)館

0 引 言

近年來(lái)隨著信息技術(shù)在圖書(shū)館中應(yīng)用規(guī)模持續(xù)擴(kuò)大,特別是電子資源訪問(wèn)的爆炸性增長(zhǎng),校園網(wǎng)傳輸?shù)臄?shù)字資源信息呈現(xiàn)總量劇增、種類(lèi)繁雜、并發(fā)加大和突發(fā)性操作頻繁等特征。面對(duì)如此大數(shù)據(jù)規(guī)模,對(duì)現(xiàn)有電子資源訪問(wèn)行為追蹤系統(tǒng)提出了極高的要求。

如圖1所示,國(guó)內(nèi)各高校在2009年-2015年中,在電子資源方面的投入逐年提高。圖中數(shù)量代表各校平均采購(gòu)量。國(guó)內(nèi)各高校的紙質(zhì)資源采購(gòu)已出現(xiàn)逐年下降趨勢(shì),而相應(yīng)的電子資源采購(gòu)金額在2015年已經(jīng)和傳統(tǒng)紙質(zhì)采購(gòu)基本持平。可以預(yù)計(jì)在未來(lái)的幾年中,電子資源采購(gòu)必然會(huì)超過(guò)傳統(tǒng)紙質(zhì)采購(gòu)。

圖1 電子資源于紙質(zhì)書(shū)本采購(gòu)量

而隨著互聯(lián)網(wǎng)的普及,人民閱讀習(xí)慣的改變,對(duì)應(yīng)的電子資源的訪問(wèn)量也在逐年增長(zhǎng)。如圖2所示,某高校電子資源的訪問(wèn)量呈幾何級(jí)的增長(zhǎng)。

圖2 高校電子資源訪問(wèn)量

隨著訪問(wèn)量的逐年提高,原有的系統(tǒng)也需要進(jìn)行更新,以應(yīng)對(duì)更大的數(shù)據(jù)采集量后的處理,以備后期的統(tǒng)計(jì)和分析。

1 研究目的

通過(guò)網(wǎng)絡(luò)中獲取到訪問(wèn)電子資源的方式,是最為客觀和準(zhǔn)確的采集方式。但是由此帶來(lái)的問(wèn)題是,每個(gè)學(xué)校每天產(chǎn)生的網(wǎng)絡(luò)數(shù)據(jù)達(dá)到T級(jí),如果要從這海量的數(shù)據(jù)中精準(zhǔn)獲取到訪問(wèn)電子資源的數(shù)據(jù),并且做到不遺漏以保證統(tǒng)計(jì)分析的準(zhǔn)確性,是需要做大量的技術(shù)攻關(guān)研究的。本文采用大量的壓力測(cè)試和集成測(cè)試,模擬海量數(shù)據(jù)流的測(cè)試方式,驗(yàn)證了幾種優(yōu)化手段集合使用的效果。

2 計(jì)算方式

本文以高校圖書(shū)館為例,闡述在校園網(wǎng)內(nèi)電子資源訪問(wèn)的采集優(yōu)化研究。

現(xiàn)有電子資源訪問(wèn)系統(tǒng)分為兩類(lèi):旁路采集和集中代理兩種方式。無(wú)論哪種方式,依靠單一高性能計(jì)算機(jī)不是一種可行的、性價(jià)比較好的方案。所以采用分布式計(jì)算方式將是一個(gè)效用可行的方案,并且保持良好的擴(kuò)展性

ERU將數(shù)據(jù)采集處理分在兩個(gè)計(jì)算單元:采集工控機(jī)和數(shù)據(jù)分析服務(wù)器上,采集工控機(jī)主要針對(duì)數(shù)據(jù)清洗和過(guò)濾,而數(shù)據(jù)分析服務(wù)器主要處理特征匹配。將電子資源采集處理中的高CPU消耗和高內(nèi)存消耗放在了兩個(gè)不同的計(jì)算單元中,提供了較好的整體系統(tǒng)效能。

3 硬件性能

對(duì)于海量數(shù)據(jù)的處理,硬件性能是個(gè)繞不開(kāi)的問(wèn)題。CPU的核數(shù)、單核主頻、內(nèi)存讀寫(xiě)速度、內(nèi)存大小、I/O總線背寬、磁盤(pán)讀寫(xiě)速度都會(huì)成為制約大數(shù)據(jù)處理的瓶頸。但由于數(shù)據(jù)量的指數(shù)增加遠(yuǎn)遠(yuǎn)領(lǐng)先于硬件性能的更新和事實(shí)上的成本要求,所以追求較好性價(jià)比成為了唯一的選擇。

由于圖書(shū)館用戶訪問(wèn)行為大多以文本方式存在,所以應(yīng)將性能提高的優(yōu)先次序定為內(nèi)存>高速I(mǎi)/O存儲(chǔ)>CPU。

內(nèi)存對(duì)于關(guān)系型數(shù)據(jù)庫(kù)的影響超過(guò)任何其他硬件因素。保持一定的內(nèi)存空余率是至關(guān)重要的,否則會(huì)進(jìn)而嚴(yán)重影響I/O性能而造成系統(tǒng)性能急劇下降。當(dāng)然要防止軟件內(nèi)存溢出、查詢方式不好等引起內(nèi)存不足問(wèn)題。在文中會(huì)仔細(xì)闡述SQL查詢的優(yōu)化問(wèn)題。

磁盤(pán)I/O實(shí)際上是數(shù)據(jù)處理上效率最慢的一環(huán)。所以在數(shù)據(jù)庫(kù)設(shè)計(jì)的一開(kāi)始,就必須考慮海量數(shù)據(jù)存儲(chǔ)的結(jié)構(gòu)問(wèn)題。在數(shù)據(jù)量達(dá)到一定規(guī)模后,必須使用分區(qū)分表方式將數(shù)據(jù)分成若干個(gè)物理或邏輯塊文件。用稍微提升軟件復(fù)雜度的方法,減少索引存放空間和磁盤(pán)頻繁訪問(wèn)次數(shù)。

系統(tǒng)中總有一些性能敏感模塊,不能完全使用多進(jìn)程或者多線程方法進(jìn)行優(yōu)化。這時(shí)候適當(dāng)提高CPU主頻是一個(gè)簡(jiǎn)單方法。

4 多級(jí)過(guò)濾

電子資源訪問(wèn)處理過(guò)程中的最大數(shù)據(jù)量是來(lái)自于網(wǎng)絡(luò)背景,其中還有大量“臟數(shù)據(jù)”[1]。主要是無(wú)關(guān)行為分析和信息提取的無(wú)用背景?;诂F(xiàn)有軟硬件條件下,不做清理直接進(jìn)行特征值提取是件不可能完成的任務(wù)。所以依據(jù)一般大數(shù)據(jù)處理流程,先進(jìn)行數(shù)據(jù)清洗或過(guò)濾,也稱(chēng)之為“數(shù)據(jù)預(yù)處理”[3]。數(shù)據(jù)量級(jí)降低通常是最佳優(yōu)化的第一步。

4.1 過(guò)濾模型

為了提高數(shù)據(jù)庫(kù)cache基于電子資源的訪問(wèn)特性,將數(shù)據(jù)過(guò)濾分成多級(jí),每一級(jí)大量過(guò)濾無(wú)用信息,最后達(dá)到數(shù)量級(jí)大幅度下降。ERU實(shí)施六級(jí)過(guò)濾,然后將結(jié)果提供給后端分析具體訪問(wèn)行為。

ERU六級(jí)過(guò)濾邏輯如圖3所示。

圖3 ERU的多級(jí)過(guò)濾

通過(guò)對(duì)數(shù)據(jù)包的層層過(guò)濾,一來(lái)可以降低對(duì)硬件的性能消耗,二來(lái)對(duì)不同層的數(shù)據(jù)流可以擴(kuò)展解析能力。

(1) 協(xié)議過(guò)濾

通常學(xué)校網(wǎng)絡(luò)背景都還有多種協(xié)議,例如TCP、UDP、ARP、ICMP等基礎(chǔ)協(xié)議。而電子資源訪問(wèn)基本上都是基于HTTP或HTTPS協(xié)議,所以一般只需分析TCP即可。從實(shí)際情況來(lái)說(shuō),UDP通信包占整個(gè)背景相當(dāng)大比例,所以去除UDP等其他協(xié)議是優(yōu)化的第一步。

(2) IP過(guò)濾

經(jīng)過(guò)協(xié)議過(guò)濾后,背景中雖然只含有TCP包,但確包含了訪問(wèn)所有各類(lèi)網(wǎng)站的背景和某些應(yīng)用內(nèi)部通信包。去除這些無(wú)用內(nèi)容的最簡(jiǎn)單的方法是進(jìn)行IP篩選。先獲取一份需要跟蹤的電子資源網(wǎng)站歸屬的IP列表,然后根據(jù)這張列表篩選出有意義的內(nèi)容背景。這里需要注意的是有些網(wǎng)站采用多鏡像存放,根據(jù)客戶端的路由情況動(dòng)態(tài)分配鏡像。這種情況需要獲取IP列表時(shí)遍歷所有的鏡像IP地址。

(3) 端口過(guò)濾

電子資源紛繁復(fù)雜,有國(guó)際有名的大平臺(tái),也有只服務(wù)于特殊領(lǐng)域的小網(wǎng)站。這些電子資源的提供商所采用的網(wǎng)站技術(shù)千奇百怪,有些網(wǎng)站會(huì)采用特殊端口,或者不同端口代表不同的網(wǎng)站內(nèi)容,所以非電子資源相關(guān)的數(shù)據(jù)端口背景是無(wú)用的,因此必須在IP過(guò)濾后加入端口過(guò)濾。

同時(shí)進(jìn)行端口過(guò)濾也是排除某些網(wǎng)站TCP內(nèi)部通信包,而這些內(nèi)部通信包有可能占整個(gè)網(wǎng)站流量的大多數(shù)。

(4) 域名過(guò)濾

現(xiàn)在大多數(shù)電子資源平臺(tái),除了一些自己構(gòu)建網(wǎng)站資源存儲(chǔ),大多都是托管在IDC(Internet Data Center 互聯(lián)網(wǎng)數(shù)據(jù)中心)上?,F(xiàn)今為了加速跨地域訪問(wèn)速度的問(wèn)題,許多IDC提供了CDN服務(wù)。 CDN全稱(chēng)為Content Delivery Network,即內(nèi)容分發(fā)網(wǎng)絡(luò)。通過(guò)代理緩沖大大減輕服務(wù)器的壓力。但同時(shí)大型IDC使用同一個(gè)IP池來(lái)服務(wù)不同內(nèi)容商成為常態(tài)。舉個(gè)例子:IDC有一個(gè)IP,周一代表是ACS資源網(wǎng)站,周三變成微軟補(bǔ)丁地址,而下周又變成蘋(píng)果廣告內(nèi)容。為了應(yīng)對(duì)上述情況,ERU在IP和端口過(guò)濾后,特別加入了域名,來(lái)屏蔽這類(lèi)問(wèn)題。主要是偵測(cè)HTTP包頭中HOST來(lái)判斷內(nèi)容的歸屬。

(5) 類(lèi)型過(guò)濾

一般網(wǎng)站背景是有HTML、XML、JS、GIF/JPG/PNG、JSON等類(lèi)型數(shù)據(jù)構(gòu)成,其中電子資源下載還牽涉了一些特殊的內(nèi)容類(lèi)型。從行為分析的角度出發(fā),并不是所有內(nèi)容類(lèi)型都是必要的。

一般意義上,圖片文件(包括JPG、GIF、PNG)都是與行為無(wú)關(guān)。當(dāng)然不排除有些多媒體資源網(wǎng)站以圖片作為行為依據(jù)。當(dāng)然還有些網(wǎng)站會(huì)自動(dòng)生成文獻(xiàn)首頁(yè)圖片做預(yù)覽,給行為分析帶來(lái)難度。

進(jìn)行類(lèi)型過(guò)濾的另外一個(gè)原因是關(guān)于下載行為。下載行為在所有行為總數(shù)內(nèi)并不占多數(shù),但其占據(jù)的流量有時(shí)卻占大多數(shù)。下載本身的內(nèi)容體對(duì)行為判定無(wú)意義,而且全部?jī)?nèi)容體又有隱含的版權(quán)問(wèn)題。因此對(duì)于這類(lèi)背景只需分析整個(gè)會(huì)話開(kāi)始部分即可。而且這樣還可以節(jié)省原始數(shù)據(jù)儲(chǔ)存大小。

(6) 特征值預(yù)過(guò)濾

最后經(jīng)過(guò)以上步驟過(guò)濾后的背景還是包含了和行為判斷無(wú)關(guān)的內(nèi)容,例如首頁(yè)。ERU有一套較為完善的特征值模板庫(kù),利用該庫(kù)進(jìn)行再次過(guò)濾,結(jié)果背景就基本和行為直接相關(guān)。

4.2 多級(jí)過(guò)濾的實(shí)驗(yàn)結(jié)果

ERU采用以上多級(jí)過(guò)濾后,其數(shù)據(jù)量急劇下降2個(gè)數(shù)量等級(jí),如圖4所示。某大學(xué)超過(guò)5 TB的日背景數(shù)據(jù)縮減到1.2 GB(壓縮后)有效行為相關(guān)背景。

圖4 多級(jí)過(guò)濾數(shù)據(jù)量對(duì)比

再對(duì)六級(jí)過(guò)濾進(jìn)行優(yōu)化率比較,發(fā)現(xiàn)六級(jí)過(guò)濾中以IP過(guò)濾、類(lèi)型過(guò)濾和特征值過(guò)濾最為有效。其主要原因是:① 學(xué)校背景不管是否經(jīng)過(guò)分流器過(guò)濾,但是由于網(wǎng)絡(luò)設(shè)備的過(guò)濾局限,結(jié)果中還是含有大量的無(wú)關(guān)IP數(shù)據(jù);② 一般HTTP訪問(wèn)都是圖形化和交互化的,所以背景中有大量的圖片、腳本;③ 圖書(shū)館主要關(guān)注訪問(wèn)各電子資源平臺(tái)的行為,其下載行為中主要以PDF或其他文本存儲(chǔ)格式為主。而行為分析中一般不分析PDF內(nèi)部?jī)?nèi)容,所以只需提取一部分文件頭信息即可。由于各級(jí)數(shù)據(jù)的多樣性,造成每級(jí)過(guò)濾效率不同,見(jiàn)圖5效率對(duì)比。

圖5 多級(jí)過(guò)濾效率對(duì)比

當(dāng)然以上分析并不代表TCP過(guò)濾、端口過(guò)濾、域名過(guò)濾不重要,實(shí)際上過(guò)濾的每一步都是依賴(lài)上一步過(guò)濾的結(jié)果,多級(jí)過(guò)濾的最終目標(biāo)一直是減少無(wú)效數(shù)據(jù)的數(shù)據(jù)處理量。

5 數(shù)據(jù)庫(kù)優(yōu)化

5.1 調(diào)整數(shù)據(jù)庫(kù)內(nèi)存配置

為了提高數(shù)據(jù)庫(kù)cache中的命中率,配置適當(dāng)?shù)膬?nèi)存是數(shù)據(jù)庫(kù)優(yōu)化的首要條件。關(guān)系型數(shù)據(jù)庫(kù)在服務(wù)器內(nèi)存分配占首要地位,應(yīng)于優(yōu)先滿足。否則數(shù)據(jù)庫(kù)查詢重復(fù)命中率較低,從而造成I/O瓶頸,進(jìn)而導(dǎo)致操作系統(tǒng)頁(yè)交換頻繁,最后系統(tǒng)進(jìn)入類(lèi)似假死狀態(tài)。

5.2 調(diào)整數(shù)據(jù)設(shè)計(jì)

首先我們應(yīng)該了解一下存儲(chǔ)的特性,一般意義上的存儲(chǔ)是指掉電不丟失數(shù)據(jù)的電子設(shè)備。長(zhǎng)久以來(lái)計(jì)算機(jī)主要采用磁介質(zhì)作為存儲(chǔ),但現(xiàn)今的采用FLASH芯片或DRAM芯片的固態(tài)硬盤(pán)或U盤(pán)都已不采用磁介質(zhì),但本文以磁盤(pán)為上述固定存儲(chǔ)的統(tǒng)稱(chēng)。

磁盤(pán)分為機(jī)械磁盤(pán)、固態(tài)硬盤(pán)和磁盤(pán)陣列。一般機(jī)械磁盤(pán)速度為50~200 Mbit/s,固態(tài)硬盤(pán)可達(dá)到768 Mbit/s(背帶6 Gbit/s)。而磁盤(pán)陣列則依靠陣列卡同時(shí)讀寫(xiě)多個(gè)磁盤(pán),從而達(dá)到背帶10~20 Gbit/s或以上。

磁盤(pán)讀寫(xiě)的速度是不一樣的,一般上面提到的理論速度都是指讀取速度,而寫(xiě)入速度通常只有讀取速度的一半甚至四分之一。

另外磁盤(pán)速度分順序讀寫(xiě)和隨機(jī)讀寫(xiě),以上的讀寫(xiě)速度都是建立在順序讀寫(xiě)上。如果是隨機(jī)讀寫(xiě),速度有可能下降到原有的十分之一。

雖然內(nèi)存具有讀寫(xiě)速度快(是磁盤(pán)的30~50倍)、讀和寫(xiě)速度差距小和隨機(jī)讀寫(xiě)速度快的特點(diǎn),但內(nèi)存是掉電丟失數(shù)據(jù)的介質(zhì),而且成本相比磁盤(pán)過(guò)高,不可能無(wú)限制采用內(nèi)存。

(1) 避免高頻磁盤(pán)讀寫(xiě)

磁盤(pán)I/O是整個(gè)處理過(guò)程中的速度瓶頸,就算是采用磁盤(pán)陣列在應(yīng)付大數(shù)據(jù)時(shí)依然如此。由于現(xiàn)有數(shù)據(jù)存儲(chǔ)硬件上一般使用磁盤(pán)控制卡(陣列卡)控制,而實(shí)際系統(tǒng)實(shí)施上一般軟件并不直接控制訪問(wèn)某個(gè)磁盤(pán)或磁盤(pán)陣列,所以本文不將調(diào)整I/O硬件訪問(wèn)[5]作為重點(diǎn)。從軟件上說(shuō),避免對(duì)磁盤(pán)的高頻讀寫(xiě)則成為優(yōu)化的重點(diǎn)方向。由于現(xiàn)有磁盤(pán)速度遠(yuǎn)落后于內(nèi)存,同時(shí)存在著讀寫(xiě)速度差距大的缺點(diǎn),在必須采用高速數(shù)據(jù)緩沖的地方,應(yīng)盡量避免使用磁盤(pán),而改用內(nèi)存作為緩沖。

(2) 數(shù)據(jù)盡量壓縮存放

在圖書(shū)館電子資源訪問(wèn)的原始背景避不開(kāi)海量的大數(shù)據(jù)塊存放。如果按原樣存放,不但需要非常大的存儲(chǔ)磁盤(pán),而且讀寫(xiě)需要的時(shí)間較長(zhǎng)。ERU采用壓縮存放,從而避免不必要的大量磁盤(pán)讀寫(xiě)。當(dāng)然這種方案對(duì)CPU有一定要求,但在如此海量的數(shù)據(jù)中,這點(diǎn)代價(jià)完全可以接受。

以ERU在復(fù)旦大學(xué)實(shí)施結(jié)果來(lái)看,2015年開(kāi)始采用數(shù)據(jù)壓縮存放,相比2014的非壓縮存放,節(jié)省了近百分之六十的空間。如果再算上復(fù)旦大學(xué)2015年新增的14個(gè)電子資源平臺(tái)的話,數(shù)據(jù)存儲(chǔ)的節(jié)省更加明顯。見(jiàn)圖6,在優(yōu)化前后的存儲(chǔ)量對(duì)比。

圖6 優(yōu)化前后存儲(chǔ)量比較

同時(shí)數(shù)據(jù)壓縮后容量變小,也可以從另一方面加速數(shù)據(jù)的讀取速度,從而幫助總體行為分析的效率。

(3) 正確使用索引

索引是加快數(shù)據(jù)庫(kù)查詢的好方法,但是同時(shí)如果數(shù)據(jù)過(guò)多索引本身也會(huì)成為瓶頸。不應(yīng)過(guò)多地建立索引,特別應(yīng)謹(jǐn)慎考慮單字段索引和復(fù)合索引的組合,力求精簡(jiǎn)有效。

(4) 分區(qū)分表

圖書(shū)館電子資源訪問(wèn)的數(shù)據(jù)大多是行式數(shù)據(jù),如果不加處理入表,一方面大大增加索引的負(fù)荷,而且將來(lái)索引的讀取也會(huì)成為數(shù)據(jù)讀取的一個(gè)限制;另一方面造成操作系統(tǒng)中文件系統(tǒng)處理過(guò)大、過(guò)多文件的困擾。

對(duì)于一般的關(guān)系型數(shù)據(jù)庫(kù),海量行數(shù)的存放應(yīng)采用分區(qū)分表,使之存放到不同有限的物理文件中。一方面使讀寫(xiě)效率不受文件系統(tǒng)的制約;同時(shí)另一方面可以優(yōu)化索引,不至于由于數(shù)據(jù)過(guò)多時(shí)索引拖累效率的問(wèn)題。

以復(fù)旦大學(xué)現(xiàn)場(chǎng)五千萬(wàn)條數(shù)據(jù)查詢?yōu)槔?,?jiǎn)單查詢速度從分鐘級(jí)降到了秒級(jí)。見(jiàn)圖7,優(yōu)化前后,訪問(wèn)速度發(fā)生了顯著的提高,大幅度改善了用戶的使用感受。

圖7 優(yōu)化前后的查詢速度對(duì)比

5.3 優(yōu)化SQL語(yǔ)句

(1) 謹(jǐn)慎使用嵌套查詢

嵌套查詢牽涉了多個(gè)查詢。但如果主查詢和子查詢有相關(guān)聯(lián)的字段,例如主查詢的字段值變化會(huì)引起子查詢重新執(zhí)行,這樣就不是一個(gè)好的查詢語(yǔ)句。應(yīng)盡量避免這種情況。

(2) 盡量避免通配符匹配

通配符查詢不能直接使用索引進(jìn)行查詢。以SQL Server為例,只能采用Full-Text Filter Daemon Launcher進(jìn)行全文搜索優(yōu)化,其效率遠(yuǎn)遠(yuǎn)不及索引的效率。

(3) 減少全表查詢

一般全表查詢或者鎖表操作都會(huì)降低系統(tǒng)效率,有時(shí)需要數(shù)十分鐘才能完成。例如不帶條件的直接查詢實(shí)際上如無(wú)必要,盡量慎用。

(4) 合理使用臨時(shí)表

有時(shí)使用臨時(shí)表,可以加快多表復(fù)雜查詢,特別是那些類(lèi)似查詢的相同中間數(shù)據(jù)。

(5) 合理使用視圖

在單表查詢中,可以考慮使用視圖。利用數(shù)據(jù)庫(kù)后臺(tái)事務(wù)并行完成查詢。

5.4 優(yōu)化數(shù)據(jù)錄入

通常的數(shù)據(jù)入庫(kù)SQL命令(INSERT)在海量數(shù)據(jù)入庫(kù)中基本力不從心。一般的方法是將命令變成存儲(chǔ)過(guò)程,以事務(wù)方式執(zhí)行,可以獲得十幾倍提升的效率。當(dāng)然在某些特殊情況下可能有更好的辦法。例如微軟提供CSharp處理SQL Servers的入庫(kù)上的特別函數(shù)可以到達(dá)數(shù)十倍到上百倍的提升。

6 結(jié) 語(yǔ)

優(yōu)化電子資源數(shù)據(jù)處理是一個(gè)系統(tǒng)工程,牽涉到軟硬件、數(shù)據(jù)設(shè)計(jì)、應(yīng)用編寫(xiě)、流程改進(jìn)等方面。本質(zhì)上電子資源處理是一種大規(guī)模文本數(shù)據(jù)處理,過(guò)濾和壓縮是優(yōu)化處理的核心。當(dāng)然其中有些優(yōu)化方向都是互相制約的,整個(gè)優(yōu)化過(guò)程中只能在平衡原則上達(dá)到折中,獲取整個(gè)系統(tǒng)的高效率。

本研究,從計(jì)算機(jī)硬件、計(jì)算機(jī)軟件、數(shù)據(jù)庫(kù)三方面同時(shí)進(jìn)行性能調(diào)優(yōu),日處理量可達(dá)10 TB,基本滿足全國(guó)所有高校的吞吐量,而該應(yīng)用也在清華大學(xué)、北京大學(xué)、復(fù)旦大學(xué)、上海交通大學(xué)、南京大學(xué)、東南大學(xué)、四川大學(xué)等高校部署使用。

[1] Hernández M A,Stolfo S J.Real-world data is dirty:data cleaning and the merge/purge problem[J].Data Mining and Knowledge Discovery,1998,2(1):9-37.

[2] 陳世敏.大數(shù)據(jù)分析與高速數(shù)據(jù)更新[J].計(jì)算機(jī)研究與發(fā)展,2015(2):333-342.

[3] 米允龍,米春橋,劉文奇.海量數(shù)據(jù)挖掘過(guò)程相關(guān)技術(shù)研究進(jìn)展[J].計(jì)算機(jī)科學(xué)與探索,2015(6):641-659.

[4] 程學(xué)旗,靳小龍,王元卓,等.大數(shù)據(jù)系統(tǒng)和分析技術(shù)綜述[J].軟件學(xué)報(bào),2014(9):1889-1908.

[5] 李動(dòng)周.大型關(guān)系型數(shù)據(jù)庫(kù)優(yōu)化探討[J].辦公自動(dòng)化,2007(2):32-34.

[6] 岑巍.數(shù)據(jù)庫(kù)優(yōu)化在海量數(shù)據(jù)下的研究與應(yīng)用[J].計(jì)算機(jī)時(shí)代,2015(2):33-35.

[7] 李振國(guó),鄭惠中.網(wǎng)絡(luò)流量采集方法研究綜述[J].吉林大學(xué)學(xué)報(bào)(信息科學(xué)版),2014(1):70-75.

[8] 袁梅宇.高效率多線程網(wǎng)絡(luò)流量采集算法研究及實(shí)踐[J].昆明理工大學(xué)學(xué)報(bào)(理工版),2006(1):32-36.

[9] 王冬梅,張素青,王碩.IP城域網(wǎng)網(wǎng)絡(luò)安全分析及流量過(guò)濾技術(shù)[J].信息通信,2014(10):253-254.

[10] 竇衍旭.高速網(wǎng)絡(luò)流量?jī)?nèi)容還原系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D].蘭州大學(xué),2014:1-65.

OPTIMIZATIONONTHEUSERBEHAVIORSINFORMATIONACQUISITIONOFMASSELECTRONICRESOURCES

Song Huiying1Yao Siqin1Zhang Minrong2
1(FudanGrandHorizonInformationTechnologyCo.,Ltd.,Shanghai200433,China)2(ShanghaiInstituteofComputingTechology,Shanghai200040,China)

During electric resources become more popular in university libraries, the behavior of accessing electric resources is too complex and diversified for analysis and data mining, facing increasingly severe challenges. In order to optimize the access to mass electronic resources, we present the optimization solutions at all steps of collecting the electric resource behaviors in library, based on ERU system and Fudan university library, especially cleaning up raw data and optimize current database. As a result of deploying ERU at Fudan university library, those huge raw data are processing very well at a good cost performance. This resolution could not only apply to electric resource at the school library, but also apply to deal with other areas huge data.

E-resources User information behaviour ERU Library of university

2017-03-06。宋惠鶯,工程師,主研領(lǐng)域:計(jì)算機(jī)軟件,信息安全,數(shù)據(jù)庫(kù),大數(shù)據(jù)分析挖掘。姚思勤,本科。章民融,教授級(jí)高工。

TP3

A

10.3969/j.issn.1000-386x.2017.08.058

猜你喜歡
數(shù)據(jù)庫(kù)優(yōu)化資源
超限高層建筑結(jié)構(gòu)設(shè)計(jì)與優(yōu)化思考
基礎(chǔ)教育資源展示
民用建筑防煙排煙設(shè)計(jì)優(yōu)化探討
關(guān)于優(yōu)化消防安全告知承諾的一些思考
一道優(yōu)化題的幾何解法
一樣的資源,不一樣的收獲
資源回收
資源再生 歡迎訂閱
資源再生(2017年3期)2017-06-01 12:20:59
數(shù)據(jù)庫(kù)
數(shù)據(jù)庫(kù)
主站蜘蛛池模板: 国产亚洲精品资源在线26u| 综合色婷婷| 国产综合另类小说色区色噜噜| 色哟哟国产精品一区二区| 国产自无码视频在线观看| 亚洲色图另类| 一级一级一片免费| 精品亚洲欧美中文字幕在线看| 亚洲天堂.com| 日韩成人午夜| 亚洲最新网址| 国产大全韩国亚洲一区二区三区| 在线播放精品一区二区啪视频| 国产成人综合久久| 欧美日韩亚洲综合在线观看| a级毛片在线免费观看| 亚洲一区网站| 欧美精品亚洲精品日韩专区| 亚洲天堂高清| 亚洲AV一二三区无码AV蜜桃| 91丝袜乱伦| 亚洲乱亚洲乱妇24p| 国产91丝袜在线播放动漫| 2020精品极品国产色在线观看 | 88av在线| 欧美激情视频二区三区| 精品人妻无码区在线视频| 午夜福利视频一区| 国产精品无码制服丝袜| 久久伊人操| 国产农村妇女精品一二区| 成人小视频在线观看免费| 日本欧美成人免费| 国产在线观看一区精品| 亚洲成网站| 亚洲中文制服丝袜欧美精品| 国产黄网永久免费| 中文字幕有乳无码| 亚洲天堂.com| 国产精品丝袜在线| 亚洲一区二区三区在线视频| 国产高潮视频在线观看| 国产97视频在线观看| 无码人中文字幕| 欧美日韩国产在线观看一区二区三区 | 无码网站免费观看| 国产一级特黄aa级特黄裸毛片| 国产精品女在线观看| 美女无遮挡被啪啪到高潮免费| 亚洲日本www| 日韩成人免费网站| 亚洲天堂视频在线播放| 国产中文一区二区苍井空| 国产一在线| 激情乱人伦| 国产综合无码一区二区色蜜蜜| 亚洲精品国产乱码不卡| 亚洲欧洲日韩综合| 日本欧美一二三区色视频| 99国产精品一区二区| 亚洲成年人片| 国产精品免费p区| 成·人免费午夜无码视频在线观看| 国产精品对白刺激| 国产一二三区视频| 内射人妻无码色AV天堂| 91麻豆国产视频| 欧美日韩一区二区三区在线视频| 色哟哟国产精品| 久久精品午夜视频| 亚洲精品久综合蜜| 国产高清无码第一十页在线观看| 国产jizz| 亚洲成av人无码综合在线观看| 亚洲第一页在线观看| 国产一级毛片网站| 女人一级毛片| 国产美女一级毛片| 日本一区二区不卡视频| 88av在线看| 四虎精品免费久久| 欧美精品成人一区二区视频一|