宋惠鶯 姚思勤 章民融
1(上海復(fù)旦光華信息科技股份有限公司 上海 200433) 2(上海市計(jì)算技術(shù)研究所 上海 200040)
?
電子資源海量訪問(wèn)行為的采集優(yōu)化研究
宋惠鶯1姚思勤1章民融2
1(上海復(fù)旦光華信息科技股份有限公司 上海 200433)2(上海市計(jì)算技術(shù)研究所 上海 200040)
隨著電子資源在高校圖書館中的普及,復(fù)雜多樣的電子資源數(shù)據(jù)給訪問(wèn)跟蹤和數(shù)據(jù)挖掘帶來(lái)了日益嚴(yán)峻的挑戰(zhàn)。為了從海量的電子資源訪問(wèn)數(shù)據(jù)中更快和更好地進(jìn)行行為分析和數(shù)據(jù)挖掘,基于復(fù)旦光華的ERU系統(tǒng)和其在復(fù)旦大學(xué)圖書館的歷年運(yùn)行結(jié)果,重點(diǎn)闡述了在海量數(shù)據(jù)采集分析中的各個(gè)優(yōu)化步驟和手段,特別是原始數(shù)據(jù)清洗或過(guò)濾和數(shù)據(jù)庫(kù)優(yōu)化。通過(guò)介紹的優(yōu)化方案,復(fù)旦大學(xué)現(xiàn)場(chǎng)實(shí)現(xiàn)了高性價(jià)比的采集分析方案。該方法不但可以應(yīng)用在圖書館中電子資源,而且對(duì)其他的海量數(shù)據(jù)處理有著較好的借鑒性。
電子資源 用戶信息行為 ERU 大學(xué)圖書館
近年來(lái)隨著信息技術(shù)在圖書館中應(yīng)用規(guī)模持續(xù)擴(kuò)大,特別是電子資源訪問(wèn)的爆炸性增長(zhǎng),校園網(wǎng)傳輸?shù)臄?shù)字資源信息呈現(xiàn)總量劇增、種類繁雜、并發(fā)加大和突發(fā)性操作頻繁等特征。面對(duì)如此大數(shù)據(jù)規(guī)模,對(duì)現(xiàn)有電子資源訪問(wèn)行為追蹤系統(tǒng)提出了極高的要求。
如圖1所示,國(guó)內(nèi)各高校在2009年-2015年中,在電子資源方面的投入逐年提高。圖中數(shù)量代表各校平均采購(gòu)量。國(guó)內(nèi)各高校的紙質(zhì)資源采購(gòu)已出現(xiàn)逐年下降趨勢(shì),而相應(yīng)的電子資源采購(gòu)金額在2015年已經(jīng)和傳統(tǒng)紙質(zhì)采購(gòu)基本持平。可以預(yù)計(jì)在未來(lái)的幾年中,電子資源采購(gòu)必然會(huì)超過(guò)傳統(tǒng)紙質(zhì)采購(gòu)。

圖1 電子資源于紙質(zhì)書本采購(gòu)量
而隨著互聯(lián)網(wǎng)的普及,人民閱讀習(xí)慣的改變,對(duì)應(yīng)的電子資源的訪問(wèn)量也在逐年增長(zhǎng)。如圖2所示,某高校電子資源的訪問(wèn)量呈幾何級(jí)的增長(zhǎng)。

圖2 高校電子資源訪問(wèn)量
隨著訪問(wèn)量的逐年提高,原有的系統(tǒng)也需要進(jìn)行更新,以應(yīng)對(duì)更大的數(shù)據(jù)采集量后的處理,以備后期的統(tǒng)計(jì)和分析。
通過(guò)網(wǎng)絡(luò)中獲取到訪問(wèn)電子資源的方式,是最為客觀和準(zhǔn)確的采集方式。但是由此帶來(lái)的問(wèn)題是,每個(gè)學(xué)校每天產(chǎn)生的網(wǎng)絡(luò)數(shù)據(jù)達(dá)到T級(jí),如果要從這海量的數(shù)據(jù)中精準(zhǔn)獲取到訪問(wèn)電子資源的數(shù)據(jù),并且做到不遺漏以保證統(tǒng)計(jì)分析的準(zhǔn)確性,是需要做大量的技術(shù)攻關(guān)研究的。本文采用大量的壓力測(cè)試和集成測(cè)試,模擬海量數(shù)據(jù)流的測(cè)試方式,驗(yàn)證了幾種優(yōu)化手段集合使用的效果。
本文以高校圖書館為例,闡述在校園網(wǎng)內(nèi)電子資源訪問(wèn)的采集優(yōu)化研究。
現(xiàn)有電子資源訪問(wèn)系統(tǒng)分為兩類:旁路采集和集中代理兩種方式。無(wú)論哪種方式,依靠單一高性能計(jì)算機(jī)不是一種可行的、性價(jià)比較好的方案。所以采用分布式計(jì)算方式將是一個(gè)效用可行的方案,并且保持良好的擴(kuò)展性
ERU將數(shù)據(jù)采集處理分在兩個(gè)計(jì)算單元:采集工控機(jī)和數(shù)據(jù)分析服務(wù)器上,采集工控機(jī)主要針對(duì)數(shù)據(jù)清洗和過(guò)濾,而數(shù)據(jù)分析服務(wù)器主要處理特征匹配。將電子資源采集處理中的高CPU消耗和高內(nèi)存消耗放在了兩個(gè)不同的計(jì)算單元中,提供了較好的整體系統(tǒng)效能。
對(duì)于海量數(shù)據(jù)的處理,硬件性能是個(gè)繞不開(kāi)的問(wèn)題。CPU的核數(shù)、單核主頻、內(nèi)存讀寫速度、內(nèi)存大小、I/O總線背寬、磁盤讀寫速度都會(huì)成為制約大數(shù)據(jù)處理的瓶頸。但由于數(shù)據(jù)量的指數(shù)增加遠(yuǎn)遠(yuǎn)領(lǐng)先于硬件性能的更新和事實(shí)上的成本要求,所以追求較好性價(jià)比成為了唯一的選擇。
由于圖書館用戶訪問(wèn)行為大多以文本方式存在,所以應(yīng)將性能提高的優(yōu)先次序定為內(nèi)存>高速I/O存儲(chǔ)>CPU。
內(nèi)存對(duì)于關(guān)系型數(shù)據(jù)庫(kù)的影響超過(guò)任何其他硬件因素。保持一定的內(nèi)存空余率是至關(guān)重要的,否則會(huì)進(jìn)而嚴(yán)重影響I/O性能而造成系統(tǒng)性能急劇下降。當(dāng)然要防止軟件內(nèi)存溢出、查詢方式不好等引起內(nèi)存不足問(wèn)題。在文中會(huì)仔細(xì)闡述SQL查詢的優(yōu)化問(wèn)題。
磁盤I/O實(shí)際上是數(shù)據(jù)處理上效率最慢的一環(huán)。所以在數(shù)據(jù)庫(kù)設(shè)計(jì)的一開(kāi)始,就必須考慮海量數(shù)據(jù)存儲(chǔ)的結(jié)構(gòu)問(wèn)題。在數(shù)據(jù)量達(dá)到一定規(guī)模后,必須使用分區(qū)分表方式將數(shù)據(jù)分成若干個(gè)物理或邏輯塊文件。用稍微提升軟件復(fù)雜度的方法,減少索引存放空間和磁盤頻繁訪問(wèn)次數(shù)。
系統(tǒng)中總有一些性能敏感模塊,不能完全使用多進(jìn)程或者多線程方法進(jìn)行優(yōu)化。這時(shí)候適當(dāng)提高CPU主頻是一個(gè)簡(jiǎn)單方法。
電子資源訪問(wèn)處理過(guò)程中的最大數(shù)據(jù)量是來(lái)自于網(wǎng)絡(luò)背景,其中還有大量“臟數(shù)據(jù)”[1]。主要是無(wú)關(guān)行為分析和信息提取的無(wú)用背景。基于現(xiàn)有軟硬件條件下,不做清理直接進(jìn)行特征值提取是件不可能完成的任務(wù)。所以依據(jù)一般大數(shù)據(jù)處理流程,先進(jìn)行數(shù)據(jù)清洗或過(guò)濾,也稱之為“數(shù)據(jù)預(yù)處理”[3]。數(shù)據(jù)量級(jí)降低通常是最佳優(yōu)化的第一步。
4.1 過(guò)濾模型
為了提高數(shù)據(jù)庫(kù)cache基于電子資源的訪問(wèn)特性,將數(shù)據(jù)過(guò)濾分成多級(jí),每一級(jí)大量過(guò)濾無(wú)用信息,最后達(dá)到數(shù)量級(jí)大幅度下降。ERU實(shí)施六級(jí)過(guò)濾,然后將結(jié)果提供給后端分析具體訪問(wèn)行為。
ERU六級(jí)過(guò)濾邏輯如圖3所示。

圖3 ERU的多級(jí)過(guò)濾
通過(guò)對(duì)數(shù)據(jù)包的層層過(guò)濾,一來(lái)可以降低對(duì)硬件的性能消耗,二來(lái)對(duì)不同層的數(shù)據(jù)流可以擴(kuò)展解析能力。
(1) 協(xié)議過(guò)濾
通常學(xué)校網(wǎng)絡(luò)背景都還有多種協(xié)議,例如TCP、UDP、ARP、ICMP等基礎(chǔ)協(xié)議。而電子資源訪問(wèn)基本上都是基于HTTP或HTTPS協(xié)議,所以一般只需分析TCP即可。從實(shí)際情況來(lái)說(shuō),UDP通信包占整個(gè)背景相當(dāng)大比例,所以去除UDP等其他協(xié)議是優(yōu)化的第一步。
(2) IP過(guò)濾
經(jīng)過(guò)協(xié)議過(guò)濾后,背景中雖然只含有TCP包,但確包含了訪問(wèn)所有各類網(wǎng)站的背景和某些應(yīng)用內(nèi)部通信包。去除這些無(wú)用內(nèi)容的最簡(jiǎn)單的方法是進(jìn)行IP篩選。先獲取一份需要跟蹤的電子資源網(wǎng)站歸屬的IP列表,然后根據(jù)這張列表篩選出有意義的內(nèi)容背景。這里需要注意的是有些網(wǎng)站采用多鏡像存放,根據(jù)客戶端的路由情況動(dòng)態(tài)分配鏡像。這種情況需要獲取IP列表時(shí)遍歷所有的鏡像IP地址。
(3) 端口過(guò)濾
電子資源紛繁復(fù)雜,有國(guó)際有名的大平臺(tái),也有只服務(wù)于特殊領(lǐng)域的小網(wǎng)站。這些電子資源的提供商所采用的網(wǎng)站技術(shù)千奇百怪,有些網(wǎng)站會(huì)采用特殊端口,或者不同端口代表不同的網(wǎng)站內(nèi)容,所以非電子資源相關(guān)的數(shù)據(jù)端口背景是無(wú)用的,因此必須在IP過(guò)濾后加入端口過(guò)濾。
同時(shí)進(jìn)行端口過(guò)濾也是排除某些網(wǎng)站TCP內(nèi)部通信包,而這些內(nèi)部通信包有可能占整個(gè)網(wǎng)站流量的大多數(shù)。
(4) 域名過(guò)濾
現(xiàn)在大多數(shù)電子資源平臺(tái),除了一些自己構(gòu)建網(wǎng)站資源存儲(chǔ),大多都是托管在IDC(Internet Data Center 互聯(lián)網(wǎng)數(shù)據(jù)中心)上。現(xiàn)今為了加速跨地域訪問(wèn)速度的問(wèn)題,許多IDC提供了CDN服務(wù)。 CDN全稱為Content Delivery Network,即內(nèi)容分發(fā)網(wǎng)絡(luò)。通過(guò)代理緩沖大大減輕服務(wù)器的壓力。但同時(shí)大型IDC使用同一個(gè)IP池來(lái)服務(wù)不同內(nèi)容商成為常態(tài)。舉個(gè)例子:IDC有一個(gè)IP,周一代表是ACS資源網(wǎng)站,周三變成微軟補(bǔ)丁地址,而下周又變成蘋果廣告內(nèi)容。為了應(yīng)對(duì)上述情況,ERU在IP和端口過(guò)濾后,特別加入了域名,來(lái)屏蔽這類問(wèn)題。主要是偵測(cè)HTTP包頭中HOST來(lái)判斷內(nèi)容的歸屬。
(5) 類型過(guò)濾
一般網(wǎng)站背景是有HTML、XML、JS、GIF/JPG/PNG、JSON等類型數(shù)據(jù)構(gòu)成,其中電子資源下載還牽涉了一些特殊的內(nèi)容類型。從行為分析的角度出發(fā),并不是所有內(nèi)容類型都是必要的。
一般意義上,圖片文件(包括JPG、GIF、PNG)都是與行為無(wú)關(guān)。當(dāng)然不排除有些多媒體資源網(wǎng)站以圖片作為行為依據(jù)。當(dāng)然還有些網(wǎng)站會(huì)自動(dòng)生成文獻(xiàn)首頁(yè)圖片做預(yù)覽,給行為分析帶來(lái)難度。
進(jìn)行類型過(guò)濾的另外一個(gè)原因是關(guān)于下載行為。下載行為在所有行為總數(shù)內(nèi)并不占多數(shù),但其占據(jù)的流量有時(shí)卻占大多數(shù)。下載本身的內(nèi)容體對(duì)行為判定無(wú)意義,而且全部?jī)?nèi)容體又有隱含的版權(quán)問(wèn)題。因此對(duì)于這類背景只需分析整個(gè)會(huì)話開(kāi)始部分即可。而且這樣還可以節(jié)省原始數(shù)據(jù)儲(chǔ)存大小。
(6) 特征值預(yù)過(guò)濾
最后經(jīng)過(guò)以上步驟過(guò)濾后的背景還是包含了和行為判斷無(wú)關(guān)的內(nèi)容,例如首頁(yè)。ERU有一套較為完善的特征值模板庫(kù),利用該庫(kù)進(jìn)行再次過(guò)濾,結(jié)果背景就基本和行為直接相關(guān)。
4.2 多級(jí)過(guò)濾的實(shí)驗(yàn)結(jié)果
ERU采用以上多級(jí)過(guò)濾后,其數(shù)據(jù)量急劇下降2個(gè)數(shù)量等級(jí),如圖4所示。某大學(xué)超過(guò)5 TB的日背景數(shù)據(jù)縮減到1.2 GB(壓縮后)有效行為相關(guān)背景。

圖4 多級(jí)過(guò)濾數(shù)據(jù)量對(duì)比
再對(duì)六級(jí)過(guò)濾進(jìn)行優(yōu)化率比較,發(fā)現(xiàn)六級(jí)過(guò)濾中以IP過(guò)濾、類型過(guò)濾和特征值過(guò)濾最為有效。其主要原因是:① 學(xué)校背景不管是否經(jīng)過(guò)分流器過(guò)濾,但是由于網(wǎng)絡(luò)設(shè)備的過(guò)濾局限,結(jié)果中還是含有大量的無(wú)關(guān)IP數(shù)據(jù);② 一般HTTP訪問(wèn)都是圖形化和交互化的,所以背景中有大量的圖片、腳本;③ 圖書館主要關(guān)注訪問(wèn)各電子資源平臺(tái)的行為,其下載行為中主要以PDF或其他文本存儲(chǔ)格式為主。而行為分析中一般不分析PDF內(nèi)部?jī)?nèi)容,所以只需提取一部分文件頭信息即可。由于各級(jí)數(shù)據(jù)的多樣性,造成每級(jí)過(guò)濾效率不同,見(jiàn)圖5效率對(duì)比。

圖5 多級(jí)過(guò)濾效率對(duì)比
當(dāng)然以上分析并不代表TCP過(guò)濾、端口過(guò)濾、域名過(guò)濾不重要,實(shí)際上過(guò)濾的每一步都是依賴上一步過(guò)濾的結(jié)果,多級(jí)過(guò)濾的最終目標(biāo)一直是減少無(wú)效數(shù)據(jù)的數(shù)據(jù)處理量。
5.1 調(diào)整數(shù)據(jù)庫(kù)內(nèi)存配置
為了提高數(shù)據(jù)庫(kù)cache中的命中率,配置適當(dāng)?shù)膬?nèi)存是數(shù)據(jù)庫(kù)優(yōu)化的首要條件。關(guān)系型數(shù)據(jù)庫(kù)在服務(wù)器內(nèi)存分配占首要地位,應(yīng)于優(yōu)先滿足。否則數(shù)據(jù)庫(kù)查詢重復(fù)命中率較低,從而造成I/O瓶頸,進(jìn)而導(dǎo)致操作系統(tǒng)頁(yè)交換頻繁,最后系統(tǒng)進(jìn)入類似假死狀態(tài)。
5.2 調(diào)整數(shù)據(jù)設(shè)計(jì)
首先我們應(yīng)該了解一下存儲(chǔ)的特性,一般意義上的存儲(chǔ)是指掉電不丟失數(shù)據(jù)的電子設(shè)備。長(zhǎng)久以來(lái)計(jì)算機(jī)主要采用磁介質(zhì)作為存儲(chǔ),但現(xiàn)今的采用FLASH芯片或DRAM芯片的固態(tài)硬盤或U盤都已不采用磁介質(zhì),但本文以磁盤為上述固定存儲(chǔ)的統(tǒng)稱。
磁盤分為機(jī)械磁盤、固態(tài)硬盤和磁盤陣列。一般機(jī)械磁盤速度為50~200 Mbit/s,固態(tài)硬盤可達(dá)到768 Mbit/s(背帶6 Gbit/s)。而磁盤陣列則依靠陣列卡同時(shí)讀寫多個(gè)磁盤,從而達(dá)到背帶10~20 Gbit/s或以上。
磁盤讀寫的速度是不一樣的,一般上面提到的理論速度都是指讀取速度,而寫入速度通常只有讀取速度的一半甚至四分之一。
另外磁盤速度分順序讀寫和隨機(jī)讀寫,以上的讀寫速度都是建立在順序讀寫上。如果是隨機(jī)讀寫,速度有可能下降到原有的十分之一。
雖然內(nèi)存具有讀寫速度快(是磁盤的30~50倍)、讀和寫速度差距小和隨機(jī)讀寫速度快的特點(diǎn),但內(nèi)存是掉電丟失數(shù)據(jù)的介質(zhì),而且成本相比磁盤過(guò)高,不可能無(wú)限制采用內(nèi)存。
(1) 避免高頻磁盤讀寫
磁盤I/O是整個(gè)處理過(guò)程中的速度瓶頸,就算是采用磁盤陣列在應(yīng)付大數(shù)據(jù)時(shí)依然如此。由于現(xiàn)有數(shù)據(jù)存儲(chǔ)硬件上一般使用磁盤控制卡(陣列卡)控制,而實(shí)際系統(tǒng)實(shí)施上一般軟件并不直接控制訪問(wèn)某個(gè)磁盤或磁盤陣列,所以本文不將調(diào)整I/O硬件訪問(wèn)[5]作為重點(diǎn)。從軟件上說(shuō),避免對(duì)磁盤的高頻讀寫則成為優(yōu)化的重點(diǎn)方向。由于現(xiàn)有磁盤速度遠(yuǎn)落后于內(nèi)存,同時(shí)存在著讀寫速度差距大的缺點(diǎn),在必須采用高速數(shù)據(jù)緩沖的地方,應(yīng)盡量避免使用磁盤,而改用內(nèi)存作為緩沖。
(2) 數(shù)據(jù)盡量壓縮存放
在圖書館電子資源訪問(wèn)的原始背景避不開(kāi)海量的大數(shù)據(jù)塊存放。如果按原樣存放,不但需要非常大的存儲(chǔ)磁盤,而且讀寫需要的時(shí)間較長(zhǎng)。ERU采用壓縮存放,從而避免不必要的大量磁盤讀寫。當(dāng)然這種方案對(duì)CPU有一定要求,但在如此海量的數(shù)據(jù)中,這點(diǎn)代價(jià)完全可以接受。
以ERU在復(fù)旦大學(xué)實(shí)施結(jié)果來(lái)看,2015年開(kāi)始采用數(shù)據(jù)壓縮存放,相比2014的非壓縮存放,節(jié)省了近百分之六十的空間。如果再算上復(fù)旦大學(xué)2015年新增的14個(gè)電子資源平臺(tái)的話,數(shù)據(jù)存儲(chǔ)的節(jié)省更加明顯。見(jiàn)圖6,在優(yōu)化前后的存儲(chǔ)量對(duì)比。

圖6 優(yōu)化前后存儲(chǔ)量比較
同時(shí)數(shù)據(jù)壓縮后容量變小,也可以從另一方面加速數(shù)據(jù)的讀取速度,從而幫助總體行為分析的效率。
(3) 正確使用索引
索引是加快數(shù)據(jù)庫(kù)查詢的好方法,但是同時(shí)如果數(shù)據(jù)過(guò)多索引本身也會(huì)成為瓶頸。不應(yīng)過(guò)多地建立索引,特別應(yīng)謹(jǐn)慎考慮單字段索引和復(fù)合索引的組合,力求精簡(jiǎn)有效。
(4) 分區(qū)分表
圖書館電子資源訪問(wèn)的數(shù)據(jù)大多是行式數(shù)據(jù),如果不加處理入表,一方面大大增加索引的負(fù)荷,而且將來(lái)索引的讀取也會(huì)成為數(shù)據(jù)讀取的一個(gè)限制;另一方面造成操作系統(tǒng)中文件系統(tǒng)處理過(guò)大、過(guò)多文件的困擾。
對(duì)于一般的關(guān)系型數(shù)據(jù)庫(kù),海量行數(shù)的存放應(yīng)采用分區(qū)分表,使之存放到不同有限的物理文件中。一方面使讀寫效率不受文件系統(tǒng)的制約;同時(shí)另一方面可以優(yōu)化索引,不至于由于數(shù)據(jù)過(guò)多時(shí)索引拖累效率的問(wèn)題。
以復(fù)旦大學(xué)現(xiàn)場(chǎng)五千萬(wàn)條數(shù)據(jù)查詢?yōu)槔?jiǎn)單查詢速度從分鐘級(jí)降到了秒級(jí)。見(jiàn)圖7,優(yōu)化前后,訪問(wèn)速度發(fā)生了顯著的提高,大幅度改善了用戶的使用感受。

圖7 優(yōu)化前后的查詢速度對(duì)比
5.3 優(yōu)化SQL語(yǔ)句
(1) 謹(jǐn)慎使用嵌套查詢
嵌套查詢牽涉了多個(gè)查詢。但如果主查詢和子查詢有相關(guān)聯(lián)的字段,例如主查詢的字段值變化會(huì)引起子查詢重新執(zhí)行,這樣就不是一個(gè)好的查詢語(yǔ)句。應(yīng)盡量避免這種情況。
(2) 盡量避免通配符匹配
通配符查詢不能直接使用索引進(jìn)行查詢。以SQL Server為例,只能采用Full-Text Filter Daemon Launcher進(jìn)行全文搜索優(yōu)化,其效率遠(yuǎn)遠(yuǎn)不及索引的效率。
(3) 減少全表查詢
一般全表查詢或者鎖表操作都會(huì)降低系統(tǒng)效率,有時(shí)需要數(shù)十分鐘才能完成。例如不帶條件的直接查詢實(shí)際上如無(wú)必要,盡量慎用。
(4) 合理使用臨時(shí)表
有時(shí)使用臨時(shí)表,可以加快多表復(fù)雜查詢,特別是那些類似查詢的相同中間數(shù)據(jù)。
(5) 合理使用視圖
在單表查詢中,可以考慮使用視圖。利用數(shù)據(jù)庫(kù)后臺(tái)事務(wù)并行完成查詢。
5.4 優(yōu)化數(shù)據(jù)錄入
通常的數(shù)據(jù)入庫(kù)SQL命令(INSERT)在海量數(shù)據(jù)入庫(kù)中基本力不從心。一般的方法是將命令變成存儲(chǔ)過(guò)程,以事務(wù)方式執(zhí)行,可以獲得十幾倍提升的效率。當(dāng)然在某些特殊情況下可能有更好的辦法。例如微軟提供CSharp處理SQL Servers的入庫(kù)上的特別函數(shù)可以到達(dá)數(shù)十倍到上百倍的提升。
優(yōu)化電子資源數(shù)據(jù)處理是一個(gè)系統(tǒng)工程,牽涉到軟硬件、數(shù)據(jù)設(shè)計(jì)、應(yīng)用編寫、流程改進(jìn)等方面。本質(zhì)上電子資源處理是一種大規(guī)模文本數(shù)據(jù)處理,過(guò)濾和壓縮是優(yōu)化處理的核心。當(dāng)然其中有些優(yōu)化方向都是互相制約的,整個(gè)優(yōu)化過(guò)程中只能在平衡原則上達(dá)到折中,獲取整個(gè)系統(tǒng)的高效率。
本研究,從計(jì)算機(jī)硬件、計(jì)算機(jī)軟件、數(shù)據(jù)庫(kù)三方面同時(shí)進(jìn)行性能調(diào)優(yōu),日處理量可達(dá)10 TB,基本滿足全國(guó)所有高校的吞吐量,而該應(yīng)用也在清華大學(xué)、北京大學(xué)、復(fù)旦大學(xué)、上海交通大學(xué)、南京大學(xué)、東南大學(xué)、四川大學(xué)等高校部署使用。
[1] Hernández M A,Stolfo S J.Real-world data is dirty:data cleaning and the merge/purge problem[J].Data Mining and Knowledge Discovery,1998,2(1):9-37.
[2] 陳世敏.大數(shù)據(jù)分析與高速數(shù)據(jù)更新[J].計(jì)算機(jī)研究與發(fā)展,2015(2):333-342.
[3] 米允龍,米春橋,劉文奇.海量數(shù)據(jù)挖掘過(guò)程相關(guān)技術(shù)研究進(jìn)展[J].計(jì)算機(jī)科學(xué)與探索,2015(6):641-659.
[4] 程學(xué)旗,靳小龍,王元卓,等.大數(shù)據(jù)系統(tǒng)和分析技術(shù)綜述[J].軟件學(xué)報(bào),2014(9):1889-1908.
[5] 李動(dòng)周.大型關(guān)系型數(shù)據(jù)庫(kù)優(yōu)化探討[J].辦公自動(dòng)化,2007(2):32-34.
[6] 岑巍.數(shù)據(jù)庫(kù)優(yōu)化在海量數(shù)據(jù)下的研究與應(yīng)用[J].計(jì)算機(jī)時(shí)代,2015(2):33-35.
[7] 李振國(guó),鄭惠中.網(wǎng)絡(luò)流量采集方法研究綜述[J].吉林大學(xué)學(xué)報(bào)(信息科學(xué)版),2014(1):70-75.
[8] 袁梅宇.高效率多線程網(wǎng)絡(luò)流量采集算法研究及實(shí)踐[J].昆明理工大學(xué)學(xué)報(bào)(理工版),2006(1):32-36.
[9] 王冬梅,張素青,王碩.IP城域網(wǎng)網(wǎng)絡(luò)安全分析及流量過(guò)濾技術(shù)[J].信息通信,2014(10):253-254.
[10] 竇衍旭.高速網(wǎng)絡(luò)流量?jī)?nèi)容還原系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D].蘭州大學(xué),2014:1-65.
OPTIMIZATIONONTHEUSERBEHAVIORSINFORMATIONACQUISITIONOFMASSELECTRONICRESOURCES
Song Huiying1Yao Siqin1Zhang Minrong2
1(FudanGrandHorizonInformationTechnologyCo.,Ltd.,Shanghai200433,China)2(ShanghaiInstituteofComputingTechology,Shanghai200040,China)
During electric resources become more popular in university libraries, the behavior of accessing electric resources is too complex and diversified for analysis and data mining, facing increasingly severe challenges. In order to optimize the access to mass electronic resources, we present the optimization solutions at all steps of collecting the electric resource behaviors in library, based on ERU system and Fudan university library, especially cleaning up raw data and optimize current database. As a result of deploying ERU at Fudan university library, those huge raw data are processing very well at a good cost performance. This resolution could not only apply to electric resource at the school library, but also apply to deal with other areas huge data.
E-resources User information behaviour ERU Library of university
2017-03-06。宋惠鶯,工程師,主研領(lǐng)域:計(jì)算機(jī)軟件,信息安全,數(shù)據(jù)庫(kù),大數(shù)據(jù)分析挖掘。姚思勤,本科。章民融,教授級(jí)高工。
TP3
A
10.3969/j.issn.1000-386x.2017.08.058