電子資源海量訪問行為的采集優化研究

2017-08-12 12:22:06宋惠鶯姚思勤章民融

計算機應用與軟件 2017年8期

關鍵詞：數據庫優化資源

宋惠鶯姚思勤章民融

1(上海復旦光華信息科技股份有限公司上海 200433) 2(上海市計算技術研究所上海 200040)

電子資源海量訪問行為的采集優化研究

宋惠鶯1姚思勤1章民融2

1(上海復旦光華信息科技股份有限公司上海 200433)2(上海市計算技術研究所上海 200040)

隨著電子資源在高校圖書館中的普及，復雜多樣的電子資源數據給訪問跟蹤和數據挖掘帶來了日益嚴峻的挑戰。為了從海量的電子資源訪問數據中更快和更好地進行行為分析和數據挖掘，基于復旦光華的ERU系統和其在復旦大學圖書館的歷年運行結果，重點闡述了在海量數據采集分析中的各個優化步驟和手段，特別是原始數據清洗或過濾和數據庫優化。通過介紹的優化方案，復旦大學現場實現了高性價比的采集分析方案。該方法不但可以應用在圖書館中電子資源，而且對其他的海量數據處理有著較好的借鑒性。

電子資源用戶信息行為 ERU 大學圖書館

0 引言

近年來隨著信息技術在圖書館中應用規模持續擴大，特別是電子資源訪問的爆炸性增長，校園網傳輸的數字資源信息呈現總量劇增、種類繁雜、并發加大和突發性操作頻繁等特征。面對如此大數據規模，對現有電子資源訪問行為追蹤系統提出了極高的要求。

如圖1所示，國內各高校在2009年-2015年中，在電子資源方面的投入逐年提高。圖中數量代表各校平均采購量。國內各高校的紙質資源采購已出現逐年下降趨勢，而相應的電子資源采購金額在2015年已經和傳統紙質采購基本持平?？梢灶A計在未來的幾年中，電子資源采購必然會超過傳統紙質采購。

圖1 電子資源于紙質書本采購量

而隨著互聯網的普及，人民閱讀習慣的改變，對應的電子資源的訪問量也在逐年增長。如圖2所示，某高校電子資源的訪問量呈幾何級的增長。

圖2 高校電子資源訪問量

隨著訪問量的逐年提高，原有的系統也需要進行更新，以應對更大的數據采集量后的處理，以備后期的統計和分析。

1 研究目的

通過網絡中獲取到訪問電子資源的方式，是最為客觀和準確的采集方式。但是由此帶來的問題是，每個學校每天產生的網絡數據達到T級，如果要從這海量的數據中精準獲取到訪問電子資源的數據，并且做到不遺漏以保證統計分析的準確性，是需要做大量的技術攻關研究的。本文采用大量的壓力測試和集成測試，模擬海量數據流的測試方式，驗證了幾種優化手段集合使用的效果。

2 計算方式

本文以高校圖書館為例，闡述在校園網內電子資源訪問的采集優化研究。

現有電子資源訪問系統分為兩類：旁路采集和集中代理兩種方式。無論哪種方式，依靠單一高性能計算機不是一種可行的、性價比較好的方案。所以采用分布式計算方式將是一個效用可行的方案，并且保持良好的擴展性

ERU將數據采集處理分在兩個計算單元：采集工控機和數據分析服務器上，采集工控機主要針對數據清洗和過濾，而數據分析服務器主要處理特征匹配。將電子資源采集處理中的高CPU消耗和高內存消耗放在了兩個不同的計算單元中，提供了較好的整體系統效能。

3 硬件性能

對于海量數據的處理，硬件性能是個繞不開的問題。CPU的核數、單核主頻、內存讀寫速度、內存大小、I/O總線背寬、磁盤讀寫速度都會成為制約大數據處理的瓶頸。但由于數據量的指數增加遠遠領先于硬件性能的更新和事實上的成本要求，所以追求較好性價比成為了唯一的選擇。

由于圖書館用戶訪問行為大多以文本方式存在，所以應將性能提高的優先次序定為內存>高速I/O存儲>CPU。

內存對于關系型數據庫的影響超過任何其他硬件因素。保持一定的內存空余率是至關重要的，否則會進而嚴重影響I/O性能而造成系統性能急劇下降。當然要防止軟件內存溢出、查詢方式不好等引起內存不足問題。在文中會仔細闡述SQL查詢的優化問題。

磁盤I/O實際上是數據處理上效率最慢的一環。所以在數據庫設計的一開始，就必須考慮海量數據存儲的結構問題。在數據量達到一定規模后，必須使用分區分表方式將數據分成若干個物理或邏輯塊文件。用稍微提升軟件復雜度的方法，減少索引存放空間和磁盤頻繁訪問次數。

系統中總有一些性能敏感模塊，不能完全使用多進程或者多線程方法進行優化。這時候適當提高CPU主頻是一個簡單方法。

4 多級過濾

電子資源訪問處理過程中的最大數據量是來自于網絡背景，其中還有大量“臟數據”[1]。主要是無關行為分析和信息提取的無用背景?；诂F有軟硬件條件下，不做清理直接進行特征值提取是件不可能完成的任務。所以依據一般大數據處理流程，先進行數據清洗或過濾，也稱之為“數據預處理”[3]。數據量級降低通常是最佳優化的第一步。

4.1 過濾模型

為了提高數據庫cache基于電子資源的訪問特性，將數據過濾分成多級，每一級大量過濾無用信息，最后達到數量級大幅度下降。ERU實施六級過濾，然后將結果提供給后端分析具體訪問行為。

ERU六級過濾邏輯如圖3所示。

圖3 ERU的多級過濾

通過對數據包的層層過濾，一來可以降低對硬件的性能消耗，二來對不同層的數據流可以擴展解析能力。

(1) 協議過濾

通常學校網絡背景都還有多種協議，例如TCP、UDP、ARP、ICMP等基礎協議。而電子資源訪問基本上都是基于HTTP或HTTPS協議，所以一般只需分析TCP即可。從實際情況來說，UDP通信包占整個背景相當大比例，所以去除UDP等其他協議是優化的第一步。

(2) IP過濾

經過協議過濾后，背景中雖然只含有TCP包，但確包含了訪問所有各類網站的背景和某些應用內部通信包。去除這些無用內容的最簡單的方法是進行IP篩選。先獲取一份需要跟蹤的電子資源網站歸屬的IP列表，然后根據這張列表篩選出有意義的內容背景。這里需要注意的是有些網站采用多鏡像存放，根據客戶端的路由情況動態分配鏡像。這種情況需要獲取IP列表時遍歷所有的鏡像IP地址。

(3) 端口過濾

電子資源紛繁復雜，有國際有名的大平臺，也有只服務于特殊領域的小網站。這些電子資源的提供商所采用的網站技術千奇百怪，有些網站會采用特殊端口，或者不同端口代表不同的網站內容，所以非電子資源相關的數據端口背景是無用的，因此必須在IP過濾后加入端口過濾。

同時進行端口過濾也是排除某些網站TCP內部通信包，而這些內部通信包有可能占整個網站流量的大多數。

(4) 域名過濾

現在大多數電子資源平臺，除了一些自己構建網站資源存儲，大多都是托管在IDC(Internet Data Center 互聯網數據中心)上。現今為了加速跨地域訪問速度的問題，許多IDC提供了CDN服務。 CDN全稱為Content Delivery Network，即內容分發網絡。通過代理緩沖大大減輕服務器的壓力。但同時大型IDC使用同一個IP池來服務不同內容商成為常態。舉個例子：IDC有一個IP，周一代表是ACS資源網站，周三變成微軟補丁地址，而下周又變成蘋果廣告內容。為了應對上述情況，ERU在IP和端口過濾后，特別加入了域名，來屏蔽這類問題。主要是偵測HTTP包頭中HOST來判斷內容的歸屬。

(5) 類型過濾

一般網站背景是有HTML、XML、JS、GIF/JPG/PNG、JSON等類型數據構成，其中電子資源下載還牽涉了一些特殊的內容類型。從行為分析的角度出發，并不是所有內容類型都是必要的。

一般意義上，圖片文件(包括JPG、GIF、PNG)都是與行為無關。當然不排除有些多媒體資源網站以圖片作為行為依據。當然還有些網站會自動生成文獻首頁圖片做預覽，給行為分析帶來難度。

進行類型過濾的另外一個原因是關于下載行為。下載行為在所有行為總數內并不占多數，但其占據的流量有時卻占大多數。下載本身的內容體對行為判定無意義，而且全部內容體又有隱含的版權問題。因此對于這類背景只需分析整個會話開始部分即可。而且這樣還可以節省原始數據儲存大小。

(6) 特征值預過濾

最后經過以上步驟過濾后的背景還是包含了和行為判斷無關的內容，例如首頁。ERU有一套較為完善的特征值模板庫，利用該庫進行再次過濾，結果背景就基本和行為直接相關。

4.2 多級過濾的實驗結果

ERU采用以上多級過濾后，其數據量急劇下降2個數量等級，如圖4所示。某大學超過5 TB的日背景數據縮減到1.2 GB(壓縮后)有效行為相關背景。

圖4 多級過濾數據量對比

再對六級過濾進行優化率比較，發現六級過濾中以IP過濾、類型過濾和特征值過濾最為有效。其主要原因是：① 學校背景不管是否經過分流器過濾，但是由于網絡設備的過濾局限，結果中還是含有大量的無關IP數據；② 一般HTTP訪問都是圖形化和交互化的，所以背景中有大量的圖片、腳本；③ 圖書館主要關注訪問各電子資源平臺的行為，其下載行為中主要以PDF或其他文本存儲格式為主。而行為分析中一般不分析PDF內部內容，所以只需提取一部分文件頭信息即可。由于各級數據的多樣性，造成每級過濾效率不同，見圖5效率對比。

圖5 多級過濾效率對比

當然以上分析并不代表TCP過濾、端口過濾、域名過濾不重要，實際上過濾的每一步都是依賴上一步過濾的結果，多級過濾的最終目標一直是減少無效數據的數據處理量。

5 數據庫優化

5.1 調整數據庫內存配置

為了提高數據庫cache中的命中率，配置適當的內存是數據庫優化的首要條件。關系型數據庫在服務器內存分配占首要地位，應于優先滿足。否則數據庫查詢重復命中率較低，從而造成I/O瓶頸，進而導致操作系統頁交換頻繁，最后系統進入類似假死狀態。

5.2 調整數據設計

首先我們應該了解一下存儲的特性，一般意義上的存儲是指掉電不丟失數據的電子設備。長久以來計算機主要采用磁介質作為存儲，但現今的采用FLASH芯片或DRAM芯片的固態硬盤或U盤都已不采用磁介質，但本文以磁盤為上述固定存儲的統稱。

磁盤分為機械磁盤、固態硬盤和磁盤陣列。一般機械磁盤速度為50～200 Mbit/s，固態硬盤可達到768 Mbit/s(背帶6 Gbit/s)。而磁盤陣列則依靠陣列卡同時讀寫多個磁盤，從而達到背帶10～20 Gbit/s或以上。

磁盤讀寫的速度是不一樣的，一般上面提到的理論速度都是指讀取速度，而寫入速度通常只有讀取速度的一半甚至四分之一。

另外磁盤速度分順序讀寫和隨機讀寫，以上的讀寫速度都是建立在順序讀寫上。如果是隨機讀寫，速度有可能下降到原有的十分之一。

雖然內存具有讀寫速度快(是磁盤的30～50倍)、讀和寫速度差距小和隨機讀寫速度快的特點，但內存是掉電丟失數據的介質，而且成本相比磁盤過高，不可能無限制采用內存。

(1) 避免高頻磁盤讀寫

磁盤I/O是整個處理過程中的速度瓶頸，就算是采用磁盤陣列在應付大數據時依然如此。由于現有數據存儲硬件上一般使用磁盤控制卡(陣列卡)控制，而實際系統實施上一般軟件并不直接控制訪問某個磁盤或磁盤陣列，所以本文不將調整I/O硬件訪問[5]作為重點。從軟件上說，避免對磁盤的高頻讀寫則成為優化的重點方向。由于現有磁盤速度遠落后于內存，同時存在著讀寫速度差距大的缺點，在必須采用高速數據緩沖的地方，應盡量避免使用磁盤，而改用內存作為緩沖。

(2) 數據盡量壓縮存放

在圖書館電子資源訪問的原始背景避不開海量的大數據塊存放。如果按原樣存放，不但需要非常大的存儲磁盤，而且讀寫需要的時間較長。ERU采用壓縮存放，從而避免不必要的大量磁盤讀寫。當然這種方案對CPU有一定要求，但在如此海量的數據中，這點代價完全可以接受。

以ERU在復旦大學實施結果來看，2015年開始采用數據壓縮存放，相比2014的非壓縮存放，節省了近百分之六十的空間。如果再算上復旦大學2015年新增的14個電子資源平臺的話，數據存儲的節省更加明顯。見圖6，在優化前后的存儲量對比。

圖6 優化前后存儲量比較

同時數據壓縮后容量變小，也可以從另一方面加速數據的讀取速度，從而幫助總體行為分析的效率。

(3) 正確使用索引

索引是加快數據庫查詢的好方法，但是同時如果數據過多索引本身也會成為瓶頸。不應過多地建立索引，特別應謹慎考慮單字段索引和復合索引的組合，力求精簡有效。

(4) 分區分表

圖書館電子資源訪問的數據大多是行式數據，如果不加處理入表，一方面大大增加索引的負荷，而且將來索引的讀取也會成為數據讀取的一個限制；另一方面造成操作系統中文件系統處理過大、過多文件的困擾。

對于一般的關系型數據庫，海量行數的存放應采用分區分表，使之存放到不同有限的物理文件中。一方面使讀寫效率不受文件系統的制約；同時另一方面可以優化索引，不至于由于數據過多時索引拖累效率的問題。

以復旦大學現場五千萬條數據查詢為例，簡單查詢速度從分鐘級降到了秒級。見圖7，優化前后，訪問速度發生了顯著的提高，大幅度改善了用戶的使用感受。

圖7 優化前后的查詢速度對比

5.3 優化SQL語句

(1) 謹慎使用嵌套查詢

嵌套查詢牽涉了多個查詢。但如果主查詢和子查詢有相關聯的字段，例如主查詢的字段值變化會引起子查詢重新執行，這樣就不是一個好的查詢語句。應盡量避免這種情況。

(2) 盡量避免通配符匹配

通配符查詢不能直接使用索引進行查詢。以SQL Server為例，只能采用Full-Text Filter Daemon Launcher進行全文搜索優化，其效率遠遠不及索引的效率。

(3) 減少全表查詢

一般全表查詢或者鎖表操作都會降低系統效率，有時需要數十分鐘才能完成。例如不帶條件的直接查詢實際上如無必要，盡量慎用。

(4) 合理使用臨時表

有時使用臨時表，可以加快多表復雜查詢，特別是那些類似查詢的相同中間數據。

(5) 合理使用視圖

在單表查詢中，可以考慮使用視圖。利用數據庫后臺事務并行完成查詢。

5.4 優化數據錄入

通常的數據入庫SQL命令(INSERT)在海量數據入庫中基本力不從心。一般的方法是將命令變成存儲過程，以事務方式執行，可以獲得十幾倍提升的效率。當然在某些特殊情況下可能有更好的辦法。例如微軟提供CSharp處理SQL Servers的入庫上的特別函數可以到達數十倍到上百倍的提升。

6 結語

優化電子資源數據處理是一個系統工程，牽涉到軟硬件、數據設計、應用編寫、流程改進等方面。本質上電子資源處理是一種大規模文本數據處理，過濾和壓縮是優化處理的核心。當然其中有些優化方向都是互相制約的，整個優化過程中只能在平衡原則上達到折中，獲取整個系統的高效率。

本研究，從計算機硬件、計算機軟件、數據庫三方面同時進行性能調優，日處理量可達10 TB，基本滿足全國所有高校的吞吐量，而該應用也在清華大學、北京大學、復旦大學、上海交通大學、南京大學、東南大學、四川大學等高校部署使用。

[1] Hernández M A,Stolfo S J.Real-world data is dirty:data cleaning and the merge/purge problem[J].Data Mining and Knowledge Discovery,1998,2(1):9-37.

[2] 陳世敏.大數據分析與高速數據更新[J].計算機研究與發展,2015(2):333-342.

[3] 米允龍,米春橋,劉文奇.海量數據挖掘過程相關技術研究進展[J].計算機科學與探索,2015(6):641-659.

[4] 程學旗,靳小龍,王元卓,等.大數據系統和分析技術綜述[J].軟件學報,2014(9):1889-1908.

[5] 李動周.大型關系型數據庫優化探討[J].辦公自動化,2007(2):32-34.

[6] 岑巍.數據庫優化在海量數據下的研究與應用[J].計算機時代,2015(2):33-35.

[7] 李振國,鄭惠中.網絡流量采集方法研究綜述[J].吉林大學學報(信息科學版),2014(1):70-75.

[8] 袁梅宇.高效率多線程網絡流量采集算法研究及實踐[J].昆明理工大學學報(理工版),2006(1):32-36.

[9] 王冬梅,張素青,王碩.IP城域網網絡安全分析及流量過濾技術[J].信息通信,2014(10):253-254.

[10] 竇衍旭.高速網絡流量內容還原系統的設計與實現[D].蘭州大學,2014:1-65.

OPTIMIZATIONONTHEUSERBEHAVIORSINFORMATIONACQUISITIONOFMASSELECTRONICRESOURCES

Song Huiying1Yao Siqin1Zhang Minrong2
1(FudanGrandHorizonInformationTechnologyCo.,Ltd.,Shanghai200433,China)2(ShanghaiInstituteofComputingTechology,Shanghai200040,China)

During electric resources become more popular in university libraries, the behavior of accessing electric resources is too complex and diversified for analysis and data mining, facing increasingly severe challenges. In order to optimize the access to mass electronic resources, we present the optimization solutions at all steps of collecting the electric resource behaviors in library, based on ERU system and Fudan university library, especially cleaning up raw data and optimize current database. As a result of deploying ERU at Fudan university library, those huge raw data are processing very well at a good cost performance. This resolution could not only apply to electric resource at the school library, but also apply to deal with other areas huge data.

E-resources User information behaviour ERU Library of university

2017-03-06。宋惠鶯，工程師，主研領域：計算機軟件，信息安全，數據庫，大數據分析挖掘。姚思勤，本科。章民融，教授級高工。

TP3

10.3969/j.issn.1000-386x.2017.08.058

電子資源海量訪問行為的采集優化研究

0 引 言

1 研究目的

2 計算方式

3 硬件性能

4 多級過濾

5 數據庫優化

6 結 語

0 引言

6 結語