999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

海量題庫中的特定數據搜索系統的設計與實現

2016-04-12 00:00:00趙安學
現代電子技術 2016年20期

摘 要: 在挖掘海量數據集過程中,傳統海量數據檢索方法無法適應海量題庫中數據的快速增加趨勢,不能在有限時間內獲取高質量的挖掘結果。因此,采用Elastic Search 分布式架構技術,設計并實現了海量題庫中的特定數據快速搜索系統。該系統由用戶界面、數據庫連接模塊、數據抽取模塊、索引塑造檢索以及索引檢索和數據搜索模塊等構成。詳細介紹了數據抽取模塊、索引塑造模塊以及索引檢索模塊的設計和實現過程,3個模塊共同實現海量題庫中的特定數據快速搜索任務。實驗結果表明,該系統的搜索平均響應時間、系統資源消耗以及索引檢索性能三方面的性能較高,能夠滿足用戶快速檢索特定數據的需求。

關鍵詞: 海量題庫; 特定數據; 數據搜索; 檢索方法

中圖分類號: TN911?34; TP311.52 文獻標識碼: A 文章編號: 1004?373X(2016)20?0049?04

Abstract: In the process of mining huge amounts of data set, the traditional massive data retrieval method is unable to adapt to the rapidly increasing trends of data in the massive question banks, and can not achieve the high quality mining results within a limit time. Therefore, the system for specific data fast search in the massive question banks was designed and implemented with Elastic Search distributed architecture technology. The system consists of user interface, database connection module, data extraction module, index shaping retrieval module, index retrieval module, data search module, etc. The design and implementation processes of data extraction module, index shaping module and index retrieval module are introduced in detail. The three modules accomplish the quick search task of specific data in the massive question bank collaboratively. The experimental results show that the system has high performance in three aspects of average response time, system resource consumption and index retrieval performance, and can meet users′ needs to quickly retrieve the specific data.

Keywords: massive question bank; specific data; data search; retrieval method

0 引 言

隨著計算機技術的發展以及教育方法的不斷改進,計算機題庫系統對于確保高質量考試具有重要應用意義[1?2]。海量題庫中的信息產生的數據具有規模大和形成速度快的特征,如何對這些海量數據進行高效檢索,成為當前分析的重點方向[3]。傳統海量數據檢索方法,無法適應海量題庫中數據的快速增加趨勢,數據檢索效率和質量較低,存在較大的弊端[4?6]。文獻[7]提出的改進并行算法采用主從模型實現劃分聚類算法的并行,算法運行的停止條件為是否符合覆蓋參數,實現特定數據的挖掘,但是該方法受到覆蓋參數的限制,存在較高的局限性。文獻[8]通過I?TREE INDEX算法挖掘特定數據,該算法可對系統內存使用狀態進行分析,如果內存較低,則先劃分原數據集,再挖掘劃分后的數據集,并融合挖掘結果,得到最終的特定數據挖掘結果,但是該算法耗能量較高。文獻[9]分析了Scalable?kmeans算法,該算法利用三元組保存聚類過程中的統計信息,分層完成數據集的聚類,最終挖掘出特定數據,但是在處理大規模數據集時,不能與數據量成線性關系,數據挖掘質量較低。文獻[10]分析了依據伺機投影的算法,該算法可挖掘各種規模特征的數據,但是無法解決挖掘過程中的內存瓶頸問題。針對上述分析的問題,本文通過Elastic Search 分布式架構技術,設計并實現了海量題庫中的特定數據快速搜索系統。該系統由用戶界面、數據庫連接模塊、數據抽取模塊、索引塑造檢索以及索引檢索和數據搜索模塊等構成。實驗結果說明,該系統可滿足用戶快速檢索海量題庫中的特定數據的需求。

1 特定數據搜索系統的體系結構

依據Elastic Search分布式架構技術,塑造海量題庫中的特定數據搜索系統,該系統體系結構如圖1所示。特定數據搜索系統包括用戶界面、攔截器、數據庫連接模塊、數據抽取模塊、索引塑造檢索以及索引檢索和數據搜索模塊等。

用戶界面通過JSP技術和Extjs 技術向用戶呈現數據檢索結果,采用JDBC訪問數據庫實現數據庫數據的讀寫數據錄入、數據庫搜索等用戶交互操作。

數據庫連接模塊、索引檢索模塊、攔截器以及數據檢索模塊,共同實現海量題庫中特定數據搜索的任務。數據抽取模塊從數據庫中獲取文本信息,將文本信息反饋給索引塑造模塊。索引塑造模塊采用分布式連接器實現應用程序同Elastic Search 分布式存儲服務器間的連接,通過該分布式架構實現索引的檢索處理。攔截器實現用戶申請和響應申請。索引檢索模塊通過Elastic Search 分布式架構的檢索服務,對海量數據庫中的文本信息進行檢索操作。特定數據搜索模塊通過Rowid和相關的搜索條件對數據庫進程檢索,獲取海量題庫中的特定數據。Elastic Search是依據全文索引的分布式存儲系統,可確保用戶直接調用相關處理命令,實現相關的任務。將海量數據庫中的全文數據索引塑造成不同的分片,這些分片保存在Elastic Search 集群中的不同數據節點中。Elastic Search 可對這些分片進行處理和分發,確保不同數據節點間的通信均衡化。查詢某個索引是一種分布式操作, Elastic Search可對索引中的各分片數據復制進行查詢,將查詢結果匯總到結果集中。

2 特定數據搜索系統的關鍵模塊設計和實現

2.1 設計數據抽取模塊獲取海量題庫中的文本信息

定時器通過數據抽取模塊完成海量題庫中文本信息抽取,其中數據抽取模塊的內部邏輯結構組成以及設計過程見圖2。通過圖2可看出,數據抽取模塊通過Quartz 定時器技術,在固定時間開始運行數據抽取模塊的采集任務,將抽取出的海量題庫中的文本信息結果集當成索引塑造模塊的輸入信息,并將定時任務的開啟時間當成塑造索引時間的終止時間,采集數據庫中低于該時間的全部分區數據,依據分區名塑造索引。

2.2 設計索引塑造模塊構建海量題庫的文本索引

索引控制器運行索引塑造模塊,通過 Elastic Search 分布式連接器采集同Elastic Search 服務的連接,再塑造海量題庫的文本索引,將文本索引保存到索引庫內。塑造完一次索引后,返回成功狀態碼,否則在下一次定時任務運行后,再塑造特定分區數據的文本索引,同時將未塑造文本索引的分區名保存到索引狀態表中。索引塑造模塊面向數據庫分區表中各分區,分別塑造文本索引文件。圖3和圖4描述了索引塑造模塊的內部邏輯結構組成和設計過程,以及構建題庫文本索引的具體流程設計過程。

2.3 索引檢索模塊的設計與實現

2.3.1 設計分詞器算法實現題庫文本的分類

索引檢索模塊通過Mmseg4j分詞器算法中的Simple 和Complex兩種算法完成海量題庫中文本信息的分詞,為文本信息的檢索提供可靠的依據,Mmseg4j分詞器實現題庫文本信息分類的流程設計內容,如圖5所示。

2.3.2 設計索引檢索模塊搜索文本信息

索引檢索模塊搜索海量題庫中文本信息的運行流程設計內容如圖6所示。

從圖6中可看出,文本檢索模塊依據分詞器算法得到的海量題庫文本分類結果,對文本進行檢索,極大提高了有價值文本的檢索質量。索引檢索模塊通過索引檢索和文本查詢器共同實現。系統操作分析用戶界面反饋的搜索條件,傳遞搜索任務,使用 Elastic Search 分布式連接器獲取同 Elastic Search 服務的連接,再對索引庫進行檢索,搜索同關鍵字匹配的全部Rowid集,將搜索結果存儲到數據庫臨時表內。文本查詢器使用數據庫連接器同數據庫實現通信,檢索數據庫臨時表,并將搜索的Rowid分批與用戶的其他查詢條件組合,通過 SQL 查詢數據庫分區表,返回文本結果集。塑造海量題庫的全文索引過程中的各分區名同索引名相對應,依據用戶的搜索條件,對索引名進行文本索引檢索,具有較高的搜索效率。

2.3.3 設計數據搜索模塊搜索特定數據

分析圖7可得,數據搜索模塊采用Content Search Thread線程,運行數據庫查詢任務,同時反饋出海量題庫中特定數據的搜索結果。數據查詢線程讀取全局共享緩存區中的Rowid 信息,同時依據用戶搜索條件,塑造SQL語句,對海量題庫的數據庫進行搜索,將搜索結果存儲到數據庫臨時表內,為用戶進行搜索和導出數據服務。全局共享緩存區的讀寫具有互斥性,數據搜索模塊從緩沖區中完成取值后,該緩存區中的信息條數就少一條,直至索引查詢模塊的線程結束搜索任務。

3 實驗分析

實驗通過自動化的測試工具,模擬多種正常、異常、峰值條件對本文系統的搜索平均響應時間性能、系統資源消耗性能以及系統索引檢索性能三個指標進行測試。

3.1 搜索平均響應時間性能

實驗對本文系統搜索的平均響應時間同用戶數量關系的測試結果如圖8所示。分析可得,隨著用戶數的逐漸增加,響應時間也不斷增加,當用戶數小于9時,本文系統的搜索響應時間增加較為緩慢,而當用戶數高于9時,本文系統的數據搜索響應時間增加速度、增長幅度升高,并且能夠看出當系統用戶數低于15時,系統數據響應時間低于2 s,此時為系統的理想狀態。

3.2 系統資源消耗性能

實驗測試本文系統進行特定數據搜索過程中的資源消耗結果,如圖9所示,能夠看出,隨著用戶數的不斷增加,本文系統的資源利用率逐漸提高,最終保持在0.78左右,并且用戶數高于18后,本文系統仍可穩定運行。

3.3 索引性能測試

實驗對比本文系統和其他3種數據搜索系統的測試環境,對比每個測試結果的性能值及吞吐量,該模擬索引檢索環境下各系統的索引性能對比如表1所示。分析表1中4種索引服務測試環境下的索引檢索時的性能值變化情況及響應時間,可以看出相對于其他3種搜索系統,本文系統的索引檢索響應時間、CPU利用率、吞吐量、I/O讀寫效率等指標都較優,具有較高的數據搜索性能,可滿足用戶快速檢索特定數據的需求。

4 結 論

本文通過Elastic Search 分布式架構技術,設計并實現了海量題庫中的特定數據快速搜索系統。該系統由用戶界面、數據庫連接模塊、數據抽取模塊、索引塑造檢索以及索引檢索和數據搜索模塊等構成。詳細介紹了數據抽取模塊、索引塑造模塊以及索引檢索模塊的設計和實現過程,三個模塊共同實現海量題庫中的特定數據快速搜索任務。實驗結果表明,該系統的搜索平均響應時間、系統資源消耗以及索引檢索性能三方面的性能較優,能夠滿足用戶快速檢索特定數據的需求。

參考文獻

[1] 陳翀,謝曉軍,陳康.大數據關鍵技術及其在運營商中的應用研究綜述[J].廣東通信技術,2013(8):2?7.

[2] 鄭帆.海量本體數據存儲平臺的研究與設計[D].北京:北京工業大學,2014.

[3] 孟小峰,慈祥.大數據管理:概念、技術與挑戰[J].計算機研究與發展,2013,50(1):146?169.

[4] 張哲銘.基于的臺達實驗室管理系統實現[J].電子技術,2013(6):65?67.

[5] 劉淑英.一種基于MapReduce的最近似k對數據搜索方案[J].計算機與現代化,2014(8):38?45.

[6] 楊杰.面向圖像檢索的海量圖像自動聚類方法研究[D].北京:北京交通大學,2015.

[7] 陳冬.基于相關性的海量圖像的可視化探索式搜索研究[D].湘潭:湘潭大學,2014.

[8] 鐘鳴,王盛,劉夢赤.一種大規模圖數據上已知項搜索的優化方法[J].計算機研究與發展,2014,51(1):54?63.

[9] 孫靖.基于云平臺的數據庫搜索引擎實現方法的研究[D].南京:南京郵電大學,2014.

[10] 趙金龍.海量跨媒體數據檢索關鍵技術[D].北京:北京郵電大學,2015.

主站蜘蛛池模板: 伊人久热这里只有精品视频99| 尤物成AV人片在线观看| 精品超清无码视频在线观看| 东京热av无码电影一区二区| 国产欧美中文字幕| 国产在线观看一区二区三区| 国产精品美女在线| 秋霞国产在线| 国产日韩欧美中文| 19国产精品麻豆免费观看| 天堂va亚洲va欧美va国产 | 在线观看欧美精品二区| 欧美在线综合视频| 欧美日韩综合网| 久久国产免费观看| 永久免费精品视频| 日韩 欧美 小说 综合网 另类| 欧美三級片黃色三級片黃色1| 青青草原国产| 黄网站欧美内射| 一本色道久久88| 日本一本在线视频| 国产三级精品三级在线观看| 91无码人妻精品一区二区蜜桃| 性欧美在线| 亚洲国产综合精品一区| 婷婷色一二三区波多野衣| 欧美一级专区免费大片| 久久这里只有精品23| 国产十八禁在线观看免费| 欧美a级完整在线观看| 亚洲人成人伊人成综合网无码| 国产免费羞羞视频| 六月婷婷综合| 国产在线精品99一区不卡| 亚洲成人精品在线| 国产在线一区视频| h视频在线播放| 亚洲精选高清无码| 国产午夜福利在线小视频| 国产精选自拍| 亚洲国产精品美女| 四虎永久免费在线| 大陆国产精品视频| 色屁屁一区二区三区视频国产| 国产亚洲欧美日韩在线一区二区三区| 欧美国产日韩在线观看| 色噜噜久久| 欧美另类第一页| 色九九视频| 99久久免费精品特色大片| 国产在线观看一区二区三区| 午夜性爽视频男人的天堂| 免费无码AV片在线观看国产| 欧美日韩高清在线| 亚洲AV人人澡人人双人| 青青操国产| 青青操视频免费观看| 毛片a级毛片免费观看免下载| 国产福利拍拍拍| 久久免费看片| 国产欧美精品午夜在线播放| a亚洲天堂| 最新国产在线| 久久久久免费精品国产| 伊人久久综在合线亚洲2019| 日韩精品一区二区三区视频免费看| 99热在线只有精品| 91小视频在线播放| 国产一区二区网站| 亚洲天堂日韩在线| 99热这里只有精品免费国产| 99热精品久久| 久精品色妇丰满人妻| 91毛片网| 影音先锋丝袜制服| 婷婷色在线视频| 高清视频一区| 国内黄色精品| 二级特黄绝大片免费视频大片| 欧美日韩中文国产va另类| 亚洲精品动漫在线观看|