



摘 要: 針對DOT系統,設計實現并優化了類SQL的查詢技術,首先分析了傳統數據庫在查詢上的優化策略,比較了傳統數據庫和DOT系統在查詢方面的異同。通過參考一般數據庫的SQL語句的設計規范,為DOT設計了一套類SQL語句。后續對設計的類SQL語句進行詞法語法分析,構建查詢樹。同時,借鑒傳統數據庫的查詢優化策略,結合DOT系統的特點對查詢進行優化。最后在開源的ApacheHBase典型的DOT系統的基礎上,實現了上述類SQL語句的所有解析和優化內容。
關鍵詞: 分布式順序表; 類SQL語句; 查詢優化; HBase索引優化
中圖分類號: TN911?34; TM417 文獻標識碼: A 文章編號: 1004?373X(2016)15?0103?05
Abstract: Aiming at the distributed ordered table (DOT) system, the SQL?like query technology was designed, implemented and optimized. In this paper, the optimization strategy of the traditional database is analyzed for query, and the query differences between the DOT system and traditional database are compared. Referring to the design specifications of the general database′s SQL statement, a set SQL?like statement was designed for DOT. The designed SQL?like statement is analyzed with morphology and grammar to establish the query tree. In combination with the query optimization scheme of the traditional database and cha?racteristics of DOT system, the query was optimized. All analysis and optimization contents of SQL?like statement were realized based on the open source ApacheHBase.
Keywords: distributed ordered table; SQL?like statement; query optimization; HBase index optimization
0 引 言
網絡應用的普及對海量數據的存儲和操作處理以及各種處理能力的可擴展性、可靠性和高效性提出了很大的挑戰,而現有數據模型和相關技術已不能勝任[1]。為了應對上述挑戰,業界提出了NoSQL數據庫。這些NoSQL數據庫可以模型化為分布式順序表(DOT)系統,但是DOT系統對SQL規范中查詢特性的支持并不完美[2]。
隨著網絡的發展,數據量出現爆炸式的增長,現有的關系型數據庫處理這些大數據已經出現瓶頸。進而有了DOT系統的出現,但現有的DOT系統對SQL查詢特性的支持并不是特別的理想[3]。
1 類SQL語句的設計與解析實現
在實現過程中首先根據SQL的設計規范,設計出一套適用于DOT系統的類SQL語句。用戶根據類SQL規范提交查詢請求,然后系統對類SQL查詢語句進行詞法分析、語法分析和語義分析,建立原始查詢樹。最后根據DOT的特點實現查詢樹的優化。對于語法分析中各操作語句類型的判斷,采取保留類SQL語句第一個關鍵詞的方法進行查詢類型的匹配來識別具體的查詢類型的方法來實現。類SQL語句解析流程如圖1所示。
1.1 查詢關系式的詞法分析
利用有限自動機的方法對識別過程進行建模。通過詞法分析自動機對where_list查詢條件進行分析后就能夠得到查詢條件中的所有關鍵詞,然后根據關鍵字出現的順序確定輸入是否符合語法分析的語法規定。根據需求,本自動機識別的關鍵字有關系符號、括號、整數、浮點數、字符串值、變量名[6]。
詞法分析的結果記錄在下面三個數組中:
keyWordList[wordIndex],記錄condition條件中的查詢列。
keyValueList[valueIndex]=searSQL.substring(begIndex,endIndex),記錄查詢列的起始范圍的值。
keyValueType[valueIndex]=DataType,記錄查詢列的范圍值的數據類型。
stokenList[listIndex++],記錄condition條件中出現的每一個字符的標記token,token分為五類:邏輯與或非,查詢條件列,條件列范圍的起始值,范圍起始值的類型和比較符號。
1.2 查詢關系式的語法分析
類SQL語句和傳統的SQL語句類似,包含固定的關鍵字和各關鍵字的出現順序,并且每個關鍵字所起的引導作用也很清晰。本系統中的類SQL的語法表即是通過正則表達式實現的。語法中定義了類SQL語句的各關鍵詞的出現順序,并根據不同的關鍵字觸發不同的動作。
在語法分析中還包括對查詢條件中括號的匹配。待整個SQL語句的語法語義分析正確后,將語句中涉及的語法正確的tablename,select_list,condition等信息存儲到響應的string數組里面。在詞法語法分析正確的基礎上對SQL語句中涉及的表和列是否存在部分完整性檢查,如有錯誤,即時反饋錯誤信息。
1.3 查詢樹的構建
文中類SQL的查詢關系式查詢樹的構建是用二叉查詢樹構建的。建立的二叉查詢樹為中序遍歷二叉樹,通過對查詢樹進行中序遍歷可以得到查詢關系式。在查詢樹的構建中,根據二叉樹的特點采用遞歸算法,先判斷出左右子樹的范圍并完成構建,然后完成其父節點的構建,組成樹結構。
2 查詢樹的優化
DOT系統為分布式結構,所有的數據均存儲在集群中,在并行操作中具有很強的性能優勢。為了提高查詢統計的速度,讓查詢開啟多線程進行并行化查詢是較好的解決方案。本文并行化的解決方案是將查詢關系式解析成析取范式的形式,程序為每一個析取項啟動一個查詢線程,首先將查詢關系式轉化成析取范式矩陣。為了不讓并行化執行的查詢進程之間出現重復的結果,即并行化執行的析取查詢項之間沒有交集,最后需要將查詢關系式解析成等價的主析取范式矩陣。
2.1 查詢關系式并行化優化
2.1.1 查詢關系式優化成析取范式矩陣
對整個二叉查詢樹的優化算法思想為:
(1) 自根節點遍歷整個查詢樹;
(2) 如果沒有發現父節點是and節點或or節點則優化完成,程序返回;否則,定義發現的or節點為當前節點,跳轉到(3);
(3) 對當前節點的各個分支按下文中三種邏輯節點(與或非)中的一種進行方式轉換,對查詢樹進行旋轉,完成后跳轉到(1)。
對查詢樹的優化采用遞歸調用的流程來實現,對于每一個節點采用先優化左子樹,再優化右子樹,后優化當前節點的優化流程。
2.1.2 查詢關系式邏輯“或”節點的優化
邏輯“或”節點的優化和邏輯“與”節點的優化不同。它只有當其左右孩子都為數據節點且數據節點為同一個變量的表達式的情況下,邏輯“或”節點才需要進行優化。如圖2為整棵樹的一部分,節點[B]為邏輯節點,節點[m]和[n]為數據節點,[A]節點為[B]節點的父節點。