雷宇

【摘 要】現階段,互聯網推行大數據之后存在兩個方面的影響:首先,數據量迅速增長;其次,數據復雜性不斷提高。一旦數據量增長并不斷累積,勢必會出現質變現象。大數據涵蓋內容廣泛,除了視頻數據之外,結構信息還包括文本數據,此外無論是處理速度,還是采集速度,都實現快速提高。生產企業一旦成功應用,除了生產效率得到迅速提升之外,決策效率也會提高;政府部門成功應用,能夠及時處理應急事件。由此,數據挑戰在今后發展過程中將越來越突出。
【關鍵詞】大數據;高位數據;挖掘技術
【中圖分類號】TP311.13 【文獻標識碼】A 【文章編號】1674-0688(2019)07-0166-02
1 大數據的發展挑戰
現階段,數據庫正在全球化發展,立足于該發展模式,分布式模式需要得以創建,除了需要龐大機器之外,還需要技術有效處理龐大的數據信息。但是面對大數據時代,針對飛速激增的數據量,傳統數據分析已經不能滿足需求,其體現在以下3個方面。
1.1 數據處理的時效性
面對大數據不斷推行,為了符合現階段數據處理實際需求,數據應實現在線處理。在此基礎上,無論是數據處理選擇,還是數據處理模式,都不斷改變,使得處理具有實時性,除了能夠實現流處理之外,批處理也成功實現。立足于大數據實時性處理,無論是業務需求,還是根據應用,都逐步發生改變。
1.2 實現了動態變化環境中的索引形式
在索引形式的基礎上,關系數據庫查詢速度將不斷提升,此時使用傳統數據管理模式,索引形式并不會產生變化,因此,無論是更新效率,還是創建方式,都不斷形成。針對大數據信息變化特點,除了需要具備設計簡潔的特點,創建索引方式還需要具有高效的特點,由此針對大數據變化,數據信息需求調整和處理都可以良好使用。可見,針對大數據變化,全新的索引形式能確保查詢工作順利實施。
1.3 先驗知識的缺失
立足于傳統數據分析結構,在關系型保存模式基礎上,先驗知識和隱藏內部關系早已出現。比如說,對信息屬性進行分析過程中,需要確定可能存在的取值范圍,并且在實際分析之前了解數據。針對大數據分析,非結構化數據和半結構化數據都需要創建類似數據,并且實現正式關系式。但是數據流的產生是不間斷的,所以針對實時發生的數據,先驗知識并不會創建完善,在此情況下,需要及時發現并處置無先驗知識。
2 高維數據挖掘中的問題
2.1 高維數據簡介
大數據庫飛速發展,維數同樣在急劇擴大,一旦增長到瓶頸處,數據處理將難以進行,人們將該數據叫做高維數據。相對于傳統數據挖掘而言,除了具有復雜性特點之外,高維數據還具有多信息量性,由此成為數據挖掘的核心所在。
2.2 高維數據的特點
(1)稀疏性。實質就是數據庫相對龐大時,雖然高維數據非常多,但是能夠符合使用要求的相對較少。
(2)維度災難。挖掘高維數據的過程中,往往存在較多的屬性變化,此時索引結構性能將不斷降低,無最近鄰、最遠鄰和查詢點的距離往往都一樣,由此最近鄰往往毫無意義,數據挖掘難度也將急劇增加。
2.3 高維數據對于數據挖掘產生的影響
結合大數據特征,實際挖掘數據過程中使用最近鄰法,在龐大數據中查詢效率將急劇提升。最近鄰法往往依賴索引結構進行,可是針對高維數據存在“維度災難”的特點,最近鄰查詢的索引結構支持度不斷降低,甚至使得最近鄰查詢無法有效進行。
無論是進行高維數據的分類聚類分析,還是進行高維數據的異常檢測,均受到索引結構制約,效果大打折扣,甚至失去效果,由此異常檢測算法與聚類分析性能將不斷降低。除此之外,針對同樣的數據點距離,分類聚類概念意義不斷消失,針對高危空間數據具備的稀疏性,任何數據點都可視為異常點,此時針對高維數據異常檢測將困難重重。
2.4 高維數據挖掘的研究方向
(1)距離函數或相似性度量函數。無論是重新定義距離函數,還是重新定義相似性度量函數,都能夠成功避免“維度災難”的制約。
(2)選維和降維。在不斷降低高維數據維度的基礎上,使其成功形成低維數據,由此進行低維數據的數據挖掘。該方法最為人們所接受。
(3)高效的聚類算法和異常檢測算法。為成功解決算法效率低的難題,可采取3個方面措施:{1}設計性能更好的索引結構;{2}增量算法;{3}并行算法。
3 大數據的高維數據挖掘技術
3.1 大數據儲存的三維矩陣模型
針對不同來源的數據,往往可以選取不同的數據處理方式。比如,在分解數據種類的基礎上,可將調研數據分為單選、多選、排序3類。傳統數據的記錄和分析過程,都應立足于同樣的數據庫,由此增加維度的差異。
因此,大數據時代數據模型創建除了需要具有內容多的特征外,還需要存在極強的通用性。同樣以上文例子為例,在數據調研過程中,無論是單選,還是多選,都能夠依據向量來有效表達,對應的題目排序可以利用矩陣表現,在社會網絡數據的基礎上進行,并且結合關鍵性類別來實際代表選題方式,最后模型轉換則是建立在傳統數據庫和三維矩陣基礎之上(如圖1所示),處理關鍵數據,由此不一樣的空間形式將存在空間維度里,此時三維矩陣將由全部數據來源構成,進行有效組合之后形成立體式模型(如圖2所示)。
3.2 關聯規則的三維矩陣挖掘
實際進行大數據挖掘過程中,關聯規則挖掘是最受人們青睞的。無論是不一樣的屬性,還是項目關系,都無法隱藏和預知,只能在統計方法和數據庫的基礎上加以實現。現階段,關聯規則挖掘技術憑借其良好的性能成為使用廣泛的技術之一。關聯規則挖掘過程中存在以下核心要素:{1}置信度。主要用于度量衡量強度及準確性。{2}支持度。主要用于衡量度量重要性。
在日常生活和工作中,關聯規則挖掘只有上述核心因素數值最小、支持度也對應最小值時,才能成功處于關聯規則內。假如關聯規則可靠性最低,那么置信度需要確保為最低。
想要使多維數據成功在空間中表現,須立足于空間特種,能夠在多維儲存模型的基礎上成功表現,此時數據層次、數據語言都能有效表達。例如,在檢測海洋數據過程中,氣象環境除了風力之外,還有降水等;海底環境處理重力之外,還有水深等;水體環境除了有水溫、鹽度之外,還有潮流和水聲,因素眾多且相互交織,由此多維數據得以形成。在模型建立的基礎上,使得多維數據能夠在空間成功表達,使得海洋多樣化的數據結構得以呈現。
3.3 基于超圖的聚類算法
在原始數據相互關系的基礎上,結合超圖數據集,不斷優化圖形劃分方法,此為超圖聚類算法。在三維矩陣之中,利用分割算法進行圖像劃分,使用最為廣泛的是HMETIS算法,步驟如下:首先是粗化階段,在最小超圖的基礎上,結合推進超圖不斷壓縮。其次是初始劃分階段,在二次劃分超圖的基礎上,利用二次方法不斷強化超圖質量,有效提升工作效率。最后遷移優化階段,分解超圖之后,在投影基礎上不斷提升分解質量。
3.4 高維數據挖掘的工具
現階段,存在SPSS、Exterprise Miner、SAS 3種使用廣泛的高維數據挖掘工具,其特征如下:{1}SAS。建立在統計理論之上,存在諸多功能,高維數據挖掘功能相對齊全,但是需要專業人士進行操作,并且存在極高的運用成本。{2}Exterprise Miner。具有操作簡便的優勢,高維數據的處理能力相對適中,但是不能進行數據搜索。{3}SPSS。與SAS功能類似,但是相對而言性價比較高,高維數據挖掘功能較為出眾,除此之外,立足于集成及發布功能,工作人員能夠較好地掌握并理解挖掘結果。
參 考 文 獻
[1]閆婷婷.數學建模中的高維數據挖掘技術優化研究[J].計算機測量與控制,2017(9):158-160.
[2]虞翔,李青.大數據環境下的高維數據挖掘在入侵檢測中的有效應用[J].電腦編程技巧與維護,2016(22):57-58.
[3]田祥宏,陳正宇.大數據環境下的高維數據挖掘技術研究[J].自動化與儀器儀表,2016(3):100-101.
[責任編輯:陳澤琦]