趙烏吉斯古楞
摘要:數據挖掘技術經過長時間的發展,豐富了許多學科的研究成果,并已經發展成為一個獨立的研究分支。數據挖掘在數據流、互聯網信息、生物信息等領域的研究已經成為人們的關注的熱點。隨著科學技術的發展,數據挖掘技術在機械學習、統計概率學習等學科方面取得可喜的成就,而且搜索出來了許多具有代表性的理論體系。
關鍵詞:數據挖掘;熱點;趨勢
中圖分類號:TP3 文獻標識碼:A
文章編號:1009-3044(2019)08-0207-03
1 數據挖掘的研究熱點
目前,數據挖掘在數據流、互聯網信息、生物信息等領域的研究已經成為人們的關注的焦點。
1.1 數據流挖掘(streaming data mining )
不同領域的數據流與傳統的數據庫中靜態數據構成了一種新的數據形態。有數據流就有數據量,應用范圍內這些數據量的增進速度是非常快的,通過廣泛的使用大型小型無線傳感設備,提高了數據流體積的增進速率。而產生數據流的應用要求及時在線處理這些數據量。倘若可以及時處理這些數據流,并從中挖掘有價值的信息,會對應用領域起到巨大推動作用[1]。
自20世紀開始,人們已經把研究方向轉移到了數據流,研究者每年都會在著名的數據庫會議上發表許多關于數據流的文章。
目前,關于數據流的研究主要集中在系統數據流管理和挖掘流數據兩個領域。
為了滿足數據流的這些特點,數據挖掘算法需要研究出新的方法解決存儲空間小、運行時間長的問題,傳統的數據挖掘算法很難解決這種問題。數據流對挖掘算法的有幾個要求:單次線性掃描;低時間復雜度;低空間復雜度;能在理論上有良好的近似度計算結果;能適應動態變化的數據與流速;能達到實時回復用戶在任意時間段提出的挖掘請求;組建的概要數據結構有通用性[1]。
1.2 文本挖掘(Text Mining)
數據挖掘在最近幾年出現了新的研究熱點,即文本挖掘。文本挖掘主要指的是在數據挖掘中發現文字與語法、語句之間的聯系,以及文字的表現規律。文本1挖掘主要用于處理自然語言、文本聚類、信息獲取、文本分類、如機器翻譯等方面。國外在20世紀50年代末已經開始著手研究數據的文本挖掘,經過幾十年的發展,文本挖掘已經轉化為實用階段,經常使用的文本器材主要包括IBM的文本智能挖掘機、Autonomy公司的Concept Agents,Teletech公司的Teletech等。但是在今年,國內才著手研究針對中文的文本挖掘,國內研究的最大問題是如何適應漢語重“意合”的特點與如何截取文本的完整“語義”[1]。
1.3 Web挖掘(Web Mining)
隨著互聯網的廣泛使用,Web這一巨大的數據中隱含著極其豐富的有價值信息。Web挖掘是一種從大量的Web信息資本中挖掘那些未知隱藏起來的有價值的信息的挖掘技術。Web挖掘已經逐漸壯大,并得到了大家的關注,并且在搜索引擎、網站設計和電子商務等領域內得到了普遍應用。Web挖掘是借助數據挖掘技術,挖掘網站中的有用信息,Web挖掘涉及網頁瀏覽記載、網站內容和鏈接結構等[1]。
1.4 生物信息數據挖掘(Bioinformatics Data Mining)
人類基因組計劃的啟動和實施使得核酸、蛋白質數據迅速增長,這些大量的數據需要被合理存儲、組織和索引,信息科學被引入到這一領域從而構成了“生物信息學”。
生物信息學主要涉及生命科學與數學、計算機科學和信息科學等學科,并將這些學科進行融合最終形成生物信息學科。在各類生物信息的獲取、存儲、處理和分析在生物信息數據挖掘中應用到了數據采集技術計、計算機軟硬件和數學分析模型等技術,目的在于能夠發現與掌握復雜生命現象的組成模式與演化規律。生物信息數據挖掘同樣是借助數據挖掘技術與方法對分子生物進行挖掘,并挖掘出有用有價值的知識,從而說數據挖掘在生物信息中起著重要的作用,并且在生物信息范圍內引起了人們的重視。數據挖掘技術挖掘的是數據的本質,然而人們對生物學數據自身的特性,對于基因芯片數據質量和基因表達的正常顛簸規律等還沒有足夠的了解。所以生物學對于數據挖掘的應用、評估、深化存在著困難。
目前,數據挖掘對生物信息分析的應用有以下幾點:開發生物信息數據挖掘工具;序列的相似性查找和比較;聚類分析;生物文獻挖掘;開發可視化工具。
2 數據挖掘的發展趨勢
數據挖掘技術經過長時間的發展,豐富了許多學科的研究成果,并已經發展成為一個獨立的研究分支。但是數據挖掘技術還存在一定的問題,例如數據挖掘技術的理論發展不完善,沒有形成完善的理論體系,在研究與應用方面還面臨著重大的挑戰。一項技術的發展都要經過概念的提出、受眾的接受、研究、搜索、應用、普及等幾個階段數據挖掘技術也不例外。從目前階段來看,雖然數據挖掘的概念已經被人們接受,但是在理論上被人們提出了質疑,所以數據挖掘技術仍處于研究與搜索階段。數據挖掘技術的普遍應用還需要一段時間,需要實踐的積累。伴隨著數據挖掘技術在學術界與產業界作用的擴大,數據挖掘研究已經進入了適用技術發展的方向。目前,大學、研究機構的基礎性研究大多數集中在數據挖掘理論、數據算法等探討上,而企業中的研究人員則更注重將其與實際商業問題相結合。根據現階段的研究和應用來看,數據挖掘的發展趨勢如下[1] [2][3]。
2.1 數據挖掘技術的評估發現的模式
當前,數據挖掘技術和知識發現技術研究及應用有兩個主要方向。第一個方向是應用行業知識來約束并引導行業和企業知識的發現;第二個方向是在數據挖掘過程嵌入商業邏輯。在引導發現過程中能夠借助背景知識與范圍信息,同時能夠借助挖掘模式在不同的抽象層進行暗示,數據挖掘規模知識具有完整性約束與演繹性規則等功能,這些功能既支持聚焦和快速數據挖掘過程也支持評估發現的模式的愛好度。
2.2 數據挖掘技術與數據存儲類型
數據挖掘中的實現機制、目標定位以及技術的有用性等方面會受到數據存儲方法的影響。目前,還沒有研究出一種適合所有存儲方法的公用應用模式,而且這種公用模式是不現實的。因此,利用存儲數據類型的特定,研究相對性,是解決存儲方法的關鍵。
2.3 大型數據的選擇與預處理問題
數據挖掘技術是大規模的技術了。但是在數據存儲狀態中還存在著諸如噪音、數據散步、稀疏等系列問題。數據挖掘技術是有目的性的,海量的數據必須有選擇性地操作,應做好挖掘的前期工作。隨著大量數據的出現,怎樣快速、有效地對數據做預處理,使之適合特定的應用,需要更深入的研究。
2.4 數據挖掘的系統的構架與交互式挖掘技術
歷經多年的探索與發展,數據挖掘系統已經有一個明確的框架與發展過程。但是由于受應用范圍、挖掘數據類型、知識表明模式等因素的影響,數據挖掘技術的實現機制、技術道路、階段或證件的功能定位還需要進一步的研究。由于數據挖掘挖掘的是那些隱藏的、預先不知道的價值信息,因此利用與用戶的交互式方法進行搜索性的挖掘是非常有必要的。這種交互可能發生在數據挖掘的各階段,從不同的角度或不同粒度進行交互。良好的交互式挖掘也是數據挖掘系統成功的前提。
2.5 數據挖掘語言與系統的可視化問題
結構化查詢語言出現的比較晚,超出OLTP應用的難度,因此進行數據挖掘操作語言的開拓是一件高難度挑戰性的工作。可視化是信息處理系統中的技術,并且對數據挖掘系統有著十分重要的作用。可視化挖掘不僅需要與交互式技術相聯合,而且需要在挖掘成果或知識模式的可視化、挖掘過程的可視化以及可視化引導用戶挖掘等方面進行深入研究。數據的可視化降低了人們發現知識的神秘感,推動了人們主動進行知識發覺的作用。
2.6 數據挖掘理論與算法研究
隨著科學技術的發展,數據挖掘技術在機器學習、統計概率學習等學科方面取得可喜的成就,也搜索出來了許多具有代表性的理論體系。但是這不代表對數據挖掘理論的探索停止了,完全相反,還有很多理論 課題需要研究者進行深入研究。有了理論框架的指導,研究者還需要進一步搜索與創新面向現實的應用目標。挖掘技術不僅自身得到了不斷發展,而且融合了其他領域的相關技術,這樣的發展促進了應用行業的發展。新的挖掘算法就在這些新的理論知識的引導下出現了,而且新的挖掘算法拓展了挖掘技術的有用性,提高了數據挖掘的精度與效率,還很有可能會被應用在特定的領域,例如管理客戶關系、電子商務等。所以說,數據挖掘理論的發展與算法的探究還有很長的一段路需要走,重點是對有針對性的定量轉換、不確定性推理等問題還沒有得到有效的解決,還需要研發一些具有針對性的數據算法。
2.7 與數據庫數據倉庫系統集成
數據挖掘會與數據庫發生集成或耦合,有時候也會與數據倉庫發生這樣的集成或耦合,它們之間的集成或是耦合是設計數據挖掘的重點問題之一。在系統結構完整性的情況下,數據挖掘系統才能充分地應用軟件環境,出色地完成數據挖掘任務,并且完成與其他系統的協同、信息的交互,符合用戶的需求,并不斷地進化。
2.8 與語言模型系統集成
當前,通過關系查詢語言用戶可以查到特定的數據,但是數據挖掘的功能實現還有一定的困難。高級數據挖掘的查詢語言指的是讓用戶經過說明分析任務的相聯的數據集、知識的限度和挖取的是什么類型的知識、被發現的模式能夠滿足的前提和約束,說明特定的數據挖掘任務。這種高級語言需要與數據庫或是數據倉庫的查詢語言集成,并且對有用的、靈動的數據挖掘方面有優勢。
2.9 挖掘各種復雜類型的數據
每個用戶對差別類型的知識有不同的喜好,數據挖掘涵蓋的數據分解和知識發覺任務應該非常廣泛,涵蓋特征化數據、化分、關聯與相關分析、分類、預測、聚類、相差分析和演繹分析。雖然,這些任務可能使用的方法不同,但是使用的數據庫是一樣的。
2.10 支持移動環境
移動互聯網引起了信息工業網巨大變化,日后主流計算環境會發展成移動式計算。移動計算屬于一種分布式系統計算環境,通過移動終端來實現。數據挖掘技術可以把大量的數據資本轉化成有價值的信息資本,是輔助人們做出決策的一種有用器材,大量的移動用戶對數據挖掘服務的要求更加有深層次。基于移動互聯網計算的數據挖掘成長成了時下的熱門話題,通過移動互聯網計算的數據挖掘可以快速地處理異常數據庫和環球信息系統信息的問題。
3 數據挖掘要解決的問題
新數據集的到來給傳統的數據分析技術帶來了新的題目。這些題目引發了人們對數據挖掘開展研究【4】。
1)可伸縮
數據出產與網絡技術的不斷進步,大大提高了數吉字節、數太字節甚至數拍字節的數據集的普及程度。數據挖掘算法在處理這些巨大的數據集時,一定具有可伸縮性。指數級的探索問題會用到一些特別的數據挖掘。新的數據機構可以幫助數據挖掘算法實現可伸縮性,從而才可以有用的方法實現訪問的每個記載。例如,需要處理的數據非常龐大,但是內存不夠大,這時候就需要虛擬算法。數據挖掘算法的伸縮性水平還可以通過抽取樣本技術、執行和分布算法來改善。
2)高維性
移動互聯網時期遇到的數據集十分有難度,不是通常所指的數據集。在生物信息學范圍,寡核甘酸陣列技術有了很大的進步,并且形成了牽涉數千特性的基因表達數據。數據集在時間與空間分量上有很高的維度。例如:一個包含不同地區的溫度檢測數據集,如果在某個特定的周期內進行重復檢測,那么維度的增長與檢測次數成正比。低維度研發的普通數據分析技術處理不了高維數據。此外,一部分數據分析算法跟著維度的增添,計算復雜性增長速度非常快。
3)異種數據和復雜數據
一般的數據分析方法處理的數據集都是屬性相同、連續、分類的。數據挖掘技術在不同領域應用范圍逐漸擴大,迫切需要之中可以處理異種屬性的挖掘技術。和以往相比,數據對象難度越發大。
4)數據的所有權與分布
有時,分析存放在不同站點的數據,或歸屬一個機構,或多個機構的資源。這時需要分布式數據處理技術。分布式處理技術可以處理降低執行分布計算所需要的通信量、統一從多個資源得到的數據結構、數據安全性這些問題。
5)非傳統的分析
傳統的統計方式用于一種假設檢驗模式,即給出一種假設,通過做實驗捕捉到相關數據,在針對假設對數據舉行分析,這一過程十分費心。目前,數據分析面臨著十分重大的任務,自動產生和評估的假設能夠達到上千種才可以,因此激勵著人們不中斷的開拓新的數據挖掘技術,通常數據挖掘分析的數據集的實驗成效無須費心設計,而且這些數據集會涉及非傳統的數據類型和數據分布。
參考文獻:
[1] 蔣盛益,李霞,鄭琪編著.數據挖掘原理與實踐[M].北京:電子工業出版社,2013:19,59-73.
[2] 任冷.數據挖掘應用研究前沿和發展趨勢[J].科技與創新,2016(16).
[3] 任新社,陳靜遠.關于數據挖掘研究現狀及發展趨勢的探究[J].信息通信,2016(2).
[4] (美)陳封能,(美)斯坦巴赫,(美)庫馬爾.范明等譯.數據挖掘導論:完整版[M],北京:人民郵電出版社,2011.
【通聯編輯:張薇】