

隨著科學技術的不斷進步,數據庫技術以及數據應用等方面得到了快速發展和普及,而數據量同時也隨著時代的進步正在以指數速度迅猛增長,人類已經進入大數據時代。針對數據量的日益膨脹,就算依據計算機和信息技術來對相關信息進行提取,如果沒有更加有效方式,人們面對大數據仍然會像大海撈針一樣束手無策。而數據挖掘技術就在這種背景下應運而生,其能夠在海量數據中去粗存精、去偽存真,實現更加優化的數學建模。
一、數學建模以及數據挖掘的基本內涵
(一)數學建模基本內涵
數學建模就是數學模型構造的過程,它指的是利用數學的概念和語言,對實際系統進行簡化和抽象,從而形成一種近似的刻畫,這就是所謂的數學建模。針對客觀世界對象,數學建模對其進行提煉、分析、歸納和解釋,并對其本質屬性和內在聯系進行數學語言的描述,從而使得人們能夠更加深入的了解其所研究的問題。
(二)數據挖掘基本內涵
數據挖掘最早提出在上世紀80年代.1989年,第十一屆國際人工智能聯合會議在美國底特律召開,專門對數據庫中知識發現(KDD)開展了專題討論。隨后,在1995年美國計算機協會的知識發現與 數據挖掘專業委員會召開了第一屆國際學術會議。作為一種新型技術,數據挖掘是在數據庫技術的基礎之上發展起來的。所謂數據挖掘,它指的是從隨機數據中,將人們事先并不所知的隱含于其中的潛在有用信息和知識進行提取的過程,這里的隨機數據具有量大、噪音大、較為模糊并有噪音的特點。
二、數學建模中的數據挖掘方法分析
(一)數據選擇
所用數據由某職業技術學院藝術類專業提供。數據源包括:學生入學成績信息、學生各科成績,本文以智力測評作為決策屬性。
1、數據表選擇
原始數據中涉及30名學生為自主招生入學,沒有高考成績,另1名學生有高考成績但一學期后退學,多項課程成績為空,這31名學生數據缺失較多,采取刪除處理。剩下223名學生成績基本齊全,符合數據挖掘條件,可以使用。
2、數據集成
學生高考成績即入學成績,參加挖掘操作的僅涉及4門課程和總分。表結構如2-1所示:
表2-1學生入學成績表
姓名 性別 語文 數學 英語 綜合 總分
學生在校成績涉及很多門課程,選取其中8門考試課程,分數為百分制。其他考查課程分數為五級制,不參與挖掘操作。在建庫過程中,不表現具體課名,標記為課程1、課程2、…、課程8。表結構如2-2所示:
表2-2學生大學成績表
姓名 性別 課程1 …. 課程8 均分
(二)數據預處理
在表2-1中,語文、數學、英語滿分150分,綜合滿分300分,總分共計750分。
1、學生入學成績
因為學生入學成績不是很理想,如果語文、數學、英語以90分,綜合以180分為好的標準,達到好的人數為79、60、67、5,綜合課程為好的過于少。所以,以各門課程的平均分為好的標準,大于或等于平均分,為好,記為T;低于平均分為一般,記為F.各門課的平均分依次為87、80、82、131,達到好的人數為95、85、94、87。
2、學生大學成績
總分如果以450分為好,僅有1人。如果以平均分382分為好,則有83人。所以總分以平均分382分為好的標準,大于或等于平均分,為好,記為T;低于平均分為一般,記為F。
表2-2中,所有成績為百分制,是連續性數據,需要對其進行離散化處理。70分以上(包含70分)為好,記為T,表示可以學好這門課程;70分以下(除記為T的以外的記錄,包括補考及格、補考不及格、緩考、作弊等)為一般,記為F,表示沒學好本門課程。
(三)數學建模
依賴總分為標準的數學模型,選取表1-1中總分為X;選取表1-2中課程1、…,課程8,產生Y,記為大學專業成績。如果在課程1、…,課程8這8個屬性中計數T的值,大于或等于5,記為T,表示8門課程有5門以上(包括5門)課程學的教好;否則記為F,表示8門課程有4門以下(包括4門)課程學習教好,也就是有5門以上(包括5門)學習一般。
三、結束語
綜上所述,隨著科技的不斷進步,數據挖掘技術出現之后,得到了很多領域的廣泛應用,并明顯的體現出了其較高的經濟價值。本研究主要是針對其在數學建模過程中的應用來探究數據挖掘方法,這將具有十分重要的現實意義。
(作者單位:長春理工大學理學院)