趙敏
摘要:數(shù)據(jù)挖掘是KDD中特定情況下的一個(gè)步驟。大部分人是通過啤酒+尿布的案例認(rèn)識(shí)到數(shù)據(jù)挖掘,不少人也通過這個(gè)有趣的故事開始接觸數(shù)據(jù)挖掘。大數(shù)據(jù)能夠讓企業(yè)測(cè)量出之前被認(rèn)為無法計(jì)算的信息。使用這些信息,分析師能發(fā)現(xiàn)新的工業(yè)模式并能更好的了解客戶的動(dòng)機(jī),興趣愛好和討厭的東西。更多得了解什么能讓客戶做出選擇,能夠?yàn)橥ㄏ蛐碌纳虡I(yè)機(jī)會(huì)創(chuàng)造出更多的可能,也能夠讓企業(yè)發(fā)布出令客戶感興趣的內(nèi)容和產(chǎn)品。比如現(xiàn)在的“瀑布流”,就是企業(yè)根據(jù)網(wǎng)民平常瀏覽互聯(lián)網(wǎng)信息的類型,基于用戶搜索習(xí)慣、興趣愛好、歸屬地、年齡、區(qū)域、商圈等等大數(shù)據(jù)信息,挖掘并分析出來跟本人相匹配的廣告信息推送給你。
關(guān)鍵詞:數(shù)據(jù)挖掘;應(yīng)用方向;數(shù)據(jù)分析;算法
中圖分類號(hào):TP311.13文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1672-9129(2020)07-0115-01
Abstract:Data mining is a step in a specific situation in KDD. Most people got to know about data mining through the beer and diapers case, and a lot of people got to know about data mining through this interesting story. Big data allows companies to measure information that was previously considered uncomputable. Using this information, analysts can discover new industry patterns and better understand customers' motivations, interests and annoyances. Learning more about what enables customers to make choices creates more possibilities for new business opportunities and enables companies to deliver content and products that will be of interest to customers. For example, the current "waterfall flow" is that enterprises mine and analyze the advertising information matching themselves to you based on the user's search habits, interests, place of residence, age, region, business circle and other big data based on the type of Internet information that netizens usually browse.
Key words:data mining;Application direction;Data analysis;algorithm
1項(xiàng)目分析
隨著科技的快速發(fā)展,我們出現(xiàn)了多種多樣的新興產(chǎn)物,因此,所需要學(xué)習(xí)的知識(shí)就更多了。在我們的日常生活中,對(duì)數(shù)據(jù)分析的要求也越來越高了。本次研究,就是想要探尋在我們?nèi)粘I钪校瑪?shù)據(jù)挖掘帶給了我們那些便利,以及其中我們需要具備和掌握那些知識(shí)。
2數(shù)據(jù)挖掘技術(shù)
數(shù)據(jù)挖掘技術(shù)應(yīng)用十分廣泛,該技術(shù)融合了數(shù)理統(tǒng)計(jì)、模糊數(shù)學(xué)、機(jī)器學(xué)習(xí)、模式識(shí)別、人工智能和數(shù)據(jù)庫技術(shù)等技術(shù)潮流的研究成果,能夠很好的在商業(yè)智能和決策分析中發(fā)揮作用。同時(shí)數(shù)據(jù)挖掘技術(shù)廣泛應(yīng)用于商業(yè)、醫(yī)學(xué)、教育等行業(yè)。數(shù)據(jù)挖掘技術(shù)的發(fā)展對(duì)于我們每個(gè)人來說都具有十分重要的意義。
數(shù)據(jù)挖掘可以解決許多問題,但在實(shí)現(xiàn)的過程中是一個(gè)非常繁瑣的過程,并有豐富的計(jì)算機(jī)基礎(chǔ)才能實(shí)現(xiàn)。隨著信息技術(shù)的發(fā)展,出現(xiàn)了許多數(shù)據(jù)挖掘的工具,比如NLPIR分析平臺(tái)是相較于其它系統(tǒng)都是占據(jù)優(yōu)勢(shì)的系統(tǒng),該系統(tǒng)主要是側(cè)重大數(shù)據(jù)內(nèi)容采編挖搜的綜合需求,它是網(wǎng)絡(luò)精準(zhǔn)采集、自然語言理解、文本挖掘和語義搜索強(qiáng)強(qiáng)聯(lián)合的最新研究成果,并且先后經(jīng)歷了近二十年的不斷創(chuàng)新,取得今天的輝煌成就。
3數(shù)據(jù)挖掘在醫(yī)學(xué)中的應(yīng)用
數(shù)據(jù)挖掘在醫(yī)學(xué)中的應(yīng)用。數(shù)據(jù)挖掘是醫(yī)學(xué)的一次時(shí)代轉(zhuǎn)折點(diǎn)。在醫(yī)學(xué)上,數(shù)據(jù)挖掘可以做到:分析電子病歷、分析醫(yī)院系統(tǒng)、管理數(shù)據(jù)用于公共健康研究、循證醫(yī)學(xué)、降低再入院率、保護(hù)病人的身份信息、創(chuàng)建更高效的診所等。數(shù)據(jù)挖掘在醫(yī)學(xué)中最常用的算法就是Relief算法和K-means聚類算法。Relief算法比較簡單,運(yùn)行的效率也很高,所以被人們廣泛使用。但是它只能處理兩類別的數(shù)據(jù),后來Relief算法也得到了很多的創(chuàng)新和發(fā)展。K-means算法是一種常用的聚類算法。該算法首先初始化質(zhì)心,然后判斷各個(gè)質(zhì)心間的距離,按照就近原則分配,最后計(jì)算質(zhì)心。不斷重復(fù)當(dāng)前的操作,目標(biāo)函數(shù)最小時(shí)結(jié)束操作。數(shù)據(jù)挖掘不僅在西醫(yī)的領(lǐng)域做出來巨大貢獻(xiàn),在我國古老的中醫(yī)文化中也是如此。數(shù)據(jù)挖掘分析了大量中草藥的功效數(shù)據(jù),讓醫(yī)學(xué)更加具有科學(xué)性。
4數(shù)據(jù)挖掘在商業(yè)中的應(yīng)用
數(shù)據(jù)挖掘在商業(yè)數(shù)據(jù)分析值也起到了重要的作用。數(shù)據(jù)挖掘可以將客戶群體細(xì)分,然后針對(duì)每一個(gè)不同的群體定制相應(yīng)的、最好的服務(wù)。同時(shí)也做到了模擬現(xiàn)實(shí)的環(huán)境場(chǎng)景,不斷發(fā)現(xiàn)用戶的新需求,同時(shí)公司可以提高投資的回報(bào)率。并可以加強(qiáng)各個(gè)部門之間的聯(lián)系,穩(wěn)步地提高整條管理鏈條和產(chǎn)業(yè)鏈條的效率。還降低了公司的服務(wù)成本,相對(duì)之前更容易的發(fā)現(xiàn)了隱藏線索,再進(jìn)行相應(yīng)產(chǎn)品和服務(wù)的創(chuàng)新。
數(shù)據(jù)挖掘在商業(yè)中最常用的算法有:神經(jīng)網(wǎng)絡(luò)算法、遺傳算法、粗糙集算法,模糊集方法等。其中神經(jīng)網(wǎng)絡(luò)方法自身具有容錯(cuò)性能高、采用分布存儲(chǔ)、處理機(jī)制為并行處理和有很強(qiáng)的組織性和適應(yīng)性等。因此多用于處理數(shù)據(jù)挖掘中可能遇到的一些問題。遺傳算法:能夠很好的與其它模型結(jié)合、也具有并行性等特性,被靈活的應(yīng)用在神經(jīng)網(wǎng)絡(luò)、粗集技術(shù)的結(jié)合中。粗糙集算法是一種多用于不準(zhǔn)確知識(shí)的工具,其優(yōu)點(diǎn)是節(jié)省空間,算法較為簡單,容易理解和操作。模糊集方法是對(duì)具體的問題做判斷、決策、識(shí)別和分析操作。系統(tǒng)的模糊性是隨著復(fù)雜性增高而增高的。
5數(shù)據(jù)挖掘在教育中的應(yīng)用
數(shù)據(jù)挖掘在教育中的應(yīng)用。數(shù)據(jù)挖掘能夠幫助老師和學(xué)生更好的總結(jié)近期的學(xué)習(xí)狀況,科學(xué)有效的分析相關(guān)數(shù)據(jù)信息。例如可以運(yùn)用大數(shù)據(jù)設(shè)計(jì)教育環(huán)境,完善教學(xué)的場(chǎng)景,配置教育試驗(yàn)場(chǎng)景等,這些都能夠充分的調(diào)用學(xué)生群體在學(xué)習(xí)領(lǐng)域中的主動(dòng)性和積極性,對(duì)教育領(lǐng)域的發(fā)展有不可估量的作用。數(shù)據(jù)挖掘?qū)τ谖覀兊慕逃龀龅耐怀鲐暙I(xiàn)主要有這幾方面:適應(yīng)性教學(xué)支持、教學(xué)規(guī)律發(fā)現(xiàn)、信息化校園管理。數(shù)據(jù)挖掘在教育領(lǐng)域里具有著十分強(qiáng)大的發(fā)展機(jī)遇,但同時(shí)也面臨著很多的挑戰(zhàn)。現(xiàn)在的數(shù)據(jù)挖掘在教育領(lǐng)域中還算是開始階段。相關(guān)方向的研究特點(diǎn)鮮明,能夠突出其中的優(yōu)越性。在這個(gè)科技快速發(fā)展的新時(shí)代,我們應(yīng)該直面數(shù)據(jù)挖掘在教育中的困難和挑戰(zhàn),不斷創(chuàng)新,不斷實(shí)踐,多方面考量,最后達(dá)成最好的效果。
6結(jié)論
數(shù)據(jù)挖掘在我們的日常生活中的應(yīng)用是方方面面的,帶給我們的不僅僅是利益,更多的是科技的進(jìn)步,人民的發(fā)展,國家的強(qiáng)盛。在數(shù)據(jù)挖掘這個(gè)新時(shí)代下,我們的生活也變得多姿多彩起來了。數(shù)據(jù)挖掘教會(huì)我們用一個(gè)嶄新的視角將數(shù)據(jù)庫技術(shù)、統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)、信息檢索技術(shù)、數(shù)據(jù)可視化和模式識(shí)別與人工智能等領(lǐng)域完美的結(jié)合起來,將每一個(gè)知識(shí)的優(yōu)點(diǎn)都發(fā)揮到極致,在不斷創(chuàng)新、發(fā)展的過程中,我們將收獲比傳統(tǒng)方法更多更有效的知識(shí)。因此,數(shù)據(jù)挖掘在我們的日常生活中發(fā)揮著重要的作用。以后的時(shí)代,數(shù)據(jù)挖掘?qū)?huì)不斷發(fā)展,迎來高峰。
參考文獻(xiàn):
[1]伍永鋒.基于大數(shù)據(jù)的計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)在檔案管理系統(tǒng)中的應(yīng)用[J].信息與電腦(理論版),2019,13(11):166-167.
[2]段彬,魏巍.數(shù)據(jù)挖掘在軟件工程領(lǐng)域中的應(yīng)用淺析[J].信息系統(tǒng)工程,2018(04):89.