999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于MATLAB的極大似然估計分析木條數據合理性

2017-07-09 21:02:05闞瑞祥
江蘇理工學院學報 2017年2期
關鍵詞:機器學習計算機

闞瑞祥

摘 要:現實生活中,數據多而復雜,處理起來有一定難度。針對這種情況,提出基于概率論中的極大似然估計的方法進行處理。算法首先進行相關指標的快速求解,然后基于紋理分析進行模擬的類的劃分,判定分類是否合理并統計分類合理的數據的個數,最后上述結果為基礎,計算數據分類的合理率。實驗結果表明,在本組的數據中,準確率高的達98%,低的也有80%,可信度較高。通過實驗筆者得出構建正態分布模型、提供利用極大似然估計的思想對木條相關的屬性數據進行計算從而判決其合理與否的方法是可行的、合理的、有效的。

關鍵詞:計算機;MATLAB;正態分布;機器學習;極大似然估計

中圖分類號: TP302.7 文獻標識碼:A 文章編號:2095-7394(2017)02-0028-06

21世紀信息與數據被當作重要的資源。但是數據本身具有抽象性,如同本文所舉的木條相關數據,非專業人士,難以洞見其價值。針對這個棘手的情況,機器學習是方法,模式識別是目的。對數據挖掘而言,數據庫提供數據管理技術,機器學習和統計學提供數據分析技術。本文借助于數據挖掘或機器學習的知識,通過相關軟件建立模型,通過計算判決其是否合理,解決這個問題。

1 理論基礎

在數據挖掘或者是機器學習(machine learning)里面,數據的簇(cluster)處理成矩陣是一個創舉——它強調了數據的巨大的不相關性。如對于某學院,絕大多數情況下,無法從姓名推斷出其成績、性別身高一樣,一個類中的數據往往毫無相關性,這巨大的不相關性正好適合推廣到N維的空間中。基于線性代數知識,為數據挖掘以及機器學習奠定了堅實的思想基礎。

2 重要的工具——MATLAB

MATLAB是進行相關研究的不可或缺的重要的工具。[1]本文基于大量的數學理論的基礎,先進行推導,然后進行大量的計算,再進行比較。人力計算,耗時費力而且無法保證準確度。面向對象的高級編程語言諸如Java、Python確實可以定義相關的函數與算法,但是代碼冗長且易出錯。所以冗長復雜的數學計算的最佳辦法就是編寫MATLAB程序進行運算。

MATLAB在這個時代已經為越來越多的計算機學院的學生所熟知,它的代碼簡潔易懂而且定義了很多復雜的數學運算類庫。MATLAB作為一個研究問題分析的工具簡直再適合不過了。對于大多數人而言,算出十維以及十維以上的矩陣的相關性矩陣以及逆矩陣的工作量都是驚人的,這一定會使得研究陷入瓶頸。然而使用MATLAB就沒有這些的困擾。[2]

本文將會用到的函數有如下幾個:MATLAB本身含有cov()求一個簇的協方差矩陣(臺灣地區譯作特異性矩陣), det表示求得模的值,inv表示求逆序列,“'”就表示轉置直接帶入即可。[3-4]

3 相關數學基礎知識

對于一個雜亂無章的簇(cluster),從數理統計的角度講,都可以默認它是服從正態分布的。[1]正態分布在概率論中有著十分重要的地位,在各種的分布中也是具有首要的地位。

正態分布可以寫作:[P(x)=12πe-(x-μ)22σ2]

其中[μ]表示期望,[σ2]表示方差

上文提到的所謂數據的極不相關性,好比在一個學生的信息表中,除非極其特殊的情況,其他情況均認為各個屬性是沒有關系的,這里就可以理解成class,即面向對象中提到的類。下文均將類表示為[C]。

這里還需要使用到條件概率,所謂條件概率指的是在滿足一定條件下某事件發生個概率,例如在滿足[Ci]條件下[P]發生的概率就可以表示為[5-6]:[p(xCi)]

便有:

[p(xCi)p(Ci)=P(x)]。

最后一個概念是極大似然估計(也譯作是最大似然估計)。這是一種求參數的經典的方法,無論對于實踐還是理論研究都有重大的意義,它最早是高斯(Gauss)提出來的,1912年被重新發表。它的直接想法其實是若一個隨機事件有若干個可能的結果A,B,C……,若在一次試驗中A出現了,則一般認為對于A的出現有利,也就是A出現的概率可能是最大的,在此思想基礎上,通過相關運算求出最合理的參數。

至此理論準備部分完成。

4 數學推導敘述

在機器學習或者是數據挖掘中,很多時候其實找的最根本的東西就是所謂邊界函數。如圖1:

左右兩端有兩個簇(cluster),而中間的直線就是邊界函數,這是通過相關的方法,諸如最小二乘法、拉普拉斯雙曲型方程等方法無限趨近來的。筆者這里的推導,極大似然估計只是一個工具,這里用它的算法進行筆者需要的推導。

首先,對于一個大的類(class),它可以由很多的參數,用矩陣表示可以寫作:

[X=X11 X12 … X1DX21 X22 … X2D ?XN1 XN2 … XND]

這里的計算一律使用矩陣的原因是更加具有一般性,通常的概率論書中的例題中,無法符合筆者強調的多組數據的不相關性的要求。[7-8]基于此,對傳統的概率論相關的量進行推廣是必要的,體現在維度的擴充,期望就變為了[μ=μ1,…μdT],相關性(correlation,臺灣地區譯作相互性)就推廣成了

[CORR(Xi,Xj)=pij=σijσiσj]

在這個基礎之上,維度的N重性得到了必要的強調,協方差矩陣就變成了:

[=COV(X)=E((X-μ)(X-μ)T)]

[X=σ11 σ12 … σ1Dσ21 σ22 … σ2D ?σN1 σN2 … σND],

于是傳統意義上的計算公式就被筆者擴充,對于某樣本它的期望就變為

[mi=1NxTiN, i=1…,d]

對于某一樣本,它的協方差矩陣就變為

[Sij=1N(xti-mi)(xtj-mj)N],

上文提到的正態分布的定義式

[P(x)=12πe-(x-μ)22σ2],在這里就可以進行推廣,

對于[x~Nd(μ,)]得到: [ P(x)=1(2π)d212e-12(x-μ)T-1(x-μ)],

使用MATLAB做出相關圖像,如圖2。

而后便是對其進行連乘運算,[p(x)=1dpi(xi)],由于使用了經典的極大似然估計的算法,通常使用的是左式、右式同時取對數的辦法,使得計算量大大減少。于是對于[p(xCi)~N(μi,i)],筆者得到

[P(x)=1(2π)d2i12e-12(x-μ)T-1(x-μi)],

通過條件概率的公式以及Ethem Alpaydin先生的《MIT.Introduction.to.Machine.Learning.3rd.Edition》一書中的結論[2]。

于是有:

[gi(x)=Inp(xCI)]+In[p(Ci)=-d2In2π-12Ini]

[-12(x-μi)Ti-1(x-μi)+Inp(Ci)]

然后根據此進行大小的比較,這里的比較指的是與剩下的類分別進行比較,及時統計合理的數據的個數,根據個數求出準確率,進而決定數據的可信度。

5 代碼敘述部分

本算法的核心語句便是上述算式的大小比較,比較的對象在MATLAB分別由mean()與sigma求得,然后統計個數。大小的比較是建立在快速求出各類的期望以及方差、標準差的基礎之上。將這些數據進行多維的比較,統計合理的數據的個數,從而求得分類的正確率。所以在

[gi(x)=Inp(xCI)]+In[p(Ci)=-d2In2π-12Ini][-12(x-μi)Ti-1(x-μi)+Inp(Ci)],等式中的[-d2In2π],它僅僅是個常數,比較的時候將其忽略。算式翻譯成MATLAB代碼,可以寫作:d1=-1/2*log(det(sigma1))-(x-mu1)*inv(sigma1)*(x-mu1)'[7];

det用來求得模的值,inv表示求逆序列,“'”就表示轉置直接帶入即可,特別聲明:注意字母編碼,否則程序無法運行。

所得的數據直接使用循環跟if判斷用來比較大小,為了減少書寫量,本文不窮舉相關中間步驟的數據。

木條(或者說是軟木塞)的相關數據均來自于臺灣中華大學的官網。

MATLAB按照常理,只需手動將excel文件放到與.m文件同一目錄下就可以實現導入,甚至可以實際一個圖形界面直接手動導入,然而在實際操作的過程中卻遇到了意想不到的麻煩:MATLAB與excel間隔每個數據使用的字符不一樣,導致數據無法分開。筆者之前在建立hadoop的云空間的時候也遇到了類似的情況,發現無法帶入excel表格,關鍵是要使用split()將數據進行再次分割,這里亦如此。

關于這個實驗最后說兩點:

1.不同的數值如果單位是不能求均值的,所以這里所求的均值指的是列向量元素求均值。

這里面還有一個理想的情況:分類錯誤的所謂“損失函數”必須跟分類的具體的錯誤無關。

2.如果分類的錯誤是有區別的,那么還需要引入相關的常數或者是函數。所謂“損失函數”可以將其視作是某種權重,比如說登記入住酒店的時候,如果客戶的姓名弄錯可能影響不大,但是性別弄錯就會出現大麻煩。

3.本代碼將具體的合理數據的個數分別放在了3*3矩陣的主對角線上,只是因為這樣美觀,便于觀察,實際上放在哪里與最終的運算結果是沒有影響的。

由于本文的篇幅有限,此處只是摘錄部分代碼,具體如下:

mu1=mean(a);

mu2=mean(b);

mu3=mean(c);

sigma1=cov(a);

sigma2=cov(b);

sigma3=cov(c);

cc1=0;cc2=0;cc3=0;

cc11=0;cc22=0;cc33=0;

cc111=0;cc222=0;cc333=0;

for i=1:1:50

x=a(i,:);

d1=-1/2*log(det(sigma1))-(x-mu1)*inv (sigma1)*(x-mu1)';

d2=-1/2*log(det(sigma2))-(x-mu2)*inv (sigma2)*(x-mu2)';

d3=-1/2*log(det(sigma3))-(x-mu3)*inv (sigma3)*(x-mu3)';

if d1>d2 && d1>d3

cc1=cc1+1;

end

cc1;

if d2>d3 && d2>d1

cc2=cc2+1;

end

cc2;

if d3>d2 && d3>d1

cc3=cc3+1;

end

cc3;

end

c1=[cc1,cc2,cc3];

for i=1:1:50

x=b(i,:);

d1=-1/2*log(det(sigma1))-(x-mu1)*inv (sigma1)*(x-mu1)';

d2=-1/2*log(det(sigma2))-(x-mu2)*inv (sigma2)*(x-mu2)';

d3=-1/2*log(det(sigma3))-(x-mu3)*inv (sigma3)*(x-mu3)';

if d1>d2 && d1>d3

cc11=cc11+1;

end

cc11;

if d2>d3 && d2>d1

cc22=cc22+1;

end

cc22;

if d3>d2 && d3>d1

cc33=cc33+1;

end

cc33;

end

c2=[cc11,cc22,cc33];

for i=1:1:50

x=c(i,:);

d1=-1/2*log(det(sigma1))-(x-mu1)*inv (sigma1)*(x-mu1)';

d2=-1/2*log(det(sigma2))-(x-mu2)*inv (sigma2)*(x-mu2)';

d3=-1/2*log(det(sigma3))-(x-mu3)*inv (sigma3)*(x-mu3)';

if d1>d2 && d1>d3

cc111=cc111+1;

end

c1;

if d2>d3 && d2>d1

cc222=cc222+1;

end

cc222;

if d3>d2 && d3>d1

cc333=cc333+1;

end

cc333;

end

c3=[cc111,cc222,cc333];

C=[c1;c2;c3];

disp(C);

代碼中的a、b、c分別放了三個大類的木條的相關的數據,MATLAB導入數據的方法有很多,根本版本的不同而略有不同。筆者導入數據使用的方法是將所有的數據全部粘貼進一個數組內,本文代碼中將此部分略去。

不同的MATLAB版本以及內存的大小、CPU運算速度會對數據的時間產生影響,但是結果相同。運行結果如圖3。

利用主對角線上的元素直接求正確率,可得:第一組數據分類正確的概率是94%,第二組數據分類正確的概率是80%,第三組數據分類正確的概率是98%。

具體效果如何,有點類似運用泰勒(Taylor)公式求等價無窮小的時候——只需要根據自己的要求來決定精確的位數[8],這里與之類似,根據自己的目標決定所得的正確率合理與否。

6 結果與展望

本文較好地解決了三類木條且每一類含有50組數據的合理性的判決,本文代碼可以將之視為判決合理性的重要依據。根據實驗結果可知:第二類的正確率偏低而第一類、第三類的正確率非常高。

但本代碼是有其局限性的,根本原因在于,逆矩陣運算時的條件——必須是方陣。這一點使得本代碼在推廣的時候遇到瓶頸,需要考慮逆矩陣的運算條件以及一個類(class)中的數據的個數,這個需要在代碼之中進行必要的修改。

雖然有局限性,但是筆者仍然欣喜地將其視作具有巨大潛能的代碼,以后可以將這個代碼進行升級,它的應用將不僅僅局限于此,還可以進行學科交叉,應用于物聯網、數字信號處理、電子信息處理等學科中。比如:現如今諸多音樂播放器都有音樂的推薦,但往往不十分準確,可不可以用類似的代碼對于推薦音樂的算法進行優化呢?將音樂播放器用戶喜歡的音樂進行分析,主要分析其頻譜以及相關的一些音樂參數,之后在云空間中對于所有的歌曲進行此算法的識別,正確率大于90%的推薦,否則,不予推薦,也許這樣會取得意想不到的成功。在此基礎上,也可能寫出相關的APP,進而推廣的速度大大加快。

參考文獻 :

[1] 張心心.MATLAB軟件在信號與系統在實踐教學中的意義[J].通訊世界,2016(12),DOI:10.3969/j.issn.1006-4222.2

016.12.048.

[2] 生靜.高職院校數學計算軟件MATLAB教學研究[J].山東農業工程學院學報,2016(4)69-70.

[3] 張志涌.精通MATLAB R2011a[M].北京:北京航空航天大學出版社,2011.

[4] 張建勇,陳亮,陳雨兒,等.基于MATLAB的微分方程課堂教學設計[J].教育教學論壇,2014(52):168-169.

[5] 湯大林.概率論與數理統計[M].天津:天津大學出版社,2009.

[6] ETHEM Alpaydin.MIT.Introduction.to.Machine.Learning. [M].3rd. ed.The MIT Press:Cambridge Massachusetts,2014.

[7] 張建勇、肖慧娟、趙一方,等.MATLAB繪圖功能在高等數學教學中的應用[J].臺州學院學報,2016(3):63-68.

[8] 茍長義.高等數學分級指導與提高[M].天津:天津大學出版社,2008.

Based on MATLAB and the Analysis of the Maximum Likelihood Estimation Batten Data Rationality Kan Ruixiang

KAN Rui-xiang

(Tianjin Technology University Computer and communication engineering institute of Internet of things engineerings Tianjin 300380,China)

Abstract:There are too many complicated data in our daily life and processing up has the certain difficulty. For this kind of situation, based on the theory of maximum likelihood estimation method is proposed for processing. Fast solving algorithm firstly on relevant indicators, and then simulated class division based on texture analysis, determine the reasonable classification and the number of statistical classification and data, finally based on the above results, calculate the data classification. The experimental results show that in this group of data, high accuracy of 98%, low of 80%, being of higher credibility. Through the experiment the author concluded construction of normal distribution model by using the maximum likelihood estimation, the method of providing the attribute data of wood related calculation and judging whether it is reasonable or not is feasible and reasonable

Key words:computer ; MATLAB;normal distribution;machine learning;maximum likelihood estimation

責任編輯 祁秀春

猜你喜歡
機器學習計算機
計算機操作系統
穿裙子的“計算機”
趣味(數學)(2020年9期)2020-06-09 05:35:08
基于計算機自然語言處理的機器翻譯技術應用與簡介
科技傳播(2019年22期)2020-01-14 03:06:34
計算機多媒體技術應用初探
科技傳播(2019年22期)2020-01-14 03:06:30
信息系統審計中計算機審計的應用
消費導刊(2017年20期)2018-01-03 06:26:40
基于詞典與機器學習的中文微博情感分析
基于網絡搜索數據的平遙旅游客流量預測分析
時代金融(2016年27期)2016-11-25 17:51:36
前綴字母為特征在維吾爾語文本情感分類中的研究
科教導刊(2016年26期)2016-11-15 20:19:33
基于支持向量機的金融數據分析研究
機器學習理論在高中自主學習中的應用
主站蜘蛛池模板: 91网址在线播放| 久久中文字幕不卡一二区| 成人综合在线观看| 国产免费网址| 国产精品福利尤物youwu| 免费激情网站| 伊人久久婷婷| 亚洲看片网| 亚洲 欧美 中文 AⅤ在线视频| 国产午夜精品一区二区三区软件| 国产精品欧美激情| 国产一线在线| 久久国产高清视频| 免费一极毛片| 国产精品99久久久| 婷婷色丁香综合激情| 天堂网亚洲综合在线| 精品国产免费第一区二区三区日韩| 极品性荡少妇一区二区色欲| 97在线碰| 国产欧美视频在线| 亚洲天天更新| 日本午夜视频在线观看| 国产乱人免费视频| 天堂亚洲网| 人妖无码第一页| 欧美高清国产| 国产主播一区二区三区| 久草热视频在线| 在线观看精品国产入口| 国产亚洲精| 男女性色大片免费网站| 免费不卡视频| 伊人色婷婷| 国产成人一区| 99热这里只有精品国产99| 亚州AV秘 一区二区三区| a级高清毛片| 亚洲精品黄| 一区二区三区精品视频在线观看| 国产日本欧美在线观看| 亚洲综合色婷婷中文字幕| 欧美日韩动态图| 国产精品视频猛进猛出| 欧美一级片在线| 91午夜福利在线观看精品| 91免费在线看| 天堂中文在线资源| 91精品国产91久无码网站| 精品一区二区三区视频免费观看| 97超碰精品成人国产| 国产午夜不卡| 日韩一区二区三免费高清 | 亚洲天堂免费| 亚洲综合极品香蕉久久网| 制服丝袜 91视频| 久操线在视频在线观看| 天堂在线视频精品| 亚洲国产精品一区二区第一页免| 精品国产福利在线| 91国内外精品自在线播放| 欧美一级在线看| 国产视频自拍一区| 一级毛片在线免费视频| 中文字幕第1页在线播| 久久99久久无码毛片一区二区| 在线观看网站国产| 日韩欧美国产成人| 中文字幕在线日韩91| 亚洲an第二区国产精品| 污视频日本| 午夜精品区| 最新痴汉在线无码AV| 亚洲无码电影| 欧美视频在线不卡| 在线中文字幕日韩| 综合色亚洲| 91九色国产在线| 亚洲人成成无码网WWW| 色亚洲激情综合精品无码视频| 国产在线一二三区| 日本欧美精品|