999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于SVM的大學生熱點問題的研究

2016-07-01 09:59:36作者楊世瀚李婷婷
電子制作 2016年9期
關鍵詞:分類文本大學生

作者 / 楊世瀚、李婷婷

?

基于SVM的大學生熱點問題的研究

作者 / 楊世瀚、李婷婷

基于SVM(Support Vector Machine)分類器來建立大數據的文本分類機制是目前的熱點研究之一。針對于怎樣將SVM應用到大學生網絡社區文本數據的分析,并從中挖掘出大學生熱點問題,是SVM應用的一個新嘗試。利用SVM可以在大規模的網絡社區文本數據中得出準確的訓練模型以及預測結果,在此基礎上給出了特征向量構造以及有效選取SVM參數的方法,同時給出了剔除重復樣本的策略,最后還會研究特征選擇對SVM分類效率的影響。

SVM;大數據;網絡社區文本數據;文本分類

引言

基于SVM分類器來研究大學生熱點問題是一個新的嘗試。從網絡上獲取的網絡社區文本數據是相當龐大的,針對這類文本數據的分類也是比較少見的。SVM具有很好的泛化能力和出色的分類性能,將SVM用于網絡社區文本數據的分類并以此來研究大學生熱點問題是可行的。

1. SVM基礎

在機器學習領域,支持向量機SVM(Support Vector Machine)是一個有監督的學習模型,通常用來進行模式識別、分類、以及回歸分析。

SVM進行分類的步驟有:樣本整理、特征選擇、計算特征權重、模型訓練與預測[1]。

從數據庫中提取已預處理的文本,將樣本標簽設定為-1和1。然后根據地理、人文差異將大學生網絡社區數據的文本分為兩類,-1為來自北方的大學,1為來自南方的大學。

SVM進行特征選擇,就是將特征的個數限制在一個合理的范圍內,即確定特征集。特征選擇就是從特征集中選擇一些代表性的詞。

針對大學生網絡社區文本,還需要將這些文本轉換成特征向量。首先,對文本進行分詞,提取出所有的詞。然后根據已經生成的詞典,如果詞典中的詞出現,就在相應對應的位置填入該詞的詞頻。最后將生成的向量進行歸一化,例如

表1

經過以上幾個步驟,文本轉換為向量的形式后。就是進行SVM模型訓練和預測了。

模型預測過程:首先將未知文本進行分詞,并確定它的特征向量,然后將這些已經進行分詞的樣本放到SVM模型中,設置好配置文件,最后就是將這些訓練好的樣本進行分類,標簽標識,以及得出它的隸屬度分數。至于預測,一般都是通過MATLAB來實現。

2. SVM參數選擇和重復樣本剔除

微博是一個信息流量相當大的網絡社區,其內容格式非常散亂,數據噪聲較大,人工審視或基本的統計選取參數很難提煉出最有效的參數,因此必須進行嚴格的SVM參數的選取。

SVM中最重要的兩個參數為C和gamma,C是懲罰系數,即對誤差的寬容度。C越高,說明越不能容忍出現誤差。C過大或過小,泛化能力都會變差。

徑向基函數RBF里sigma和gamma的關系如下:

gamma是選擇RBF函數作為kernel后,該函數自帶的一個參數。隱含地決定了數據映射到新的特征空間后的分布,gamma越大,σ會很小,支持向量越少,gamma值越小,σ會很大,支持向量越多。同時支持向量的個數都會影響訓練與預測的速度。

圖1 C,gamma組成的二維參數矩陣

如圖1所示,可以理解為:在C,gamma組成的二維參數矩陣中,依次實驗每一組參數的效果。

從圖1中可以看出,每組不同的C和gamma得到的矩陣相差甚遠,選擇不同的參數必然會有很大的偏差,造成分類不準確,甚至錯誤。因此參數的選擇就變得極其重要了。

那么該如何選取參數C和gamma的最佳值呢?假設現在有1000個大學的大學生對熱點關注的訓練樣本,300個大學的大學生對熱點關注的測試樣本(測試、訓練樣本不交疊),特征維數可能是足球,考研,買房,買車等熱點,共選取2000維。最佳C和gamma的思想是設置C和gamma的取值范圍,默認值為C=2?(-8),2?(-4),...,2?(8),gamma= 2?(-8),2?(-4),...,2?(8)),先把具有最小的那組C和gamma認為是最佳的C和gamma,并依次使C和gamma的冪分別加1,最后將每組C和gamma放到LIBSVM進行訓練,直至得出最佳的C和gamma,如圖2所示參數選擇結果圖。

圖2 尋參數選擇結果圖

圖3 參數優化前后的精確度對比

如圖2所示,X、Y軸是 log2(C),log2(g),準確率97的點所對應的 C, gamma 的組合就是最佳的參數組。最后將選取一組最佳的C和gamma放到交叉驗證(cross validation)中進行測試,對比參數優化前后的SVM分類精確度,如圖3所示。

圖3中X軸是樣本數,單位是萬;Y軸是精確度,單位是百分比。method1曲線和method3曲線代表的是C過大、gamma過大的SVM精確度,method2曲線代表的是最佳參數的SVM精確度。因此,在確定了最佳參數后,SVM分類的精確度最高。

盡管在整理樣本時,已經進行了預處理。但是對于微博這種信息量大的平臺而言,重復樣本在預處理的時候還是被保留下來了。那么這些重復樣本會對SVM模型產生什么影響呢?

假設在一個訓練樣本中北方大學生的樣本數為1000,南方大學生的樣本數為2000,然后將北方大學生的樣本數重復一倍,即構造了一個北方大學生的樣本數2000,然后測試一個包含北方大學生的樣本1,南方大學生的樣本9的樣本。最終結果如圖4所示。

圖4 重復樣本對結果的影響

從結果上來看:在F值上,無重復的樣本會比重復樣本稍高(圖中保留了2位小數,其實差異不超過0.5%)。而正確率上,重復樣本會比無重復樣本稍高。但是相對于這點優勢而言,重復樣本的劣勢更為凸顯。

一個樣本重復,相當于增加了樣本的權重,對于參數選擇最佳的C和gamma時,就會導致大量的工作量。如果C和gamma都是在[2.0,1.0]進行挑選,則總會有9*9=81組參數需要挑選,在每組參數下如果要進行5-flods的交叉驗證,則需要81*5=405次訓練與測試的過程。如果每次訓練與測試花費2分鐘(在樣本達到10萬數量級的時候,SVM的訓練時間差不多按分鐘計算),則總共需要405*2/60=12.3小時。

無可厚非,剔除重復樣本對訓練一個好的SVM模型就顯得很重要了。利用文本編輯器批處理刪除重復樣本,如將文本1和文本2的內容進行對比,刪除文本內重復行,相同行。

3. SVM分類實現的算法

序列最小最優化SMO算法就是通過f(x)函數把輸入的數據x進行分類[3]。而分類必然需要一個評判的標準,例如怎樣將x分為A類,怎樣將y分為B類?此時便需要劃分A類和B類的邊界了。如果邊界越明顯,就越容易區分,因此這個函數的目的就是把邊界的寬度最大化。

怎樣實現邊界的寬度最大化呢?在SVM中要是現實邊界的寬度最大化就必須最小化式。

w是參數,值越大邊界越明顯,C是懲罰系數,ξi是松散變量。

再將問題轉換為KKT條件(Karush-Kuhn-Tucker 最優化條件):

ai表示拉格朗日乘子。為了使KKT條件解答更簡單,可以通過拉格朗日乘法數來求解。對于(1)(2)(3)的情況分別是ai是正常分類、在邊界內部;ai是支持向量、在邊界上和 ai在邊界之間。最優解必須滿足(a)(b)(c)的條件。因此ai的約束條件是

通過公式(2)、(3),我們引入aj,滿足以下等式:

M為常數。利用yiai+yjaj=常數,消去ai,得到

將Ei移到最左邊得

根據aj可以得到

b的更新:

最后得到函數:

輸入是x,是一個向量,向量中的每一個值表示一個特征。

假設現在有一個x(清華大學,北京大學,廈門大學,中山大學),需要將這幾所大學分類,A類是北方大學,B類是南方大學。主要的步驟實現如下:

Repeat till convergence{

1. Select some pair ai and ay to update next (using a heuristic that tries to pick the two that will allow us to make biggest progress towards the global maximum).

2. Reoptimize M(a) with respect to ai and ay ,while holding all the other ak,s(k≠i,j) fixed.

意思是,第一步選取一對ai和ay,第二步,固定除ai和ay之外的其他參數,確定M極值條件下的ai和ay由ay表示。

運行后能準確的將這四所大學劃分為南方還是北方的大學,然后再將全國所有的本科院校都進行分類。

4. SVM分類的預測

首先將全國大學生分為兩大類,一類是北方大學生,另一類是南方大學生。因此就需要劃分全國的本科院校是屬于南方還是北方的,再將它的特征向量確定為北京大學,清華大學等本科院校,就大學生可能關注的熱點問題,分為考公務員,就業,創業,談戀愛,買房,軍事,考研等。確定好這些基本要素以后,再用文本編輯器剔除重復樣本,確定C和gamma的最佳取值,最后便是開始SVM樣本訓練和預測了。在MATLAB中進行預測時,過濾頻率較低的曲線,選取最高頻率的幾條曲線,以免曲線過多,造成失誤。首先我們先抓取2014年1月到5月的微博文本數據進行分析,如圖5所示。

圖5 熱點問題頻率統計圖

圖5中X軸是月數,單位是月;Y軸是頻率,單位是百分比。三條曲線由上到下分別代表關注考研,關注就業,關注公務員考試的頻率曲線。由圖可知,未來5個月內,大學生關注考研的人數比較多,關注就業問題的人數也不少,但在4個多月后就會出現下滑趨勢,關注公務員考試的人數上漲,五個月后可能處于最高。

使用詞頻統計的方法就2014年7月到11月的熱點問題進行跟蹤調查,結果如圖6所示。

圖5的預測中考研的概率是26%,就業的概率接近25%,考公務員的概率23%。和圖6對比可知,考研、就業、考公務員的熱點問題預測準確率與實際相差不大,但還是存在差距。如實際考研的概率比預測的增加1%,實際就業的概率比預測的減少1%,實際考公務員的概率比預測的增加2%;大概原因如下:

圖6 熱點問題跟蹤表

(1)部分大學生在大三到大四的暑假期間受就業,家庭等原因影響,會突然決定考研。所以會比預測增長1%;

(2)部分大學生決定考研后,就不會更多的考慮就業問題了,而是一心撲在考研的問題上。所以會比預測減少1%;

(3)將近2%的大學生在10月中下旬的時候,由于找到了工作,或因為公務員多人報考難度加大等原因,放棄考公務員。所以會比預測減少2%。

5. 結論

在進行文本分類時,我們必須提高SVM的工作效率,即提高SVM的分類速度。對SVM參數的選擇,以及剔除重復樣本都是為了提高SVM分類速度,使其在模型訓練和預測時得出更好更快的結果。嚴格進行參數的選擇以及剔除重復樣本,努力提高SVM的分類速度。

* [1] 張知臨.文本分類SVM[DB/OL],2012,http://blog.csdn. net/zhzhl202/article/details/8197109

* [2] 程俊霞,李芝棠,鄒明光,肖津.基于SVM過濾的微博新聞話題檢測方法[J].通信學報,2013,34(Z2)74-78

* [3] techq'sblog.SVM算法實現[DB/OL],2011,http://blog. csdn.net/techq/article/details/6171688

* [4] 張翔,周明全,耿國華,王曉鳳.基于LSVM算法的人臉識別方法研究[J].西安可視化技術研究所,2012

廣西自然科學基金項目:2014GXNSFAA118359,廣西民族大學創新項目《基于大數據技術的大學生熱點問題預測與分析》

猜你喜歡
分類文本大學生
分類算一算
在808DA上文本顯示的改善
分類討論求坐標
帶父求學的大學生
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數據分析中的分類討論
教你一招:數的分類
大學生之歌
黃河之聲(2017年14期)2017-10-11 09:03:59
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 日本少妇又色又爽又高潮| 本亚洲精品网站| 亚洲精品麻豆| 国产欧美日韩va| 国内自拍久第一页| 国产亚洲精品97AA片在线播放| 婷婷综合亚洲| 日本精品αv中文字幕| 亚洲美女久久| 91精品国产福利| 在线观看无码av免费不卡网站 | 不卡午夜视频| 亚洲色图另类| 亚洲午夜18| 在线播放真实国产乱子伦| 午夜色综合| 亚洲欧美成人在线视频| 欧美色99| 国产成人91精品| 色噜噜综合网| 欧美国产日本高清不卡| 国产成人精品一区二区不卡| 一本大道香蕉高清久久| 四虎亚洲精品| 怡春院欧美一区二区三区免费| 国产三级国产精品国产普男人| 成人精品视频一区二区在线 | 亚洲无码熟妇人妻AV在线| 亚洲第一香蕉视频| 国产精品黄色片| 久久黄色影院| 免费看av在线网站网址| 亚洲日本www| 四虎影视永久在线精品| 国产乱子伦精品视频| 四虎综合网| 日韩不卡高清视频| 久久久国产精品无码专区| 国产成人精品亚洲77美色| 毛片免费视频| 国产99在线| 久久久久国色AV免费观看性色| 成人在线观看不卡| 国产哺乳奶水91在线播放| 欧美精品一二三区| 九色在线观看视频| AⅤ色综合久久天堂AV色综合| 国产91丝袜| 在线播放精品一区二区啪视频| 国产精品久久自在自线观看| 亚洲成人免费在线| 亚洲精品无码AV电影在线播放| 国产在线观看精品| 五月天香蕉视频国产亚| 岛国精品一区免费视频在线观看| 老汉色老汉首页a亚洲| 亚洲福利视频网址| 2021国产乱人伦在线播放| 5555国产在线观看| 草草影院国产第一页| 精品国产一区二区三区在线观看| 免费看一级毛片波多结衣| 2021亚洲精品不卡a| 中文字幕啪啪| 国产色婷婷| 九九香蕉视频| 91福利免费视频| 91口爆吞精国产对白第三集| 三级视频中文字幕| 国产激爽大片高清在线观看| 亚洲a级在线观看| 不卡视频国产| 国产精品jizz在线观看软件| 激情无码视频在线看| 成人蜜桃网| 久久77777| 亚洲中文字幕无码爆乳| 欧美精品啪啪| 国产成人综合欧美精品久久| 91小视频在线| 国产老女人精品免费视频| 麻豆精品国产自产在线|