999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于ANN的學校建議分析系統

2020-02-02 07:41:34朱穎
電子技術與軟件工程 2020年18期
關鍵詞:分類文本學校

朱穎

(南京林業大學 江蘇省南京市 210037)

隨著中國國力的不斷增強和社會地位不斷提高,社會對學校教育的重視也在逐年加強。學校作為當代社會知識青年的主要生源地,在招生方面的吸引力除去在教學方面以外,當中有很大一部分吸引力依賴于其硬件設施。近年來,研究表明,排名越靠前的學校越發注重學生的學習環境建設,尤其是外部設施的建設。一個好的學校不光依賴于優質的教學,宿舍、圖書館、交通等設施的提高和改善也能提升在校學生的學習質量,從而增強學校的吸引力。因此,知道自己需要在哪些硬件設施方面進行改善對一個學校聲望的提升有著關鍵性影響。當前,對于學校建議獲取主要有兩大措施,一是基于問卷調查的傳統評價模式,二是基于網絡輿論數據的評價模式。而目前國內外社會調查中較為廣泛使用的一種方法還是問卷調查,這可從各項研究中看出。該調查方法在實施過程中容易受到時間和空間限制,需要大量的數據輸入與統計工作,且該評價體系難以在時間上對比公眾需求,所以并不具有未來可持續性。而現代互聯網作為一種新興媒體成為公眾發表意見最常用的平臺,其中包括:QQ、貼吧、微信、論壇、微博等各種方式,從而在社會信息傳播中占有主導地位。公眾通過這些網絡工具對學校的一些問題或看法則在短時間內就可以形成,信息量大,范圍廣,方便獲取的同時也有著代表性意見。因此,通過網絡平臺獲取學校意見相比于過去的問卷調查有著更加方便快捷的好處,其中微博又以其短小、隨時隨地、全平臺共享的特點從各個網絡工具中脫穎而出,迅速擁有了一大批學生、社會人士受眾。同時作為學校面向的主要人群,他們的意見尤為重要。

人工神經網絡(Artificial Neural Network,簡稱ANN),是一種通過調準內部大量節點之間相互連接的關系和權重,從而達到處理信息的目的的信息處理的數學模型[1]。本文針對目前微博上廣大群眾對于學校設施的需求,總結了宿舍、教室、食堂、交通、圖書館這五大學校主要設施,利用文本分類思想并結合人工神經網絡,獲取微博里關于每一個設施的特征值,高效地、精確地對該條微博進行分類,從而為大數據時代下的關于學校建議的獲取提供一種新思路。

1 數據獲取與處理

1.1 數據獲取

本文研究的對象是新浪微博用戶發表的微博,首先要獲取符合要求的微博內容。本文使用的數據集是借用GooSeeker(https://www.gooseeker.com/)下的微博采集工具箱內所提取的微博數據作為訓練用的數據集。GooSeeker 是通過新浪微博API 進行實時微博數據爬取,從而獲取大量微博數據的平臺[2]。

圖1:神經網絡結構圖

圖2:神經網絡的誤差線狀圖

圖3:平均相對誤差MRE

通過爬取 2020年 6月至 2020年 9月有涉及到學校各種關鍵設施的12387 條微博數據,由于這些原始微博數據里面往往含有大量無關信息,如時間、微博粉絲數、登錄方式、用戶名等,反而會影響后續關鍵文本提取,所以,需要對微博數據進行進一步的篩選、過濾,選出合適的、可搭建模型的微博文本。但提取數據時考慮到處理效率問題,而所獲取的樣本數據量過大,信息處理起來過于繁瑣,不適合全作為訓練數據,因此,從數據樣本中隨機選取3000條相關微博,其中關于宿舍725 條,教室433 條,食堂421 條,交通692 條,圖書館729 條。

1.2 數據處理

1.2.1 去冗余信息

模型主要是以文本作為信息輸入,旨在挖掘出文本中的隱含特征,獲取微博文本的向量表達。由于從微博爬取的文本無法直接輸入人工神經網絡模型,且這些沒有經過處理的文本數據中有很多冗余信息,會影響分類效果和效率。所以要進行中文文本的預處理,如中文分詞、停用詞過濾、詞語向量化等[3]。為了節約人工處理數據時間,同時加快信息處理能力,本文使用Python 程序對文本數據進行進一步處理,jieba 作為目前最好的 Python 中文分詞組件,它的精確模式可以在進行中文分詞后還可以進行去標點、去空格、去停用詞等處理,最終使得文本串變成一系列有效詞語的集合[4]。

表1:訓練、驗證、測試結果(括號中的百分比為準確率)

1.2.2 數據的特征值提取

分別總結關于宿舍、教室、食堂、交通、圖書館五個設施地點的名詞庫,其中每個名詞庫包括地點名詞、代表性行為詞和相關形容詞。然后將完成jieba 分詞處理后每一條微博的有效詞語集合與各個詞庫中關鍵詞進行匹配,每出現該庫中一個關鍵詞則將該庫value 值計數加一,統計出每一個詞庫對應的關鍵詞出現頻率總數,通過xlwt 寫入Excel 表格,最終得到一個五維的輸入向量。

2 建立模型

人工神經網絡具有自學習和自適應的能力,它可以通過預先提供的一批相應的輸入輸出數據來分析和掌握二者之間的潛在規律并且根據這些規律,用新的輸入數據計算輸出結果[5]。人工神經網絡由不同層次的神經元組成,這些具有非線性功能的神經元通過突觸權重相互連接。在訓練過程中,通過權重的變化,從而使輸出更接近神經網絡的目標。對于大部分具有類別可分性的條件的問題,神經網絡系統能夠對輸入向量進行定向分析從而得出該輸入所屬的數據屬于哪一類的結果[6]。而該學校建議系統分類的最關鍵問題是對建議類別的分辨和確認,神經網絡系統通過對輸入特征向量的分析,得出一個輸出向量,通過與收集到樣本的輸出值進行差值計算,得到絕對值最小的,也就是最相近的分類,因此神經網絡作為該系統的分類器是非常適合的。

首先,將經過特征值提取處理后的五維向量作為第1 層的輸入向量。其次,建立神經網絡模型,該網絡模型有輸入層,3 個隱層神經元和輸出層,輸入層的神經元數量與輸入參數的數量相同。輸入層是學校建議分析系統的五種設施的特征值,輸出層為每種設施代表的數字標簽,其結構如圖1所示。

然后進行網絡訓練,從全部樣本中隨機抽取 2100 例(宿舍507條,教室303 條,食堂295 條,交通484 條,圖書館510 條)作為訓練組,450 例作為驗證組(宿舍109 條,教室65 條,食堂63 條,交通104 條,圖書館110 條),450 例為測試組(宿舍109 條,教室65 條,食堂63 條,交通104 條,圖書館109 條),分別占總數據的70%,15%,15%。通過 MATLAB 2020a 對上述數據編程,將數據輸入構建好的ANN 模型進行訓練,最后進行模型的比較和驗證[7]。

模型采用計算平均相對誤差MRE(Mean Relative Estimation Error)、誤差總值re_sum,進行精度和可靠性評價,其中MRE、re_sum 定義為:

re_sum = re_sum + re;

MRE = re_sum/N;

圖4:神經網絡回歸分析結果

其中,樣本個數用N 表示,網絡模型預測值采用y_cal 表示,y_real 為實驗實際值,re 是預測值和實際值差的絕對值與實際值的單個比值。

3 實驗結果

使用處理好的訓練集數據用于神經網絡訓練,從圖2 可以很明顯看出,當訓練次數達到34 次時,訓練、驗證和測試誤差同時達到最小,其中測試誤差稍大一點,但也只有0.084016,誤差小于9%,在可接受的范圍以內。同時,從圖3 看出,平均相對誤差MRE 通過MATLAB 計算得出為0.0632。

接著考慮ANN 神經網絡的收斂性,于是對訓練、驗證和測試結果進行回歸分析,可以從圖4 看到分析效果。

從圖4 可以看出,訓練、驗證和測試結果的R 值分別為 0.98128,0.97847,0.97265,三者的總R 值和為0.97964,回歸效果較好,這說明神經網絡系統的仿真試驗的誤差較小,基本上可以進行仿真試驗。為了能看出分類的效果,本文把訓練組、驗證組和測試組的測試結果進行對照,如表1所示。

從表1 中可以看出,人工神經網絡具有較好的識別能力,每組準確率達到97.0%,可以應用于學校建議分類。

4 圖形化表示

由于該建議分析模型的輸出是一個一維向量,為了直觀地展示給學校分析人員,本文在五維輸入向量中取其累積數量最大的設施代表值作為最終預測結果(詞庫中關于該設施的關鍵詞數量累積的值越大表示越有可能是該設施對應的分類),再通過詞庫和分類的映射關系得到最終的分類結果的圖形化表示。利用python 中的pyplot 模塊生成一個餅圖,反映當前數據集各個分類的占比,通過這個占比可以很明顯看出微博內對學校設施評論的傾向,分析人員從而可以作出正確的改善或者認知定位等相關工作。圖五顯示的關于學校建議分析系統情況圖形化表示。經檢驗,每一部分均占比與數據表中一致,所以也可以表明系統最終分類結果較為可靠。

如果學校分析人員在微博收集數據時加上該學校的關鍵字,且將每次獲取的信息分類結果按收集時間命名并保存,則可以在某一特定時間段內將各類數據與最近一次分析結果對比,若某些分類占值波動較大,則表明微博內對該學校該類設施需求較大,學校需要對這些方面給予更多關注,起到了定點分析的作用。

5 討論

本文提出了一種基于人工神經網絡的學校建議分析系統。首先通過新浪微博API 收集原始樣本數據,然后篩選、過濾后選擇合適的數據構成訓練用的數據集。在對樣本庫進行深入分析后,建立了用于特征提取的關鍵詞庫并提取了5 個硬件設施所代表的特征值,通過累積計數得到從微博文本到實數向量空間的映射,最終利用神經網絡實現分類。將人工神經網絡與信息處理結合是一種很好的方法。結果表明,ANN 可以成功地應用于對學校建議的分類,對于學校提高管理水平和滿足受眾需求有著重大的現實意義和參考價值,為大數據時代下的關于學校建議的獲取提供一種新思路。

但這種方法在應用時也有諸多技術限制,例如,通過jieba 對微博進行分詞后的關鍵詞與構造關鍵詞庫時用的單個關鍵詞有所偏差以及各類關鍵詞指標的設立與檢驗、隱含層個數的設立、文本內容的長度,從而對人工神經網絡判別的準確性有一定影響。

隨著對人工神經網絡的不斷深入研究,未來高校可以采用更加成熟的系統來完成信息獲取工作,不光是通過微博,還可以通過各種網絡平臺,如論壇、QQ、貼吧等,實時獲取最新需求,通過系統自動深入分析,幫助學校及時、全面、準確地掌握需求,了解自身的不足之處,并及時得到改善。總之,隨著大數據時代下的人工智能的不斷發展,一定能在復雜的教育領域發揮其巨大潛力。

猜你喜歡
分類文本學校
分類算一算
在808DA上文本顯示的改善
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數據分析中的分類討論
教你一招:數的分類
學校推介
留學生(2016年6期)2016-07-25 17:55:29
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
奇妙學校
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 狠狠五月天中文字幕| 久久综合AV免费观看| 精品福利国产| 日韩少妇激情一区二区| 成人午夜免费观看| 久久久噜噜噜| 婷婷六月色| 欧美日韩国产综合视频在线观看| 日韩亚洲高清一区二区| 草草线在成年免费视频2| 日本黄网在线观看| 黄片一区二区三区| 欧亚日韩Av| 91久久青青草原精品国产| 久久久久国产精品嫩草影院| 无码高清专区| 日本久久久久久免费网络| 欧美福利在线| 国产乱子伦精品视频| 白浆视频在线观看| 欧美日韩在线亚洲国产人| 色综合久久88| 亚洲一区免费看| 在线中文字幕网| 激情无码视频在线看| 在线国产91| 一区二区日韩国产精久久| 国产91久久久久久| 一级毛片不卡片免费观看| 欧美啪啪一区| 极品国产一区二区三区| 亚洲第一区欧美国产综合 | 精品伊人久久久香线蕉| 日韩资源站| 亚洲国语自产一区第二页| 国产黄视频网站| 成年女人a毛片免费视频| 欧美综合区自拍亚洲综合绿色| 国产精品久久久久久久久| 免费人成视网站在线不卡| 精品伊人久久久大香线蕉欧美| 免费看a级毛片| 男女猛烈无遮挡午夜视频| 狠狠亚洲五月天| 91福利在线看| 91精品人妻一区二区| 国内精品自在欧美一区| 2020国产免费久久精品99| 午夜视频www| 无码福利日韩神码福利片| 欧美午夜理伦三级在线观看 | 狠狠亚洲婷婷综合色香| 亚洲精品福利视频| 精品国产成人av免费| 亚洲无码不卡网| 亚洲婷婷丁香| 日韩高清在线观看不卡一区二区| 伊人久久大香线蕉综合影视| 黄色网在线免费观看| 亚洲精品国产综合99| 日韩精品亚洲人旧成在线| 亚洲视频免费播放| 真人免费一级毛片一区二区| 国产麻豆永久视频| 欧美激情首页| 国产精品污视频| 曰AV在线无码| 欧洲在线免费视频| 国产精品欧美激情| 全部无卡免费的毛片在线看| 亚洲欧美成人在线视频| 影音先锋亚洲无码| 国产成人亚洲精品蜜芽影院| 综合社区亚洲熟妇p| 黄色a一级视频| 亚洲精品在线观看91| 人妻中文字幕无码久久一区| 无码网站免费观看| 精品视频一区二区观看| 中文无码影院| 欧美人人干| 超清人妻系列无码专区|