◆陳 濤 欒禹鑫 譚英杰 欒 悅 喬意凡
基于爬蟲技術的校園網絡輿情分析和監測系統
◆陳 濤 欒禹鑫 譚英杰 欒 悅 喬意凡
(西北民族大學 甘肅 730030)
大數據、云計算、網絡爬蟲等技術日益成熟,智能化生活已經逐漸從實驗室走入人們的生活。本文介紹的監測系統將網絡爬蟲技術和數據分析以及Android相結合起來并利用現有的技術設計了一種校園輿情分析的系統。這款APP以網絡爬蟲技術的成熟、在數據量還不是特別龐大以及WIFI全面覆蓋的基礎下,通過對獲取的數據進行去重,清洗,以及分詞來做出相關的分析研究,將分析出來的結果通過APP及時反饋給學校,高校管理層及時加強學生心理健康教育工作,發掘正確的網絡輿情引導機制,有效控制網絡的負面效應,控制輿情的發展和蔓延。
輿情分析;機器學習;分析;校園安全;校園生活;學生;Android開發
隨著科學技術的發展和社會的進步,網絡在生活中扮演著越來越重要的角色,尤其在校園生活中,經過調查,近八成大學生使用的是Android系統的手機而且他們每天都會不定時的上網、瀏覽網頁,時間長短也不一,通過對這些數據的整合來對學生的狀況進行分析也就是校園網絡輿情分析。網絡輿情是在互聯網上傳播的公眾所關注的現實生活中某些熱點、焦點問題,是網民通過互聯網來表達和傳播不同思想和態度的總和。網絡輿情源于現實生活,但它是不同于現實社會的虛擬現實,它將人們傳播渠道和表達輿情的方式拓展到了互聯網上。與傳統的傳播媒介相比,高校校園網絡的發展一定程度上容易給大學生的心理健康帶來消極的影響。因此,高校管理層應及時加強大學生心理健康教育工作,發掘正確的網絡輿情引導機制,有效控制網絡的負面效應,控制輿情的發展和蔓延。如何及時化解、實現對高校網絡輿情的引導和控制,維護高校大學生生活的和諧,是構建社會主義和諧校園迫切需要解決的問題。所以,研發這樣一款分析軟件就顯得尤為重要。現階段,據筆者調查了解到,學校對于學生狀況的了解主要是通過同學口述或者老師把學生叫到辦公室來進行面談交流獲得的,這樣十分費時費力。首先教師也沒有這么多時間能把每一個學生都叫過去面談,其次教師也不能每天叫學生過去,最后即便把學生叫過去了學生也不一定能夠很好地和老師進行交流,及時把自己最近的狀況反饋給老師,部分的學生還是會選擇不將自己的一些事告訴教師。通過研究發現,絕大多數高校的學生都喜歡上網,對于學生的近期上網狀況能夠很好地映射出這段時間學生自身的狀況。本項目系統的研發,正是以對學生上網的情況進行數據采集,再對這些數據進行清洗以及去重再分析,給教師們節約了時間來頻繁了解學生狀況,同時也給學校管理提供幫助,能及時提供應對的方案。
通過調查了解,中國許多高校中,都存在著教師或者學校管理層的人員不能及時地掌握學生們最近的動態,出現一些能可以避免發生的有害事件。對于此類現象,通常學校會開會對于此類事件進行處理,之后每個班的教師也會對于此類事件進行強調,同時對于此類事件也會在近段時間進行管控,但很難長時間解決此類事情;于是,基于這類現象,我們著手研發了本系統,本系統的研發,正是針對大學校園,特別是很多高校面臨不能及時掌握學生的狀況問題,以及教師沒有大量時間能夠跟所有學生進行頻繁的交流。本系統旨在為高校的學生的最近狀況分析工作提供便利,能夠讓學校管理人員和教師隨時隨地了解學生們的近期狀況情況,以便于管理和及時找相關學生進行交流,來解決學生所遇到的問題,避免一些不必要的事情發生,通過“網絡輿情分析”這種方法,減少高校學生由于教師們沒能及時了解情況而出現問題的狀況。
如今的智能手機能夠實現隨時隨地進行上網,沒有太大的約束條件,通過上網每個人都會產生許許多多的數據信息,這些數據是十分龐大的,而且不需要通過交流產生,這些都是上網自己產生的,不會因為學生自己不想說出來而無從下手,讓這些信息更加真實,因為這個信息都是基于他們主觀和最近他自己的狀態而產生的,也就是這些信息是具有個性化的,這樣筆者就通過獲取相關數據,基于這些數據通過機器學習分析模型分析出每個人近期的狀況;因此基于網絡輿情分析變得不僅可行,而且十分方便。
輿情分析是基于機器學習算法模型的k鄰近算法,k近鄰算法,也稱為KNN算法,是一種基本分類與回歸算法。
k近鄰模型:k近鄰模型的核心是一種歐式空間距離,獲得距離目標點最近的k個點,根據分類決策規則,決定目標點的分類。
(1)距離目標

(2)k值的選取
k鄰近算法模型中k的選取非常重要,k鄰近算法分類的準備率對k值十分敏感。無論是對原始數據的距離計算和分類還是標準化后的分類,都是以距離最近的數據點分類來表示的新數據類別,不同的值有可能帶來不同的結果。如k選大了的話,求出來的k最近鄰集合可能包含了太多隸屬于其他類別的樣本點,不具有代表性,最極端的就是k取訓練集的大小,此時無論輸入實例是什么,都只是簡單的預測它屬于在訓練實例中最多的類,模型過于簡單,忽略了訓練實例中大量有用信息。如果k選小了的話,結果對噪音樣本點很敏感。在實際中,一般采用交叉驗證(一部分樣本做訓練集,一部分做測試集)或者依靠經驗的方法來選取k值。k值初始時取一個比較小的數值,依次調整k值的大小來使得樣本分類最優,最優時的k值即為所選值。
(3)分類決策規則
k近鄰的分類決策機制中最為常見的簡單多數規則,即在最近的k個點中,標簽數目最多者,就把目標點的標簽歸于此類。
工作原理:存在樣本數據集合,也稱作訓練樣本集,并且樣本集中的每個數據都存在標簽,即知道樣本集中每一個數據與所屬分類的對應關系。當輸入一個沒有包含標簽(也就是對應的類別)的新數據后,將新數據的每個特征與樣本集中數據對應的特征進行比較,然后用算法提取樣本集中特征與新數據最相似的數據(最近鄰)的分類標簽。
歸一化特征值:對于大多數數據來說,其每個特征的特征值可能數值差距很大,因此需要對這些數據進行歸一化。

注:oldValue是需要進行歸一化的特征值,min是所有同類特征值最小的特征值,max是所有同類特征值最大的特征值。
該系統的服務對象目前只適用于學校教師,意在幫助教師能夠更加方便及時地了解學生近期的具體狀況,創建一個更加和諧安全的校園環境,減少校園暴力的發生。
基于前期的調研與分析,為該系統制定設計方案,從功能、交互兩方面進行軟件設計,使得教師能夠快捷方便的使用該系統。功能模塊主要包括:登錄、資訊、查詢、概況、個人信息等模塊。
(1)登錄:輸入用戶的用戶名及密碼,即可實現登錄。若忘記密碼,則可驗證賬號,以此來修改密碼。
(2)資訊:用戶在此頁面可以迅速了解到學校近期發生的事情,方便了解學校近期發生的具體事情。
(3)查詢:教師在這個頁面可以選擇學院和所對應的專業班級,選擇完了之后點擊查詢,查看全校的學生近期的總體狀況,這樣可以實時了解到全校學生的動態。
(4)概況:這個功能到時候會識別出登錄教師所屬班級,之后顯示出這位教師所屬班級的近期狀況的總結報告,方便教師直接查看自己班級學生近期的總體情況,以便教師對相關學生進行交談。
(5)我:方便教師修改自己的個人信息,如:頭像,手機號,密碼等(學號不得修改)。
西北民族大學國家級大學生創新創業訓練計劃資助項目(編號:201810742062,名稱:基于爬蟲技術的校園網絡輿情分析和監測系統)。