朱鳳山



摘要
我國的智慧校園建設和數字化校園建設已經持續多年,積累的相當數量的數字化信息,反映了各學校發展歷程中的關切點。校園在線新聞是數字化校園與智慧校園建設的組成部分,建立新聞主題分析模型,對在線新聞進行智能化的挖掘、統計和分析,提供相應參考數據,有利于智慧校園建設和完善。新聞主題分析模型運用Python編程語言實現爬蟲程序,建立數據獲取模塊,經清洗和結構化處理后,借助HanLp技術進行詞語切分,實現中文語法分詞,統計、分析在線新聞的隱含信息和潛在價值。最后使用該分析模型針對某高校近五年新聞數據,按照時間和主題進行了分析和匯總
【關鍵詞】在線新聞 Python HanLP 主題分析模型
1 引言
智慧校園是在本世紀初,全球進入信息化大背景下,我國在十二五規劃中明確提出來的,它以數字校園建設與發展為基本出發點與落腳點。2015年國務院頒發了《關于積極推進“互聯網+”行動的指導意見》,進一步明確要求加快推進互聯網、云計算、大數據、物聯網等相關技術的創新應用,推動國家大數據戰略和數據資源開放共享。“互聯網+”行動引起了社會各行業、領域的廣泛探討,教育領域所提倡的智慧校園也包含在內。
隨著大數據時代的到來,對數據進行分析、整理和歸納,從而為決策者提供決策支持,己受到各行各業的廣泛關注的。國內外的很多研究者已經對如何高效利用大數據進行了廣泛和深入的研究。高校門戶網站是高校數字化校園與智慧校園建設的組成部分,承擔著對外宣傳的重任,同時又是在校師生獲取信息的重要途徑??茖W、合理、高效的門戶網站可以作為高校對外展示的一張名片,它反映了高校的信息化程度,是高校軟實力的體現。因此,借鑒大數據分析技術,構建在線校園新聞主題分析模型,對高校在線新聞主題進行挖掘、分析、統計,對高校開展信息化建設和智慧校園建設都有積極意義。
智慧校園建設將成為教育信息化的最終形態。李有增認為智慧校園是融合提升高校教學、管理和服務的新模式,是教育信息化的高級形態。智慧校園所提倡的智慧,其內涵不是簡單的數字信息化,而是創新和創造。建設智慧校園要結合云計算和大數據分析等科研技術,有效的對各種資源進行整合。在線校園新聞主題分析模型就是以大數據分析為基礎,對高校所發布到門戶網站上的校園新聞進行主題挖掘和分析,提供反饋結果,用以提升在線校園新聞管理的智慧程度。
2 分析模型的構建
在線新聞主題分析模型依據所加工數據的流向劃分,主要包括數據獲取與結構化處理,中文分詞處理,統計與分析,可視化呈現四個環節,如圖1所示。
2.1 數據的獲取與結構化處理
鑒于校園網新聞內容都是以HTML文本方式呈現,分析模型在獲取數據時采用Python語言編寫的“爬蟲”來完成。Python編寫“爬蟲”程序時可以自行設計功能函數,通過多線程機制優化運行;也可以借助成熟的函數庫或框架,如Beautiful Soup、Scrapy等。在本模型中采用的是前者。
為了讓“爬蟲”程序比較穩健,在實現過程中采取相應策略抵抗“反爬蟲”程序。通過URL訪問HTML頁面時,動態更改user-agent,偽造用戶代理,以防止服務器封殺??刂啤芭老x”程序執行速率,隨機每1~5秒執行一次爬取操作。讀取到頁面內容后,進行數據類型識別,如果是新聞信息數據,分發到數據清洗與整理模塊;如果是新的頁面URL鏈接,加入URL列表集合?!芭老x”程序從入口頁面開始之后,不斷從URL列表中提取新的頁面,爬取所需內容,并進行標記,以防止重復爬取。結構化處理模塊讀取新聞信息以及相關屬性,如新聞發布日期、發布者等,重新組織為結構化數據,借助pymysql模塊存入Mysql數據庫。由于所需采集數據具有很強的規律性,使用“爬蟲”程序提取URL時,可以屏蔽無關鏈接,避免Python程序執行時耗費很長時間。如果需要處理的URL種類較多,且無固定分組模式,可以借助Python的多進程或多線程技術,采用緩存優化和并發性訪問,從而可以提升執行性能。
2.2 新聞主題的分詞
中文分詞是基于HTML頁面數據挖掘的前提。按照分詞算法的不同,可以分為基于字符串匹配算法、基于理解的算法和基于統計的算法。根據分詞與詞性標注是否融合的不同,又可分為單純分詞的非融合算法和分詞與標注同時進行的融合算法。目前,比較流行的中文分詞算法是基于統計模型的機器學習方法。
在新聞主題分析模型中,采用的分詞算法是由HanLP封裝的。HanLP是由一系列模型與算法組成的開發工具包,用于提供自然語言處理技術在軟件開發中的應用[4]。HanLP提供了多種分詞算法的實現,如最短路分詞、N-最短路分詞、CRI分詞等,中心思想是基于統計的自然語言處理。它較為完善的實現了詞法分析、句法分析和語義理解等功能。HanLP工具包同時具備架構清晰、語料時新、可自定義詞典等特點,hanlp.properties配置文件想具體信息如下,其中mywords.txt文件即為自定義的詞典。
root=E:/eclipseSpace/test/
CoreDictionaryPath=data/dictionary/CoreNatureDictionary.txt
BiGramDictionaryPath=data/dictionary/CoreNatureDictionary.ngram.txt
CoreStopWordDictionaryPath=data/dictionary/stopwords.txt
CoreSynonymDictionaryDictionaryPath=data/dictionary/synonym/CoreSynonym.txt
PersonDictionaryPath=data/dictionary/person/nr.txl
PersonDictionaryTrPath=data/dictionary/person/nr.tr.txt
TraditionalChineseDictionaryPath=data/dictionary/tc/TraditionalChinese.txt
CustomDictionaryPath=data/dictionary/custom/CustomDictionary.txt;mywords.txt;現代漢語補充詞庫.txt;全國地名大全.txt ns;人名詞典.txt;機構名詞典.txt;地名.txt
ns;data/dictionary/person/nrf.txt.nrf
CRFSegmentModelPath=data/model/segment/CR]SegmentModel.txt
HMMSegmentModelPath=data/model/segment/HMMSegmentModel.bin
ShowTermNature=true
2.3 統計分析與可視化呈現
分析模型的最終目的是對獲取到的數據進行統計、分析,并予以呈現??梢暬尸F利用數據窗口的直觀、全面,對挖掘出的數據,通過視覺化,把信息變成了一種信息地圖,避免迷失在數字信息中時。數據信息地可視化呈現,在大數據應用逐漸普及的情況下,顯得尤為重要。
統計和分析模塊主要從頻度分析、主題分析和熱度分析三個方面展開。頻度分析是對特定時間段內,在線新聞發布數量的統計和分析;主題分析是對特定時間段內,所發布在線新聞的主題進行統計和分析;熱度分析是對主題分析結果的進一步挖掘,尋找特定時間段內在線新聞的熱點、關切點,它能反應高校比較重視的事件,體現高校管理的發展與變化趨勢。
在實現可視化呈現時,選擇Highcharts圖標庫。它是一套用Javascript語言編寫實現的,支持所有主流瀏覽器和移動平臺(android、iOS等),開源免費的輕量JS庫。Highcharts可以較為簡單的在Web頁面或Web應用程序中添加具有交互性的圖表,即為方便的呈現數據。
3 分析模型的應用
為檢驗在線校園新聞主題分析模型的應用效果,選擇華北某省屬高校的在線校園新聞進行實踐應用測試。使用Python編寫的“爬蟲”程序,共獲取數據4193條,時間跨度為2012-06-18到2018-06-01。為了便于統計和分析,截取2013-01-01到2017-12-31之間五年的數據,共計3687條數據,進行主題分詞,頻度分析和熱度分析。
新聞主題的獲取較為完善、清晰,沒有混入其他文本信息和HTML元素,說明Python程序的執行較為穩定,預定模式匹配比較成功。
3.1 新聞發布頻度分析
在被選數據集合中,該高校在線新聞發布量為2013年423篇,2014年864篇,2015年774篇,2016年739篇,2017年887篇,整體趨勢為正向增長,如圖2所示。在大力推廣數字化校園建設,智慧校園建設的進程中,校園新聞可以作為傳播和反映校園文化精神的載體。校園新聞可以服務于大學文化建設,同時可以作為校園文化建設的手段。積極、合理、適度的校園新聞發布量,是反映校園文化內涵、樹立高校形象和辦學特色的重要形式,能夠增強教師和學生的凝聚力,使其有歸屬感,同時營造積極向上的數字化校園氛圍。
近五年的數據信息顯示,校園新聞在月度發布量上與高校的學期時間跨度正向匹配。9月至轉年1月為第一學期(上半學期);3月至7月為第二學期(下半學期),調整之后的月度新聞發布量如圖3所示。寒暑假期間的新聞發布量最低,學期中新聞發布量較高。比較有意思的是,近五年的數據反映,兩個學期的發文量并不平均,第一學期明顯的發文量明顯高于第二學期。
3.2 新聞主題與熱度分析
經HanLP分詞模塊對所提取新聞主題分詞后,進行數據清洗,主要從不完整的數據、錯誤的數據和重復的數據三個方面進行清洗。在數據處理過程中還過濾了與單位信息密切相關的數據。
整理之后的數據按照詞語在新聞主題中出現次數高低拍序,出現次數越多,則意味著該詞語具備更高的熱度指數。2013年度,排名前五位的熱度詞匯有“我?!薄ⅰ罢匍_”、“工作”、“舉行”、“全國”;2014年度,排名前五位的熱度詞匯有“我?!薄ⅰ疤旖蚴小?、“舉行”、“召開”、“工作”;2015年度,排名前五位的熱度詞匯有“我?!?、“召開”、“工作”、“天津市”、“舉行”;2016年度,排名前五位的熱度詞匯有“我?!薄ⅰ罢匍_”、“工作”、“舉行”、“天津市”;2017年度,排名前五位的熱度詞匯有“我校”、“召開”、“工作”、“天津市”、“舉行”。各年度熱詞排行榜具體信息可以參考圖4至圖80
除去“我?!薄ⅰ罢匍_”、“舉行”、“工作”等在新聞主題發布時較為常用的詞匯,位于熱度詞匯排行榜中其他詞匯則可以標明該所高校的新聞關切點所在,如“學生”、“學習”、“教育”、“教師”等,這些詞匯在近5年的排行榜中都有所反應。
4 總結
基于Python和HanLp技術的在線新聞主題分析模型,使用Python采集Web數據,經數據清洗和結構化整理之后,借助HanLP中文語法工具分詞,統計、分析在線新聞的隱含信息和潛在價值,體現了數據挖掘的意義,對校園信息化建設和信息化管理提供支持。
4.1 提供決策支持
在線新聞主題經過中文分詞、聚類等方法,可以收集到相關信息,為管理者提供信息反饋和決策支持。通過抽取門戶網站各主題的信息,對主題進行深入挖掘,可以讓管理者更加深刻的從多角度的了解高校門戶網站的內容發布情況,也可以作為高校領導對相關事件的決策判斷基礎。通過信息技術將數據所隱藏的信息發掘出來,實現數據價值的有效利用,為相關決策提供數據支撐。在此基礎上,對挖掘出的數據進一步分類,這也數據挖掘領域的重要方向,通過描述性的數據特征,將歸為一類的數據劃分為一個領域?;赑ython和HanLp技術的在線新聞主題分析模型可以分析高校門戶網站主題新聞內容,從而找出高校新聞主題的相關信息,將信息進行歸納和總結,以便讓管理者做出更加正確的決策。
4.2 提供縱向和橫向對比數據
使用基于Python和HanLp技術的在線新聞主題分析模型,可以縱向分析同一學校在不同時間段、不同歷史時期的關注點,找出該歷史時期下的工作重點??v向切分的時間段可以按照年、月、周為單位,這需要對分析模型中“統計和分析”模塊的參數進行調整。同時,該分析模型可以應用于不同學校在線新聞主題的挖掘和分析,橫向對比學校之間的關切點。綜合使用縱向和橫向對比數據,可以發現某一個特定時間段下,不同學校之間的發展變化,提供數據支撐。
4.3 分析模型存在的問題
當前,在線新聞主題分析模型是針對同一個高校新聞網站進行的,基于Python的爬蟲模塊在匹配新聞URl時,只限定于當前域,對域外的URL不進行處理,這種挖掘數據的方式,可以提高效率,但降低了靈活性。通過實踐應用,分析模型在獲取數據和分析數據時都可以比較高效、穩定。分析模型下一步需要完善的功能是可以比較智能的對所指定的多所高校新聞站點,自動的爬取數據;同時提供校際橫向關切點數據分析功能模塊。
參考文獻
[1]潘慶超,吳東偉.高校門戶網站設計與實現[J].電腦知識與技術,2014(04):838-840.
[2]蔣東興,付小龍等.高校智慧校園技術參考模型設計[J].中國電化教育,2016(09):108-P114.
[3]陳琳,王蔚等.智慧校園的智慧本質探討--兼論智慧校園“智慧缺失”及建設策略[J].遠程教育雜志,2016(04):17-24.
[4]Han Language Processing[EB/OL],http://hanlp.linrunsoft.com/,2018-6-6.
[5]李有增,周全等.關于高校智慧校園建設的若干思考[J],中國電化教育,2018(01):112-117.