999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

高校BBS教育輿情的時空特征模型構建和熱點發現
——基于南京大學小百合BBS數據集的分析

2016-02-15 09:00:46王麗英
現代情報 2016年1期
關鍵詞:頁面特征用戶

王麗英

(南京師范大學教育技術系,江蘇南京210097)

高校BBS教育輿情的時空特征模型構建和熱點發現
——基于南京大學小百合BBS數據集的分析

王麗英

(南京師范大學教育技術系,江蘇南京210097)

自媒體時代網絡輿情的治理與引導在時、效、度3個維度都面臨著巨大的挑戰。針對高校BBS教育輿情,運用網絡測量學技術對自動采集到的南京大學小百合BBS相關數據集加以分析,構建了教育輿情的時空特征模型。該模型顯示,測量輿情的空間特征和多個時間特征能夠有效快速發現熱點信息。實驗證明,高校BBS教育輿情總體分布比較稀疏,單日活躍用戶數并不高,并且熱點信息相對較少、利用顯著的時空特征易于檢測。

教育輿情;網絡測量學;時空特征模型;熱點發現

自媒體時代網絡輿情的治理與引導在時、效、度3個維度都面臨著巨大的挑戰。自媒體的特點是以用戶生成內容和共享為主,但內容可信度低,影響力無法確定。由于網絡空間的開放性,我們無法事先預知自媒體上輿情傳播演變的時空特征,也就無法確定監控的重點和引導時機,所以在線實時監測成為一個難題。

自媒體中的論壇采用了主回帖關聯的組織方式,沒有用戶關聯功能,而且內容采用目錄方式呈現,結構相對簡單,所以基于論壇的在線實時監測相對容易實現。由于論壇的開發技術相異,如開源的Discuz、BBSXp等,工業界的軟件難以通用。加之針對高校BBS的實時監測和預警軟件相對較少,所以亟需開發針對性的軟件為校園管理提供輔助支撐。

1 相關理論基礎與研究進展

2011年輿情行業被稱為朝陽行業。圍繞網絡媒體的話題檢測與跟蹤、熱點話題發現、意見領袖挖掘等輿情問題得到了充分研究。相關的網絡測量學、自然語言處理、文本特征表示、機器學習、社會網絡分析等理論和算法為內容自動監控提供了重要支持。

網絡測量學是利用網絡爬蟲采集數據,對整體網絡開展輿情定量統計、整體監測和趨勢分析。樊鵬翼等人[1]對新浪微博進行了網絡測量,得到小世界拓撲特征和用戶發博時間的周分布模式。徐恪等人[2]全面綜述網絡測量學的相關技術,闡述了大數據分析在線社交網絡的輿情演化、拓撲結構和用戶行為的可行性和典型方法。上述研究拓展了輿情治理和引導的時、效、度的研究視野,不再停留于歷史抽樣的文本數據分析和概念層面。

很多學者從傳播學角度研究網絡輿情的傳播過程和規律,發現熱點。以高校BBS熱點發現的相關研究為例,蘭凱梅[3]以主帖的回帖數、用戶數和人氣數的加權之和作為主題帖的熱度;羅泰曄[4]根據發帖量定義活躍用戶,利用用戶回復關系計算點出入度,由此區分活躍用戶的4種類型;喬文妤等人[5]統計發帖數、回帖數和回復率,發現信息的數量規模和活躍話題存在長尾效應,能夠確定出信息傳播的關鍵節點。王君澤等人[6]指出王青從輿情熱度、強度、傾度和生長度4個指標來評價輿情,但已有網絡輿情指標體系還不完善,直接影響輿情研判和預警。

熱點信息挖掘常見的做法是:通過文本分析提取語義特征、特征表示之后,聚類歸納出主題。其中,語義特征是基于“詞是文本的最小語義單位”來提取的。目前,國內學者廣泛應用的自然語言處理二次開發接口有NLPIR/ICTCLAS漢語分詞、Lucene分詞引擎等,效果都很好。語義特征表示模型主要有向量空間模型VSM、隱含主題概率模型LDA。VSM以詞頻統計值如TF、TF-IDF或布爾型值作為詞語權重表示文本。VSM表示容易實現,應用廣泛。例如,劉驊等人[7]采用布爾型值作為詞語權重表示文本,通過凝聚式層次聚類法分析BBS“每日十大熱門話題”標題共同的熱點;蘭凱梅采用網絡爬蟲收集論壇文本,用TF-IDF值作為詞語權重表示文本,應用多中心增量聚類來發現主題帖熱點。VSM存在的問題是,會丟失詞語之間的語義關聯信息,導致文本聚類結果不夠準確。與之相比,LDA在文本和詞之間增加了主題層,以主題分布概率作為主題權重表示文本,所以效果優于VSM。比如黃煒[8]就是采用LDA聚類算法感知輿情事件的熱點。上述研究都局限于對歷史數據進行線下的主回帖關聯分析,無法及時反映網絡輿情的實時變化。

國內外很多公司、科研單位和媒體本身開展輿情研究,積極應對信息安全和市場營銷的需要,形成了相應的輿情監控軟件。例如,國外的Buzzlogic、Radian6、TNS Cymdony、Trackur、Reputation Defender等,用于公司、產品、品牌在網頁上的影響力監測。在國內,中科點擊的軍犬、優捷信達的Rank、紅麥聚信的紅麥等軟件,用于政府、企業等單位輿情重點監控;融尚Winshield、互普威盾、歐克深信服、天銳網絡警、網絡幽狗、網貓等軟件,主要針對上網行為、聊天內容、郵件等進行監控。已有的監控工具或軟件是通用的,沒有專門的面向教育領域的設計,缺乏針對性。

基于專用軟件的缺乏及網絡輿情指標體系不完善的現狀,本研究試圖運用網絡測量學技術解析高校BBS教育輿情傳播的時空特征,為熱點發現、實時監控提供支持。

2 研究框架

本研究的基本思路是:首先,對南京大學小百合BBS的教育主題相關的主題帖進行自動采集;然后對采集得到的教育輿情數據集進行統計測量,建立時空特征模型;再依據該模型測量新數據,以發現輿情熱點和演變趨勢。

整個研究框架包括信息采集、特征模型、特征測量和熱點追蹤4個步驟,如圖1所示。

圖1 在線輿情監測研究框架

本研究的技術路線是:首先,基于網絡爬蟲構建教育輿情采集算法,獲得論壇空間2013年11月2日至2014年5月10日之間的教育主題帖數據集;然后,運用網絡測量學技術分析教育輿情,構建一個時空特征模型;最后,運用時空特征指標進行輿情測量,發現熱點和引導時機。

3 教育輿情采集算法

本研究以蘭凱梅的網絡爬蟲算法為基礎,根據南京大學的小百合BBS的信息組織結構對該算法進行了相應的調整,形成本研究的教育輿情采集算法。通過頁面爬行、頁面解析、文本結構化等步驟得到教育輿情數據集。

3.1 采集算法流程

本研究的采集算法流程如圖2所示。其中,初始URL設為各個討論區的匯總頁面,即“全部討論區”頁面URL。經過順序爬行得到各個討論區首頁URL,然后并行爬行討論區首頁URL及其主題帖頁面URL。

圖2 教育相關的主題網絡爬蟲的工作流程

每個討論區首頁采用主題模式和一般模式兩種呈現方式。主題模式以主題帖為單位顯示,主題帖包含主帖及其回帖等全部內容。一般模式以用戶帖子為單位顯示,主帖及其回帖分離,需要通過帖子頁面中“同主題閱讀”才能相互關聯。因此本研究采用主題模式直接找到關聯的主回帖內容。

頁面分析包括內容和鏈接的解析和評價:解析是利用CHttpFile API接口讀取頁面文件,然后定位HTML標簽,提取出主題帖信息,包括標題、作者、正文、發表時間、人氣數、回帖數等,存儲到結構化的主題帖數據庫中;評價包括時間相關、主題相關和重復數據過濾。主題相關通過標題和正文中預設主題詞的詞頻統計進行過濾,詞頻越大,相關度越大,頁面越重要。本研究選取教育相關的一些主題詞,如學術、講座、考試、獎學金等,從而聚焦到關于師生權益、校園聲譽等方面的教育輿情監控。

3.2 并行采集策略

由于論壇帖子數量龐大,而順序爬行耗時長、時效差,所以采用并行爬行加速。如果URL隊列中的元素不存在爬行的順序依賴關系,可以認為URL具有獨立性,可以并行爬行和解析。論壇上能并行爬行的URL有兩類:一類是各個討論區首頁的URL;另一類是各個主題帖頁面的URL。據此設計了兩類線程,實現同進程下的多線程并行算法。

第一類線程負責爬行和解析一個討論區首頁的URL頁面,提取若干主題帖頁面的URL和“上一頁”的URL。因為“上一頁”的URL不符合獨立性,只能按順序逐頁爬行。如果頁面上不存在“上一頁”URL,則該討論區的爬行結束。討論區逐頁順序爬行的流程圖如圖3所示。主題帖的標題是主題相關的,就把該主題帖頁面的URL加入到待爬行的URL隊列中。

第二類線程負責解析一個主題帖頁面,解析過程采用離線方式。離線方式是下載主題帖頁面到本地,留待以后解析。離線方式能夠減少頁面采樣時差,因為主題帖的爬行時刻大致相同,也就是采樣時刻近似相等。所有主題帖下載到本地的頁面集合構成頁面庫,相當于某個時刻對論壇的一次快照。與離線方式相比,在線方式邊爬行邊解析,耗時較長,使得主題帖頁面的采樣時刻先后相差很大,在此期間會有新帖發布的可能,因此在線方式不能收集到同一個采樣時刻論壇的真實數據。

圖3 討論區主題帖逐頁順序爬行流程圖

多線程數量受限于同一個網站的HTTP請求的次數,所以不能過于頻繁。經過實驗,將多線程數量設置為8個。

南京大學小百合BBS上共有討論區459個、用戶數60 883個。應用上述算法,采集了2013年11月2日之后190天的教育主題帖,總計帖子數22 054個、主帖數5 172個、轉載帖1 781個,涉及約48%的討論區(223個)、11%的用戶(6 944個)。

4 時空特征模型

采用網絡測量學技術分析該數據集上的教育輿情,形成教育輿情的時空特征模型。

4.1 輿情空間特征

教育輿情的發帖量在各個討論區中的分布并不均勻,常常集中在幾個討論區中。數據集的討論區發帖量統計如圖4所示。

圖4 討論區發帖量統計圖

圖4 (a)顯示出大部分(大于300個)討論區的發帖量接近于零,圖4(b)顯示98%的發帖量位于6.6%的討論區中。利用教育輿情在討論區空間的分布特征可以預測輿情出現的可能性概率。討論區的教育輿情相關度的計算公式為:B=(c1N+c2P)/t,表示時間t內新增帖子數N和人氣數P。考慮到回帖數對輿情的貢獻權重比人氣數的要大得多,本研究取c1=1,c2=0.05。

討論區首頁的URL的重要性按照討論區的輿情相關度B進行評價,相關度大的討論區在監控時窗內排序靠前,就會優先采集和監控,盡早獲得相關數據,而不是在其他討論區上費時費力卻一無所獲。需要說明的是,本研究關注教育話題,與論壇本身的前一日十大熱門討論區、各區十大熱門話題及全站的十大熱門話題不同。

4.2 輿情時間特征

輿情測量的時間特征如表1所示。

表1 輿情測量的時間特征

4.2.1 生存期、貢獻度和活躍度分析

主題帖的生存期T以小時為單位,分段統計結果如圖5所示。T=0的主題帖占77.8%,表明主帖是沒有回帖的;T∈[0,24]的主題帖占91.2%。這表明,不同主題帖的生存期有很大差異,大部分持續時間短,只有小部分的主題帖具有吸引力,持續時間長。

圖5 主題帖生存期(小時)分段統計餅圖

統計主題帖的貢獻度和生存期的關系。可以發現以下幾點:

(1)生存期長但用戶少、回帖少、人氣少,代表無人問津,貢獻度小。例如,生存期最長的主題帖,標題為:“蘇州索法招聘留學寫作人員(全職)”,生存期T=108天,但R=5,U=1,P=297。

(2)生存期長、活躍度低的主題帖,其輿情貢獻度小。例如,生存期前10名的主題帖中,9個主題帖的參與用戶數U<5。活躍度低的主題帖還表現為日貢獻度持續較小。例如,參與用戶數最多但活躍度低的主題帖,其標題為:“招聘,工作地點:常州”,其時間特征指標T=68、R=20、U=13、P=1367,日貢獻量為(0,1]:4/4、(1,2]:5/6、(2,6]:1/2或0/2或1/1或0/1、(67,68]:1/1。其中,(0,1]:4/4表示第1天新增用戶數為4,新增回帖數為4。

(3)生存期居中、活躍度A比較高的主題帖,才能進入活躍集S,成為監測重點。例如,數據集中參與用戶數U>7的主題帖共計406個,占比7.8%,回帖數7 332個,其生存期T平均值為3天,取值范圍是1小時到31天,其中7天之內的主題帖占92.7%。

統計表明,聯合多個時間特征指標可以快速發現輿情熱點。

4.2.2 回帖時間間隔分析

跟蹤活躍集S中主題帖的回帖發布的時間間隔,繪制了活躍度降序排名在第1和100位的主題帖回帖時間間隔變化圖,如圖6所示。圖6說明,活躍度低的主題帖的回帖時間間隔大,其線性(紅色)趨勢線的斜率更大。

假設,主題帖的回帖時間函數y=f(x),其中x代表回帖的樓號,y代表時刻,f(0)表示主帖的發布時刻。時間函數的一階差分f′(x)表示相鄰兩個回帖之間的時間間隔。時間函數的二階差分f″(x)表示時間間隔差分,即時間間隔變化量,變化量遞增說明活躍度下降,反之活躍度上升。利用時間間隔變化量與主題貼的活躍度是負相關的關系,對引導時機的時間窗口進行預測。當時間間隔變化量小于閾值時進入時間窗,當時間間隔變化量大于閾值時離開時間窗。

最后,按照發布時間分24小時統計發帖數,如圖7所示。發現,教育輿情活躍的時間段在早上9點到夜間24點,這是監測的重點時域。

5 實驗結果

采用vc和sql server實現了針對南大小百合BBS教育輿情的采集算法和B/S模式的論壇熱點跟蹤系統。

圖6 回帖時間間隔變化圖

圖7 發帖數的分時統計圖

每次采集之后,測量本次采集到的數據集時空特征指標。指標排序靠前、達到閾值要求的確定為熱點信息。并且熱點信息的采集時間間隔將被調小,普通信息的采集時間間隔將被調大。作為監控重點,熱點信息主要包括熱門討論區、熱門話題和活躍用戶。

5.1 熱門討論區

統計討論區的主帖數、回帖數和回復率指標,降序排名,前十名統計如果如表2所示。從主帖數排名發現,“就業”“創業與求職”“兼職工作信息”“實習”等4個板塊的信息相對較多,說明這些版塊是校園信息發布的重要渠道,信息更新傳播快,對BBS的貢獻度最大。從回帖數排名發現,“貼圖版”“創業與求職”“飛越重洋”3個版塊的回應信息多,說明這些版塊為學生提供了交流思想的空間。“飛越重洋”具有較高的回復率,說明南大學生對出國留學有非常高的意愿,渴望交流,學校應給予相關指導。在主、回帖數排名前10的討論區中,貼圖版是回復率最高的版塊,說明媒體素材的豐富可以促進用戶的深度交流,是在校學生交流的主要陣地,應該成為監控的重點。從小百合自身在線人氣排序得出的熱門討論區(TOP20)看,盡管“百年好合”“女生天地”等版塊排名靠前,但在主、回帖數和回復率的指標上排名并不靠前,因此可以推斷這兩個版塊以圍觀人數居多,不必過多監控。

表2 熱門討論區排名表

5.2 熱門話題

統計主題帖的回帖數R、參與用戶數U、人氣數P、轉載數,降序排名。排名靠前的熱門話題是近期師生共同關心的學習生活事件,包括了用戶的個人見解和思想交鋒。以2014/5/1和2014/5/7單日發布的帖子為例,排名居首的主題帖如表3所示。從回帖情況看,BBS上沒有進行任何干預。

例如2014/5/1的排名首位的熱門主題帖,其回帖情況如表4所示,將“外甥現象”歸因于“慈母多敗兒”有失偏頗。監測回帖時間間隔,設時間間隔閾值為10分鐘。當時間間隔小于閾值時,該主題帖進入監控時間窗。因此,從21樓開始進入監控時間窗,成為預測的引導時機。

表3 單日熱門主題帖表

表4 主題帖的回帖時間表

5.3 活躍用戶

統計用戶發布的主帖數M、回帖數Ru、獲回帖數R(指用戶發布的主帖的回帖數),降序排名,數值大于閾值的成為活躍用戶。結合用戶回復率(Ru/M)以及獲得回復率(R/M),將活躍用戶細分為發帖型、回應型和領袖型。發帖型是用戶回復率極低,回應型是用戶回復率極高,領袖型是獲得回復率極高。表5羅列給出了2014年3月前4位活躍用戶的發帖情況。

表5 活躍用戶表

6 結 論

高校網絡空間中,BBS是教育輿情反映比較集中的平臺。高校BBS教育輿情總體分布比較稀疏,主要反映在熱門討論區中。單日活躍用戶數(DAU)并不高,南大BBS的DAU平均只有36.5人/天。活躍度高的主題帖比例很小,該比例在南大BBS上不到7.8%。這說明,只有少部分主題帖時空特征顯著,易于檢測。

本研究根據一所高校BBS教育輿情數據集分析得到時空特征模型,能夠有效發現熱點,預測引導時機。如果要推廣到其他主題的BBS輿情時空特征測量、分析,只要修改采集算法中的頁面分析模塊就可以實現,修改難度低,工作量比較小。因此,本研究具有一般意義及普適性價值。

盡管本研究具有在線實時監控輿情的優勢,但因為只關注輿情傳播的時空特征,沒有考慮內容語義分析,使得結果不夠全面。進一步的工作可以結合文本內容分析的方法,挖掘重大事件,分析敏感異常輿情。

[1]樊鵬翼,王暉.微博網絡測量研究[J].計算機研究與發展,2012,49(4):691-699.

[2]徐恪,張賽,陳昊,等.在線社會網絡的測量與分析[J].計算機學報,2014,37(1):165-188.

[3]蘭凱梅.BBS熱點話題發現與監控系統[D].北京:北京交通大學,2011.

[4]羅泰曄.高校BBS活躍用戶信息行為分析[J].現代情報,2011,31(1):150-152.

[5]喬文妤,高冕.高校BBS討論區內信息有序化研究與管理啟示——以南京大學小百合網站為例[J].圖書情報工作,2013,57(5):116-120.

[6]王君澤,方醒,杜洪濤.網絡輿情分析系統中的支撐技術研究[J].現代情報,2015,35(8):51-56.

[7]劉驊,朱慶華.基于標題的BBS熱點話題挖掘——以南京大學小百合BBS為例[J].現代情報,2013,33(1):162-164.

[8]黃煒,姚嘉威.網絡輿情事件的主動感知實踐[J].現代情報,2015,35(10):7-11.

(本文責任編輯:郭沫含)

Construction of Spatial-Time Feature Model for Educational Public Opinion on University BBS and Hot Opinion Detection—Analysis of Nanjing University Lily BBS Dataset

Wang Liying
(Department of Educational Techenology,Nanjing Normal University,Nanjing 210097,China)

The governance and guidance of public opinion on Internet self-media are facing with big challenge in three dimentions of time effect and degree.For educational public opinion on university BBS,the network measurement technology is applied to analyze the related dataset,which is gathered automaticly from Nanjing University Lily BBS for a half year.A spatial-time feature model for educational public opinion is built,which indicates that it is effective to rapidly detect hot opinion from spatial and multiple time features.Experiments showed that educational public opinion on university BBS distributes very sparse,related day active user number is not high,hot opinion is relatively few and easy to be detected from its prominent spatial-time features.

educational public opinion;network measurement;spatial-time feature model;hot opinion detection

10.3969/j.issn.1008-0821.2016.01.015

G250.73

A

1008-0821(2016)01-0084-07

2015-10-20

江蘇省高校哲學社會科學研究基金“高校網絡教育輿情的熱點信息挖掘與異常監測”(項目編號:2011SJB880029)。

王麗英(1976-),女,講師,博士,研究方向:網絡信息安全、計算機圖形學。

猜你喜歡
頁面特征用戶
大狗熊在睡覺
刷新生活的頁面
保健醫苑(2022年1期)2022-08-30 08:39:14
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
如何獲取一億海外用戶
創業家(2015年5期)2015-02-27 07:53:25
線性代數的應用特征
河南科技(2014年23期)2014-02-27 14:19:15
主站蜘蛛池模板: 国产精品专区第1页| 欧美黄网站免费观看| 欧美中文字幕第一页线路一| 国产在线高清一级毛片| 国产香蕉一区二区在线网站| 国产白浆视频| 动漫精品啪啪一区二区三区| www.精品国产| 久久人妻系列无码一区| 国产H片无码不卡在线视频| 欧美色综合网站| 亚洲男人的天堂久久香蕉网| 无码精品国产VA在线观看DVD | 色爽网免费视频| 熟女视频91| AⅤ色综合久久天堂AV色综合| 三上悠亚一区二区| 毛片手机在线看| 国产高清国内精品福利| 国产精品自在自线免费观看| 久久久久亚洲av成人网人人软件| 国产网站一区二区三区| 国产丝袜无码精品| 丁香婷婷激情综合激情| 国产91熟女高潮一区二区| 色天天综合久久久久综合片| 99热这里都是国产精品| 亚洲欧洲日产国产无码AV| 中文字幕第4页| 57pao国产成视频免费播放| 成年人福利视频| 国产女人喷水视频| 欧美日韩国产精品综合 | 国产尤物在线播放| 亚洲无码高清一区| 黄色网址免费在线| 久草网视频在线| 久久精品国产亚洲麻豆| 国产一级妓女av网站| 国产在线自乱拍播放| 熟妇人妻无乱码中文字幕真矢织江| 亚洲丝袜第一页| 99热这里只有免费国产精品 | 一级在线毛片| 国产精品欧美在线观看| 国产丝袜无码一区二区视频| 毛片免费试看| 亚洲国产第一区二区香蕉| 亚洲欧美日韩动漫| 高清不卡毛片| 经典三级久久| 日韩高清欧美| 精品国产黑色丝袜高跟鞋| 夜色爽爽影院18禁妓女影院| 欧美不卡二区| 亚洲综合天堂网| 成人福利在线视频免费观看| 亚洲欧美国产五月天综合| 国产精品久久久久久搜索| 日韩精品毛片人妻AV不卡| 毛片大全免费观看| 久草性视频| 免费无码网站| 日韩福利视频导航| 国产在线视频自拍| 欧美在线中文字幕| 国产免费怡红院视频| 91青青视频| 91网址在线播放| 亚洲人成网站日本片| 亚洲人成色77777在线观看| 四虎国产永久在线观看| 免费看a毛片| 狠狠色成人综合首页| 国产福利在线观看精品| 国产精品午夜福利麻豆| 免费看一级毛片波多结衣| 亚洲无码不卡网| 亚洲综合婷婷激情| 午夜日本永久乱码免费播放片| 亚洲美女高潮久久久久久久| 99在线观看免费视频|