999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向網絡論壇的文本數據獲取與存儲方法研究

2021-06-28 01:04:50曹惠茹成海秀連松耀王毅
現代信息科技 2021年1期
關鍵詞:數據存儲

曹惠茹 成海秀 連松耀 王毅

摘? 要:針對網絡論壇文本數據的特點與網絡論壇的結構,提出了一種網絡論壇文本數據獲取與存儲方法。先采用Browser/Server架構云構建網絡論壇數據系統框架,再依托網絡爬蟲技術實現對網絡論壇數據的收集,然后基于Bi-LSTM網絡搭建主題相關性文本數據過濾系統,最后采用MySQL和MongoDB數據庫,構建數據存儲方案。系統設計表明所提出的方法可行,為網絡論壇輿情的研究與引導提供了依據。

關鍵詞:網絡論壇;文本數據;數據獲取;數據存儲

中圖分類號:TP391.1 ? ? ?文獻標識碼:A 文章編號:2096-4706(2021)01-0007-06

Research on Text Data Acquisition and Storage Method for Network Forum

CAO Huiru1,CHENG Haixiu2,LIAN Songyao3,WANG Yi1

(1.Guangzhou Institute of Technology,Guangzhou? 510075,China;

2.School of Computer Science and Engineering,South China University of Technology,Guangzhou? 510640,China;

3.College of Nanfang,Sun Yat-Sen University,Guangzhou? 510970,China)

Abstract:According to the characteristics of the text data of network forum and the structure of network forum,a method of acquiring and storing the text data of network forum is proposed. Firstly,the data system framework of web forum is constructed by using Browser/Server architecture cloud,then the data collection of web forum is realized by relying on web crawler technology,and then the topic related text data filtering system is built based on Bi-LSTM network. Finally,the data storage scheme is constructed by using MySQL and MongoDB database. The system design shows that the proposed method is feasible,which provides a basis for the research and guidance of public opinion in network forum.

Keywords:web forum;text data;data access;data storage

0? 引? 言

網絡社區輿情是一種對各類信息進行匯集、分類、整合、篩選等技術處理,并在此基礎上對形成的網絡熱點和網民意見等進行實時統計和引導干預的過程[1-3]。目前,國內外網絡社區以網絡論壇為主,其已經成為網絡信息傳播的重要渠道[4,5]。

網絡社區信息主要通過論壇、貼吧、微博等載體的多種類型數據進行傳播,其中以文本數據為主[6,7]。對網絡社區輿情進行研究與引導,獲取網絡論壇文本數據成為了關鍵前提條件[8,9]。因此,對網絡論壇相關數據獲取與存儲進行研究是當前網絡輿情分析的重要環節,通過對相關數據的分析與研究,可以正確引導網絡輿情發展,形成良好的網絡環境。

網絡論壇文本數據的獲取可以通過各種不同方法得到,如:從網絡社區服務器抓取與輿情主題相關網頁內容。針對不同的獲取方法,國內外許多學者進行了研究,趙璐[10]根據環保輿情信息源的特點,設計了一個分布式爬蟲系統;針對不同的輿情源設計了不同的數據獲取策略,實現數據信息更快、更準確的獲取。丁晟春等[11]提出了一種基于知識庫和主題爬蟲的網絡輿情監測方法,通過將領域本體知識庫與主題爬蟲相結合,用以擴大主題爬蟲的搜索范圍并提高其搜索精確度。譚嘯[12]結合了本體論的基本知識,使用開源軟件Protégé來構建基于網絡本體語言(OWL)的本體模型。Boukadi等[13]基于本體論思想,提出了一種面向云服務發現的網絡社區內容獲取爬蟲算法,以達到節省搜索時間和更好地提供相關信息服務。Suebchua等[14]采用已經下載的Web頁面,估計目標Web頁面的優先級進而建立網頁鄰居特征,以此特征為基礎構建了高效網頁數據獲取方法。盡管上述文獻為網絡社區數據獲取提供了相關基礎并表明了可行性,但存在算法復雜,數據相關性低等不足,仍需要構建能提高網絡社區輿情數據獲取效率、主題相關性與有效性的方法[15,16]。

針對網絡論壇數據的特點和獲取數據主題關聯性等新挑戰,本文以筆者主持的科研項目為支撐,針對網絡論壇中的相關文本信息進行收集,通過數據清洗、提取關鍵詞、對關鍵詞進行聚類等步驟,提出了一種網絡論壇文本數據獲取與存儲方法。采用經典的B/S(Browser/Server)架構云服務器構建了網絡論壇數據系統框架;依托網絡爬蟲技術,實現對網絡論壇數據的收集;基于Bi-LSTM網絡搭建主題相關性的文本數據過濾系統;采用MySQL和MongoDB數據庫,構建了數據存儲方案。該研究為網絡論壇輿情的相關研究與引導提供了可靠的依據。

1? 論壇文本數據系統架構設計

本系統根據功能分為三個子系統:數據收集子系統、數據分析子系統、數據可視化子系統。系統采用B/S(Browser/Server)架構,只需通過有瀏覽器的終端就可以訪問本系統。

數據收集子系統主要負責從互聯網靜/動態網頁采集到數據,后對數據進行自動去重操作,并將數據存儲到數據庫中。

數據分析子系統主要負責將收集到的數據進行分析,經過數據過濾、關鍵詞提取、主題提取等步驟獲取熱點主題并存儲到數據庫中。

數據可視化子系統分為前端和后端,后端分為三個部分,CMS(Control Manager Service)負責MinIO對象存儲管理、Elastic Search數據導入、統一異常處理;DMS(Data Manager Service)負責數據的管理和統計,包括主題熱點數據、網絡論壇的帖子數據、網絡論壇的回復數據、網絡論壇的用戶數據;UMS(User Manager Service)負責登錄驗證、權限控制、用戶中心。后端的三個部分之間穿插著日志服務記錄,用于記錄所有請求日志。

系統的整體框架如圖1所示。

2? 網絡論壇數據收集系統設計

數據收集子系統主要是依托網絡爬蟲技術,實現對網絡論壇數據的收集。由于論壇具有很高的自由度,信息條目和話題更新速度快且數量較多,為了減少資源浪費,減輕對目標網站的壓力,本系統采用增量更新的策略。即對于每條數據存儲時設置更新標志位updates,有更新時更新updates的值,只有更新標志位為1時,才對相關數據進行更新,否則不更新數據。

數據收集子系統分為三個Spider:帖子數據,帖子一級回復數據,一級回復內下二級回復。帖子數據的收集流程如圖2所示。

帖子內一級回復數據的收集主要取決于帖子數據的更新標志位updates,當updates為1時,才對該帖子進行一級回復數據的收集,如果updates的值不為1,本次收集省略該帖子。其收集流程如圖3所示。

帖子內二級回復數據的收集主要取決于帖子數據的更新標志位updates,當updates為1時,才對該帖子的二級回復數據進行收集,如果updates的值不為1,本次收集省略該帖子。其收集流程如圖4所示。

3? 基于主題相關性的數據過濾系統設計

數據分析子系統的功能主要包括:數據的過濾、熱點主題的提取、數據統計三個部分。數據分析后的結果將保存到數據庫,為后面的數據可視化子系統提供數據資源。

數據過濾是數據分析的一個重要前置步驟,只有篩選出真正有效的數據,后面分析出來的結果才是準確的結果。本系統基于Bi-LSTM網絡搭建了一個具有文本分類功能的模型,當模型的輸出結果為GOOD時,表示該語料為有效數據;當模型的輸出結果為BAD時,表示該語料為無效數據,應當刪除,不能計入下一步分析的范疇。數據過濾的流程圖如圖5所示。

熱點主題的提取主要基于關鍵詞提取算法(TextRank)和關鍵詞聚類算法(AP聚類)實現,共分為六個步驟:

(1)對帖子進行分帖操作;

(2)計算用戶的知名度、帖子的權重;

(3)根據關鍵詞提取算法從語料中獲取若干個用于表示主題的關鍵詞;

(4)構建共詞矩陣;

(5)對共詞矩陣采用關鍵詞聚類算法進行聚類操作,從而得到以多個關鍵詞表示的熱點主題;

(6)根據用戶的知名度、帖子的權重計算出相應熱點主題的熱度值。

4? 網絡論壇文本數據存儲系統設計

數據庫設計關系到整個系統的執行效率,一個好的數據庫設計,不僅可以提高系統的執行效率,縮短數據響應時間,減少流量損耗,而且還有利于日常數據的更新維護。

4.1? 文本數據庫E-R模型

本系統采用MySQL和MongoDB數據庫相結合的方式,MySQL用于存儲結構化的數據,MongoDB用于存儲重要性不高,類JSON的數據格式。系統總共13張表,按照模塊分類,可以分為兩類:網絡論壇數據(DMS模塊)、用戶權限(UMS模塊)。

網絡論壇數據一共有5張表,分別為:網絡論壇帖子信息表(dms_note),網絡論壇一級回復信息表(dms_message),網絡論壇二級回復信息表(dms_comment),網絡論壇帖子權重信息表(dms_note_weight),網絡論壇用戶信息表(dms_user)。網絡論壇數據(DMS模塊)的E-R圖如圖6所示。

用戶權限一共有8張表,分別為:用戶表(sso_admin),角色表(sso_role),角色與用戶的映射表(sso_admin_role_relation),權限表(sso_permission),角色與權限的映射表(sso_role_permission_relation),路由表(sso_router),角色與路由的映射表(sso_role_router_relation),用戶操作日志表(ums_log)。UMS模塊的實體具體屬性如圖7所示。

4.2? 數據庫邏輯設計

數據庫邏輯設計就是把概念設計的結果E-R模型圖轉換為選用的數據庫管理系統產品所支持的數據類型。在進行邏輯設計的過程中,要盡可能遵守數據庫設計三大范式。

第一范式:表中的每一個字段不能再進行分解;

第二范式:在滿足第一范式的情況下,要確保表中的每一個非主鍵字段與主鍵都要有關聯,不關聯的應進行拆表;

第三范式:在滿足第二范式的情況下,確保表中的每一列都與主鍵直接相關,間接相關的應分表存儲并通過外鍵進行連接。

本系統采用MySQL數據庫作為主存儲,MongoDB數據庫作為輔助存儲,MongoDB數據庫主要存儲的是類JSON的數據或者并不是特別重要并且數據量大的數據。本系統所涉及的數據表有13個,其中使用MySQL數據庫存儲的表有11個,采用MongoDB數據庫存儲的表有2個(網絡論壇二級回復信息表和用戶操作日志表)。網絡論壇數據所涉及的5張表如表1至表5所示,表1為網絡論壇帖子信息表,采用MySQL數據庫存儲。表2為網絡論壇一級回復信息表,采用MySQL數據庫存儲。表3為網絡論壇二級回復信息表,由于涉及到JSON數據的存儲,采用MongoDB數據庫。表4為網絡論壇帖子權重信息表,表5為網絡論壇用戶信息表,采用MySQL數據庫存儲。

表6為用戶表,采用MySQL數據庫存儲。表7為用戶操作日志表。在線上的運行服務中,需要記錄下用戶的請求記錄,在發現問題或系統報錯時,可以查看其具體的報錯信息或運行記錄。通常會采用文本的形式記錄下日志,然而如果需要對日志進行分析,存在數據量大,分析成本高,采用傳統MySQL數據庫存儲并不劃算。因此本系統采用MongoDB數據庫來存儲用戶的訪問記錄。其余用戶權限中的6張表不在此贅述。

5? 結? 論

本文以大數據環境下的網絡論壇文本數據為研究對象,基于網絡論壇的結構,提出了一種網絡論壇文本數據獲取與存儲方法。首先,基于采用經典的B/S(Browser/Server)架構云構建了網絡論壇數據系統框架。其次,依托網絡爬蟲的技術,實現對網絡論壇數據的收集。再次,基于Bi-LSTM網絡搭建主題相關性的文本數據過濾系統。最后以采用MySQL和MongoDB數據庫,構建了數據存儲方案。系統設計表明,該網絡論壇文本數據獲取與存儲方法是可行的。同時,本文所提出的相關方法為網絡論壇輿情的相關研究與引導提供了可靠的依據。

參考文獻:

[1] 林云,曾振華,曾林浩.微博社區網絡結構特征對輿情信息傳播的影響研究 [J].情報科學,2019,37(3):55-59.

[2] 丁晟春,王鵬鵬,龔思蘭.基于社區發現和關鍵詞共現的網絡輿情潛在主題發現研究——以新浪微博魏則西事件為例 [J].情報科學,2018,36(7):78-84.

[3] ZHONG Z F. Internet public opinion evolution in the COVID-19 event and coping strategies [J].Disaster medicine and public health preparedness,2020:1-7.

[4] ZAMANI M,RABBANI F,HORICS?NYI A,et al.Differences in structure and dynamics of networks retrieved from dark and public web forums [J].Physica A:Statistical Mechanics and its Applications,2019,525:326-336.

[5] PARK S,WOO J. Gender Classification Using Sentiment Analysis and Deep Learning in a Health Web Forum [J].Applied Sciences,2019,9(6):1249.

[6] BRADLEY A,JAMES R J E. Defining the key issues discussed by problematic gamblers on web-based forums:a data-driven approach [J/OL].International Gambling Studies,2020:[2020-07-30].https://www.tandfonline.com/doi/full/10.1080/14459795.2020.1801793.

[7] 沈明珠,劉輝.面向技術論壇的問題解答狀態預測 [J].計算機研究與發展,2020,57(3):474-486.

[8] 賀敬杰.網絡表達與公共討論:基于“林松齡事件”中論壇回帖文本的情感分析(英文) [J].國際新聞界,2015,37(9):109-132.

[9] 滕云,陳玲.網絡輿情特點的實證研究——基于高校BBS論壇的文本分析 [J].山東社會科學,2014(3):181-186.

[10] 趙璐.網絡輿情監控系統關鍵技術研究 [D].西安:西安電子科技大學,2014.

[11] 丁晟春,龔思蘭,周文杰,等.基于知識庫和主題爬蟲的南海輿情實時監測研究 [J].情報雜志,2016,35(5):32-37.

[12] 譚嘯.基于本體的網絡爬蟲設計及應用 [D].成都:電子科技大學,2016.

[13] BOUKADI K,REKIK M,REKIK M,et al. FC4CD:a new SOA-based Focused Crawler for Cloud service Discovery [J].Computing,2018,100:1081-1107.

[14] SUEBCHUA T,MANASKASEMSAK B,RUNGSAWANG A,et al. Efficient topical focused crawling through neighborhood feature [J].New Generation Computing,2018,36(2):95-118.

[15] KIM Y Y,KIM Y K,KIM D S,et al. Implementation of hybrid P2P networking distributed web crawler using AWS for smart work news big data [J].Peer-to-Peer Networking and Applications,2020,13:659-670.

[16] PRAMUDITA Y D,ANAMISA D R,PUTRO S S,et al. Extraction System Web Content Sports New Based On Web Crawler Multi Thread [C]//International Conference on Science and Technology 2019.Surabaya:IOP Publishing,2020.

作者簡介:曹惠茹(1981—),女,漢族,陜西渭南人,副教授,碩士研究生,主要研究方向:大數據,無線網絡。

猜你喜歡
數據存儲
簡單的數據修復
文理導航(2017年2期)2017-02-16 13:18:46
大數據時代檔案信息建設的認識和實踐
淺談電力大數據平臺關鍵技術研究與應用
開源數據庫數據存儲的實現路徑分析
基于Android開發的APP數據存儲研究
哈希算法在物聯網數據存儲中的應用
空難事故跨媒體信息采集與檢索方法的研究
基于STM32的AD采集與SD卡數據存儲
淺談信息系統工程和POJO模型組件開發
基于MongoDB的調查決策系統數據存儲方案設計
主站蜘蛛池模板: 国产色网站| 18禁黄无遮挡免费动漫网站| 国产第一页免费浮力影院| 国产91视频免费| 日韩精品一区二区三区大桥未久 | 欧美爱爱网| 无码免费试看| 456亚洲人成高清在线| 幺女国产一级毛片| 日韩av手机在线| 色综合久久88| 免费观看亚洲人成网站| 欧美一区二区啪啪| 五月天丁香婷婷综合久久| 高清免费毛片| 国产成人精品午夜视频'| 在线免费无码视频| 91麻豆久久久| 欧美一级夜夜爽| 嫩草国产在线| 久久大香香蕉国产免费网站| 日韩免费毛片| 亚洲视频黄| 欧美视频在线第一页| 欧美三級片黃色三級片黃色1| 日本一本正道综合久久dvd| 国产在线小视频| 尤物成AV人片在线观看| 免费三A级毛片视频| 国产真实二区一区在线亚洲| 四虎成人在线视频| 亚洲天堂久久| 91在线播放国产| 欧美国产日韩在线播放| 欧美日韩午夜| 欧美成人手机在线观看网址| 一级高清毛片免费a级高清毛片| 国产一级毛片高清完整视频版| 国产激爽大片高清在线观看| 韩日无码在线不卡| 久久美女精品国产精品亚洲| 国产精品第| 欧美性猛交一区二区三区| 四虎影视无码永久免费观看| 欧美成a人片在线观看| 久久99久久无码毛片一区二区| julia中文字幕久久亚洲| 精品一区二区三区无码视频无码| 国产在线八区| 色偷偷一区二区三区| 免费人成网站在线高清| 久久这里只精品热免费99| 日韩毛片免费视频| 精品久久777| 91无码视频在线观看| 国产网站免费| 色婷婷色丁香| 亚洲狼网站狼狼鲁亚洲下载| 欧美人与牲动交a欧美精品| 国产超碰一区二区三区| 免费啪啪网址| 欧美综合区自拍亚洲综合天堂| 国产女人在线| 欧美一级高清片欧美国产欧美| 青青操视频免费观看| 亚洲91精品视频| 久久男人资源站| 国产女人18水真多毛片18精品| 亚洲毛片在线看| 亚洲中文久久精品无玛| 免费在线播放毛片| 亚洲中文字幕无码爆乳| 国产99在线观看| 日韩麻豆小视频| 亚洲精品无码在线播放网站| 美女黄网十八禁免费看| 国产精品专区第1页| 国产成人免费高清AⅤ| 在线毛片免费| 欧类av怡春院| 国产色网站| 国产麻豆另类AV|