999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

網(wǎng)絡(luò)新媒體視聽監(jiān)測數(shù)據(jù)庫構(gòu)架模式及巡檢監(jiān)測的探析

2022-04-22 10:56:48
西部廣播電視 2022年3期
關(guān)鍵詞:數(shù)據(jù)庫信息系統(tǒng)

李 敏

(作者單位:四川廣播電視監(jiān)測中心)

1 互聯(lián)網(wǎng)視聽網(wǎng)站監(jiān)測系統(tǒng)采集識別技術(shù)存在的問題

隨著廣播電視融媒體的迅速發(fā)展,對網(wǎng)絡(luò)視聽持證機構(gòu)和視聽類網(wǎng)站的監(jiān)測也越來越受到相關(guān)部門尤其是宣傳管理部門的重視,視聽類網(wǎng)站承擔(dān)了越來越多重要時段的宣傳任務(wù)[1]。但現(xiàn)有監(jiān)測系統(tǒng)的網(wǎng)站采集技術(shù),仍是基于通用網(wǎng)絡(luò)信息采集技術(shù)(Web crawler),通過解析網(wǎng)頁源代碼或網(wǎng)頁關(guān)鍵詞來判斷網(wǎng)站是否為視聽類網(wǎng)站,并采集相關(guān)數(shù)據(jù)保存到本地集群存儲中。在經(jīng)過大量監(jiān)測任務(wù)的實踐后,筆者發(fā)現(xiàn)相對老化的采集識別技術(shù)明顯存在著很多問題,導(dǎo)致視聽網(wǎng)站的識別率較低,采集的可用數(shù)據(jù)率較差,主要問題如下:

1.1 視聽類網(wǎng)站識別率較低

由于現(xiàn)在網(wǎng)站技術(shù)的多元化,特別是非持證網(wǎng)站,網(wǎng)頁上存在大量欺騙性代碼,不僅能欺騙搜索引擎,使搜索引擎產(chǎn)生誤判,也會欺騙Web crawler,導(dǎo)致網(wǎng)站的誤識別,ICP備案號的獲取錯誤或無法獲取。對監(jiān)測工作的影響主要體現(xiàn)在如果不定時對數(shù)據(jù)庫進行清理,那么數(shù)據(jù)庫的容量將會被無效數(shù)據(jù)無限占用,數(shù)據(jù)庫一直處于高利用率的運行狀態(tài)。系統(tǒng)占用的計算資源被無限增加,不僅加大了對系統(tǒng)運維的難度,也使得系統(tǒng)的監(jiān)測效率低下。

1.2 消耗資源巨大

因采集的可用數(shù)據(jù)率較差,在數(shù)據(jù)采集和分析過程中,消耗了大量的計算、存儲、網(wǎng)絡(luò)和數(shù)據(jù)庫資源,導(dǎo)致系統(tǒng)在運行時反應(yīng)較慢、監(jiān)測任務(wù)效率低下等,在日常的監(jiān)測工作中,這給監(jiān)測業(yè)務(wù)部門和運行維護部門帶來了較大的工作壓力。

基于以上問題,筆者迫切地需要探索出一套優(yōu)化的監(jiān)測系統(tǒng)網(wǎng)站數(shù)據(jù)庫構(gòu)建模式,并尋求如何更加有效、準(zhǔn)確地獲取視聽網(wǎng)站信息,以及如何設(shè)計和完善一套行之有效的自動巡檢監(jiān)測機制。Web crawler的工作原理圖如圖1所示。

圖1 Web crawler工作原理圖

2 總體思路

本技術(shù)方案旨在實現(xiàn)準(zhǔn)確、有效地獲取視聽網(wǎng)站信息,優(yōu)化本地視聽網(wǎng)站數(shù)據(jù)庫的構(gòu)建模式和完善視聽網(wǎng)站巡檢機制。根據(jù)新的視聽網(wǎng)站數(shù)據(jù)庫構(gòu)建模式,對巡檢監(jiān)測機制進行重新設(shè)計和完善,并依據(jù)日常監(jiān)測任務(wù),嘗試創(chuàng)建重點視聽網(wǎng)站巡檢列表,對數(shù)據(jù)庫中的重點網(wǎng)站信息進行定期的智能巡檢,實現(xiàn)對網(wǎng)站類型的判定監(jiān)測,網(wǎng)站視聽頁面的標(biāo)題、視聽節(jié)目內(nèi)容、文字簡介信息采集監(jiān)測,網(wǎng)站失效性判定監(jiān)測和網(wǎng)絡(luò)視聽節(jié)目內(nèi)容監(jiān)測等。

根據(jù)日常監(jiān)測任務(wù)和監(jiān)測數(shù)據(jù),整理出一份重點監(jiān)測對象和數(shù)據(jù)清單,以此創(chuàng)建一套固有模式的巡檢信息庫,對重點網(wǎng)站和重要數(shù)據(jù)進行定向、定期的巡檢監(jiān)測。當(dāng)每輪巡檢結(jié)束后,對巡檢信息庫和系統(tǒng)數(shù)據(jù)庫進行同步數(shù)據(jù)更新。利用有限的資源,完成采集日常絕大部分監(jiān)測任務(wù)的數(shù)據(jù),重點監(jiān)測任務(wù)和臨時監(jiān)測任務(wù)則通過其他系統(tǒng)模塊進行臨時性的調(diào)整應(yīng)對,在日常工作時,不再過多占用系統(tǒng)資源[2]。在理論上,通過以上方式,可有效地減少系統(tǒng)占用的計算、存儲、網(wǎng)絡(luò)和數(shù)據(jù)庫資源,并在當(dāng)前系統(tǒng)的暫無大規(guī)模升級更新的計劃下,臨時解決監(jiān)測數(shù)據(jù)采集數(shù)據(jù)不完整、網(wǎng)站識別率低、采集效率低、漏監(jiān)等問題。

3 方案設(shè)計

本方案主要采用的技術(shù)有端口掃描(Port scanning)技術(shù)、網(wǎng)絡(luò)信息采集技術(shù)、視聽數(shù)據(jù)判定技術(shù)、數(shù)據(jù)庫技術(shù)等。

3.1 重點監(jiān)測網(wǎng)站

根據(jù)統(tǒng)計日常監(jiān)測任務(wù)的類型和監(jiān)測對象,重點監(jiān)測網(wǎng)站主要分為兩類:一類是持有互聯(lián)網(wǎng)視聽節(jié)目服務(wù)許可證(AVSP)的網(wǎng)站(官方媒體網(wǎng)站),一類是國內(nèi)互聯(lián)網(wǎng)頭部企業(yè)在四川省分支機構(gòu)的網(wǎng)站(社會媒體網(wǎng)站)。官方媒體網(wǎng)站一般為電視臺、出版社、廣播電視網(wǎng)絡(luò)公司或政府機構(gòu)的官網(wǎng),該類型網(wǎng)站的主要職能是權(quán)威發(fā)布有關(guān)黨政機構(gòu)的官方信息、熱門話題、熱點新聞的視頻節(jié)目等。社會媒體網(wǎng)站一般為互聯(lián)網(wǎng)企業(yè)開辦的視聽類服務(wù)網(wǎng)站,該類型網(wǎng)站的主要職能是轉(zhuǎn)載或發(fā)布熱點新聞、娛樂類的視頻節(jié)目。

通過整理和歸納,將網(wǎng)站信息同時寫入Web crawler程序和數(shù)據(jù)庫。將原有Web crawler程序的70%修改為定向Web crawler和深層Web crawler,定制化地采集指定網(wǎng)站、指定網(wǎng)頁和多層級網(wǎng)頁的數(shù)據(jù);空余30%的通用Web crawler用于采集通用網(wǎng)頁的數(shù)據(jù)。利用1個月的時間,對反復(fù)采集的網(wǎng)頁數(shù)據(jù)進行無效性篩查、核驗,比對采集信息的一致性,并進行必要的修正,逐步完成網(wǎng)站數(shù)據(jù)庫的構(gòu)建和完善巡檢監(jiān)測清單(見圖2)。

圖2 重點監(jiān)測網(wǎng)站發(fā)現(xiàn)流程圖

3.2 視聽網(wǎng)站數(shù)據(jù)庫的構(gòu)建

根據(jù)日常監(jiān)測任務(wù),對現(xiàn)有系統(tǒng)中的事件、人物、單位等關(guān)鍵詞庫進行重新歸納和整理,利用自動化渲染、特征提取等現(xiàn)有技術(shù),將各類關(guān)鍵詞與事件、人物等進行關(guān)聯(lián)性連接。其中自動化渲染技術(shù)是采用服務(wù)器渲染完成對視聽網(wǎng)站的訪問動作,通過標(biāo)簽化數(shù)據(jù),達到快速訪問海量本地數(shù)據(jù)庫數(shù)據(jù)的目的;特征提取技術(shù)是將網(wǎng)站中包含視頻鏈接特征、視頻播放器特征、視頻圖像特征、視頻文本特征中的一種或多種特征加以標(biāo)記,以實現(xiàn)視聽網(wǎng)站的判別和分類,最終形成本地視聽網(wǎng)站數(shù)據(jù)庫(見圖3)。

圖3 視聽網(wǎng)站數(shù)據(jù)庫構(gòu)建圖

3.3 智能巡檢監(jiān)測

智能巡檢監(jiān)測主要由判斷網(wǎng)站是否失效、網(wǎng)頁是否更新、視聽節(jié)目鏈接是否自動下載、視聽節(jié)目鏈接中的文本內(nèi)容是否自動保存等系統(tǒng)行為組成。

利用視聽網(wǎng)站數(shù)據(jù)庫,定期對數(shù)據(jù)庫中的網(wǎng)站進行數(shù)據(jù)采集,若返回值為空值(null),則可判斷網(wǎng)站已失效或已過期;對網(wǎng)站進行采集時,發(fā)現(xiàn)網(wǎng)頁特性值發(fā)生變化時,即可認為是網(wǎng)站對網(wǎng)頁進行了更新,并將更新的鏈接自動寫入數(shù)據(jù)庫,記錄更新網(wǎng)頁數(shù)量;對涉嫌違反《互聯(lián)網(wǎng)視聽節(jié)目服務(wù)管理規(guī)定》相關(guān)要求的視聽節(jié)目,提取并下載該網(wǎng)頁的文本描述和視頻文件,通過特征提取技術(shù),寫入數(shù)據(jù)庫。通過時間積累的數(shù)據(jù)和定期對Web crawler系統(tǒng)的更新維護,系統(tǒng)在反復(fù)循環(huán)此流程后,即可形成對視聽網(wǎng)站的精確智能巡檢監(jiān)測。

4 運行測試

因新媒體監(jiān)測業(yè)務(wù)不能中斷,目前對系統(tǒng)只能進行補丁式的修改和技術(shù)探索分析。Web crawler是較為通用的一種網(wǎng)絡(luò)技術(shù),利用空閑的服務(wù)器資源,即可搭建完成,并對原有Web crawler服務(wù)器的替換,在替換過程中,對業(yè)務(wù)不會產(chǎn)生影響[3]。

利用云平臺系統(tǒng)臨時劃分出兩臺虛擬機,針對四川省某新聞網(wǎng)站開展定向Web crawler和深層Web crawler系統(tǒng)的測試。通過對近一周的采集數(shù)據(jù)進行跟蹤和對比,筆者發(fā)現(xiàn)對特定網(wǎng)站的名稱、域名、鏈接、ICP備案號、AVSP證書號、文本等關(guān)鍵信息采集數(shù)據(jù)的準(zhǔn)確性和采集率明顯提高。測試前,通用Web crawler在3月22日至24日對持證網(wǎng)站的有效信息采集率為89.7%、91.5%和91.3%(見表1)。測試時,定向Web crawler、深層Web crawler在4月8日至10日對指定網(wǎng)站的有效信息采集率達到了97.2%、95.8%和96.3%(見表2),對網(wǎng)站有效信息的采集率上平均提升了5.6%。通用Web crawler采用通用模板,一般網(wǎng)頁最多只能采集3層的網(wǎng)頁鏈接,而定向Web crawler、深層Web crawler采用定制化的網(wǎng)站模板后,能采集最高達7層的網(wǎng)頁鏈接(見表3)。

表1 通用Web crawler有效信息采集情況表

表2 定向Web crawler、深層Web crawler有效信息采集情況表

表3 定向Web crawler、深層Web crawler采用定制化網(wǎng)站模板后有效信息采集情況表

若以測試數(shù)據(jù)為基礎(chǔ),優(yōu)化視聽網(wǎng)站數(shù)據(jù)庫的構(gòu)建和智能巡檢監(jiān)測技術(shù),系統(tǒng)不僅會更加智能化,更能提高網(wǎng)絡(luò)視聽節(jié)目的監(jiān)測監(jiān)管效率。

5 結(jié)語

近年來,隨著互聯(lián)網(wǎng)各種視聽類業(yè)態(tài)的爆發(fā)式增長,視聽節(jié)目也呈現(xiàn)出多元化的業(yè)務(wù)形態(tài),主管部門對網(wǎng)絡(luò)視聽行業(yè)傳播內(nèi)容的監(jiān)管要求也越來越明確,各系統(tǒng)的建設(shè)廠家對技術(shù)的敏感度很高,但對業(yè)務(wù)的敏感度相對會滯后。隨著各項網(wǎng)絡(luò)新媒體類的規(guī)章制度的發(fā)展和完善,監(jiān)測部門在不斷探索監(jiān)測業(yè)務(wù)的同時,更需了解和掌握互聯(lián)網(wǎng)前沿技術(shù),在業(yè)務(wù)和技術(shù)上深入思考,將互聯(lián)網(wǎng)技術(shù)逐步轉(zhuǎn)變?yōu)閷嵱眯员O(jiān)測技術(shù)和監(jiān)測手段,提升監(jiān)測人員的監(jiān)測能力,提高業(yè)務(wù)的智能化水平,為主管部門做好數(shù)據(jù)服務(wù)工作提供保障。

猜你喜歡
數(shù)據(jù)庫信息系統(tǒng)
Smartflower POP 一體式光伏系統(tǒng)
WJ-700無人機系統(tǒng)
ZC系列無人機遙感系統(tǒng)
北京測繪(2020年12期)2020-12-29 01:33:58
連通與提升系統(tǒng)的最后一塊拼圖 Audiolab 傲立 M-DAC mini
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
數(shù)據(jù)庫
財經(jīng)(2017年2期)2017-03-10 14:35:35
數(shù)據(jù)庫
財經(jīng)(2016年15期)2016-06-03 07:38:02
數(shù)據(jù)庫
財經(jīng)(2016年3期)2016-03-07 07:44:46
數(shù)據(jù)庫
財經(jīng)(2016年6期)2016-02-24 07:41:51
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
主站蜘蛛池模板: 国产亚洲精品97在线观看 | 亚洲欧美激情小说另类| 欧美精品一区二区三区中文字幕| 欧美精品不卡| 在线观看无码av免费不卡网站| 欧美国产日韩一区二区三区精品影视| 国产精品国产三级国产专业不| 免费日韩在线视频| 国产黑丝一区| 精品一区二区三区中文字幕| 成人在线综合| 2022国产91精品久久久久久| 国内精品九九久久久精品| 99资源在线| 亚洲日韩精品伊甸| 农村乱人伦一区二区| 无码精品国产dvd在线观看9久| 亚洲AV无码一区二区三区牲色| 亚洲国产中文精品va在线播放| 欧美午夜视频在线| 国产爽妇精品| 伊人福利视频| 99re精彩视频| 永久免费精品视频| 欧美成人区| 青青青国产免费线在| a级毛片免费播放| 色综合五月婷婷| 精品中文字幕一区在线| 中文毛片无遮挡播放免费| 99热精品久久| 久久五月视频| 久久人人妻人人爽人人卡片av| 国产SUV精品一区二区6| 99久久免费精品特色大片| 在线日韩日本国产亚洲| 日韩欧美综合在线制服| 日韩小视频在线观看| 嫩草影院在线观看精品视频| 久久91精品牛牛| 中文纯内无码H| 999国内精品视频免费| 日韩在线1| 亚洲无码高清视频在线观看| 国产性生交xxxxx免费| 国产精品免费p区| 欧美一级99在线观看国产| 亚洲日韩日本中文在线| 久久夜色精品国产嚕嚕亚洲av| 无码中文字幕精品推荐| 精品丝袜美腿国产一区| 凹凸国产分类在线观看| 极品av一区二区| 伦伦影院精品一区| 亚洲精品在线观看91| 又黄又爽视频好爽视频| 亚洲国产精品无码久久一线| 中文字幕在线欧美| 亚洲视屏在线观看| 67194在线午夜亚洲 | 自拍欧美亚洲| 天堂av综合网| 国产精品无码久久久久AV| 亚洲欧美人成人让影院| 亚洲男人天堂网址| 日韩欧美高清视频| 一本大道香蕉久中文在线播放| 91精品国产情侣高潮露脸| 亚洲AV无码不卡无码| 激情综合网激情综合| 日韩人妻精品一区| 亚洲人成网站观看在线观看| 无码福利视频| 中文字幕在线看| 日本国产在线| 高清无码一本到东京热 | 国产成人无码AV在线播放动漫| 中文字幕第1页在线播| 香蕉视频在线精品| аv天堂最新中文在线| 国产成人综合日韩精品无码首页| 日韩午夜伦|