鄭世寶,楊健雄
(1.北京鴻蒙網科技有限公司,北京 100036;2.中國信息產業商會廣電協作委,北京 100866)
中國正在進行的治理現代化和深化行業改革,特別是廣播電視行業正在全面實施智慧廣電戰略,加快推進媒體深度融合,結合實際與市場監管部門一起對市場秩序、市場環境進行綜合監管,為廣播電視及融媒體市場監管提供一個明確的技術框架,建立綜合監管與行業領域專業監測、社會協同監督,形成優勢互補、相互促進的廣電行業市場監管格局。今后的市場監管工作應當堅持以技術為引領,以設施和數據為基礎,在完善監管體系和機制中提升智慧監管效率。智慧監管不僅是監管技術、監管手段的創新,更是監管理念的創新。在市場治理參與主體日趨多元化的當下,應進一步降低市場主體的制度性交易成本,加強信息共享、數據互通,促進政府部門、行業組織、市場主體以及消費者的協同共治。
鴻蒙音視頻監測系統采用鴻蒙首個云平臺系列核心技術,包含無限分層信息遺傳集群專利技術,北斗衛星和IP雙定位校正專利技術,智能云終端中央控制萬物互聯專利技術,云服務器專利技術。可運用到普通網絡音視頻、電視、電臺、戶外LED大小屏等廣告播放監管場景,提供高效監測,實現減輕工作人員原有的勞動強度,提高工作效率,節省勞動力的成本,大幅提升監測任務的完成質量。
系統整體采用鴻蒙云系統(Hong Meng Cloud System,HMCS)作平臺支撐,按照中國行政區劃為節點進行本地化部署,構建了云平臺集群體系。采用云計算、大數據、區塊鏈以及人工智能等新興技術[1-4],與本地市場監管及治理模式緊密結合,建立了一套從中央到省到市到區縣局的完整、統一、規范的大市場監管平臺,集成多系統間既相互獨立,又相互關聯。遵循“分級負責,屬地監測,上下協同”的總原則,保障市場監管部門工作有序開展,完成區域大數據自動收集、智能分析尋找線索并提交報告工作,推動國務院“智慧監管”政策的落實。
系統針對平臺的網絡環境運用分層遺傳專利技術架構實現信息資源共享的同時,必須進行信息資源的有效保護和安全隔離,針對不同的應用需求,采取不同強度的安全保密方式,包括數據加密存儲/傳輸、身份認證和存取控制,實現負載均衡,結合國家等級保護的建設規范和技術要求,形成多系統復雜環境的等級保護建設方法。通過本地部署實施對平臺各類信息系統進行全方位的安全防護,有效降低平臺運行當中存在的安全風險。
為確保系統的建設成功與可持續發展,在系統的建設與技術方案設計時遵循如下原則:
(1)中國特色原則。尤其是音視頻應用系統采集、數據模型、數據存儲以及系統擴展規劃等內容,均從國情出發對廣告和傳媒特點進行深入研究。
(2)標準化原則。在設計過程中充分依照國際上的規范、標準,保證系統具有先進性,部署符合國際發展趨勢的技術、軟件產品和設備。
(3)高可靠安全性。系統架構設計和應用設計中充分考慮系統的安全和可靠,排除非可用因素,采用目前最高的安全標準和多重防護措施。
(4)實用可擴展。保護已有資源,急用先行,在滿足應用需求的前提下,盡量降低建設成本。信息系統設計要考慮到業務未來發展的需要,盡可能設計的兼容性好,降低各功能模塊耦合度,能夠支持對多種格式數據的存儲。
系統提供了基于云平臺的虛擬集群構建,實現了靈活構建高性能計算集群,并根據用戶作業需求,提供彈性的計算資源以提高物理機器的利用率。HMCS 虛擬集群各個服務之間通過統一的API 調用,實現系統的松耦合。它內部組件的工作過程是一個有序的整體,諸如計算資源分配、控制調度、網絡通信等都通過 AMQP(Advanced Message Queuing Proto‐col)來實現。各個組件之間通過AMQP 進行互相調用,它們共同利用底層的虛擬資源為上層用戶和程序提供云計算服務。采用數據多副本技術、虛擬機備份技術、應用數據備份、網絡行為管理等多項技術保障數據可靠。
系統采用 HMCS 的 HMFS(Hong Meng File Sys‐tem)分布式存儲,區域編碼尋址,整體無狀態、系統無單點,無性能瓶頸,支持靈活彈性擴容。根據不同的業務需求及數據特點,HMFS 提供了對象存儲、文件存儲、塊存儲。可用于企業網盤、影像數據、互聯網應用、數據備份等各種非結構化數據存儲場景,為“智慧監管”海量非結構化數據提供了數據存儲。HMCS 可支持建立時序數據庫,支持時序數據的快速寫入、持久化、多維度的聚合查詢等基本功能。提供HMAI(Hong Meng Artificial Intelligence)大數據分析,機器深度學習,實現預測和預警,可生成多維度報表,揭示其趨勢性、規律性、異常性。
鴻蒙音視頻監測系統主要包括:基礎設施層、應用支撐層、智網應用層、用戶服務層和系統運維管理平臺,如圖1所示。

圖1 智網監測系統架構
基礎設施層:主要包括基礎網絡、云主機系統、服務器集群、數據庫、環境監測、網絡交換設備、安全防護設備等;
應用支撐層:主要包括網站建設服務、平臺資源服務、平臺計算服務、鴻蒙AI、HMCS-IOT等;
智網應用層:主要包括音視頻廣告監測、網絡交易監測、食品藥品監測、特種設備監測、環境部署采集、部門協同辦公、公共服務等;
用戶服務層:主要包括云終端、智能控制、感知設備、手機、電腦、攝像機、監控等。
鴻蒙音視頻監測系統包括電視廣告監測、電臺廣告監測、互聯網音視頻監測、互聯網文本監測、LED音視頻監測等,涵蓋了目前廣告傳媒行業的所有音視頻主體和新業態。鴻蒙音視頻監測系統運行界面如圖2所示。

圖2 鴻蒙音視頻監測系統主界面圖
系統根據全國基層局監測需求,支持本地化部署數據中心和服務器,以及實施數據挖掘平臺客戶端本地區業務數據和第三方數據的全端采集和建模,是一套包括智能數據采集、業務應用、數據接入、分布式存儲、數據離線計算、數據實時計算、精準分析、集群資源調度、集群任務調度、全局管控管理為核心的系統監管體系。HMCS 支持分布式監控,能監視各種參數,保證服務器系統的安全運營;并提供靈活的通知機制以讓系統管理員快速定位,解決存在的各種問題。
HMCS 虛擬化技術可有效解決傳統數據中心的資源浪費、管理困難等問題,通過建立虛擬機共享物理設備資源,利用有限的物理資源運行多個獨立操作系統實現不同功能及任務的分配。虛擬機在多臺物理主機之間的遷移可以達到負載均衡、熱點解除等目標。但是在實際應用中,在創建虛擬機時分配固定的資源,運行過程中無法根據負載需求進行動態調控,會造成資源不足的現象;并且隨著集群規模的增大,人工管理的效率大大降低。因此,建立集群的實時監控系統,自動監測各節點和虛擬機的運行狀態,根據實際需求進行合理的資源分配管理,保證數據中心運行時的服務質量,節約人力資源。
系統通過市場主體庫和標準庫可自動采集數據,使用數據挖掘技術工具對監測的PC 網站、APP、微博、公眾號、小程序進行定向監測;通過信號源針對網絡電視、音視頻網站、直播電視及傳統廣播電視、報刊雜志、DM、LED 戶外廣告等監測目標進行常規監測。通過采集各種內容及行為數據,可以充分利用數字化關聯分析、數字建模及人工智能等技術,對海量數據進行模塊化分析和政策模擬訓練,為政策規劃和決策提供更加精確的依據,為政策實施提供更為全面、可靠的實時跟蹤,為政策效果的評估提供更加科學全面的方法。
系統通過國家相關政府部門授權,對網絡數據實行有效采集。具體包括:
(1)接入或導入市場主體數據庫
國家市場監管總局授權獲取全國市場主體信息,能夠對全國市場主體數據進行合法合規采集。
(2)接入或分析市場主體信用
國家發改委國家信息中心全國市場主體“雙公示”數據,支持定期更新。
(3)網站ICP備案信息
工信部授權獲取全國網站ICP備案數據,內容包括網站名稱、網站鏈接、經營主體信息等關鍵信息。
(4)挖掘市場主體數據
按照《征信業管理條例》,可以合法地采集并保存企業主體相關數據,保證企業主體數據的合規性、持續性。
(5)接入第三方服務
通過知名互聯網公司渠道合法合規分析用戶上網行為,得到互聯網電商網站的主體及商品等相關數據,保證數據的有效性和時效性。
數據質量管理包含對數據的絕對質量管理、過程質量管理。絕對質量即數據的真實性、完備性、自治性,是數據本身應具有的屬性。過程質量即使用質量、存儲質量和傳輸質量。數據的使用質量是指數據被正確的使用,再正確的數據,如果被錯誤的使用,就不可能得出正確的結論。數據的存貯質量指數據被安全的存貯在適當的介質上。所謂存貯在適當的介質上是指當需要數據的時候能及時方便的取出。數據的傳輸質量是指數據在傳輸過程中的效率和正確性:在轉換、分析、存儲、傳輸、應用流程中不存在錯誤;數據庫應用或要求的所有記錄、字段都存在;體現在整個數據庫的定義和維護方面,確保數據在使用的整個過程中是一致的;提供數據的數據源必須能夠可靠穩定地提供數據。
系統運用“在線監測”方式可實現實時動態監測,具體包括文本監測、圖片監測、網址監測、音視頻監測和特殊專項行動監測,實現智能識別監測圖片和音視頻,同時進行智能審核并自動生成涉嫌違法違規廣告線索,判定生成報告,進行上報派發。
系統執行各項監管指令,通過協同處理,運用定向監測和常規監測將數據進行采集、識別、分析、匯總,從而形成本地監測系統掃描數據庫。對采集數據進行清洗和轉換,實現對各類數據信息自動識別、去重。對所采集的線索進行取證,記錄包含發布網站、市場主體、網站ICP備案信息和IP地址等信息頁面的證據鏈,對廣播電視和融媒體實現同一個用戶不同來源數據的打通,這些數據來源包括iOS、Android、Web、H5、小程序、業務數據、歷史數據、第三方平臺數據和線下數據等,實現針對客戶的全端數據采集。同時,為了解決跨平臺貫通一個用戶的問題,監測系統也提供對企業用戶的介紹、所作所為、產品質量、廣告內容和銷售行為等信息進行多維度精準畫像[5]的解決方案。實現大數據線性回歸、神經網絡、支持向量機、聚類、降維等智能計算分析常態化,如圖3所示。

圖3 音視頻監測原理框圖
在業務處理過程中,涉及到多方協作、案件移轉等協同業務。基于此種情況,保障系統的數據安全性就顯得尤為重要。平臺具備權限認證與隔離機制,支持讀寫鑒權,充分保障用戶數據的私密性,杜絕數據泄漏。結合數據特征,提供數據分類分級模板,支持細粒度的數據劃分。結合實際需求,靈活提供細粒度訪問控制、數據加密、解密和數據脫敏方案。對平臺中的數據進行加密和數據加密級別管理,所有數據加密存儲、加密傳輸,實現數據加密級別管理體系,根據不同密級的數據選擇不同強度的加密算法、數據多層加密。基于分布式數據復制、校驗等技術實現數據的完整性、可用性,通過網關敏感信息監測、終端敏感信息監測、終端數據加密實現數據的安全可控和防泄漏。將動態脫敏系統部署在數據的共享、交換、應用、運維區,與數據庫之間;形成自動化的敏感數據匿名化邊界,防止隱私數據在未脫敏的情況下從數據區域流出。提供基于數據庫訪問來源IP、數據庫應用系統、應用系統賬戶、時間等因素的策略,對需要共享的敏感數據,可根據數據的敏感級別和應用的需要,配置動態脫敏策略,從而實現外部應用能夠安全可控地使用共享的敏感數據,防敏感數據泄露。根據不同的數據特征,使用動態脫敏算法,并支持自定義脫敏算法。
靜態脫敏直接通過屏蔽、變形、替換、隨機、格式保留加密和強加密算法等多種脫敏算法,針對不同數據類型進行數據掩碼擾亂。利用數據的靜態脫敏技術,有效地防止平臺內部對隱私數據的濫用。同時也保持監管合規,滿足政府及企業的合規性要求。
動態感知和預測業務安全風險,實時監控應用系統的訪問情況、數據流向和數據處理過程;對敏感數據的訪問行為和敏感業務進行機器學習,對用戶行為進行分析,感知和預測業務安全風險。將大數據技術用于安全,通過大數據建模進行攻擊的預測、安全態勢分析,安全威脅的監控和提前消除,建立APT 防護。
一個高效的數據傳輸系統必須保證數據在傳輸過程中的安全性和可靠性,包括信息的保密性、完整性,同時在實現數據傳輸中占用更少的資源。所以數據加密傳輸的方案中應包括對發送端數據的有效加密、密鑰的分配、傳輸數據的壓縮。主要從信息的壓縮、保密性等幾個方面來考慮數據加密傳輸系統中的加密方案。從哈夫曼編碼壓縮的過程可以看出,經過該方法壓縮的數據必須使用壓縮形成的哈夫曼編碼樹才能解壓縮。對于不同的源文件,由于文件內容的不同,形成的哈夫曼編碼樹不同。數據傳輸的過程中需要同時傳輸壓縮數據包和相應的哈夫曼編碼樹結構。相對于壓縮數據包,哈夫曼編碼樹的節點數大大小于數據文件的數據量,如果只對哈夫曼編碼樹進行加密,加密和解密需要處理的數據量將大大減少,對于不對稱加密算法無法處理大量數據的限制也可被克服。在數據傳輸中需要傳輸的數據量比壓縮之前需要傳輸的數據量大大降低,可以節省大量的網絡資源。在大規模的數據安全傳輸中,可以提高數據傳輸的效率和安全性。在信息的保密性方面選擇RSA 作為哈夫曼編碼加密傳輸系統中傳輸信息的加密算法,采用公鑰加密來發送哈夫曼編碼。
從數據存儲上,數據存儲在政府客戶自己的機器上,從查詢接口上,可以只對內網提供查詢服務,并且有登錄權限認證;從數據傳輸上,如果選擇后端傳輸數據,則是內網到內網的傳輸,如果是前端埋點,支持https 上報數據然后再內網轉發;從數據存儲上,提供的是單租戶的部署方案,不同客戶之間數據是完全物理隔離的;從查詢接口上,不同客戶有不同的權限賬號體系,也有不同的查詢token;從數據傳輸上,不同客戶使用不同數據上報token,并支持https上報數據。監管服務全部采用分級授權機制。
為實現對廣告市場違法違規行為的監測與監管,監測平臺需要集成各類專項監管相關的人工智能識別模型,并通過平臺的統一支撐,對歸集的數據進行建模與分析。鴻蒙AI人工智能開放平臺以云平臺和人工智能為基礎支撐,對外提供各類服務,主要應用于語音識別、人臉核驗、面向領域的知識圖譜等。鴻蒙AI開放平臺架構如圖4所示。

圖4 鴻蒙AI開放平臺架構圖(部分)
語音識別由聲學識別模型和語言理解模型兩部分組成,分別對應語音到音節和音節到字的計算。
(1)聲學模型訓練
聲學模型可以理解為是對聲音的建模,能夠把語音輸入轉換成聲學表示的輸出,準確的說,是給出語音屬于某個聲學符號的概率。根據訓練語音庫的特征參數訓練出聲學模型參數。在識別時可以將待識別的語音的特征參數與聲學模型進行匹配,得到識別結果。目前鴻蒙采用隱馬爾可夫模型(HMM--Hidden Markov Model)進行聲學模型建模。
(2)語言模型訓練
語言模型是用來計算一個句子出現概率的模型,它主要用于決定哪個詞序列的可能性更大,或者在出現了幾個詞的時候預測下一個即將出現的詞語。語言建模能夠有效的結合漢語語法和語義的知識,描述詞之間的內在關系,從而提高識別率,減少搜索范圍。對訓練文本數據庫進行語法、語義分析,經過基于統計模型訓練得到語言模型。
(3)語音解碼和搜索算法
解碼是指語音的識別過程。針對輸入的語音信號,根據己經訓練好的HMM聲學模型、語言模型及字典建立一個識別網絡,根據搜索算法在該網絡中尋找最佳的一條路徑,這個路徑就是能夠以最大概率輸出該語音信號的詞串。所以,解碼操作即指搜索算法,即在解碼端通過搜索技術尋找最優詞串的方法。
連續語音識別中的搜索,就是尋找一個詞模型序列以描述輸入語音信號,從而得到詞解碼序列。搜索所依據的是對公式中的聲學模型打分和語言模型打分。在實際使用中,往往要依據經驗給語言模型加上一個高權重,并設置一個長詞懲罰分數。
人臉識別算法通過深度學習,利用卷積神經網絡對海量人臉圖片進行學習,借助輸入圖像,提取出區分不同人臉的特征向量,以替代人工設計的特征。每張人臉在算法中都有一組對應的特征值,這也是進行人臉比對的依據。當人臉比對的相似度值大于閾值時,則比對通過,人臉識別的過程中有四個關鍵的步驟:
(1)人臉檢測
人臉檢測的目的是尋找圖片中人臉的位置。當發現有人臉出現在圖片中時,不管這個臉是誰,都會標記出人臉的坐標信息,或者將人臉切割出來。可以使用方向梯度直方圖(HOG--Histogram of Oriented Gradient)來檢測人臉位置。
(2)人臉對齊
人臉對齊是將不同角度的人臉圖像對齊成同一種標準的形狀。先定位人臉上的特征點,然后通過幾何變換(仿射、旋轉、縮放),使各個特征點對齊(將眼睛、嘴等部位移到相同位置)。
(3)人臉編碼
人臉圖像的像素值會被轉換成緊湊且可判別的特征向量,這也被稱為模板。理想情況下,同一個主體的所有人臉都應該映射到相似的特征向量。
(4)人臉匹配
在人臉匹配構建模塊中,兩個模板會進行比較,從而得到一個相似度分數,該分數給出了兩者屬于同一個主體的可能性。
通過構建面向監管領域的知識圖譜,可以為人工智能模型的預測提供判別依據。一方面,模型在對數據進行預測時,可利用知識圖譜豐富其數據特征,使得模型的輸入能夠含有更豐富的領域相關“特征信息”,增加模型預測的準確率。另一方面,在模型預測得到預測標簽后,利用監管領域知識圖譜對標簽進行解讀,并通過知識關聯,得到更便于人直觀理解的判別依據。
基于遠程監督和無監督生成等弱監督學習方法,利用已有的知識關系以及少量的人工介入,平臺自動發現更多知識和模式,人工快速介入審核后,進一步迭代發現更多模式和知識,直至準確率達到一定程度,最終平臺可高精度地完成支持分詞、命名實體、關系抽取、分類、描述抽取等一系列自然語言處理工作,快速搭建知識圖譜。平臺支持多領域的知識學習,少量人工干預就可以獲取更多可用的領域知識表示。
隨著違法行為的不斷發展和市場監管機構的改革,基于電商、廣告、合同等多領域的違法識別模型需要進行更新融合。基于網絡市場多個專項違法判別體系,以及人工智能分析系統所包含的基礎分析模型,形成模塊化的違法分類體系,同時把訓練語料和測試語料進行融合管理,針對新的違法類型,在平臺新增類型和相關語料,進行二次訓練來更新模型。
“互聯網+司法鑒定”區塊鏈應用提供電子數據取證、存證及出證服務,有效解決目前電子數據保全過程中遇到的取證手段有限,證據效力不高,以及傳統出證不夠便捷等問題。依據“公證規范監督,鑒定專家鑒證,存證科技護航”理念,實現電子證據采集、固定、應用閉環,形成“公證+鑒定”電子證據綜合服務。區塊鏈取證、存證、固證流程如圖5所示。

圖5 區塊鏈取證、存證、固證流程
音視頻監測和其他監測方式有一定的關聯度,作為獨立的系統具有特殊性。廣告傳媒音視頻取證的過程不能采用傳統方法,因為落后的手段很難讓監管人員實現智慧監管,需要具備在線證據存證。監測管理具備監測結果查看和監測結果處理—取證、存證、固證、HMAI 審核和市場管理人員審核的功能及報告處理,對廣告內容合法或涉嫌違法違規進行篩選甄別;一鍵生成監測報告并上報。圖6 給出了區塊鏈取證固證存證操作界面。

圖6 區塊鏈取證固證存證操作界面(包含示例違規詞“燃料”)
系統基于HMCS 系統多節點分布式的內容掃描庫,利用文本模型(如特供專供、醫療保健、教育培訓、意識形態、低俗色情等)、圖像模型(意識形態、化妝品、失德藝人、虛假宣傳等)和用戶自定義模型,實現文字、圖片、網址的線索查找,然后通過機器畫框和人工畫框技術實現線索標注,再通過本地區塊鏈和全國司法鏈協議,實現文本、圖片、網頁等內容的存證和固證。系統根據相關部門提供的詞條、法條和相關規章制度,將全網24 小時不間斷掃描來的數據,進行反復處理,自動篩選出本地主體的目標線索,由本地監管部門相關干部進行預審。
電子取證固證系統通過保全電子數據生成和存儲過程,將原始通話錄音、網頁截屏、電子郵件、網上聊天記錄等網絡數據實時加密傳至云端,接入司法鏈成為具備法律效力的證據。同時,通過線索的違法判定處理、審查、派發、督辦及違法信息的統計查詢等相關監管業務功能為用戶提供高效的監測服務。線索識別準確率85%以上;存證固證時間50 ms以內;存證固證文件參數MD5 值、HASH 值、文件時間戳等清楚記載,提升電子證據取證便捷度、存證技術專業度以及司法采信率。
系統通過智網移動端,實現指揮中心與現場執法人員連線,遠程指揮現場執法人員開展工作,采集執法中的證據,為一線人員提供支撐服務。系統為本地局構建指揮中心,指揮中心架構了云端結合,普通手機客戶端可以隨時隨地充當執法工具,并入監測系統,在日常工作中適應巡查打卡、線索上報、云上辦公等。實現縱向和橫向可控的多級聯動,并提供移動端和中心控制臺之間即時指揮,滿足移動執法的需要。圖7 給出了移動執法原理框圖,圖8 所示為指揮中心遠程指揮現場執法人員開展執法工作。

圖7 移動執法原理框圖

圖8 指揮中心遠程指揮現場執法人員開展執法工作
基于HMCS系統的音視頻直播技術實現的指揮中心場景,可實現實時-現場執法-大屏指揮的音視頻聯動。
本系統按照中國行政區劃,以市(區/縣)為節點進行分布式部署,為每個行政區域建立獨立自主的廣播電視及融媒體等新業態監管系統。系統將廣告公司、媒體、廣告主等相關的業務深度集成,運用大數據技術激活數據資源池的涉企信息,線上線下相結合,全方位、全天候監管媒體的信息發布,提升監管效率,把監管人員從浩瀚的互聯網信息尋證工作中解放出來。
本系統將創新平臺技術與本地監管及治理模式緊密結合,實現權力運行全程規范化、數字化,處處留痕跡,變人力監督為數據監督、變事后監督為過程監督、變個體監督為整體監督,推進“智慧監管”和“信用監管”的制度措施進一步落實。大數據化的監測系統擁有巨大的應用潛力,在宣傳、廣告、輿情監測、特種設備、人文環境等領域開展動態監測、安全預警,可為宏觀經濟領域轉變發展方式的決策規劃提供數據支持。