李雪偉 周令非
中國電影科學技術研究所(中央宣傳部電影技術質量檢測所),北京 100086
隨著攝錄設備的多樣化和互聯網技術的迅猛發展,電影盜錄及傳播變得更加容易,這使得電影的版權保護面臨著巨大的挑戰。院線電影盜版溯源技術,通過提取隱藏在影片載體中的水印標記信息,追蹤定位盜版流出的播放服務器和發生盜版的影廳,為電影數字版權保護提供了有力技術支撐。
為落實國家電影局《“十四五”中國電影發展規劃》中關于 “嚴厲打擊盜錄盜播等違法違規行為”和國家版權局 《版權工作 “十四五”規劃》中關于“加強對版權治理熱點難點問題的研究與監管,完善打擊網絡侵權盜版的快速反應機制”的相關工作要求,規范電影市場秩序、保護電影作品知識產權,本文提出的院線電影盜版溯源技術全流程,在進一步提高院線電影盜版溯源技術的效率和準確率方面進行了有益的探索和分享,旨在推動以數字水印為代表的電影版權保護核心技術的普及和應用。
近年來,互聯網技術和流媒體技術的快速發展,為院線電影盜版溯源帶來了盜版樣本獲取難、盜版樣本質量不穩定等新的挑戰,具體如下。
盜版樣本傳播隱蔽。在國家 “劍網行動”的打擊下,一些大型平臺的版權自律情況得到根本改善。然而,一些中小型網站和個人,以云盤、種子文件、個人站點、在線播放器等形式,對影視作品仍在進行長期的、大量的侵權。
盜版網站反偵查意識增強。隨著對盜版影視網站打擊力度的不斷增大,文件分享類盜版逐漸減少,在線播放類影視盜版網站成為主流,且這類盜版網站為了防止盜鏈、提高競爭力,現多采用加密或加入偽視頻數據等手段防止被現有的視頻流下載工具獲取,即使被下載下來,得到的也只是無意義的假視頻數據,使得盜版樣本的采樣和執法機關的取證存證困難重重。
畫面質量差。隨著智能手機攝像能力的不斷提高,現在院線影片盜版者多使用智能手機全程手持盜錄影片,很少再鋌而走險使用體積相對較大的專業錄像設備。這種手持非專業設備拍攝的盜版影片畫面曝光極不穩定、忽明忽暗,且全程晃動,影片畫面位置也隨之不停變化。
編碼不規范。由于盜版影視作品會被數次加入廣告、重新壓縮編碼和切片處理,其視音頻編碼文件會隨之變得不規范、甚至有錯誤產生,導致水印提取工具無法正常工作。盜版影視網站為了節省流量和網絡帶寬,通常只使用1Mbps/s左右的低碼率提供在線播放,對數字水印的準確提取提出了新挑戰。
針對以上現狀,本文提出了院線電影盜版溯源全流程方法,從發現盜版源入手,通過在內部網站搭建盜版影視網站偽裝平臺,自動從多個盜版電影資源發布網站采集盜版影片相關信息,變被動等待盜版樣本送樣到主動監測并獲取盜版樣本;然后對盜版樣本進行篩選獲取,并對獲取的樣本從格式和畫面兩方面進行復原增強,以提高盜版溯源的檢出率;最后利用數字水印提取系統對上述樣本進行數字水印信息提取,并將其與放映數據等相結合,進而定位相關影院、影廳和確定盜錄時間,以確保溯源結果的準確性。具體如圖1所示。該方法實現所需的相關組件構成如圖2所示。下面對該方法中的每一部分進行詳細介紹。

圖1 院線電影盜版溯源全流程圖

圖2 院線電影盜版溯源全流程組件構成
本文采用多種途徑發現盜版資源,包括接收存儲介質送樣、接收互聯網送樣、盜版影片自動監測系統、網絡巡查、微信群監聽、telegram 群監聽等,其中網絡巡查、微信群監聽、telegram 群監聽等屬于手動監測,需要大量人力和時間的投入,目前作為盜版影片自動監測系統的有益補充。
針對盜版樣本傳播隱蔽的問題,本文提出了盜版樣本自動監測系統,通過研究互聯網上傳播盜版最多的大量無備案信息的非法電影網站的特點及更新機制,利用上線盜版影視資源網站向加盟盜版影視網站自動推送盜版影片的特點,本文在內部網絡搭建了一套盜版影視網站偽裝平臺,可自動從多個盜版電影“資源”網站采集盜版影片相關信息。該平臺與真正的盜版影視網站不同,其不面向互聯網發布盜版影片,僅進行盜版影片信息的分析和采集。
為了加快網站開發速度,本文盜版影視網站偽裝平臺,基于CMS內容管理系統搭建,CMS用于管理網站后臺及編輯網站前臺,具有可視化的網站編輯器,采用模塊化的設計,可以減少開發成本。
本文基于CMS 的盜版影視網站偽裝平臺,主要包括采集對象層、采集API接口層、數據清洗層、影片采集層、數據基礎層、管理和安全模塊等。具體軟件架構圖如圖3所示。該平臺首先從不同的盜版資源網站采集盜版資源數據,然后將采集到的非結構化數據轉化為易處理的結構化數據,之后對得到的結構化數據進行電影類篩選、去重復等數據清洗操作,最后將得到的盜版電影資源進行展示和播放,以便工作人員快速發現新的院線盜版,大大節省了工作人員找院線盜版資源的時間,進一步提高了工作效率。

圖3 盜版影視網站偽裝平臺軟件架構
基于CMS的盜版影視網站偽裝平臺,將以往的被動委托檢測轉變為時效更高、覆蓋更廣的主動檢測,使得工作人員可以第一時間發現院線影片盜版樣本,其效率遠高于人工搜索盜版影片樣本,大大提高了盜版影片的發現和處置速度。
發現盜版資源后,需要對盜版資源進行篩選,獲取篩選后的盜版資源,并將其納入樣本庫。本文主要從盜錄源頭是否相同、盜版是否為院線盜錄和是否盜錄自國內影院這3個維度對盜版樣本進行篩選,并對其中的國內院線盜錄版本進行溯源檢測。

圖4 盜版樣本篩選方法
3.2.1 相同來源篩選
由于不同版本的盜版樣本可能是對同一個來源的盜版樣本進行裁切、剪輯、壓縮、旋轉等處理后,以不同版本進行發布,對這些相同來源的盜版進行溯源會浪費技術資源,所以本文需對相同來源的盜版樣本進行篩選,可結合司法部 《音像制品同源性鑒定技術規范——SF/Z JD0300002-2015》進行判斷,本文采取的具體方法如下:
盜版樣本畫面特征篩選包括:相同的畫面四角亮度衰減;相同的影廳裝置、座椅相對位置;相同特征的觀眾遮擋畫面;畫面取景的相同抖動;暗場景中相同的攝錄設備傳感器高感光度噪點;相同的自動曝光畫面失真;相同的過曝光、欠曝失真等。
盜版樣本音頻特征篩選包括:相同的廳堂混響;相同的壓縮音頻失真;特定影片內容節點時相同的觀眾聲音等。
3.2.2 院線盜錄篩選
因本文只能對院線盜錄電影進行準確溯源,對其他渠道發行的影片無法溯源,因此需要進行院線盜錄樣本的篩選。本文主要從院線盜版電影的聲畫特征和影片發行上映信息兩方面進行篩選。
畫面聲音特征篩選,由于院線盜錄影片只能通過使用攝錄設備拍攝屏幕的手段獲取,因此畫面必然存在攝錄設備光學鏡頭的畸變等特征,聲音必然存在影廳造成的廳堂混響。可通過以下方法篩選是否院線盜錄影片。畫面:存在明顯的亮度邊緣衰減;畫面內存在影廳的安全出口、座椅;畫面內有觀眾遮擋;畫面取景存在抖動;畫面存在攝錄設備傳感器的成像噪聲;畫面存在攝錄設備自動曝光引起的忽明忽暗;畫面亮部存在因攝錄設備動態范圍不足引起的過曝或暗部細節失真等。聲音:音頻中存在明顯的廳堂混響;音頻中存在觀眾的聲音等。
影片發行上映信息篩選:查詢中國電影發行放映協會網站的影片上映信息,確定盜版樣本是否為院線發行;與版權方確認影片在上映日期之前是否進行過短期或長期的公開點映或試映,確定影片是否在上映前泄露。流媒體或其他高清版本篩選:因部分影片的上映檔期很短暫,院線上映與網絡流媒體版上映周期存在重合,故需對流媒體或其他高清版本進行篩除:查詢各大視頻網站,確認當前流媒體版本的上線時間;咨詢國內頭部流媒體版權商,獲知流媒體版本的上線時間。
3.2.3 影片發行區域篩選
由于我們無法對中國大陸之外的放映服務器進行溯源,因此需對盜版樣本進行發行區域篩選。具體方法如下:盜版樣本如果為海外發行或進口影片,需向互聯網電影數據庫 (Internet Movie Database,IMDb)或電影官網確認該影片的全球發行時間;判斷盜版影片的中文字幕是否為國內放映的字幕類型(簡體楷體斜體);從字幕的幾何畸變、是否與畫面同步移動以及字幕被攝錄的損傷程度,判斷字幕是后期添加,還是影片原生;觀察畫面內出現的觀眾的人種特征(高鼻梁等);監聽音頻中觀眾聲音的語種;觀察樣本開頭是否包含國內發行放映許可證等。
針對盜版網站反偵查意識增強的特點,以及流媒體播放技術的快速發展,從這些非法網站進行盜版樣本的無損采樣變得愈發困難。本文利用抓包工具進行抓包發現,這些盜版網站經過技術升級,大量采用AES 加密技術,更有甚者通過技術手段將標準TS切片媒體流偽裝成PNG 圖片等格式進行傳輸,并使用私有協議解包。這使得常用下載工具無法識別、無法下載也無法合并切片的在線播放媒體流。
基于以上盜版影視網站的特點,本文通過多種獲取方法相結合的方式對盜版樣本進行獲取,具體如下:
(1) 對于常用下載工具可以下載的,使用常用下載工具進行下載;
(2) 使用M3U8下載工具下載;
(3) 常用下載工具無法下載的情況下,使用FFmpeg與抓包工具相結合,獲取真實的在線播放列表進行截流下載;
(4) 若以上方式均不可行,本文采用錄屏的方式對盜版樣本進行獲取。
針對盜版樣本質量不穩定的問題,本文提出了盜版樣本增強方案,分別從樣本格式修復和樣本圖像增強兩方面提高盜版樣本質量,以提高水印檢出率。
根據樣本格式或編碼的不合規程度,對樣本格式進行多段樣本合并、編碼轉換、幀速率復原等處理;根據樣本的內容受損程度,使用不同的影視制作工具對樣本內容進行重新構圖、白平衡修復、去擠壓恢復畫幅比、跟蹤去抖動、去閃爍、對比度調整、亮度色度調整、手動關鍵幀去抖動等圖像增強處理。下面對復原增強過程中常用的方法進行介紹。
多段樣本合并:對單一影片的多段樣本采用二進制直接進行合并;
編碼轉換:對水印提取軟件不兼容的編碼格式使用FFmpeg等編解碼工具進行二次編碼或封裝;
幀速率復原:對水印提取軟件不兼容的幀速率格式使用FFmpeg等編解碼工具進行合規的幀速率轉換;
重新構圖:對盜版樣本中影廳、座椅等無關畫面內容進行裁切等處理,對盜版樣本進行重新構圖;
畫面跟蹤去抖動:對因手持盜錄導致畫面晃動嚴重的盜版樣本,使用影視后期制作軟件的畫面跟蹤穩定功能結合手動關鍵幀實現樣本畫面的去抖動;
亮度色度調整:對盜版樣本中亮度、色度過低或過高等失真,使用影視后期制作軟件進行增強,向正常曝光的范圍進行還原。
以上樣本增強方案均為手動實現,未來將進一步探索利用人工智能、機器學習等方法,優化樣本增強方案,提高樣本質量。
數字電影在發展之初就考慮了影片數字版權保護的策略和措施,數字電影倡導組織 (DCI)的《數字電影系統規范》[1]規定,用于放映2K/4K 數字電影的播放服務器均需具備放映時添加水印信息的功能并須通過認證,該水印信息標記了播放服務器品牌、設備序號、影片放映時間等信息,且必須可靠地、不可察覺地嵌入到影片放映畫面和聲音中[2]。
目前國內影院使用的放映服務器使用的電影數字水印,均來自于兩家國外廠家。為保證溯源準確無遺漏,本項目采用雙軌并行的工作模式,分別使用這兩種電影水印檢測工具對盜版影片樣本中的數字水印信息進行提取,以獲取院線盜版影片內容中綁定的水印信息,已覆蓋國內所有影院的放映設備。
盜版樣本中的水印信息包括水印ID、服務器廠家信息和時間戳信息,本文使用水印ID 和服務器廠家信息向相應的放映服務器廠商查證并確認與其對應且唯一的服務器序號,然后使用該服務器序號向放映服務器備案機構查證該服務器的備案院線、影院、影廳和地址信息,最后結合時間戳信息確定發生院線影片盜版的放映場次,為相關執法部門提供可信的技術依據和證據線索。具體如圖5所示。

圖5 通過水印信息溯源的流程
在現場放映服務器信息核驗中,由于放映服務器違規變更放映場所和存在極少數克隆了數字水印信息的放映服務器,為確定溯源結果準確無誤,本文還會對放映日志和售票記錄協查結果進行核驗,以進一步核驗發生盜錄的放映場次。
本文采用以上數字水印信息建立了院線盜版溯源數據庫,該數據庫主要記錄了每次溯源的檢測記錄,包括影片名、上映時間、影片來源、畫質特點、音頻特點、檢測結果 (水印ID、服務器廠商、服務器序號、所屬影院、所屬影廳、所屬院線)等,通過對影片盜版發生地、畫質音頻特點、盜拍手法的比對,本文發現了幾個主要盜拍團伙的作案特點及活動區域,完成了對盜錄嫌疑人的 “畫像”。同時,本文還將院線盜版溯源數據庫與票務、放映機構的放映數據、排片數據、售票數據相結合,引入觀影人數與排片場次數據,通過數據篩選和比對,讓一些本不起眼的線索逐漸浮出水面,發現了很多票房瞞報的“幽靈場次”、不知去向的 “幽靈放映服務器”,甚至根本不存在的 “幽靈影院”,為相關部門排查與定位侵權盜錄嫌疑人提供了有力的技術支撐。
通過對盜版溯源數據的多維度分析,篩查多次發生盜錄的影院,對院線電影版權方和發行方形成預警,在超前點映等被盜錄風險大的情景中盡量選擇安全的影院,防患于未然,讓不法分子無機可乘。
為評估本文提出方法的有效性,體現保障電影版權安全對整體票房的促進作用,本文提出了PPB院線電影盜版指數:每10 億元票房的盜版源數量(Piracies per Billion Box office,PPB),見式(1)。

根據式 (1),得到2016 年到2022 年的PPB,并計算出同期的溯源成功率,具體如表1所示。

表1 2016-2022年每10億元票房盜版源數量PPB及盜版溯源成功率
將表1表示為曲線圖,如圖6、圖7所示。
從圖6可以看出,2016 年到2022 年,隨著本文盜版溯源全流程方法的不斷完善和應用,本文負責的國內盜版溯源成功率穩步上升,從2016 年的72%穩步提升至2021年、2022年的100%。

圖6 2016-2022年溯源成功率曲線圖
從圖7可以看出,從2016年到2022年,隨著盜版溯源全流程方法的逐步應用和盜版溯源成功率的提升,全國每10億元票房的盜版源數量整體呈減少趨勢,從2017年的3.47下降到2022年的1.32。盜版溯源全流程方法對電影市場版權治理的效果明顯。

圖7 2016-2022年每10億元票房的盜版源數量 (PPB)曲線圖
本文聚焦院線電影盜版溯源問題,依托CMS內容管理系統、視頻處理、水印提取、數據分析等技術,構建了“樣本自動發現-樣本獲取-樣本增強-水印提取-溯源查證-數據畫像分析”的院線電影盜版溯源全流程。從發現盜版樣本入手,變被動等待盜版樣本送樣到主動監測并獲取盜版樣本,設計研發了盜版樣本自動監測系統,可在開放資源網站自動、快捷發現采集盜版影片相關信息,解決了院線電影盜版樣本獲取難、溯源效率低、周期長的問題;同時本文提出了盜版樣本增強技術措施,分別從樣本格式和樣本內容兩個維度對樣本進行復原增強,解決了因盜版樣本畫面抖動、亮度不均勻等因素導致的數字水印檢出率低的問題;為保證溯源準確無遺漏,本文采用雙軌并行的工作模式,使用兩種水印提取工具對增強后的盜版樣本進行數字水印信息提取,得到相關數字水印信息;最后利用數字水印信息定位相關影院、影廳和盜錄時間。
本文提出的院線電影盜版溯源全流程,為相關管理部門和相關運營管理機構提供可信的技術依據和證據線索,為電影數字版權保護和電影產業持續健康發展提供有力技術支撐,具有顯著社會效益。
未來我們將繼續探索人工智能和機器學習等技術在該領域的應用方法,繼續完善盜版溯源數據庫,進一步優化和改進院線電影盜版溯源全流程方法。