劉奕彤 王乙霖
(上海立信會計金融學院 上海 201209)
(1)研究背景。中國現今是世界第二大經濟體,商品經濟與文化產業的發展日新月異。在此背景之下,中國原創商品外觀設計的數量種類數目也呈井噴式增長。外觀形象設計作為消費者了解產品的最直觀的第一渠道,對消費者感知、區分不同商品以及商品在市場的流通都具有非常重要的作用。
近年來,盡管原創的設計理念越來越為人們所推崇,然而據有關調查顯示,抄襲商品外觀設計的行為仍然屢禁不止。
為解決上述問題,本文將提出一個原創設計抄襲鑒定系統。本系統旨在作為一種抄襲鑒定的輔助技術參與原創設計的保護工作之中。其工作原理是通過對互聯網上的各種外觀設計進行實時監控,若發現存在抄襲嫌疑的設計則及時反饋給用戶,提醒用戶進行維權。除此之外,本系統還可以解放人力,輔助有關人員進行原創外觀設計的審核工作。
(2)研究現狀。此類任務可參考傳統的模式識別問題考慮。模式識別的關鍵問題在于準確提取并描述原創設計的特征。現有的特征提取思路,包括構建顏色直方圖來提取顏色特征,從圖像的自相關函數提取紋理特征,利用sift算法和hog算法提取圖像的輪廓與形狀特征。這些基于圖像底層特征的描述方法都只適用于簡單的分類任務,在面對可能存在語義層面的抄襲行為時,這些方法的局限性就逐漸顯露。
卷積神經網絡是一種相對新興的特征提取方法,以其局部權值共享的特殊結構在模式識別方面有著獨特的優越性。盡管由它提取出的特征不具有可解釋性,但在面對需要進行語義描繪的任務時,它的識別準確率明顯比上述算法高。在目前的研究中,雖然有許多研究圍繞神經網絡的應用展開,然而在解決相似設計是否存在抄襲這種問題上,國內還沒有比較成熟的解決方法。針對此,我們提出了一種新的原創設計抄襲判斷模式,采用了孿生神經網絡的框架,最終做出一個可以模擬人類意識判斷不同設計之間是否涉及抄襲的模型。
實現抄襲行為檢測和相似原創設計抄襲判斷的基礎是獲取足夠多的訓練數據集。本項目為了保證獲取數據的先進性,對于爬蟲技術的需求就是構建多聚焦式爬蟲組網的偽通用爬蟲,從而覆蓋國內相關的原創形象發布平臺來搜集相應IP形象數據。
采用Scrapy網絡爬蟲框架進行數據的采集。它的基本網絡運行框架如圖所示:

網絡運行框架圖
采集數據之后,還需研究如何提取并利用數據的特征信息。本系統應用了傳統卷積神經網絡的變種結構:孿生神經網絡,進行圖像特征的提取工作。孿生神經網絡由兩個子網絡構成,它們在訓練的過程中權值共享,在進行反向傳播時同時改變兩個子網絡的網絡參數,提取圖像特征。

孿生神經網絡結構示意圖
在基礎網絡結構的選擇上,本文參考了VggNet的層次結構,將其設置為孿生神經網絡的子網絡。為了提升網絡性能,本團隊在更改VggNet網絡參數的同時,還在此網絡的部分卷積層之間添加了殘差塊(跳遠鏈接)結構,讓卷積核提取的信息可以直接從淺層傳輸到深層,從而降低了網絡的訓練難度,特征提取效果變好,效率變高,網絡性能最終得到提升。

vgg網絡結構
利用孿生神經網絡進行原創設計特征提取后,還需完善模型,使之可以自主判斷兩個設計之間是否存在抄襲嫌疑。為了實現這一點,本系統對提取出的特征編碼值利用歐式距離進行相似度的測量,將計算出的距離用sigmoid函數映射到0-1之間,尋找最優的可以判定為抄襲的閾值。
由孿生神經網絡提取出的形象特征比使用傳統的特征提取方法(如sift、hog)提取的特征更加符合人類的思維模式。但因神經網絡運行過程的黑箱化,人類無法得知它的特征提取依據,也無法理解提取特征之后得到的圖片編碼信息。為使得模型輸出的抄襲判定結果更加科學、更加符合人類的思維模式,本研究在訓練模型時即采用監督學習的模式,在輸入訓練圖片的同時給予對應的標簽信息。為了提高標簽信息的權威性,我們盡可能從國家知識產權局的公告信息中獲取判決信息,依據官方判決設置標簽;此外,針對部門沒有判決信息的圖片數據,還通過人工推理判斷的手段,將圖片打上標簽,供機器學習。
在實際采集數據進行訓練時,我們發現采集到的圖片質量參差不齊,因此我們在將圖片納入訓練集之前首先進行一步數據清洗工作,將分辨率過低的圖片以及完全相同圖片的舍棄。之后,對清洗好的數據集統一進行下采樣操作,確定圖像的興趣區域,將圖片的像素統一為一樣的尺寸,并將圖片進行灰度化處理使其變為黑白圖片,降低了訓練的難度。
本項目訓練了一個可以智能判斷圖片對之間是否存在抄襲現象的模型。其中,模型框架采用了孿生神經網絡的結構,并且為了提升特征提取效果和優化網絡性能,本研究在設計孿生神經網絡的子網絡結構的時候在VggNet原網絡結構的基礎上調整了網絡參數,并在層級之間增加了跳遠鏈接結構。經過此種調整,網絡的性能得到了提升。
在常規的神經網絡訓練任務中,圖片數據集的來源一般是互聯網上的開源數據集,標簽的設置也是依據原有數據集提供的信息,而不是人工手動判斷。為了使得模型訓練結果與人類的思維模式更為貼近,本研究在設置標簽時根據官方判決文書以及人眼手工判斷給圖片打上標簽,從而使得模型的判斷效果更加好。
本文利用原創設計數據進行實驗,在考慮模擬人類思維進行智能商標查重問題的基礎上,提出了一種新型的抄襲判斷模式。通過搭建孿生卷積神經網絡,最終訓練出一個可以有效提取商標特征信息的網絡模型。
實驗結果表明,在網絡的卷積層之間增加殘差結構,不僅能夠顯著減少模型收斂速度,同時還能在一定程度上提高模型的判斷準確率。由此可見,在面對淺層網絡不足以擬合整個樣本空間時,可以考慮在加深網絡層數的同時構建一些殘差模塊,以提高模型效果。
針對本模型未來的發展方向,目前大致有三條路線:第一是更改網絡結構,尋求可以更好擬合整個樣本空間的網絡。第二條便是擴充數據集,提高數據集質量,優化圖片預處理方法。第三條便是在原有基礎上,更改網絡參數或選取另外的損失函數或距離度量方式。但是這種方法對于模型效果的提高并沒有前兩種方法顯著。總而言之,如果本算法進一步優化,相信在準確率上一定會有提高。