基于圖像識別和神經網絡技術的影視聲音后期工藝探索

2020-12-31 01:09:48郭境熙

現代電影技術 2020年8期

關鍵詞：模型

郭境熙劉嘉

(北京電影學院聲音學院，北京 100088)

1引言

隨著影視文化產業的繁榮，社會對影視產品的需求也越來越大。今天，由于工業化技術水平的提高，影視聲音后期制作的分工越來越細，質量也越來越好。無論是院線電影、電視劇，還是網絡平臺上播放的一些劇集，甚至包括目前非常流行的抖音小視頻，都很明顯地感受到了這種趨勢。然而，隨著節目數量爆發性地增長，隨之而來的問題是有限的制作勞動力資源與越來越多的節目數量和質量需求之間不可調和的矛盾。從目前的工藝來看，聲音編輯環節在整個制作流程中占據了絕對的時間比例，它有著人力高度密集、工作強度大、時間占比長、重復性勞動非常多的特點，在實際工作中，從業人員大量的時間和精力會耗費在對聲音素材的檢索、分類、編輯、聲畫同步等工作上。與此同時，我們看到聲音編輯工作并非簡單勞動，一個合格的聲音編輯人員往往需要經過長時間的職業技能培訓，才能滿足這種藝術產品的生產質量要求。所以，無論是采用簡單地增加個體勞動時間，還是快速擴大聲音編輯從業人員的規模來滿足越來越多、越來越高的行業制作需求，都是不現實的。

從2015年起，人工智能的研究和應用逐步開始進入到大眾的視野，在圖像識別領域和神經網絡系統領域不斷出現了一些有趣的思路和新的應用場景。得益于算法的發展以及計算能力的提升，圖像識別的準確度相對以前有了很大的提高，近年來ImageNet的年度大規模視覺識別挑戰賽中(ILSVRC)，排名前五的深度學習神經網絡錯誤率即能做到小于5%。這其實已經在分類準確率上高于人類了，而隨著于計算機硬件的快速迭代和性能提升，在目前普通家用計算機平臺上利用性能稍好一點的GPU和CPU就能輕易地滿足以上視覺識別和神經網絡深度學習的需求。

在我們通常的習慣思維中，影視聲音后期往往被更多地認為是一個藝術創作過程，技術性的手段被限定在了一個很有限的范圍里。并且由于聲音自身的特性以及基礎研究長期停滯不前，造成了它幾乎是現在影視制作中自動化和智能化程度最低的一個領域。但是,如果我們理性地對整個過程進行結構化的回溯，就會發現其實前面提到的很多工作內容，尤其在重復性地耗費大量精力進行聲畫同步的聲音編輯過程中，可以將其分解為畫面同步點的判斷、聲音素材時間線位置確定和聲音素材的放置三個環節。假如采用現有的圖像識別和神經網絡學習技術建立標準模型，實現素材的自動調用，則有可能實現整個過程或者過程中某些重要環節的智能化輔助。

鑒于此，筆者以影視作品中最常見的腳步聲編輯作為研究對象，在過程中利用開源的Openpose(人體關鍵點實時檢測)框架對畫面人物的動作進行識別，將結果數據進行必要的預處理后同時用SVM(支持向量機)和MLP(多層感知器)進行訓練，觀察得到的訓練模型的結果，并生成標準的時間線XML，導入工作站進行素材鏈接，從而實現基本的聲音編輯過程中聲畫同步的自動化。

2研究工具與對象的選取

腳步聲的編輯過程，我們按照工作流程把它分為了四個步驟：(1)在畫面中找出人物的腳部并觀察鞋、地的材質用以確定聲音素材的選擇；(2)在時間線上找到左右腳觸地的精確位置(時間點)；(3)從聲音資料庫中檢索符合要求的素材；(4)將聲音擺放到時間線上并做相應的微調?？梢园l現在整個過程中重復性勞動最多，耗費時間最長的是在步驟2和步驟4上，同時，由于步驟1和步驟3目前還受制于相關基礎元數據的智能化標記完善程度制約，所以，筆者暫時對這兩個步驟進行簡化(將在后文說明)，事先根據所訓練的對象準備好一套適合的腳步素材庫以備調用，而把主要精力放到通過機器學習和神經網絡算法將畫面中腳步在時間線上的精確定位(步驟2)和聲音素材的自動套用上。

實驗過程中首先借助開源框架Openpose來進行畫面人物對象的識別和人物姿態推測。Openpose是一個由卡內基梅隆大學維護的人體姿態識別開源庫，基于CAFFE框架開發，以卷積神經網絡和監督學習為手段在不通過任何傳感器的幫助下，實現畫面中一個或多個人物的姿態識別。目前，可以完成：單人最多25個身體/腳部關節的關鍵點識別(本研究選取方案)；或42個關鍵點的手部關節識別(左右手各21個)；或70個面部關鍵點的識別，特別是身體關鍵點識別模式下，運算時間與檢測出的人數無關，這無疑為大規模的部署和真實應用環境中復雜的畫面提供了非常強大的分析工具。

在得到關鍵點數據集之后，通過人工的方法對左右腳落地的時間進行標記和其他的預處理，構成下一步模型訓練的基礎。我們期望將原始數據和標記后的數據通過機器學習對二者進行擬合，最終訓練得到一個可以通過每幀畫面人體關節點坐標關系判定腳步落下的模型，用于實際工作中畫面的識別。在這個環節利用了目前比較常見的兩種神經網絡算法：支持向量機(Support Vector Machines, SVM)和多層感知器(Multilayer Perceptron, MLP)，我們在過程中觀察各自的表現，比較它們的結果并評價其差異。

經過訓練和擬合后的模型可以識別畫面中的人物，檢測畫面中人物的腳步落下時刻，最終將結果通過腳本導出XML文件，利用非線性編輯工作站實現腳步聲音素材在時間線上的自動放置。

3數據的準備與數據處理流程

訓練樣本的獲取使用了GH5相機以1080p/60fps的格式拍攝下幾種不同狀態的單個人物運動視頻片段，包括了兩種機位方式以及四種維度的移動(表1)，以保證人物運動的多樣性。之所以拍攝單人而非多人，是考慮到在實驗初期盡可能控制一些不必要的變量，實際上，Openpose對同一畫面中多人的姿態判定準確程度與單人基本沒有差異，如果最終訓練結果模型能適用，則多人畫面的處理僅僅為計算量的簡單放大而已。此外，最初考慮60fps的原因是與時分秒的進制數一致，為某些環節中可能出現的人工修正減少一些誤差。但是，這些視頻測試數據量的提高在實驗中對于模型準確性反而造成了不必要的擾動。經過觀察發現更低的幀率可以一定程度上解決上述兩個問題，不但提高精度，而且還降低計算成本，因此選擇將所拍攝畫面的幀率和分辨率等倍縮小成720p/30fps的數據。

表1 拍攝內容

3.1流程(圖1)

圖1 數據處理流程圖

3.2 Openpose框架

使用Openpose對拍攝畫面進行分析和姿勢判定，設定最大推斷人數為1。在過程中人物的骨架信息被嵌入到輸出畫面中(圖2)，并以單幀的形式輸出人物骨架的關節點信息。推斷結束后，得到帶有骨架圖像的視頻和連串的json序列，每個json文件中中包含人數、身體部位等屬性以及關節數據的一維矩陣。這個一維矩陣包含了25個關節點的x,y值絕對坐標值，以及推斷對應關節點x,y值的權重系數，共75個特征參數。

圖2 左邊為原始視頻的縮略圖，右邊為經過Openpose推斷后視頻的縮略圖

3.3 json序列轉化為csv文件

Openpose輸出的數據是基于幀的單個json文件，在訓練模型時，需要多次讀取數據，這會耗費不必要的時間，同時，當把時序信息作為訓練特征的一部分時，單幀輸入的數據會造成不利于模型訓練的問題。因此在此次試驗過程中，各個視頻導出的json序列里的一維都被逐個提取出來，各自存放在一個csv文件中，最終每個視頻得到的數據序列是一個二維數組，行是單幀的關節點信息，列為幀序列信息。

圖3 json文件序列轉換為單個csv文件

圖4 關節坐標序號對應圖

3.4數據標注

在得到數據之后，首先需要對原始數據進行以幀為精度的標注，神經網絡才會根據標注的值去“學習”當前特征數據所處的狀態，并通過前向傳遞與反向傳遞算法擬合這批特征數據形成模型。另外需要特別提及一點，在此進行數據標注所選用作為標注依據的關節點，與模型訓練過程中所選擇的關節點沒有直接的關系，模型擬合的趨勢是由特征值自己本身數據導向的。

實現思路如下：將人物的運動抽象為左腳周期與右腳周期，左腳周期開始于左腳落到地面上的對應幀f，左腳周期結束于右腳落到地面上的對應幀f，并開始右腳周期，例如剛剛例子中左腳周期的幀數為n。圖4是骨架關節點的號碼對應圖，本次研究中筆者使用[j～j]來表達0～24號(共25個)關節點。左腳參照的關節點選擇[j,j,j,j,j]作為標注依據，右腳參照的關節點選擇[j,j,j,j,j]為標注依據，當左腳[j,j,j,j]關節點接觸地面時，開始右腳周期，[j,j,j,j]關節點接觸地面時，結束右腳周期，開始新的左腳周期。左腳周期中所包含的所有幀都用0作為標注值，右腳周期中所包含的所有幀都用1作為標注值，最終圖像腳步識別的問題就被簡化為二分類問題。

通過純圖像識別關節點的位置會有輕微波動，在標注過程中，所用到的關節點都作等權重處理，所有關節點都會被用于狀態判別，這樣能縮小姿態推斷過程中骨架數據的輕微波動帶來的影響。

圖5 方框內為手動標注內容，“1”代表這部分數據正處于右周期

3.5數據預處理

經過Openpose獲得的原始數據能提供75個輸入特征，關節點的坐標數值較大，各關節點x值的區間在[0,1280]，y值區間在[0,720]，推斷過程中的權重值c的區間在[0,1]之間，各點關系是離散的，這對模型擬合有極大影響(若不經任何處理，直接將原始數據用于訓練，模型在測試集上表現正確率為40%～60%)。為了提高模型的精確度，在數據輸入之前，需要提前做一些預備處理，此外，考慮到使用的機器學習模型包括SVM和MLP，這兩者對輸入特征的數據相對敏感，亦需要人為減少無用特征。

3.5.1特征提取

在訓練開始前，需要預估某些特征值的作用，并將無用的特征值刪除。在本次研究中，對于人物腳步，由Openpose推斷所得的權重值c并無用處，經過實驗和觀察(可參考本文4.2)，代表x值的特征以及頭部的特征對模型擬合沒有太大的意義，因此也將其刪除。

在本次研究中，筆者并沒有加入深度學習的算法，MLP或者SVM算法很難對畫面內部信息進行特征提取。每一個關節點都是絕對的坐標值，意味著人物在畫面中從左向右移動，關節點的x值會逐漸增大，人物在畫面中上下移動時，y值會產生一些噪聲。通過下面的方法，可以將x,y的絕對坐標值轉化為相對坐標值：

x=x-x

y=y-y

x表示關節點1坐標的x值，x表示關節點8坐標的x值，y表示關節點1坐標的y值，y表示關節點8坐標的y值(圖4)，x, y表示計算的出的參照點對應的x,y值，y表示原始絕對坐標值，y表示的是相對坐標值。關節點1與關節點8的中間連線代表了人物骨架的軀干部分，處于整個骨架的中心位置，所以將軀干部分的中點設置為參照點。這種處理方式可以近似看作將人物從畫面中分割出來，并得到各關節點于參照點的相對位置(圖6)。

圖6 將人物從畫面中分割，獲得參照點

3.5.2算數插值

由于Openpose推斷出人物畫內部分的姿態，人物身體部分被遮擋或者超出畫面時，這部分關節點的數值會被0填充，導致這部分的數值變成離散值，亦會影響模型的擬合。故使用以下方法對缺失幀f進行填充：

其中，f表示第n幀的數值，f表示第n-2幀的數值，f表示第n+2幀的數值。需要特別說明的是，在研究階段的初期，希望盡可能研究典型狀態得到收斂結果，對于在長時間段的關鍵點缺失問題暫時排除在本次研究范圍之外，因此采用了最簡單的插值算法，只補充2幀以內的數據缺失。這對于目前的數據集是可行的，但是一旦出現3幀或以上的數據缺失，這種降噪方式范圍反而會給整個數據集加入更多的干擾噪聲。另外，插值算法即使補全了缺失的值，依舊會對模型的準確度產生影響。

3.5.3歸一化

歸一化是一種線性變化，可以將樣本的特征值映射到[-1,1]或[0,1]的區間內。這種變化對數據改變合并不會造成數據失真，還能提高數據在模型擬合中的效率，而且這種變換不會改變原始數據的數值排序。數值歸一化以后，能加快梯度下降的求解速度，而且避免了因為特征值過大權重值偏移而導致過擬合。

骨架中的各個關節點對應的坐標所在的數值區間各不相同，在此研究中，經過得到各個關節點與x, y的相對坐標值，例如頭部的坐標點和腳步的坐標點的相對距離會更大，肩部坐標點與胯部坐標點的相對距離會比前者要小，手部的坐標點與胸部坐標點的相對距離甚至會更小。不同特征的數值區間分離過大時，在模型訓練的過程中每個參數學到的權重值很可能會偏移，所以需要通過歸一化將各個特征值歸一到一個相對數值比較小的區間中。

在本次研究中使用了均值歸一化：

方法(1)Mean Normalization

在實驗的過程中還嘗試了另外兩種歸一化方法：

方法(2)Min-Max Scaler

方法(3)Robust Scaler

Robust Scaler用到了四分位數的思路，Q(m)等于該樣本中所有數值由小到大排列后排在1/4位置的數字，Q(m)等于該樣本中所有數值由小到大排列后排在3/4位置的數字。

當前研究中輸入特征為稠密矩陣，各個輸入特征數值差距比較大，后兩種歸一化方法在原理上不太適合，且經過多次對比測試后，發現使用均值歸一化處理過的數據做訓練的模型，推斷結果的正確率平均高出2%～3%。

另一方面，在畫面中人物也會在畫面縱深方向移動，這意味著在同一段視頻內，如果人物在其中是縱深移動，點與點的絕對距離會根據近大遠小的規則變化，這相當于也在時序軸上加入了不可忽略的噪聲。在輸入數據之前，通過如下一種歸一化方法將這部分噪聲去除：

|jj|表示關節點1、8之間的距離，也就是軀干部分的長度。在畫面內人物遠近移動時，身體各部分可視作在同一焦平面上，即各個部分點與點之間的距離比值幾乎是一致的，因此可將|jj|用作縮放系數。每一幀各個點與參考點的距離經過除法運算以后，由于遠近而帶來的數值波動能較好消除。

4模型選擇與訓練

4.1訓練工具與模型的選擇

本次試驗中，筆者選擇scikit-learn這個機器學習庫。scikit-learn是一個python的機器學習庫(以下簡稱為sk-learn)，提供了多種機器學習模型以及數據處理方法。在訓練中我們從sk-learn庫中選取了兩種機器學習任務中較為常用的模型：支持向量機(SVM)和多層感知器(MLP)。此外，筆者借助numpy庫的numpy.array作為數據在訓練過程中的承載方式，所有的操作都以numpy.array的形式操作。

訓練過程中以一幀作為一個單位樣本，目的在于通過每一幀的關節坐標信息來判定畫中人物腳步所在的運動周期是左還是右。在訓練過程中將人物的運動方式分為以下幾類分別進行訓練：

(1)固定機位，四向人物位置固定的腳步運動；

(2)固定機位，人物向縱深位置的腳步運動；

(3)固定機位，人物在畫面中從左向右/從右向左移動；

(4)機器跟隨人物，人物正面向前移動；

(5)機器跟隨人物，人物背面向前移動；

(6)機器跟隨人物，人物側面向前移動。

4.1.1支持向量機(SVM)

SVM是在分類與回歸分析中分析數據的監督式模型與學習的二元分類的廣義線性分類器，它的決策邊界是對學習的樣本求解最大邊距超平面。學習權重值分別選擇[0.1,1,10,100,200]。

4.1.2多層感知器(MLP)

MLP是人工神經網絡的一種，使用計算機構成一個一個的神經元，多個單元組成單層的神經層，再由多個神經層連結起來組成多層的神經網絡。神經網絡的設計思路來源于人的大腦皮層，以此模仿人腦的思考方式。

在全連接神經網絡的實驗中，共有20個輸入單元，3個隱藏層，各個隱藏層的神經元個數分別為[20,20,10]，輸出單元為1個，激活函數為ReLU，學習速率分別選擇a= [0.001,0.01,0.1,0.5]。由于樣本數量比較少，在訓練過程中一次性將所有的樣本都用于模型的訓練，不設置批次大小。

4.2訓練流程

在訓練開始前，所有的數據都會采用邏輯回歸模型用于基本二分類收斂測試，首先觀察通過邏輯回歸處理的數據集模型是否有收斂傾向，確認有數據集有收斂傾向，再考慮進行剩余模型的訓練。由于實驗是二分類問題，正確率高于50%+10%即視為有收斂傾向。

在訓練開始時，先將csv文件導入到python項目中，使用numpy.array構建一個矩陣承載數據，矩陣的結構與csv文件數據的結構是一致的，行為單幀的關節點信息，列為幀序列信息。

sk-learn提供的MLP與SVM(在SVC類下)方法獲得訓練數據的方式是一樣的，因此不需要單獨為這兩種模型重新構建數據結構。模型會將每一行視為單幀樣本，將每一行的各個元素視為一個輸入特征，當第一個樣本擬合結束后，會自動跳入到下一個單幀樣本，讀取下一個樣本的元素。我們將已標注的數據集分成兩類：一類叫做訓練集，另一類叫做測試集。訓練集用于MLP與SVM模型的訓練，測試集用于評判模型擬合的效果，得出正確率的值可以作為預處理方法和模型魯棒性優劣的參考。

4.3幾種不同的思路

在模型訓練過程中，嘗試了組合不同預處理方法的訓練集。各種組合對于訓練結果的正確率影響不同，其中包括對x,y輸入特征和各個關節點選擇的取舍，取舍原因在文中3.5提及。根據觀察判斷，與下半身相關的關節點會對結果產生直接影響，而腳步運動在畫面中也可以抽象為垂直運動，亦可以預測y值會比x值重要。根據多次實驗得到的結果確實可觀察得出，經過降噪與歸一化后的數據用于處理有利于模型擬合。

在實驗中所用的數據表示見表2。

表2 縮寫及對應輸入特征關節點

下文列舉出幾個數據選擇和處理的典型：

4.3.1不經過任何預處理，特征提取

圖7

不經過任何數據預處理，輸入特征為[x,y],[heel joints]/[x,y],[ankle joints]，在固定機位的所有組的測試集表現上正確率平均在92%，但是在跟隨機位的所有組的測試集表現上正確率平均只有65%。這意味著這個模型對于任何運動場景的泛化能力都比較差，而且如果一旦所選的這兩個關節點信息因為遮擋有大段缺失時，模型就失去了推斷的能力。

4.3.2只進行歸一化，特征提取

表3 不同關節點的準確率

輸入特征為[x,y], [10 joints]/[8 joints]/[left/right joints]/[ankle/heel joints]，采取均值歸一化策略，訓練出來的模型，雖然在固定機位所有組訓練得到的平均正確率區間在[79%-91%]，但是在跟隨機位所有組的表現能力不佳，平均正確率見表3。

其正確率甚至低于邏輯回歸的分類正確率，故舍棄這個方法。

4.3.3部分降噪,歸一化、特征提取、刪除x值

輸入特征為[x,y]/[y], [20 joints]，插值補全空值，采取均值歸一化策略，訓練出來的兩個模型中，包含[x,y]的兩個值的模型在人物出現畫面左右移動的模型里，正確率只有40%，即使是在固定機位縱深運動中人物也會有左右偏移，模型的精確率相比之前降低了20%。但是這些問題都伴隨[x]值被刪除得以改善，那些正確率只有40%模型，在刪除[x]輸入后重新訓練，正確率回到了75%，而固定機位縱深運動中由于人物帶來20%下降也被消除。故在本階段研究中將[x]值刪除。

4.3.4完全降噪，歸一化、特征提取、刪除x值

考慮到之前所有的訓練測試都沒有去除人物在畫面中所在位置對數據帶來的影響，因此才加入了新的降噪方法(見3.5.2的第二個降噪方法)。輸入特征為[y], [20 joints]，插值補全空值，采取均值歸一化策略，訓練出來的模型對于模型的正確率提高了10%左右。

圖7展示了經過各步數據預處理方法數據精度提高的變化過程，順序為從左至右，從上至下，每個圖標縱坐標為進經過每一步精度收斂后的值，橫坐標為時間(幀)。各圖中不同顏色的曲線代表不同特征值的變化波動范圍。

4.4訓練結果以及精確度

最終方案(參照上文4.3.4)在不同的學習速率/學習權重值下，訓練得到的結果除去人物沿縱深位置人物運動的情況正確率只有70%～80%以外，在別的典型案例中，模型檢測到正確的腳步運動周期準確率都在90%左右。

筆者將已標注的數據集分成兩類：一類叫做訓練集，另一類叫做測試集。訓練集用于MLP與SVM模型的訓練，測試集被用于評判模型擬合的效果，得出正確率的值可以作為預處理方法和模型魯棒性優劣的參考。其結果如圖8所示：

圖8

可以發現，不同的學習權重值c(SVM)和不同的學習速率a(MLP)訓練出的模型會對結果造成比較大的影響。SVM模型在學習權重值c為100時訓練完成的模型，對于不同狀態運動的綜合表現最好。MLP模型在學習權重值a為0.1時訓練完成的模型，對于不同狀態運動的綜合表現最好。

5部署思路

5.1腳步片段素材準備

在本次研究中，尚未嘗試使用自動的方法獲得腳步素材的片段，所以需要人工先從素材庫中找出與畫面中地面材質、鞋子材質符合的腳步素材，并將其切片分割為左、右兩類的素材，對素材文件進行一致性命名，同種材質單只腳保留20個樣本。

5.2利用模型輸出推斷數據的結果自動編寫XML序列

模型推斷得出的數據結果分別為0和1，分別代表左腳周期與右腳周期，通過編寫一個腳本，使得在左右周期切換時標注并記錄對應的幀序列幀數，這可以得到左右腳對應落下時的對應幀。將幀數序列轉換為以nn(frame) /30(frame) s的格式，這樣就可以得到一個包含左右腳交替落下的時間序列，將時間序列編碼成XML序列，同時XML序列中還包含了腳步素材的路徑，以及素材本身的部分元數據。

程序選擇腳步素材的過程是隨機過程，將單只腳素材映射為0到19的序列，當程序檢測到需要左腳素材時，程序會使用random方法去從0-19中挑選出一個數值，數值對應的腳步素材的名字與各腳步起始時間點會被添加到XML文件中，往后右腳素材同理重復一遍次流程，如此往復。

5.3 XML序列綁定腳步片段導入時間線

將XML序列導入到支持XML導入的工作站中，以DaVinci Resovle這個軟件為例，軟件會自動將XML中的元數據信息，從對應文件夾中找出對應的聲音素材文件，自動排布在時間線上，完成后再利用DaVinci的媒體文件導出功能，將時間線導出為aaf、omf交換文件格式，就可以進入正常的工業流程了。

6實驗的局限與展望

本次實驗的不足主要體現在以下三個方面：

首先，在判定的過程中，需要事先采用人工的方式，考慮人物不同運動狀態以及攝影機運動的狀態，分別進行模型的訓練才能保證模型用于預測時的精度，自動化和智能化程度尚待進一步提高。

其二，由于聲音素材的現狀，智能化元數據標注還非常不完善，所以在實際應用環節上還需要通過手動指派素材類型的XML文件，很大程度上失去了大規模工業化的實用性。

第三，由于目前使用的神經網絡相對比較簡單，自發提取骨架特征難以實現，也從一定程度上影響了這個方法的大規模部署。

因此，在后續的研究中，可能會考慮在以下幾個方面進行優化和改進：

首先，更換神經網絡模型，大幅度提升性能，如使用GCN網絡使得計算機能“讀懂”骨架每一部分的含義，以及各部分對腳步落下影響大小的權重值，這樣能大幅提升模型的魯棒性以及精確度，當骨架某些部分被遮蔽時，計算機也可以依靠別的部分去推斷腳步落下的狀態。另一方面，GCN網絡還能根據骨架進行別的動作的判定。

第二，對于畫面中識別對象長時間消失(如某一只腳)而造成的數據缺失，因人的步伐頻率相對固定，除了采用前一個方法外，其實還可以嘗試只使用一只腳作為依據，直接機算另一周期所包含的幀。

注釋

①ImageNet: A large-scale hierarchical image database. ImageNet: 一個大規模層級的圖像數據庫 Jia DengSocher, Li Fei-Fei, Wei Dong, Kai Li and Li-Jia LiR. Miami, FL, USA: IEEE Computer Society, 2009.[C]2009 IEEE Conference on Computer Vision and Pattern Recognition(CVPR). pp. 248-255.

②Scikit-learn: Machine Learning in Python. Pedregosaand Varoquaux, 開源項目G. and Gramfort, A. and Michel, V. and Thirion, B. and Grisel, O. and Blondel, M. and Prettenhofer, P. and Weiss, R. and Dubourg, V. and Vanderplas, J. and Passos, A. and Cournapeau, D. and Brucher, M. and Perrot, M. and Duchesnay, E.F. 2011, Journal of Machine Learning Research, pp.2825-2830.

③nn代表在整個序列的所在幀數，30代表視頻的幀速率，s為單位(秒)。