學習資源智能標注系統的設計與實現

2018-05-02 08:29:56周菊明張良龍

中國教育信息化 2018年7期

周菊明，張良龍

（1.蘇州市園區教師發展中心，江蘇蘇州 215000；2.蘇州百智通信息技術有限公司，江蘇蘇州215000）

引言

在海量的學習資源中，用戶如何精確檢索到想要的資源是在線學習平臺必須解決的問題。如何讓資源附帶更準確、更豐富的標注信息，使其能被精準地推送給用戶，則是在線學習平臺必須解決的另一個問題。

通常，學習資源一般都具有一些共同的屬性，如學段、年級、學科等。這些屬性，有一定的排他性，可以輔助用戶檢索。但是，僅僅有這些屬性還不能夠解決上述兩個問題。一方面，通過這些屬性進行檢索，還不夠精確，因為同時具備某一類屬性（如同一學段、同一年級、同一學科）的資源還可能有很多；另一方面，這些屬性是共同的屬性，不能夠使被標識的資源具有獨特性。所以我們設想，如果資源能夠有幾個關鍵詞標注，那么問題就可以得到較好的解決。

傳統的標注任務一般由用戶手動完成，即直接由用戶在上傳學習資源時，對資源進行手動的關鍵詞標注。這種方式固然有效，但是給上傳者帶來了痛點，上傳者必須有足夠的耐心和時間提煉出資源的關鍵詞進行標注，一旦標注不到位，出現偏差，就會影響資源使用的效度和信度。

鑒于以上情況，我們開始了學習資源智能標注系統的研究。該系統在用戶上傳資源之后，提取出資源文字內容，并對其分詞，提取出關鍵詞，進行智能化的自動標注。

一、系統架構

在線學習平臺上的資源多以視頻類資源和文檔類資源為主，本文也只以這兩類資源作為研究對象。視頻類資源主要是由音頻和一系列圖片組成，而文檔類資源主要是由按照一定規則排版的文本、圖片組成。不論是哪種資源，其核心內容的載體都是文字，圖片只起輔助理解的作用，不作為智能標注系統的采集參照依據。

1.流程設計

用戶上傳學習資源時，為了能夠在HTML頁面正常播放，需要對資源進行轉碼，轉碼的過程中可以提取出資源的內容。其中，視頻類資源提取出音頻，進而對音頻進行語音識別成文本；而文檔類資源可以直接提取出文本。

基于上述情況，我們對學習資源智能標注做了如圖1所示的設計。

圖1 學習資源智能標注設計

2.架構設計

基于上述流程設計，我們對整個系統的架構進行了如圖2所示的設計。

圖2 系統的架構設計

（1）對外視圖：用于整個系統與用戶的直接交互，是產品的最終呈現形式。

（2）內部網關：負責整個系統中各個服務引擎之間的API通信，起到橋梁的作用。

（3）核心引擎：是整個系統的核心。依據功能劃分出“語音識別引擎”、“轉碼服務”、“文本分析引擎”三個功能模塊，每個功能模塊只負責相應的功能。至于對功能模塊如何組合調度，則是上層服務根據具體業務邏輯來進行調用。

（4）基礎架構：為整個系統提供各種軟硬件資源，包括數據存儲、文件存儲和計算等。

（5）監控系統：對整個系統各個層級、各個模塊進行監控。

二、技術實現

1.轉碼服務

（1）視頻轉碼技術

視頻轉碼是將已經壓縮編碼的視頻碼流，轉換成另一個視頻碼流，以適應不同的網絡帶寬、不同的終端處理和不同的用戶需求。轉碼本質上是先解碼再編碼的過程。[1]本文使用FFMPEG技術來實現轉碼服務，FFMPEG支持 MPEG、DivX、MPEG4、AC3、DV、FLV 等 40 多種編碼，AVI、MPEG、OGG、Matorska、ASF 等 90 多種解碼。除了視頻轉碼技術外，FFMPEG還集成了視頻采集、視頻格式轉換以及音頻提取等強大的功能。

（2）文檔轉碼技術

文檔轉碼技術是將各種文檔轉變格式得以在html頁面上顯示。本文采用的文檔轉碼技術主要有“Microsoft TechNet”和“icepdf”。其中，“Microsoft TechNet”是將各種文檔轉換成pdf文件，而“icepdf”則是將轉換后的pdf文件轉換為jpg圖片。

（3）提取文本

用戶上傳文檔后，后臺服務會將文檔原文件保存后，以發送“Microsoft TechNet”和“icepdf”命令的方式對其轉碼，同時利用“java poi”工具提取文本。

2.語音識別引擎

語言識別引擎是整個系統核心中的核心，主要功能是將音頻智能識別后輸出為對應的文本。但在開始識別前，有兩個前置的功能需要先做好，即“去除靜音段”和“降噪處理”。

（1）去除靜音段

本文采用雙門限法對靜音進行檢測，雙門限法同時存在四個門限值，分別是短時能量的低門限和高門限，短時過零率的低門限和高門限。[2]

語音信號中第n幀的短時能量為：

其中，x（m）表示語音信號，ω（n-m）表示相應的窗函數，N表示幀長。

語音信號中第n幀的短時過零率為：

其中，sgn[]為符號函數，即：

當En

（2）降噪處理

在背景噪聲較大的情況下，噪聲段的短時過零率要大于語音段的短時過零率，因此通過短時過零率可以有效地從背景中檢測出語音段。所以，我們可以得到：在背景噪聲較小的情況下，采用短時能量能夠較好地檢測出語音段；在背景噪聲較大的情況下，采用短時過零率能夠較好地檢測出語音段。

（3）語音識別

語音識別功能，大概可表示為圖3所示的結構。

圖3 語音識別功能結構

當前的語音識別技術已經引入了深度神經網絡算法，其框架結構十分復雜。本文所述的“語音識別”技術的實現，使用了第三方科大訊飛的語音識別功能來實現。其主要優勢在：一是能夠識別連續語音；二是識別準確率超過95%；三是可自定義詞庫，提高識別個性化詞條的準確率（如“勾股定理”這樣的專業術語）。

3.文本分析引擎

（1）分詞工具

本文采用的中文分詞系統是開源項目結巴分詞。該分詞系統采用基于Trie樹結構實現高效的詞圖掃描，生成句子中漢字所有可能成詞情況所構成的有向無環圖（DAG)。

（2）關鍵詞提取

本文采用的是TF-IDF算法進行關鍵詞提取。

TF-IDF的主要思想是：如果某個詞或短語在一篇文章中出現的頻率TF高，并且在其他文章中很少出現，則認為此詞或者短語具有很好的類別區分能力，適合用來分類。

在一份給定的文件里，詞頻(Term Frequency，TF)指的是某一個給定的詞語在該文件中出現的頻率。這個數字是對詞數的歸一化，以防止它偏向長的文件。對于在某一特定文件里的詞語來說，它的重要性可表示為：

其中ni，j是詞語ti在文件dj中出現的次數，而分母則是在文件dj中所有詞語出現之和。

IDF反文檔頻率（Inverse Document Frequency）是一個詞語普遍重要性的度量，表示為：

其中，|D|表示語料庫中的文件總數；|{j:ti∈dj}|表示包含詞語 ti的文件數目（即 ni，j≠0的文件數目）。[3]

最后：

TFIDFi，j=TFi，j×IDFi

三、實驗及結果分析

通過在易加互動學習平臺資源上傳模塊中上傳文檔、視頻資源，對視頻和文檔自動標注的各個環節進行驗證、性能分析和結果評述如下。

我們選擇一個本地數學微課視頻進行上傳，上傳完之后后臺服務進行轉碼和語音識別。上傳界面如圖4所示：

圖4 數學微課視頻上傳界面

系統已自動生成標注了“同類項”、“字母”、“相同”、“合并同類項”、“多項式”這五個關鍵詞。通過分析，我們發現系統對轉碼提取的音頻經過語音引擎的識別處理，輸出的文本語音識別準確率在90%～95%。

對以上文本進行分詞后，提取關鍵詞處理，視頻的播放頁面已經顯示了系統自動生成的五個關鍵詞標注，這5個關鍵詞基本滿足預期要求。

同樣，我們選擇一個本地的文檔上傳至學習平臺。當轉碼完成后，該資源的展示頁面，如圖5所示：

圖5 文檔上傳轉碼完成后的展示頁面

通過分析發現系統雖然順利完成了對識別的文本進行分詞后提取關鍵詞處理，文檔的展示頁面已經顯示了系統自動生成的 “等腰三角形”、“探索”、“數學”、“圖形”、“證明”這5個標注的關鍵詞，但并未達到TF-IDF算法的預期效果。其中“探索”、“數學”、“圖形”、“證明”都是文檔出現的高頻詞，而此文檔需要表達的核心關鍵詞如“垂線段與高的關系”等并未標注出來。主要原因可能有：

（1）“探索”、“數學”、“圖形”、“證明” 這幾個詞也可能出現在其他文檔中，由于實驗的文檔樣本過少，導致系統以為這些高頻出現的詞就是需要標注的關鍵詞。隨著用戶上傳的文檔數逐漸增加及通過對用戶人工標注的關鍵詞的學習，智能標注的效度和精度會進一步提高。

（2）由于實驗時自定義詞庫和停用詞庫不完善，導致了如“探索”、“數學”、“證明”這些可以作為停用詞的詞條出現在最終的結果中。隨著自定義詞庫的豐富和停用詞庫的完善，這種現象會逐步改善。

通過實驗及結果分析，不難發現關鍵詞提取的效果與學習資源本身的內容以及詞庫的完備性之間有著較強的關聯性。通過對自定義詞庫中的詞與其他普通詞進行加權，使出現在自定義詞庫中的詞的加權系數高于普通詞的加權系數，不斷升級TF-IDF算法，是有效降低這種關聯性的解決辦法。

四、總結與展望

學習資源的關鍵詞智能標注，除了能夠方便用戶更好地檢索和標識資源的獨特性外，我們還可以有其他方面的運用：

（1）對于一類關鍵詞或幾個關鍵詞經常同時出現在某一文檔中，進行大數據統計分析，進而得到關鍵詞與關鍵詞之間的相似度。有了這個相似度之后，就可以得出新上傳的學習資源屬于哪一學段、年級、學科等屬性的概率值，將概率值最大的關鍵詞作為默認值填到上傳表單中，避免用戶每一次上傳學習資源時都要去填這些屬性，可以有效提高用戶體驗的滿意度。

（2）通過分析學生用戶使用學習資源的行為數據，我們可以對其進行用戶畫像。比如某學生在近一月內對某一類資源觀看較為頻繁，通過對這一類資源的關鍵詞進行匯總和統計，我們可以更為個性化地為其推送其他學習資源。

參考文獻：

[1]趙淑漫.FFMPEG轉碼技術在HTML5視頻系統中的研究與應用[D].東華大學,2014.

[2]Thomas Parsons W.Voice and Speech Processing[M].New York,USA:McGraw-Hill Book Company,1986:10-324.

[3]牛萍.TF-IDF與規則相結合的中文關鍵詞自動抽取研究[D].大連理工大學,2015.