基于數據挖掘的海量信息多媒體過濾技術研究與應用

2019-10-23 03:20:26孫小杰

微型電腦應用 2019年10期

孫小杰

(陜西鐵路工程職業技術學院信息化建設與管理中心, 渭南 714000)

0 引言

近年來，隨著網絡技術飛速發展，大數據環境下海量多媒體信息過濾技術已成為網絡技術一個研究熱點。海量多媒體信息過濾系統通常被設計成便于快速檢索多媒體信息以滿足不同人群的短期需求。他們通過直接或間接從用戶獲取信息來實現個性化的目標。在多媒體信息過濾系統中，這些大數據信息需求被表示為用戶的興趣概況，并可根據用戶的反饋進行修改。信息檢索系統通常在相對靜態的多媒體信息集上運行，而信息過濾系統通常關心從不斷變化的多媒體信息流中識別相關多媒體信息。

本文針對海量多媒體信息過濾的基本問題進行了分析并通過實驗進行了驗證。在信息過濾系統需求的調查中，確定了相關功能并對其進行了抽象表達。在此之后，對所得系統的性能進行了嚴格的實驗分析，以驗證主要功能對整個過濾過程的影響。信息過濾系統的主要目標是執行從多媒體信息空間到用戶相關性值空間的映射。反過來，這種映射可以分解為多級過程，分類、篩選和配置文件管理的子問題。用戶對系統操作的干預必須最小化，也就是說，系統應盡可能依靠自動化技術來獲取有關多媒體信息和用戶的信息；當面對文件或用戶信息需求的變化時，系統必須快速調整，而且性能幾乎沒有退化。

1 多層次信息過濾

本文提出一個通用的過濾模型。作為一種降低復雜性的方法，該模型的體系結構包含多層次的功能分解，并通過模塊化提升通用性。它幾乎可適用于任何涉及表示、分類和檔案管理的基本任務。學習的思想是過濾過程的核心。學習技術具有高度的適應性，同時可最大限度的減少用戶干預。我們應用學習技術來獲取有關多媒體信息和用戶的信息。為了支持適應多媒體信息流中的更改，使用無監督的集群發現方法。強化學習算法因其低開銷的特性被用于獲取用戶興趣概況。我們將所有功能集成到一個完整的工作系統中，在真實世界的過濾應用程序中進行涉及人類用戶的研究，并系統地分析各種用戶和系統相關參數對過濾性能的影響。

1.1 過濾模型

如圖1所示。

圖1 過濾過程模型

有3個重要且獨立的實體構成過濾環境。分別是多媒體信息采集，過濾器和用戶。文件可能存在于各個模塊，并可能由用戶通過不同的渠道接收。在過濾之前存儲這些多媒體信息的任務由多媒體信息采集和管理(DAM)的組件處理。多媒體信息采集和管理是過濾器的獨立組件，其實際設計可能因環境而異。例如，多媒體信息采集和管理的核心就是可以從指定站點檢索多媒體信息的Web爬蟲實用程序，維護索引文件的守護進程，甚至是復雜的DBMS。無論多媒體信息采集和管理(DAM)的構造是什么，當被調用時，它都會產生流入過濾器的多媒體信息流。為了避免不必要的概念分析，1)陳述管理子模塊將被用于僅為那些對用戶感興趣的域選擇概念；2)分類器模塊為每個多媒體信息標識其對應的多媒體信息類或組。3)檔案管理模塊利用由子模塊生成的分類方案作為離線過程。過濾器中類的空間必須小于輸入多媒體信息空間。

檔案管理員模塊具有維護準確的興趣檔案和應用檔案以評估檔案相關性的雙重作用。簡檔表示構成關于過濾器所使用的多媒體信息類別的用戶偏好的信息，這種偏好信息可以以各種方式獲得。從機器學習文獻中可以看出，最好的自動輪廓獲取方法依賴于用戶的相關反饋。無論最終選擇何種方法，用戶應始終可以選擇直接輸入或修改其配置文件中的值，以確保過濾器的透明度。這里值得注意的是，由于嚴格強調類空間，可能會出現語義相關的多媒體信息分配給不同的類。但是，由于配置文件學習總是通過一組類來進行，所以對整個多媒體信息排名影響甚微。學習配置文件后，系統對語義相關的類進行大致相同的處理，以便進行排序。

在對過濾器進行建模時，還找出了調整過濾器的方法，以便定制和改進過濾器的性能。配置文件管理器經常進行調整。適用于配置文件管理器模塊的一種重要調整類型是當用戶的興趣因某些外部環境而變化時，避免配置文件降級。由于這種情況可能會對過濾器的性能產生直接影響，因此最好自動處理。這需要對用戶的反饋進行持續監控，并盡可能快地預測變化。我們將此調整操作顯示為配置文件管理器模塊的子模塊。分類方案的結構，大小和內容也會對過濾器的行為產生重大影響。這種方案通常使用培訓文件集(一個龐大而具有代表性的文件集)生成。

1.2 神經網絡決策模型

決策系統中神經網絡決策模型有兩個作用，第一是對海量多媒體信息數據進行學習，第二是依據學習到的結果，再輸入數據時候，能夠得出正確的判斷。如圖2所示。

圖2 三層前向神經網絡結構

為三層前向神經網絡結構，該神經網絡模型是在對決策系統進行建模后，解決大數據環境下海量多媒體信息過濾技術方法問題。

以一個簡單的神經網絡結構為例：

Step1：神經網絡從左到右對應的Layer為L1，L2，L3，記Li中從上往下數的第j個神經元為uij。

Step2：記Li對應的神經元個數為ni(例如:n1=3、n2=5、n3=2)。激活函數、偏置分別為φi、b(i)(注意b(3)其實不會被用到)。

(1)

Step4：記Li對應的輸入、輸出為u(i)，v(i)。

Step5：記模型的輸入、輸出集為X、Y樣本數為N，損失函數為L：一般我們會要求L是一個二元對稱函數，亦即對于L的輸入控件中的任意兩個向量(矩陣)p，q都有式(2)。

L(p,q)=L(q,p)

(2)

那么上述神經網絡的前向傳導算法的所有步驟即為(運算符“×”代表矩陣乘法,采用Step2的數據)：

u(1)=X、v(1)=φ1(u(1))，注意u(1)，v(1)都是N×3矩陣；

u(2)=v(1)×w(1)+b(1)、v(2)=φ2(u(2))

注意w(1)是3×5的矩陣，所以u(2)，v(2)都是N×5維矩陣；

u(3)=v(2)×w(2)+b(2)、v(3)=φ3(u(3))

注意w(2)是5×2的矩陣，所以u(3)，v(3)都是N×2維矩陣。

建立神經網絡決策模型首先要對大數據環境下海量多媒體信息分類，基于道路復雜不可預測的特點，有效利用神經網絡權值參數，對神經網絡做出隨時的調整，滿足人們能獲取有用的多媒體信息。

1.3 貝葉斯定理

貝葉斯定理是一個學習定理，貝葉斯定理基礎是基于條件概率分布和邊緣概率分布。

P(B2)P(A/B2)+…+P(Bn)P(A/Bn)

(3)

貝葉斯公式:設試驗S的樣本空間為E，A為S的事件，B1，B2，…，Bn為E的一個劃分，且P(Ai)>0，P(Bi)>0(i=1，2，…，n)，則有式(4)。

(4)

然而，多媒體信息流的內容可能隨時間充分變化，以要求重新生成分類方案。這種類型的調整不太必要，可以由分類器的子模塊進行(使用最后n個多媒體信息作為新的訓練集)。最后，敘詞表的結構和內容可能直接影響多媒體信息表示，從而影響其余的過濾過程。當某領域發生重大變化(通常發生得非常緩慢)時，需要調整操作來更新同義詞庫以適應這種變化。我們將這些操作顯示為代表模塊的子模塊。

2 過濾實現

作為模型實用性研究的一種方式，我們實現了一個名為可執行過濾模型的過濾系統，它包含了上一節描述的主要組件。我們現在詳細描述這些組件。我們從可執行過濾模型的過濾部分開始，主要關注3個組成模塊。

2.1 矢量空間模型的多媒體信息表示

過濾器的第一個組件需要將多媒體信息轉換為可以高效解析的結構，而不會丟失關鍵內容。選擇矢量空間模型進行多媒體信息表示，因為它經過了廣泛的測試，并且通用性足以滿足過濾環境的其他計算要求。過濾器核心是從代表特定領域的權威來源挑選的一組技術術語或概念。同義詞管理子模塊也用于修剪常用的功能詞，以及幾個詞規范化任務。

使用具有充分代表性的文獻集合作為基礎，離線生成包含詞庫中所有詞語的總頻率的表格。一個單獨的和有代表性的多媒體信息庫在過濾中效果顯著，因為傳入的多媒體信息流有時只能包含幾個多媒體信息。系統運行于在線過濾器應用程序模式下，將生成另一個表格，其中包含新到達多媒體信息中找到的所有唯一術語的頻率。然后，根據兩個表中的值，使用以下等式為每個多媒體信息中的術語導出適當的權重如式(5)。

Wik=Tik×log(N/nk)

(5)

其中Tik是多媒體信息i中Tk項的出現次數;Ik=log(N/nk)是多媒體信息庫中Tk項的逆多媒體信息頻率;N是多媒體信息庫中多媒體信息的總數;而nk是包含給定項Tk的基數中的多媒體信息數量。

2.2 文件分類模塊

分類模塊主要由兩個處理階段組成：無監督集群學習階段和矢量分類階段。在學習階段，初始集群假設[C1,…,Ck]由多媒體信息向量[S1,…,Sk]的代表性樣本生成。然后每個集群Ci由其質心Zi表示。在分類階段，輸入多媒體信息矢量Vi使用從階段1學習的質心分類到特定類別Ci中。群集質心的學習以離線批量模式完成，而分類在多媒體信息到達時連續執行。

一種簡單的啟發式無監督聚類算法，稱為Maximin-Distance算法，目前用于確定多媒體信息向量空間上的質心。在該算法中，質心是以迭代方式生成的。在每個階段，數據集中的一個點(多媒體信息)被選中，與現有質心的距離最大。任何多媒體信息與現有質心的距離又是其在所有質心上的距離的最小值。只有當它與現有質心的距離是先前最大距離的可觀分數時，才會將選定點作為新質心添加。用于此分數的閾值確定聚類的粒度和數量。在聯機操作期間，分類模塊僅將輸入多媒體信息矢量Vi分類為屬于其質心與多媒體信息矢量具有最小距離的類別。然后將對應于每個向量的結果分類信息傳遞給用戶簡檔學習模塊。

用于計算兩個多媒體信息向量之間距離的度量是余弦相似度度量。給定兩個非空多媒體信息向量X=[x1,…,xt]T和Y=[y1,…,yt]T，這樣的相似性度量表示它們之間角度的余弦，可描述為式(6)。

(6)

然后將距離計算為1減去相似度。當一個或兩個向量相同時為零(意味著相應的多媒體信息不能用給定的同義詞庫表示)，不需要進行距離計算，因為所有這些向量按照慣例被分配到一個稱為“others”的特殊類。

2.3 用戶檔案學習模塊

用戶簡檔學習模塊的功能是確定用戶對不同類別的信息Ci(i=1，…，k)的偏好并且基于它們的類別以及對類別的估計用戶偏好來優先化導入文件。為了完成此任務，學習代理根據相關性反饋來維護和更新用戶的簡化模型。令di表示類Ci的潛在(未知)預期用戶偏好。學習代理維護并更新維數等于類數的兩個向量。第一個是估計的相關概率向量，其中元素di(i=1，…，n)是di的估計。第二個是動作概率向量pi，使得pi表示類別Ci被過濾器選擇為最相關類別的概率。在學習過程中，根據用戶相關性反饋，p和d向量都會不斷更新。

學習代理在每次迭代中對輸入多媒體信息進行排序，首先對p向量進行采樣以選擇要在頂部呈現的類。其余的類根據相應的d值進行排序。p向量的元素都被初始化為1/k的值，其中k是類的數量。因此，在開始時，所有類都有可能被排在最前面，因此可以接收用戶的注意力和相關性反饋。這使得以d矢量的形式充分準確地學習用戶模型。隨著學習的進展，p向量中的一個元素(對應于最相關的類)接近1的值，而其余元素趨于零。同時，d向量的元素接近d。因此，在足夠長的學習時間之后，多媒體信息的排名根據用戶對于相應類的關聯嚴格執行。

學習算法(即，用于更新p(k)和d(k)的算法)簡要描述如下。在任何時刻，di(k)(i=1，…，n)是用戶對屬于類別i的多媒體信息給出的相關性值的移動平均值。將d向量的當前最大元素表示為具有索引l，則創建維度n的單位向量E(k)，其維度n的第1個元素是1，并且其所有其他元素都是0。然后pi(k)(i=1，…，n)被更新為式(7)。

(7)

其中0

有兩點值得強調。首先，收斂后的d向量表示用戶興趣的簡化模型。在實踐中，用戶總是可以選擇為每個類指定其興趣。在這種情況下，d向量的元素以用戶提供的值進行初始化，并且學習過程可以僅被看作是擴大用戶提供的簡檔。其次，通過一組C類進行的配置文件學習可以將語義相關多媒體信息分配給不同類的效果最小化。假設用戶感興趣的多媒體信息被分配到兩個不同的類。在一段時間內(在了解配置文件之后)，語義相關的類將被大致同等地處理以用于排名目的。因此，用戶將在頂部一起看到相關多媒體信息。在這里，從用戶的角度來看，多媒體信息來自兩個不同的類別并不重要。

3 總結

海量多媒體信息過濾技術在面對海量數據時會出現處理效率低、資源浪費大、運行成本高等缺點。本文利用數據挖掘技術，提高了多媒體信息過濾平臺的性價比，面對海量信息也能發揮其良好的處理能力，進一步提高了處理海量數據的性能。信息過濾，即根據特定用戶的興趣對傳入多媒體信息進行排序和展示，是一種面向用戶的服務，其重要性只有在越來越多的用戶開始利用通過電子媒體提供的大量信息資源時才會顯著增加。為了提供有效的面向用戶的過濾服務，必須處理與多媒體信息的表示和分類相關的不確定性以及用戶的興趣。

在本文中，討論了信息過濾系統的一般模型，該模型描述了各個子系統所需的廣泛功能。該模型允許在給定的上下文中使用任何首選的方法來實現功能。該系統的一個特殊實現稱為可執行過濾器模型，用于過濾多媒體信息。可執行過濾器模型的當前工作版本涉及了應用和集成幾種眾所周知的用于多媒體信息表示，聚類，用戶配置文件學習以及檢測用戶興趣變化的技術。已經提出了涉及真實用戶和模擬用戶的研究來說明可執行過濾器模型的性能等完善的標準進行測量，以及各種設計參數對性能的影響。整體模型的一般模塊化特性允許將來在必要時無縫集成這些功能。能夠得到比較全面的知識庫，不僅提高了海量多媒體信息過濾階段的可靠性，還使實驗性能評價指標有了很大的提升。