999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于數據挖掘的海量信息多媒體過濾技術研究與應用

2019-10-23 03:20:26孫小杰
微型電腦應用 2019年10期
關鍵詞:分類用戶模型

孫小杰

(陜西鐵路工程職業技術學院 信息化建設與管理中心, 渭南 714000)

0 引言

近年來,隨著網絡技術飛速發展,大數據環境下海量多媒體信息過濾技術已成為網絡技術一個研究熱點。海量多媒體信息過濾系統通常被設計成便于快速檢索多媒體信息以滿足不同人群的短期需求。他們通過直接或間接從用戶獲取信息來實現個性化的目標。在多媒體信息過濾系統中,這些大數據信息需求被表示為用戶的興趣概況,并可根據用戶的反饋進行修改。信息檢索系統通常在相對靜態的多媒體信息集上運行,而信息過濾系統通常關心從不斷變化的多媒體信息流中識別相關多媒體信息。

本文針對海量多媒體信息過濾的基本問題進行了分析并通過實驗進行了驗證。在信息過濾系統需求的調查中,確定了相關功能并對其進行了抽象表達。在此之后,對所得系統的性能進行了嚴格的實驗分析,以驗證主要功能對整個過濾過程的影響。信息過濾系統的主要目標是執行從多媒體信息空間到用戶相關性值空間的映射。反過來,這種映射可以分解為多級過程,分類、篩選和配置文件管理的子問題。用戶對系統操作的干預必須最小化,也就是說,系統應盡可能依靠自動化技術來獲取有關多媒體信息和用戶的信息;當面對文件或用戶信息需求的變化時,系統必須快速調整,而且性能幾乎沒有退化。

1 多層次信息過濾

本文提出一個通用的過濾模型。作為一種降低復雜性的方法,該模型的體系結構包含多層次的功能分解,并通過模塊化提升通用性。它幾乎可適用于任何涉及表示、分類和檔案管理的基本任務。學習的思想是過濾過程的核心。學習技術具有高度的適應性,同時可最大限度的減少用戶干預。我們應用學習技術來獲取有關多媒體信息和用戶的信息。 為了支持適應多媒體信息流中的更改,使用無監督的集群發現方法。強化學習算法因其低開銷的特性被用于獲取用戶興趣概況。我們將所有功能集成到一個完整的工作系統中,在真實世界的過濾應用程序中進行涉及人類用戶的研究,并系統地分析各種用戶和系統相關參數對過濾性能的影響。

1.1 過濾模型

如圖1所示。

圖1 過濾過程模型

有3個重要且獨立的實體構成過濾環境。分別是多媒體信息采集,過濾器和用戶。文件可能存在于各個模塊,并可能由用戶通過不同的渠道接收。在過濾之前存儲這些多媒體信息的任務由多媒體信息采集和管理(DAM)的組件處理。多媒體信息采集和管理是過濾器的獨立組件,其實際設計可能因環境而異。例如,多媒體信息采集和管理的核心就是可以從指定站點檢索多媒體信息的Web爬蟲實用程序,維護索引文件的守護進程,甚至是復雜的DBMS。無論多媒體信息采集和管理(DAM)的構造是什么,當被調用時,它都會產生流入過濾器的多媒體信息流。為了避免不必要的概念分析,1)陳述管理子模塊將被用于僅為那些對用戶感興趣的域選擇概念;2)分類器模塊為每個多媒體信息標識其對應的多媒體信息類或組。3)檔案管理模塊利用由子模塊生成的分類方案作為離線過程。過濾器中類的空間必須小于輸入多媒體信息空間。

檔案管理員模塊具有維護準確的興趣檔案和應用檔案以評估檔案相關性的雙重作用。簡檔表示構成關于過濾器所使用的多媒體信息類別的用戶偏好的信息,這種偏好信息可以以各種方式獲得。從機器學習文獻中可以看出,最好的自動輪廓獲取方法依賴于用戶的相關反饋。無論最終選擇何種方法,用戶應始終可以選擇直接輸入或修改其配置文件中的值,以確保過濾器的透明度。這里值得注意的是,由于嚴格強調類空間,可能會出現語義相關的多媒體信息分配給不同的類。但是,由于配置文件學習總是通過一組類來進行,所以對整個多媒體信息排名影響甚微。學習配置文件后,系統對語義相關的類進行大致相同的處理,以便進行排序。

在對過濾器進行建模時,還找出了調整過濾器的方法,以便定制和改進過濾器的性能。配置文件管理器經常進行調整。適用于配置文件管理器模塊的一種重要調整類型是當用戶的興趣因某些外部環境而變化時,避免配置文件降級。由于這種情況可能會對過濾器的性能產生直接影響,因此最好自動處理。這需要對用戶的反饋進行持續監控,并盡可能快地預測變化。我們將此調整操作顯示為配置文件管理器模塊的子模塊。分類方案的結構,大小和內容也會對過濾器的行為產生重大影響。這種方案通常使用培訓文件集(一個龐大而具有代表性的文件集)生成。

1.2 神經網絡決策模型

決策系統中神經網絡決策模型有兩個作用,第一是對海量多媒體信息數據進行學習,第二是依據學習到的結果,再輸入數據時候,能夠得出正確的判斷。如圖2所示。

圖2 三層前向神經網絡結構

為三層前向神經網絡結構,該神經網絡模型是在對決策系統進行建模后,解決大數據環境下海量多媒體信息過濾技術方法問題。

以一個簡單的神經網絡結構為例:

Step1:神經網絡從左到右對應的Layer為L1,L2,L3,記Li中從上往下數的第j個神經元為uij。

Step2:記Li對應的神經元個數為ni(例如:n1=3、n2=5、n3=2)。激活函數、偏置分別為φi、b(i)(注意b(3)其實不會被用到)。

(1)

Step4:記Li對應的輸入、輸出為u(i),v(i)。

Step5:記模型的輸入、輸出集為X、Y樣本數為N,損失函數為L:一般我們會要求L是一個二元對稱函數,亦即對于L的輸入控件中的任意兩個向量(矩陣)p,q都有式(2)。

L(p,q)=L(q,p)

(2)

那么上述神經網絡的前向傳導算法的所有步驟即為(運算符“×”代表矩陣乘法,采用Step2的數據):

u(1)=X、v(1)=φ1(u(1)),注意u(1),v(1)都是N×3矩陣;

u(2)=v(1)×w(1)+b(1)、v(2)=φ2(u(2))

注意w(1)是3×5的矩陣,所以u(2),v(2)都是N×5維矩陣;

u(3)=v(2)×w(2)+b(2)、v(3)=φ3(u(3))

注意w(2)是5×2的矩陣,所以u(3),v(3)都是N×2維矩陣。

建立神經網絡決策模型首先要對大數據環境下海量多媒體信息分類,基于道路復雜不可預測的特點,有效利用神經網絡權值參數,對神經網絡做出隨時的調整,滿足人們能獲取有用的多媒體信息。

1.3 貝葉斯定理

貝葉斯定理是一個學習定理,貝葉斯定理基礎是基于條件概率分布和邊緣概率分布。

P(B2)P(A/B2)+…+P(Bn)P(A/Bn)

(3)

貝葉斯公式:設試驗S的樣本空間為E,A為S的事件,B1,B2,…,Bn為E的一個劃分,且P(Ai)>0,P(Bi)>0(i=1,2,…,n),則有式(4)。

(4)

然而,多媒體信息流的內容可能隨時間充分變化,以要求重新生成分類方案。這種類型的調整不太必要,可以由分類器的子模塊進行(使用最后n個多媒體信息作為新的訓練集)。最后,敘詞表的結構和內容可能直接影響多媒體信息表示,從而影響其余的過濾過程。當某領域發生重大變化(通常發生得非常緩慢)時,需要調整操作來更新同義詞庫以適應這種變化。我們將這些操作顯示為代表模塊的子模塊。

2 過濾實現

作為模型實用性研究的一種方式,我們實現了一個名為可執行過濾模型的過濾系統,它包含了上一節描述的主要組件。我們現在詳細描述這些組件。 我們從可執行過濾模型的過濾部分開始,主要關注3個組成模塊。

2.1 矢量空間模型的多媒體信息表示

過濾器的第一個組件需要將多媒體信息轉換為可以高效解析的結構,而不會丟失關鍵內容。選擇矢量空間模型進行多媒體信息表示,因為它經過了廣泛的測試,并且通用性足以滿足過濾環境的其他計算要求。 過濾器核心是從代表特定領域的權威來源挑選的一組技術術語或概念。 同義詞管理子模塊也用于修剪常用的功能詞,以及幾個詞規范化任務。

使用具有充分代表性的文獻集合作為基礎,離線生成包含詞庫中所有詞語的總頻率的表格。 一個單獨的和有代表性的多媒體信息庫在過濾中效果顯著,因為傳入的多媒體信息流有時只能包含幾個多媒體信息。系統運行于在線過濾器應用程序模式下,將生成另一個表格,其中包含新到達多媒體信息中找到的所有唯一術語的頻率。 然后,根據兩個表中的值,使用以下等式為每個多媒體信息中的術語導出適當的權重如式(5)。

Wik=Tik×log(N/nk)

(5)

其中Tik是多媒體信息i中Tk項的出現次數;Ik=log(N/nk)是多媒體信息庫中Tk項的逆多媒體信息頻率;N是多媒體信息庫中多媒體信息的總數;而nk是包含給定項Tk的基數中的多媒體信息數量。

2.2 文件分類模塊

分類模塊主要由兩個處理階段組成:無監督集群學習階段和矢量分類階段。 在學習階段,初始集群假設[C1,…,Ck]由多媒體信息向量[S1,…,Sk]的代表性樣本生成。然后每個集群Ci由其質心Zi表示。 在分類階段,輸入多媒體信息矢量Vi使用從階段1學習的質心分類到特定類別Ci中。群集質心的學習以離線批量模式完成,而分類在多媒體信息到達時連續執行。

一種簡單的啟發式無監督聚類算法,稱為Maximin-Distance算法,目前用于確定多媒體信息向量空間上的質心。在該算法中,質心是以迭代方式生成的。在每個階段,數據集中的一個點(多媒體信息)被選中,與現有質心的距離最大。任何多媒體信息與現有質心的距離又是其在所有質心上的距離的最小值。只有當它與現有質心的距離是先前最大距離的可觀分數時,才會將選定點作為新質心添加。用于此分數的閾值確定聚類的粒度和數量。在聯機操作期間,分類模塊僅將輸入多媒體信息矢量Vi分類為屬于其質心與多媒體信息矢量具有最小距離的類別。然后將對應于每個向量的結果分類信息傳遞給用戶簡檔學習模塊。

用于計算兩個多媒體信息向量之間距離的度量是余弦相似度度量。 給定兩個非空多媒體信息向量X=[x1,…,xt]T和Y=[y1,…,yt]T,這樣的相似性度量表示它們之間角度的余弦,可描述為式(6)。

(6)

然后將距離計算為1減去相似度。 當一個或兩個向量相同時為零(意味著相應的多媒體信息不能用給定的同義詞庫表示),不需要進行距離計算,因為所有這些向量按照慣例被分配到一個稱為“others”的特殊類。

2.3 用戶檔案學習模塊

用戶簡檔學習模塊的功能是確定用戶對不同類別的信息Ci(i=1,…,k)的偏好并且基于它們的類別以及對類別的估計用戶偏好來優先化導入文件。 為了完成此任務,學習代理根據相關性反饋來維護和更新用戶的簡化模型。 令di表示類Ci的潛在(未知)預期用戶偏好。 學習代理維護并更新維數等于類數的兩個向量。 第一個是估計的相關概率向量,其中元素di(i=1,…,n)是di的估計。 第二個是動作概率向量pi,使得pi表示類別Ci被過濾器選擇為最相關類別的概率。 在學習過程中,根據用戶相關性反饋,p和d向量都會不斷更新。

學習代理在每次迭代中對輸入多媒體信息進行排序,首先對p向量進行采樣以選擇要在頂部呈現的類。其余的類根據相應的d值進行排序。p向量的元素都被初始化為1/k的值,其中k是類的數量。因此,在開始時,所有類都有可能被排在最前面,因此可以接收用戶的注意力和相關性反饋。這使得以d矢量的形式充分準確地學習用戶模型。隨著學習的進展,p向量中的一個元素(對應于最相關的類)接近1的值,而其余元素趨于零。同時,d向量的元素接近d。因此,在足夠長的學習時間之后,多媒體信息的排名根據用戶對于相應類的關聯嚴格執行。

學習算法(即,用于更新p(k)和d(k)的算法)簡要描述如下。 在任何時刻,di(k)(i=1,…,n)是用戶對屬于類別i的多媒體信息給出的相關性值的移動平均值。 將d向量的當前最大元素表示為具有索引l,則創建維度n的單位向量E(k),其維度n的第1個元素是1,并且其所有其他元素都是0。 然后pi(k)(i=1,…,n)被更新為式(7)。

(7)

其中0

有兩點值得強調。首先,收斂后的d向量表示用戶興趣的簡化模型。在實踐中,用戶總是可以選擇為每個類指定其興趣。在這種情況下,d向量的元素以用戶提供的值進行初始化,并且學習過程可以僅被看作是擴大用戶提供的簡檔。其次,通過一組C類進行的配置文件學習可以將語義相關多媒體信息分配給不同類的效果最小化。假設用戶感興趣的多媒體信息被分配到兩個不同的類。在一段時間內(在了解配置文件之后),語義相關的類將被大致同等地處理以用于排名目的。因此,用戶將在頂部一起看到相關多媒體信息。在這里,從用戶的角度來看,多媒體信息來自兩個不同的類別并不重要。

3 總結

海量多媒體信息過濾技術在面對海量數據時會出現處理效率低、資源浪費大、運行成本高等缺點。本文利用數據挖掘技術,提高了多媒體信息過濾平臺的性價比, 面對海量信息也能發揮其良好的處理能力,進一步提高了處理海量數據的性能。信息過濾,即根據特定用戶的興趣對傳入多媒體信息進行排序和展示,是一種面向用戶的服務,其重要性只有在越來越多的用戶開始利用通過電子媒體提供的大量信息資源時才會顯著增加。為了提供有效的面向用戶的過濾服務,必須處理與多媒體信息的表示和分類相關的不確定性以及用戶的興趣。

在本文中,討論了信息過濾系統的一般模型,該模型描述了各個子系統所需的廣泛功能。該模型允許在給定的上下文中使用任何首選的方法來實現功能。該系統的一個特殊實現稱為可執行過濾器模型,用于過濾多媒體信息。 可執行過濾器模型的當前工作版本涉及了應用和集成幾種眾所周知的用于多媒體信息表示,聚類,用戶配置文件學習以及檢測用戶興趣變化的技術。已經提出了涉及真實用戶和模擬用戶的研究來說明可執行過濾器模型的性能等完善的標準進行測量,以及各種設計參數對性能的影響。整體模型的一般模塊化特性允許將來在必要時無縫集成這些功能。能夠得到比較全面的知識庫,不僅提高了海量多媒體信息過濾階段的可靠性,還使實驗性能評價指標有了很大的提升。

猜你喜歡
分類用戶模型
一半模型
分類算一算
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
3D打印中的模型分割與打包
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
主站蜘蛛池模板: 亚洲精品国产首次亮相| 欧美第一页在线| 91人妻日韩人妻无码专区精品| 免费a级毛片视频| 亚洲国产成人无码AV在线影院L| 97se亚洲综合| 亚洲69视频| 55夜色66夜色国产精品视频| 欧洲精品视频在线观看| 亚洲免费人成影院| 欧美激情伊人| 国产天天色| 91福利免费视频| 亚洲综合中文字幕国产精品欧美| 国产99视频在线| 视频二区国产精品职场同事| 人妻21p大胆| 久久精品66| 欧美人与性动交a欧美精品| www成人国产在线观看网站| 国产十八禁在线观看免费| 麻豆AV网站免费进入| 麻豆国产精品视频| 国产成年女人特黄特色毛片免| 久久国产精品影院| 国产专区综合另类日韩一区| 中文字幕2区| 婷婷五月在线| 国产成人欧美| 国产二级毛片| 亚洲精选无码久久久| 97国内精品久久久久不卡| 成AV人片一区二区三区久久| 91久久精品日日躁夜夜躁欧美| 无码中字出轨中文人妻中文中| 91外围女在线观看| 三上悠亚精品二区在线观看| 69av在线| 国产无码精品在线播放| 一本久道热中字伊人| 精品无码国产自产野外拍在线| 午夜视频www| 欧美在线黄| 久久精品娱乐亚洲领先| 一级毛片无毒不卡直接观看| 91小视频在线观看| 美女无遮挡免费网站| 国产精品亚洲片在线va| 亚洲欧美在线综合一区二区三区| 中字无码精油按摩中出视频| 亚洲欧美在线综合一区二区三区| 一边摸一边做爽的视频17国产| 国产97色在线| 国产va欧美va在线观看| 亚洲热线99精品视频| 国产午夜福利在线小视频| 国产一区二区精品高清在线观看| 九九视频在线免费观看| 美女无遮挡免费视频网站| 精品视频一区二区观看| 中文字幕调教一区二区视频| 国产性生大片免费观看性欧美| 亚洲综合经典在线一区二区| 99热这里只有精品久久免费| 久久毛片网| 日韩无码真实干出血视频| 第一页亚洲| 国产爽歪歪免费视频在线观看 | 国产99视频在线| 国产亚洲精品自在久久不卡 | 亚洲国产系列| 欧美一区中文字幕| 亚洲精品自拍区在线观看| 亚洲综合极品香蕉久久网| 女人天堂av免费| 青草视频久久| AV不卡在线永久免费观看| 久久亚洲高清国产| 波多野结衣在线se| 中文字幕久久精品波多野结| 国产日韩精品欧美一区喷| 精品福利国产|