劉春英,吳德華,宋 燁
(長沙航空職業技術學院,湖南 長沙 410124)
隨著數字電視和通信技術的不斷發展,用戶除了能看到越來越多的電視節目,更能享受到個性化信息服務等數字電視增值業務。但是,用戶在享受電視資訊服務的同時,同樣受到“信息迷向”和“信息過載”問題的困擾[1]。
雖然數字電視的基本工作方式是廣播式的,但其發送數字信息的顆粒度仍然較高,流量仍然很大。如何從用戶終端的大量信息中篩選出用戶真正需要的信息,已成為這項增值業務能否讓用戶滿意的瓶頸。面對信息流量大而機頂盒存儲能力有限的矛盾,信息過濾技術在數字電視的個性化信息服務[2-3]中的應用是推動數字電視增值業務更好、更快發展的必然趨勢。因此,迫切需要一個信息過濾系統來滿足電視觀眾日益俱增的個性化需求,實現數字電視平臺上的個性化信息服務。
信息過濾的主要任務是將信息源與用戶興趣模型進行比較,根據比較結果過濾掉不相關的信息,選出用戶關注的信息。網絡信息過濾系統一般包括信息源、過濾部分、用戶和用戶興趣模型4個基本組成部分[4]。為了提高過濾的效率與精度,系統還可根據過濾結果提供相應的反饋機制來不斷更新用戶興趣模型[5],使用戶的信息需求越來越明確,其工作過程見圖1。

數字電視信息過濾系統在技術上與網絡上的信息過濾類似,所不同的是它以廣播式信道為基礎,具有單向性的特點。而網絡上的商業化搜索引擎的搜索對象是半結構化的,工作環境是強大的服務器集群,檢索結果也不盡理想。例如,谷歌(Google)的查準率很高,但冗余率也很高,一般只有搜索結果的前幾項是用戶感興趣的內容。而數字電視信息過濾系統的處理對象是非結構化的TS碼流,工作平臺是數字電視終端(目前主要是機頂盒),可利用的軟硬件資源都十分有限,不適于使用網絡信息過濾技術。另一方面,機頂盒是一個小平臺,無法完成信息過濾的所有工作,如中文分詞、特征抽取等工作只能在廣播網絡前端完成。因此,怎樣結合數字電視的特點,尋求一種行之有效的用戶興趣模型、精簡的信息過濾算法和學習算法是在數字電視中實現信息過濾技術的關鍵所在。
數字電視信息過濾系統的用戶興趣模型是對用戶興趣的描述,常用的模型主要以文本描述模型為基礎,輔以對用戶興趣的描述,構成用戶興趣模型。信息過濾算法在用戶興趣模型與信息源之間進行匹配。用戶興趣學習算法的作用是對用戶興趣模型進行修正。數字電視信息過濾系統的處理對象的特殊性及數字電視終端的軟硬件資源的有限性,決定了數字電視信息過濾系統中的信息過濾算法、用戶興趣模型和學習算法不能太復雜。
根據數字電視的精簡性要求及其工作的軟硬環境,筆者提出了一種適用于數字電視的信息過濾算法,如圖2所示。該過濾算法以向量空間模型為基礎,重點是特征向量集的建立和修正以及特征向量匹配算法。索引及索引點擊率順序表則體現了用戶興趣。

該算法的特點在于信息過濾系統不是簡單地從用戶詞典中取出幾個表示用戶興趣的關鍵詞去匹配*.txt文本,而是用這些關鍵詞及其概念范疇的合集組成特征向量集去匹配*.txt文本。由此得到的特征向量集更能體現用戶興趣。這樣可以挖掘文本的潛在語義,避免某些包含同義詞或多義詞的文檔被過濾系統遺漏,提高過濾效果。例如,用戶詞典中的關鍵詞“足球”,它的概念范疇有“射門”、“門將”、“鏟球”、“點球”、“進球”等若干詞,則(門將,射門,鏟球,點球,進球)就是匹配“足球”信息時用的初始特征向量,并且特征向量中每個關鍵詞都帶有權重。在用戶動作之后,信息過濾系統要能根據用戶的動作指令判斷初始特征向量中的哪些分量的權重較高,要繼續留下;哪些特征向量分量權重低于事先設定的閾值,要從特征向量中剔除掉。
本設計采用的是一種基于統計的方法,即通過統計各關鍵詞的出現頻率,來確定特征向量和特征向量分量的權重。此算法基于如下假設:1)用戶輸入的關鍵詞是有限的;2)預先設計的索引結構和用戶詞典是合理的;3)用戶瀏覽的點擊率能比較可靠地體現用戶興趣。
在本算法的研究過程中,采取了查全率和查準率[6]作為評價指標,對該信息過濾算法的效果進行模擬評價。在實驗中,首先人為設置初始特征向量,然后選擇了50篇文檔進行測試,實驗結果如表1所示。

表1 實驗結果
開始實驗時,初始特征向量由系統預置,用該特征向量匹配出來的信息用戶不一定感興趣。例如,首先設置初始特征向量為(球迷,門將,射門,鏟球,點球,進球),實驗結果顯示查準率很低。隨著實驗的進行,在用戶動作指令的影響下,系統通過計算發現“球迷”的權重最低,將它從特征向量中剔除。依此類推,在特征向量的不斷修正中,查全率與查準率逐步好轉,最后達到比較理想的效果。
表1表示的只是將特征向量中權重較低的關鍵詞逐一剔除后的情況。實際中,也可通過分析用戶的瀏覽歷史,將一些權重很高但并沒有出現在初始特征向量的關鍵詞添加進特征向量。當然,用查全率和查準率來評價數字電視中的信息過濾算法的效果存在一定的誤差。原因在于:首先,該信息過濾算法設定只返回關聯度大于某個固定閾值的信息,閾值的取值不同,返回的信息數量也會不同,因此采用查準率、查全率來衡量過濾效果就會造成誤差。再者,數字電視中信息源(TS碼流)不斷動態變化,會導致計算查全率時無法特別準確地確定信息源中符合用戶興趣的全部信息量,從而無法很精確地計算查全率。
為了提高信息過濾的效率和精度,讓個性化信息過濾技術真正應用于數字電視,結合數字電視廣播的特點,設計了一種適用于數字電視的個性化信息過濾算法,并通過一系列實驗證明了該算法的可行性。不過,實驗中也存在一些不足,一是用查全率和查準率指標評價該信息過濾算法的過濾效果不是很精確;二是目前沒有將該算法加入機頂盒解碼芯片進行實際驗證,這都需要在今后的研究中繼續努力。
[1]延霞.基于信息過濾技術的搜索引擎研究[J].深圳信息職業技術學院學報,2005(3):20-24.
[2]龐雅麗,王彩芬.個性化信息過濾技術[J].甘肅科技,2007(3):124-126.
[3]吳學輝,張敏.個性化信息過濾系統研究[J].重慶科技學院學報,2008(3):96-98.
[4]張園園.基于用戶興趣的個性化搜索引擎的分析與研究[D].秦皇島:燕山大學,2006.
[5]王翠平.基于用戶興趣度的網絡信息過濾模型研究[D].濟南:山東師范大學,2007.
[6]牛洪波,丁華福.基于文本分類技術的信息過濾方法的研究[J].信息技術,2007(12):100-102.