999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

信息增益對于提取新聞特征向量的優勢

2016-05-14 14:34:24錢怡陶
新媒體研究 2016年5期

錢怡陶

摘 要 信息增益是當下國內外文本分類熱門方法之一,擁有廣泛的應有領域。通過對傳統基礎的新聞推薦算法的模型原理進行詳細分析解釋,選取各自的優點,指出算法融合改造的優勢,將一種基于信息增益的新聞推薦模型,用以達到挑選出最合適的新聞推送給最有興趣的用戶的目的。

關鍵詞 信息增益;新聞推薦;TF-IDF

中圖分類號 G2 文獻標識碼 A 文章編號 2096-0360(2016)05-0019-02

近年來,許多國外購物網站如Amazon采用信息增益的方法來幫助客戶做出消費決定,這個方法可以有效縮短客戶閱讀大量評論的時間,從而達到更好的購物體驗感,也加速了每一筆訂單的消費時長[1]。而采用信息增益的文本分類方法的應用領域十分廣泛,例如網絡輿情的挖掘[2],煙絲致香成分分析[3],甚至應用于地震趨勢的估計預測中[4]。

1 新聞推薦的原理

新聞閱讀與線上購物的原理類似,只不過在這里將所有的商品替代為新聞,用戶也在海量的新聞中搜索自己感興趣的,如同在挑選產品,因此可以借鑒此種方法。在新聞推薦中主要包含的技術步驟包括提取新聞特征向量來簡化對原新聞的分析,用戶聚類來對不同類群的客戶提供個性化的推薦,進行新聞關聯將有聯系的新聞建立聯系,最后再向客戶提供因人而異的有興趣和緊密聯系的新聞。

2 一般新聞特征提取方法

提取新聞特征向量最傳統和經典的方法之一是TF-IDF法[5]。下面簡單介紹一下它的原理。

若采用向量空間模型VSM(Vector Space Model)作為新聞文本表示模型,那么新聞文本就好似在一個矢量空間中的某一點,而其中的特征量能夠給予這個點矢量值[6]。那么從中提取特征向量的過程就是對新聞內容進行降維處理,將冗余的信息和不重要的無關信息篩選掉,從而能夠使文本在矢量空間中定點。常用的方法是詞頻法TF(Terms Frequency),通過計算一個詞在整個新聞中出現的次數來判斷這個詞對于文本的重要性和代表性。詞頻法可以在一定程度上防止同一個詞在長文本中出現的頻度,很可能大于短文本而帶來的干擾。

假設在文本中,詞頻的計算公式如下:

其中,分子代表某一選定詞在整個文本中的計數,而分母則表示文本中所有詞的計數和。

但是這樣的方法會有很大偏差,如會有很多沒有實際意義的詞語干擾,如“的”“和”等等。因此需要對特征項進行加權處理,對高價值能夠更多提供文本分類信息的特征詞給予較高權重[7]。逆向文件頻率IDF(Inverse Document Frequency)加權是普遍的一種處理計算,其計算公式如下:

其中,分子表示表示新聞庫中新聞的總和,而分母是包含特定特征詞的新聞總數,再將商做對數處理。

那么TF-IDF的公式可以整理為

經過IDF加權處理過后的TF法,可以有效降低數據維度,剔除冗余詞匯。但是這種方法只能夠判斷單文本的關鍵詞權重,不能夠給出文本類內類外分布對關鍵詞權重的影響。下面將介紹一種可以優化文本類間的權重計算方法。

3 信息增益的優勢及改良

信息增益IG(Information Gain)被認為是鑒定機器學習(Machine Learning)效果的良好標準之一[8],也是通過提取特征向量來進行文本分類的常用方法[5]。信息增益的定義為某一特征詞選定后在文本中前后的信息熵IE(Information Entropy)之差。而信息熵在信息論中表示一個隨機事件出現的概率,而如果在隨機事件發生之后計算某一特征詞信息熵,則可以從中獲得這個特征詞的信息價

值[9]。在一個文本類型中,如果一個詞的信息熵越大,代表它在文本類中分布得越廣,越能夠代表這個文本類的普遍特征。信息增益的表達公式

如下[10]:

上式中,t為新聞中的特征詞,C為新聞類別。特征詞的信息增量越大,則說明這個詞對新聞分類的貢獻越大,越具有代表性。在“今日頭條”上挑選50條最新的新聞(2016年1月8日至2016年1月11日期間),財經、體育、汽車、科技、歷史五個板塊各選取10個文本,挑選“股市”“中國”“自燃”“售價”“古代”為特征項。結果如表1所示。

IG(股市)=-log(0.2,2)+5/50×(3/5×log

(3/5,2)+1/5×log(1/5,2)+1/5×log(1/5,2))+

45/50×(7/45×log(7/45,2)+10/45×log(10/45,

2)×2+9/45×log(9/45,2)×2)=0.105 139

IG(中國)=-log(0.2,2)+25/50×(6/25×log (6/25,2)+1/5×log(1/5,2)+3/25×log(3/25,

2)+4/25×log(4/25,2)+7/25×log(7/25,2))+

25/50×(6/25×log(6/25,2)+1/5×log(1/5,2)+

3/25×log(3/25,2)+4/25×log(4/25,2)+7/25×

log(7/25,2))=0.059 103

IG(自燃)=-log(0.2,2)+24/25×(5/24×log (5/24,2)×4+4/24×log(4/24,2))=0.097 907

IG(售價)=-log (0.2,2)+6/50×(1/2×log (1/2,2)×2)+44/50×(10/44×log(10/44,2)×3+

7/44×log(7/44,2)×2)=0.176 845

IG(古代)=-log(0.2,2)+21/25×(10/42×log (10/42,2)×4+2/42×log(2/42,2))=0.489 924

由數據可以看出IG(古代)>IG(售價)>IG(股市)>IG(自燃)>IG(中國)。“古代”這個特征項只出現在“歷史”類別的新聞中,而且占比較大,因此能夠很好的代表這類文章,IG值較高;而“中國”這個特征項在五類新聞中都有出現,且分布較為均勻,且此不具有能代表某一類新聞典型特征的特點,IG值較低。

可見特征詞的信息增益可以有效提供特征詞在文本類間的分布情況,但是不能提供文本內部特征詞的情況。因此,可以考慮結合TF-IDF和IG共同考慮來優化特征項的提取,提高其權重的準確性。

中科院魯松團隊從1996—1997年的《人民日報》上選取了6 518篇文本,分別用TF-IDF和TF-IDF-IG兩種方法計算召回率(recall)和正確率(precision)進行比較[11]。結果用TF-IDF-IG方法來表示文本從召回率和正確率兩個測試結果上都要好于TF-IDF法。

4 結論

可見信息增益的加入相較于傳統的TF-IDF法,使新聞推薦更加高效和準確。但其中必須指出的是,該方法的前提是用戶的新聞偏好在一段較長的時間內保持不變[12]。對新發布的新聞與用戶閱讀過的新聞進行對比,當兩篇新聞的相似度大于某一閾值,且這個閾值于不同類型的文本各異,我們才能將新錄入的新聞推薦給用戶。

參考文獻

[1]Richong Zhang · Thomas Tran (2011) An information gain-based approach for recommending useful product reviews. Knowl Inf Syst 26.

[2]萬源.基于語義統計分析的網絡輿情挖掘技術研究[D].武漢:武漢理工大學,2012.

[3]劉孝良,丁香乾,門月.基于信息增益的特征選擇在煙絲致香成分中的應用[J].現代電子技術,2012(18):92-94.

[4]齊玉妍,孫麗娜,邱玉榮,等.河北及鄰區地震時空概率增益綜合預測研究[J].中國地震,2015(1):78-88.

[5]劉建國,周濤,汪秉宏.個性化推薦系統的研究進展[J].自然科學進展,2009,19(1):1-15.

[6]王博.文本分類中特征選擇技術的研究[D].長沙:國防科學技術大學,2009.

[7]陳瀅.基于個性化推薦技術的“新聞客戶端”的使用與滿足研究[D].廣州:暨南大學,2015.

[8]Lee C,Lee GG (2006) Information gain and divergence-based feature selection for machine learningbased text categorization. Inform Process Manag 42.

[9]李海瑞.基于信息增益和信息熵的特征詞權重計算研究[D].重慶:重慶大學,2012.

[10]YangY,Pedersen JO (1997)Acomparative study on feature selection in text categorization. In:Proceedings of the fourteenth international conference on machine learning:412–420.

[11]魯松,李曉黎,白碩,等.文檔中詞語權重計算方法的改進[J].中文信息學報,2000(6):8-13.

[12]付娟妮.基于信息用戶的新聞推薦系統特點及構建[J].企業科技與發展,2013(15):39-40.

主站蜘蛛池模板: 在线免费观看a视频| 欧美成人手机在线观看网址| 久久精品无码专区免费| 亚洲视频免费播放| 亚洲乱码精品久久久久..| 四虎永久在线精品国产免费| 青草视频久久| 国产亚洲成AⅤ人片在线观看| 久久精品人人做人人综合试看| 精品久久人人爽人人玩人人妻| 成年A级毛片| 国产一级毛片yw| 18禁高潮出水呻吟娇喘蜜芽| 国产高潮视频在线观看| 亚洲bt欧美bt精品| 福利在线一区| 91视频99| 久久伊人色| 国产精品男人的天堂| 色综合天天操| 又大又硬又爽免费视频| 毛片基地美国正在播放亚洲 | 亚洲欧美国产视频| 久996视频精品免费观看| 亚洲国产综合精品中文第一| 91 九色视频丝袜| 免费视频在线2021入口| 免费国产高清视频| 67194在线午夜亚洲 | 黄片一区二区三区| 国产又爽又黄无遮挡免费观看| 久久黄色毛片| 欧美日韩亚洲国产主播第一区| 日韩区欧美国产区在线观看| 高清久久精品亚洲日韩Av| 99在线视频免费观看| 国产经典在线观看一区| 久久青草精品一区二区三区| 亚洲午夜福利精品无码| 国内精品九九久久久精品| 色综合中文综合网| 国产小视频在线高清播放| 一级毛片在线直接观看| 孕妇高潮太爽了在线观看免费| 久久人搡人人玩人妻精品| av性天堂网| 国产成人av大片在线播放| 国产精品亚欧美一区二区| 国产另类视频| 久草视频精品| 无码内射中文字幕岛国片| 天堂中文在线资源| 五月婷婷导航| 久久精品午夜视频| 喷潮白浆直流在线播放| 欧美国产日韩在线观看| 国产在线八区| 欧美中文字幕在线二区| 色国产视频| 国产在线自乱拍播放| 麻豆精品视频在线原创| 狠狠色成人综合首页| 国内自拍久第一页| 日韩精品中文字幕一区三区| 天天色综网| 九九香蕉视频| 91美女视频在线观看| 香蕉国产精品视频| 亚洲国产天堂久久综合| 精品成人一区二区三区电影| 五月综合色婷婷| 99中文字幕亚洲一区二区| 国产欧美视频一区二区三区| 奇米精品一区二区三区在线观看| 一级爆乳无码av| 日韩大片免费观看视频播放| 欧美色视频网站| 亚洲国产精品国自产拍A| 久久人体视频| 精品一区国产精品| 国产在线专区| 国产高清无码麻豆精品|