999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于條件隨機場的商品評論信息抽取研究

2015-01-18 07:12:18李總苛
湖北工業大學學報 2015年5期
關鍵詞:特征文本信息

劉 坤,黃 煒,2,李總苛

(1湖北工業大學管理學院,湖北 武漢430068;2武漢理工大學管理學院,湖北 武漢430070)

1 商品評論信息抽取的研究目的及意義

近年來,隨著互聯網技術的迅猛發展,Web信息與日俱增,信息技術滲透到人們生活的各個角落。互聯網的高速發展同時帶動了電子商務業務。2013年,中國最大的電子商務網站淘寶網總成交額為1.1010萬億元,相當于總成交額為765億美元的eBAY的2.3倍。在2014年,僅在雙11這一天淘寶網上的電子商務總額就達到571億元人民幣[1]。

網上購物不受時間和空間的限制,突破了傳統商務模式的障礙,無論對消費者、企業,還是市場都有著巨大的吸引力和影響力。網購的局限性,比如無法觸摸到實物、不知道是否存在色差、尺碼是否標準等缺陷,使得用戶在購買商品前大多喜歡參考別人對商品的評論信息,以此來確定是否符合自己的需求;商品制造商也希望根據評論信息及時認識到商品的不足,對商品做出改進,開發出更適合用戶的商品。因此迫切需要一種有效的方法來整理和挖掘這些海量的評論,并且以直觀統一的形式展現出結果。

本文運用自然語言處理技術以及信息抽取技術提高用戶評論信息的利用率以及應用范圍,使用戶能更全面地了解要購買的商品,對用戶的決策提供支持;同時對商家而言,可根據抽取的信息得出消費者對商品信息的滿意度,從而改進商品質量和服務質量,提高用戶滿意度,對于網絡個性化服務系統的改進與更新具有一定價值。

2 信息抽取技術

由于評論信息形式和內容的隨意性,大多數評論者喜歡寫上一大堆話,而具有直接導向性的評論語言只占很小一部分,致使對評論文本的研究十分困難,通常需要結合數據挖掘、自然語言處理、統計學、語料庫學習等多學科交叉來解決評論信息的抽取問題。商品評論挖掘是一種能從非結構化數據中找到有效信息的技術,將文本的非結構化信息轉化為有效的關鍵信息需要將其結構化,文本信息自動抽取技術正是數據結構化的一個重要環節。

評論信息抽取研究中,大多從主題的角度進行商品評論的信息抽取,本文嘗試從商品屬性角度著手,以商品屬性為中心,來挖掘出消費者對其的情感觀點,以及觀點態度的強弱。

3 信息抽取的相關研究方法

3.1 傳統的信息抽取方法

Riloff和Jones[2]在1999年提出基于詞典的信息抽取,但該方法的在抽取文本信息之前,首先需要人工去建立或是整理一個詞典,根據詞典定義的模式去抽取存在于詞典中但未標記出的所需的文本信息。以Kushmerick[3]為代表的研究者提出一種基于規則的信息抽取,但基于規則的文本信息抽取模型也需要先構造抽取規則集,相對于基于詞典的信息抽取有一定的擴展性。其表示關系的造句結構可獲取有關詞匯和其它語義關系的信息[4]。但規則的定制主要依賴語言學家的語言知識,需要構造描述領域詞特點的規則庫。但總的來說,匹配基于詞典和基于規則的抽取模型人工參與度較大,工作繁瑣,且系統適應性效果較差。2004年Hu和Liu等人[5]首次提出使用關聯規則挖掘算法、壓縮修剪、冗余修剪等技術抽取高頻名詞或名詞短語,但是實驗表明,其信息抽取的精度還有待進一步提高。

3.2 基于機器學習的信息抽取

基于詞典和規則的信息抽取的方法需要人工參與,并且領域性較強,難于擴展。而基于統計學習的方法適應性較好,只需要少量的人工參與,但與此同時,基于統計的學習需要大量的訓練數據,并且抽取效果對算法的設計要求較高。

3.2.1 最大熵模型 所謂最大熵方法就是遵循最大熵原理的建模[6],基本思想是選擇符合約束條件的所有分布中熵最大的那一個分布。最大熵原理最初由 E.T.Jaynes在1957年提出,DellaPietra等人[4]于1992年首次將其應用于自然語言處理模型中。

章劍鋒等[7]提出了基于最大熵模型的中文評論主觀性關系挖掘方法,來提取抽取評價詞和目標對象之間的關聯關系。Somprasertsri和Lalitrojwong[8]提出用一個預先標注的文本訓練最大熵模型,然后用訓練得到模型從商品評論中抽取評論對象,實驗結果的準確率達到了71.88%,召回率為75.23%。

最大熵模型的優點之一是可融合多種特征于一個模型,并且可以直接對這些特征進行建模。但最致命的是,作為一種分類器模型,最大熵對每個詞都是單獨進行分類的,標記之間的關系無法得到充分利用。

3.2.2 隱馬爾科夫模型 隱馬爾科夫模型(hidden Markov models)基于馬爾科夫假設,當前狀態只與前一個狀態有關[9]。對于文本信息抽取,每個維度的關鍵詞可看作一種狀態,利用HMM抽取關鍵詞,可看作一個由觀測詞的序列到某一維度的狀態序列的解碼過程。

HMM易于建立,不需大規模的詞典集與規則集,抽取精度較高。文獻[10]應用 HMM 抽取計算機科學研究論文的標題、作者和摘要等頭部信息。文獻[11]使用隨機優化技術動態選擇最適合的HMM模型結構進行信息抽取。但HMM是一種產生式模型,具有較強的獨立性假設,所以忽略了上下文的特征,另一方面,產生式模型需要估計聯合分布,所以在分詞任務上的應用性能要低于判別式模型。

3.2.3 條件隨機場模型 條件隨機場(CRFs,Conditional Random Fields)算法是另一種基于監督的挖掘方法,它是一種無向圖模型,可用于最大化條件概率。它通過定義最大化條件概率p(y|X),選擇一個標簽序列y標注一個觀察序列X。該特性使得CRFs廣泛使用于傳統的信息抽取任務,如序列標記、數據分割、組塊分析、詞性標注和解析等。顯然,基于CRFs的特點,它能考慮商品評論文本中被評價實體的任意方面,而且不需要條件獨立假設,因此在產品評論挖掘中有潛在的優勢。Chen等人[12]利用CRFs實現了從評論中抽取多種類型的評論信息。

3.3 基于機器學習的信息抽取算法比較

最大熵模型最大的缺點是無法很好地處理序列標注問題,因為他定義的特征無法刻畫狀態間的聯系。隱馬爾科夫模型一個最大的缺點就是由于其輸出獨立性假設,導致其不能考慮上下文的特征,限制了特征的選擇。針對以上兩個模型的缺點,對于序列標注問題,文獻[McCallum,2000][13]一文中提出最大熵隱馬模型,其核心思想是對相鄰的狀態使用最大熵模型。該模型可以任意選擇特征,但由于其在每一節點都要進行歸一化,所以只能找到局部的最優值,導致最后得到的序列僅僅是個局部最優解,同時也帶來了標記偏置的問題(label bias),即在計算概率分布時,凡是訓練語料中未出現的情況全都忽略掉。針對這個問題,[Lafferty,2001][14]一文中提出了條件隨機場模型(CRFs),CRFs算法統計了全局概率,在做歸一化時,考慮了數據在全局的分布,而不是僅僅在局部歸一化,這樣就解決了MEMM 中的標記偏置(label bias)的問題。

從圖1模型中來看待三個算法的區別:HMM是一種產生式模型。圖1詮釋了HMM模型中存在兩個假設:一是輸出觀察值(X)之間嚴格獨立,二是狀態的轉移(Y)過程中當前狀態只與前一狀態有關(一階馬爾可夫模型)。因此HMM模型在模型的特征選擇過程中,忽略了上下文的特征,影響特征的選擇。

圖1 HMM模型圖

由圖2知:最大熵隱馬模型MEMM模型克服了觀察值之間嚴格獨立所產生的問題,可以任意的選擇特征。但是由于狀態之間的假設理論,使得該模型存在標注偏置問題,即在訓練語料中未出現的標注全都忽略。

圖2 MEMM模型圖

圖3 顯示CRFs是無向圖模型,它是一種鏈式的判別模型,不需要獨立性假設。模型解決了標注偏置問題,去除了兩個不合理的假設,即HMM中當前狀態只與上個狀態相關,以及當前的觀測值只與當前狀態相關(上圖Y之間沒有箭頭了)。但隨之,模型相應地也變復雜了。

圖3 CRFs模型圖

因此,基于序列標注的信息抽取模式中,CRFs有以下三個優點:

1)與最大熵模型比較:CRFs是在給定需要標記的觀察序列的條件下,計算整個標記序列的聯合概率分布,而不是在給定當前狀態條件下,定義下一個狀態的狀態分布。

2)與HMM比較:CRFs沒有HMM那樣嚴格的獨立性假設條件,因而可以容納任意的上下文信息,特征設計靈活。

3)與MEMM比較:由于CRF計算全局最優輸出節點的條件概率,它還克服了最大熵馬爾可夫模型標記偏置(Label-bias)的缺點。

但于此同時,正是由于這些優點,在序列標注的信息抽取模式中,CRFs需要訓練的參數更多,時空開銷大、復雜度高。

4 商品評論信息抽取的設計與實現

基于以上對信息抽取的主流機器學習算法進行分析,本文采用精度和對數據特征擬合度更好的條件隨機場算法進行商品評論的信息抽取,對訓練樣本進行評論文本信息抽取的序列標注。

4.1 訓練語料與算法的設計實現

本研究實驗的數據來自天貓網站上優衣庫官網的商品評論數據2萬條。CRFs的算法實現來自采用開源的CRF++-0.54工具包,以此為基礎展開CRFs模型的訓練和測試。

原始的商品評論數據經過清洗和去噪后,利用jieba分詞組件對每一條訓練數據進行分詞。其中,為了提高jieba分詞針對當前數據的分詞效果,本研究根據當前數據整理了一套自定義詞典(表1)。

表1 自定義詞典樣例

CRFs模型的訓練需要提供訓練數據和特征模板,由此來生成一個模板(model)。根據條件隨機場算法的特征選取特點,本實驗對jieba分詞的五種不同詞性標注信息。分別為:名詞n,動詞v,形容詞a,副詞f,其他o。對于文本評論信息,定義了待抽取的三個維度的關鍵信息,其輸出標記為:商品特征T,程度副詞或者否定副詞C,情感觀點P,其他O。

訓練數據文件特征由兩個維度的信息構成,一個是詞的本身,一個是當前詞的詞性。這兩列數據由Tab或空格隔開,第三列是人工標注的標簽,從標簽集合{T,C,P,O}取出,并對應指出評論文本中的各個維度的關鍵信息。每個評論樣本以空行隔開。在使用CRF++過程中,本實驗采用默認的一元模板和二元模板信息,存儲在template文件中。CRF++可根據兩個維度的信息和人工標注的標簽信息進行特征學習,以此來構建特征函數。訓練樣本示例見圖4。

圖4 訓練樣本示例圖

訓練數據準備好后,即可進行模型的訓練了。訓練命令為:

crf_learn template_file train_file model_file

crf_learn為調用訓練程序,template_file為定義的模板文件,train_file為標注好的訓練樣本,model_file是根據模板和標注樣本生成的模型文件。運行截圖見圖5。

圖5 CRFs運行截圖

其中,運行中窗口的信息:參數iter表示模型迭代次數,terr表示當前標記錯誤率,serr為句子標記錯誤率,obj表示當前對象的值。diff為與上一個對象值之間的相對差。當obj值收斂到一定值時,CRFs模型迭代結束,此時訓練完成。

訓練完成后,即可對測試數據進行標注,以檢驗CRFs算法對評論文本的各個維度信息的抽取效果。測試命令為:

crf_test-m model_file test_files> output.txt

文件output.txt中記錄了對test_files的測試結果。其中,第三列為人工標注的關鍵詞標簽,最后一列為根據model的各個維度的信息抽取,為機器自動打標(圖6)。

圖6 機器自動打標圖

4.2 性能評估方法

為了評估利用CRFs算法實現挖掘的性能,本文采用在文本處理問題研究中普遍使用的性能評估指標:查準率P(Precision)、查全率 R(Recall)。本文中研究的問題主要是判斷利用CRFs抽取的觀點元素是否為人工標注的真實類別。

表2 準確率和召回率測試結果 %

5 總結與展望

本文采用序列標注技術,利用機器學習算法CRFs對商品評論信息進行了多維度特征信息的設計和抽取。仿真實驗表明,在詞本身的信息和詞性信息的輔助下,條件隨機場算法對商品評論信息的關鍵信息抽取有著良好的效果。對于實驗的擴展和應用,可針對抽取出來的各個維度的商品的關鍵信息匯集商品屬性,以及商品評論中的觀點信息進行詞庫整理和統計分析、情感分析。同時可考慮添加句法結構信息來提高特征信息的維度,以此提高CRFs算法對各維度信息抽取的精度。

[1] 重慶晨報.天貓雙十一交易額突破571億元[EB/OL].(2014-11-12).[2014-12-14].http://news.163.com/14/1112/02/AAQM96Q600014AED.html.

[2] Riloff E,Jones R.Learning dictionaries for information extraction by multi-level bootstrapping[C]//AAAI/IAAI.1999:474-479.

[3] Kushmerick N.Wrapper induction:Efficiency and expressiveness[J].Artificial Intelligence,2000,118(01):15-68.

[4] 趙麗芳.基于最大熵方法的評論信息抽取研究[D].上海:上海交通大學,2009.

[5] Hu Min-qing,Liu Bing.Mining and summarizing customer reviews[C]//Proc of ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,2004:168-177.

[6] 李素建,劉群,張志勇,等.語言信息處理技術中的最大熵模型方法[J].計算機科學,2002,29(07):108-110.

[7] 章劍鋒,張奇,吳立德,等.中文觀點挖掘中的主觀性關系抽取[J].中文信息學報,2008,22(02):55-59.

[8] Somprasertsri G,Lalitrojwong P.A maximum entropy model for product feature extraction in online customer reviews[C]//Cybernetics and Intelligent Systems,2008IEEE Conference on.IEEE,2008:575-580.

[9] Rabiner L.A tutorial on hidden Markov models and selected applications in speech recognition[J].Proceedings of the IEEE,1989,77(02):257-286.

[10]Seymore K,McCallum A,Rosenfeld R.Learning hidden Markov model structure for information extraction[C]//AAAI-99Workshop on Machine Learning for Information Extraction.1999:37-42.

[11]Freitag D,McCallum A.Information extraction with HMM structures learned by stochastic optimization[J].AAAI/IAAI,2000,2000:584-589.

[12]Chen L,Qi L,Wang F.Comparison of feature-level learning methods for mining online consumer reviews[J].Expert Systems with Applications,2012,39(10):9588-9601.

[13]McCallum A,Freitag D,Pereira F C N.Maximum entropy markov models for information extraction and segmentation[C]//ICML.2000:591-598.

[14]Lafferty J,McCallum A,Pereira F C N.Conditional random fields:Probabilistic models for segmenting and labeling sequence data[C]//ICML.2001:282-289.

猜你喜歡
特征文本信息
如何表達“特征”
在808DA上文本顯示的改善
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
抓住特征巧觀察
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
線性代數的應用特征
河南科技(2014年23期)2014-02-27 14:19:15
主站蜘蛛池模板: 日日摸夜夜爽无码| 92精品国产自产在线观看| 亚洲第一中文字幕| 99精品伊人久久久大香线蕉 | 午夜限制老子影院888| 亚洲第一网站男人都懂| 久久久久夜色精品波多野结衣| 日本久久免费| 国产一二三区在线| 呦女亚洲一区精品| 欧美a级完整在线观看| 成年午夜精品久久精品| 九九热在线视频| 国产成人AV综合久久| 亚洲无线观看| 亚洲另类色| 日本国产精品一区久久久| 亚洲人网站| 精品久久人人爽人人玩人人妻| 成·人免费午夜无码视频在线观看| 日本亚洲国产一区二区三区| 亚洲永久色| 无码精油按摩潮喷在线播放 | 国产 在线视频无码| 国产激情无码一区二区三区免费| 日本不卡在线视频| 2020极品精品国产| 激情在线网| 男女男精品视频| 亚洲高清中文字幕| 无码视频国产精品一区二区| 国产成人a在线观看视频| 少妇被粗大的猛烈进出免费视频| 天天躁夜夜躁狠狠躁图片| 亚洲综合香蕉| 亚洲欧美自拍中文| 草草影院国产第一页| 免费国产在线精品一区| 国产一级一级毛片永久| 在线a网站| 国产高清毛片| 欧美成人亚洲综合精品欧美激情| 国产精品任我爽爆在线播放6080 | 狠狠色狠狠色综合久久第一次| 国产一级视频在线观看网站| 久久男人视频| 日韩精品无码一级毛片免费| 无码中文字幕乱码免费2| www.精品视频| 久久五月天国产自| 久久亚洲中文字幕精品一区| 伊人91在线| 亚洲国产中文精品va在线播放| 9久久伊人精品综合| 中文字幕首页系列人妻| 日韩东京热无码人妻| 区国产精品搜索视频| 国产综合色在线视频播放线视| 91伊人国产| 欧美黑人欧美精品刺激| 日韩午夜福利在线观看| 国产精品免费露脸视频| 久久久精品无码一二三区| 欧美日韩亚洲综合在线观看| 欧美日韩免费在线视频| 日本在线亚洲| 2020久久国产综合精品swag| 伊人久久大香线蕉成人综合网| 亚洲第一视频网| 26uuu国产精品视频| 精品91在线| 久久午夜夜伦鲁鲁片不卡| 久久精品国产999大香线焦| 天堂岛国av无码免费无禁网站| 国产人妖视频一区在线观看| 第一页亚洲| 一区二区在线视频免费观看| 国产亚洲精品自在久久不卡 | 日韩国产 在线| 日韩av手机在线| 青青草久久伊人| 99热这里只有精品国产99|