999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于上下文特征分類的評論長句切分方法

2015-11-04 06:19:22金培權岳麗華胡玉娟殷鳳梅
計算機工程 2015年9期
關鍵詞:特征

陳 鴻,金培權,岳麗華,胡玉娟,殷鳳梅

(1.合肥師范學院公共計算機教學部,合肥230091;2.中國科學技術大學計算機科學與技術學院,合肥230027)

基于上下文特征分類的評論長句切分方法

陳 鴻1,金培權2,岳麗華2,胡玉娟1,殷鳳梅1

(1.合肥師范學院公共計算機教學部,合肥230091;2.中國科學技術大學計算機科學與技術學院,合肥230027)

商品評論文本對消費者和商家的決策都有重要參考價值。用戶在評論中使用的語言較為隨意,語法結構不規則,給文本分析帶來很大難度。正確的句子切分是文本信息抽取和挖掘工作的基礎。為解決商品評論中用戶省略標點情況下的句子切分問題,基于上下文特征,提出使用機器學習的方法對評論長句進行切分。根據大規模評論語料的統計特征選取候選句子切分點,對每一個候選句子切分點提取其上下文特征,并根據語料的統計特征,使用邏輯回歸對候選切分點進行分類。實驗結果表明,該方法能夠有效解決商品評論中用戶省略標點情況下的句子切分問題。

句子切分;標點省略;機器學習;上下文特征;N元文法;邏輯回歸

1 概述

商品評論作為用戶和用戶以及用戶和商家間的一種溝通工具,對用戶和商家的決策都有重要的參考價值。對商品評論的觀點句識別、情感分析[1]等研究工作也進行了很長時間。現有針對商品評論的研究工作在基于句子切分正確的基礎上,即假設輸入為經過切分并且正確切分的句子。然而在很多電子商務網站上,用戶的商品評論具有語言風格較為隨意、語法結構不規則等特點,而其中一個重要方面就是標點符號的省略,例如:“這款彩電畫質很好音效也很不錯但是價格偏貴”,“衣服很漂亮價錢也很便宜很符合我的品味我很喜歡”。第1個句子由3個子句組成(即“這款彩電畫質很好”,“音效也很不錯”和“但是價格偏高”),而第2個句子由4個子句組成(即“衣服很漂亮”,“價錢也很便宜”,“很符合我的口味”和“我很喜歡”)。標點符號的省略對句子的切分造成了很大的影響,傳統的基于標點符號的句子切分方法在這種情形下無法適用。而句子切分的不準確也對之后的研究工作產生很大影響。

目前的漢語句子切分研究工作中,絕大部分工作都是基于標點符號的切分,這種簡單的切分方法主要是為了提高之后詞語切分和詞性標注[2-4]以及更為復雜的抽取和挖掘工作的準確率,而對于標點省略情況下的句子切分工作研究很少。目前針對句子切分的研究集中在少數民族語言[5-8]和一些特定的應用領域,比如古漢語句子切分[9-11]。文獻[9]利用詞匯和模式在農業古籍上取得了0.48的斷句準確率和0.36的標點準確率。文獻[10]采取N元文法在《論語》上取得了0.638的斷句F1分數值,而文獻[11]使用在現代漢語分詞中取得成功的條件隨機場模型,并引入互信息和t-測試差2個統計量作為特征,在《論語》上取得了0.762的斷句F1分數值和0.621的標點F1分數值;在《史記》上取得了0.682的斷句F1分數值和0.531的標點F1分數值。

古漢語的句子切分和現代漢語的句子切分研究有所不同,現在漢語的分詞和詞性標注研究時間較長,可以使用上下文的詞袋和詞性特征進行句子切分。

針對不存在標點情況下的句子切分問題,本文提出使用機器學習的方法對長句進行切分。將句子切分問題定義為一個二分類問題,首先對大規模的評論文本語料提取其統計特征,根據這些統計特征,對于一個不含終結符號的評論長句,抽取長句的候選切分點集合。其次對每個候選切分點,根據大規模評論語料的統計特征提取句子的上下文詞袋文法特征以及上下文詞性特征,并抽取候選切分點前后的長度和詞性數量特征,最后使用邏輯回歸分類器對候選切分點進行分類,判斷其是否為切分點。

2 句子切分方法框架

本文方法框架如圖1所示。

圖1 句子切分方法框架

切分方法的實現包括如下步驟:

(1)大規模評論語料統計特征抽取

首先在大規模商品評論語料中抽取標點符號上下文的詞袋n-gram模型和上下文n元詞性模型,這2個模型將用于接下來的候選切分點抽取以及候選切分點二分類的特征抽取。

(2)候選切分點抽取

對于一個待切分的句子,首先使用中科院分詞系統NLPIR進行分詞和詞性標注。對標注結果詞序列中的每2個連續詞,使用統計特征判斷這2個詞之間是否存在一個候選切分點,若統計特征大于一定閾值,則將這2個詞之間標記為一個候選的切分點,注意到一個待切分句子中可能會存在多個候選切分點。

(3)候選切分點特征抽取

對于一個待切分句子中的每一個切分點,抽取它的上下文特征,作為下一步分類的特征輸入。方法的特征主要包含2類:基本的上下文特征,比如候選切分點前后的詞性數量統計、長度統計,以及抽取的上下文的語料統計特征。

(4)候選切分點分類

對于抽取的特征,使用邏輯回歸分類器對每一個候選切分點進行分類。

3 評論語料的統計特征抽取

3.1 評論語料

使用某電子商務網站提供的商品評論語料數據集。該數據集總共包含2×106條左右的商品評論文本。將該評論語料分為2個部分,即訓練語料和測試語料。鑒于工作目的,測試評論語料中的評論文本必須符合以下2個要求:(1)評論文本的字符長度大于10;(2)評論文本中不含任何標點符號。

提出這2個要求的原因是,長度大于一定值并且其中不含標點符號的句子很大可能是由于用戶省略了標點符號,因此這些句子符合工作的出發點。

與此同時,在抽取訓練文本語料時,忽略掉那些長度小于10并且文本中不含任何標點的文本。

3.2 統計特征抽取

在訓練語料中抽取統計特征,這些統計特征主要包括2個方面:詞袋特征和詞性特征。將這些特征總結為如表1所示。為了抽取下述特征,使用中科院分詞工具NLPIR對評論文本進行分詞和詞性標注。還進行了一些預處理操作,比如將連續的相同標點符號簡化成只有一個標點(比如“。。。。。。。”化簡為“。”)。在工作中,句子切分的標點符號包括終結標點符號(比如“。”、“!”、“?”等)以及用戶在評論文本中常用的符號(比如空格、“~”等)。

表1 評論語料統計特征

抽取統計特征的基本假設是:在訓練文本中,終結標點符號前后出現的詞袋序列組合以及詞性序列組合具有一定的概率分布,對于訓練語料中的每條評論文本,抽取文本中每個終結標點符號前后的詞袋和詞性統計規律。

(1)詞袋特征:表1中的一元(二元)文法為分詞后得到的詞袋序列中連續1個(2個)詞的組合,而標點符號前后的一元(二元)文法組合為標點符號前的一元(二元)文法和標點符號后的一元(二元)文法的組合。以分詞后得到的序列:“衣服/n很/d好看/a。/w j價格/n也/d很/d便宜/a”為例,在該句子中存在著一個終結標點符號,即句號“。”。句號前的一元文法為<好看>,句號前的二元文法為<很,好看>,而句號后的一元文法為<價格>,句號后的二元文法為<價格,也>。那么該句號前后的一元文法組合為<好看,價格>,二元文法組合為<很,好看,價格,也>。由于時間和空間復雜度的限制以及效果提升的不明顯,并未抽取三元文法的特征。

詞袋特征中的文法標點共現概率可由式(1)描述:

其中,Ngrami可為某個具體的一元文法組合或者二元文法組合;分子#(Ngrami,Punc)為文法組合i和標點符號在語料庫中共同出現的次數;分母#Punc為終結標點符號在語料庫中的出現次數。該特征描述的是一個文法組合在標點符號前后出現的概率。

詞袋特征中的文法標點概率可由式(2)描述,其中分母#Ngrami為一個文法組合在語料庫中的出現次數。該公式描述的是對于某個具體的文法組合Ngrami,該文法組合出現在終結標點符號前后的次數與文法組合出現總次數的比值。

(2)詞性特征:除了詞袋特征之外,標點符號前后的詞性對一個候選切分點是否為切分點也有重要的影響。在表1所列出的特征中,一(二、三)元詞性為連續的一(二、三)個詞性的序列,而標點前后的詞性組合則類似詞袋特征中的文法組合,在此不再贅述。值得注意的是在本文方法中,對于每一個詞性,只保留它的根類,例如對于不同的名詞/ns,/nr,/nt,只保留根類詞性/n作為該詞的詞性,這個做法可以極大地減小模型的復雜度。還是以分詞后得到的序列:“衣服/n很/d好看/a。/w j價格/n也/d很/d便宜/a”為例,在該句中,對于句號的上下文,得到的一元詞性組合為<a,n>,二元詞性組合為<d,a,n,d>,三元詞性組合為<n,d,a,n,d,d>。詞性的字典大小比詞袋的字典大小小很多,本文方法中抽取的最長詞性組合為三元。

詞袋特征中的詞性標點共現概率可由式(3)描述:

其中,POSSeqi可為一元詞性組合或者二元詞性組合;分子#(POSSeqi,Punc)為詞性組合i和標點符號在語料庫中的共現次數;分母#Punc為標點符號在語料庫中的出現次數。該特征描述的是一個詞性組合在標點符號前后出現的概率。

詞袋特征中的文法標點概率可由式(4)描述,其中分母#POSSeqi為一個文法組合在語料庫中的出現次數:

4 候選切分點和分類特征抽取

對于一個給定的待切分長句,首先根據第2節中得到的語料統計特征選取候選切分點,然后對每個切分點抽取相應的分類特征。

4.1 候選切分點

若以一個句子中的所有可切分點作為候選切分點,則一個長度為N的句子中會存在N個候選切分點,而實際上一個評論句子中的子句數量遠小于N,因此,這種做法是不可取的。選取候選切分點的方法基于第2節中得到的語料統計特征,選取上下文詞袋和詞性組合在統計特征中概率較大的作為候選切分點。具體的方法由如下算法所示。

算法 候選分割點提取算法

輸入 待切分句子text,評論語料統計特征

輸出 候選切分點集合candidateSet

以分詞后得到的序列:“這/rzv款/q彩電/n畫質/n很好/anew音效/n也/d很/d不錯/a但是/c價格/n偏/d貴/a”為例,對每2個相鄰的詞(例如“這”和“款”、“款”和“彩電”、“彩電”和“畫質”等),判斷這2個詞之間是否為一個候選切分點。首先根據第2節中的語料統計特征得到每2個相鄰詞的統計特征值(由前所述,總共10個特征值),對于這10個特征值,若其中有一個特征值排在該特征值所有值大小的前K(K=500)位,則將這2個相鄰詞中間的坐標點加入候選切分點集合中。對于上面的例句,得到了2個切分點,即“很好”和“音效”、“不錯”和“但是”。

4.2 分類特征抽取

對于每個切分點,提取了2大類特征作為分類器的輸入,這2類特征為方法框架圖中所示的上下文基本特征和上下文語料統計特征。上下文語料統計特征即為第2節中所述的切分點前后詞袋和詞性特征,而上下文基本特征如表2所示。

表2 上下文基本特征

基本的上下文特征包括候選切分點前后的句子長度與句子總長度的比值,以及候選切分點前后的名詞、動詞、形容詞數量與候選切分點前后的總詞數量的比值。抽取這2類特征首先因為終結符號的出現與其在句子中的位置有很大關系,其次作為斷句標志的終結符號,其前后部分作為一個完整的句子應該含有一定數量的名詞、動詞、形容詞作為句子成分(主語、謂語、賓語等)的描述,因此抽取候選切分點前后的名詞、動詞、形容詞數量與前后的句子總次數作為特征。最后,得到這2組特征,并使用邏輯回歸分類器[12]對每個候選切分點進行分類。

5 實驗結果與分析

5.1 數據集

在前文中描述的評論語料中抽取訓練數據和測試數據。選取長度大于10并且句子中含有終結符號的句子作為訓練語料。對于訓練語料中的每一個句子,可以得到多個正樣本和多個負樣本。首先使用分詞工具NLPIR對句子進行分詞,在得到的詞序列w1,w2,…,wn-1,wn中,若wi為終結符號,在i位置產生一個正樣本;否則,對于2個均不為終結符號的詞袋wi-1,wi,在i位置產生一個負樣本。

選取長度小于等于10并且句子中不含有標點符號的句子作為測試語料。對于測試語料中的每一個句子,可以得到多個測試樣本。在分詞后的詞序列w1,w2,…,wn-1,wn中,對于每2個詞袋wi-1,wi,使用3.1節中的方法判斷2個詞袋中間的i位置是否為一個候選切分點,若i位置為候選切分點,則在i位置產生一個測試樣本。

5.2 實驗結果

在測試語料上隨機選取了500條商品評論進行測試。評測標準有2種:(1)基于切分點的評測,即在一個未切分的長句中,可能會存在多個切分點,基于切分點的評測方法統計的是所有切分點的精確率、召回率和F測量值;(2)基于句子的評測,即統計所有句子完全切分正確(包括對所有應該切分的切分點的正確切分和對所有不該切分的點的不切分)的準確率。其中,基于切分點的精確率、召回率、F測量值分別為70.5%,56.1%,62.5%,基于句子的準確率為68.0%。

在2種評測標準下的準確率達到了70%左右,這在用戶省略標點并且帶有許多新詞、口語等噪聲的商品評論語料上是一個不錯的結果,實驗結果稍有不足的是召回率不高,這也是今后工作的研究重點。

將語料統計閾值K對實驗結果的影響進行了對比,表3是不同K值下的實驗結果,其中的所有實驗均使用全部特征。可見,基于切分點的召回率隨著K值的增大而增大,而準確率大體相反,綜合不同K值的情況,選取了K=500的實驗結果作為最好的結果。

表3 不同語料統計閾值結果對比

針對不同特征對于實驗結果的影響也進行了對比,表4為選取不同特征時的實驗結果。其中,第1組特征為僅使用評論語料統計特征,第2組特征為僅使用上下文基本特征,第3組為使用詞性特征,第4組為使用詞袋特征和長度特征,而第5組為使用所有特征。表4的結果表明,使用所有特征(第5組)時得到的實驗結果最好。

表4 不同特征實驗結果對比%

6 結束語

本文使用基于上下文特征的方法,研究用戶商品評論文本中標點符號缺失情況下句子切分的問題。由于在標點符號缺失的情況下傳統基于標點符號的句子切分方法不適用,因此本文提出了使用機器學習的方法進行句子切分。根據大規模的商品評論語料統計特征,對每一個候選的切分點,抽取候選切分點的上下文文法特征和上下文詞性組合統計特征,與此同時,還加入了切分點前后的長度和詞性數量特征。使用邏輯回歸分類器對每個候選切分點進行分類,以判斷該候選切分點是否為一個真正的句子切分點。實驗證明本文方法能夠有效解決商品評論中用戶省略標點情況下的句子切分問題。下一步工作旨在提高切分句子的召回率,并對斷句之后的子句進行信息抽取。

[1] Pang Bo,Lee L.Opinion Mining and Sentiment Analysis[J].Foundations and Trends in Information Retrieval,2008,2(1/2):1-135.

[2] 劉 群,張華平,俞鴻魁,等.基于層疊隱馬模型的漢語詞法分析[J].計算機研究與發展,2004,41(8):1421-1429.

[3] 周俊生,戴新宇,尹存燕,等.基于層疊條件隨機場模型的中文機構名自動識別[J].電子學報,2006,34(5):804-809.

[4] 俞鴻魁,張華平,劉 群,等.基于層疊隱馬爾可夫模型的中文命名實體識別[J].通信學報,2006,27(2):87-94.

[5] 李 響,才藏太,姜文斌,等.最大熵和規則相結合的藏文句子邊界識別方法[J].中文信息學報,2011,25(4):39-44.

[6] 艾山·吾買爾,吐爾根·依步拉音.維吾爾語句子邊界識別算法的設計與實現[J].新疆大學學報:自然科學版,2008,25(3):360-363.

[7] 艾山·吾買爾,吐爾根·依步拉音.基于最大熵的維吾爾語句子邊界識別模型[J].計算機工程,2010,36(6):24-26.

[8] 艾山·吾買爾,吐爾根·依步拉音.統計與規則相結合的維吾爾語句子邊界識別[J].計算機工程與應用,2010,46(14):162-165.

[9] 黃建年,侯漢清.農業古籍斷句標點模式研究[J].中文信息學報,2008,22(4):31-38.

[10] 陳天瑩,陳 蓉,潘璐璐,等.基于前后文n-gram模型的古漢語句子切分[J].計算機工程,2007,33(3):192-196.

[11] 張開旭,夏云慶,宇 航.基于條件隨機場的古漢語自動斷句與標點方法[J].清華大學學報:自然科學版,2009,49(10):1733-1736.

[12] Hosmer D W,Lemeshow S,Sturdivant R X.Introduction to the Logistic Regression Model[M].Hoboken,USA:John W iley&Sons,Inc.,2000.

編輯 顧逸斐

Comment Long Sentence Segmentation Method Based on Contextual Feature Classification

CHEN Hong1,JIN Peiquan2,YUE Lihua2,HU Yujuan1,YIN Fengmei1
(1.Department of Public Computer Studies,Hefei Norm al University,Hefei 230091,China;2.School of Computer Science and Technology,University of Science and Technology of China,Hefei 230027,China)

Product reviews can help both businesses and consumers make better decisions.The arbitrary nature and irregular grammer structure of user published review makes it difficult for further textual analysis.Aim ing at resolving the problem of long sentence segmentation when users om it punctuations,entence segmentation is the foundation of the follow ing text information extraction and textmining work.Since the traditional punctuation-based methods do not work well in this condition,it proposes a machine learning based method to solve this problem.It first extracts candidate segmentation point based on statistical feature of large-scale product review corpus.Then for each candidate segmentation point,its contextual features are extracted as well as the statistical features of product review corpus and employ logistic regression to classify the candidate point.Experimental results show that this method can im prove the performance of sentence segmentation when user om its punctuations.

sentence segmentation;puntuation omitting;machine learning;contextual feature;N-gram;logistic regression

陳 鴻,金培權,岳麗華,等.基于上下文特征分類的評論長句切分方法[J].計算機工程,2015,41(9):233-237,244.

英文引用格式:Chen Hong,Jin Peiquan,Yue Lihua,et al.Comment Long Sentence Segmentation Method Based on Contextual Feature Classification[J].Computer Engineering,2015,41(9):233-237,244.

1000-3428(2015)09-0233-05

A

TP311

10.3969/j.issn.1000-3428.2015.09.043

合肥師范學院青年基金資助項目(2015QN06)。

陳 鴻(1984-),女,助教、碩士研究生,主研方向:搜索引擎,自然語言處理;金培權,副教授;岳麗華,教授、博士生導師;胡玉娟,教授;殷鳳梅,講師。

2014-08-18

2014-10-20 E-m ail:chenho@mail.ustc.edu.cn

猜你喜歡
特征
抓住特征巧觀察
離散型隨機變量的分布列與數字特征
具有兩個P’維非線性不可約特征標的非可解群
月震特征及與地震的對比
如何表達“特征”
被k(2≤k≤16)整除的正整數的特征
中等數學(2019年8期)2019-11-25 01:38:14
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
詈語的文化蘊含與現代特征
新聞傳播(2018年11期)2018-08-29 08:15:24
抓住特征巧觀察
基于特征篩選的模型選擇
主站蜘蛛池模板: 日本一区二区三区精品视频| 欧美色99| 国产资源站| 9久久伊人精品综合| 国产欧美日韩精品综合在线| 国产99视频精品免费视频7 | 五月丁香伊人啪啪手机免费观看| 午夜精品福利影院| 中国一级毛片免费观看| 国产精品久久精品| 激情在线网| 中文字幕乱码中文乱码51精品| 国产v欧美v日韩v综合精品| 伊人久久久久久久| 色婷婷在线影院| 国产精品亚洲五月天高清| 国产免费一级精品视频| 第九色区aⅴ天堂久久香| 国产自产视频一区二区三区| 久久公开视频| 美女一区二区在线观看| AV片亚洲国产男人的天堂| 亚洲综合18p| 99久久亚洲精品影院| 国产清纯在线一区二区WWW| 国产区成人精品视频| 国产sm重味一区二区三区| 伊人色天堂| 国内精品视频区在线2021| 久久久亚洲色| 性欧美久久| 国产日韩av在线播放| 欧美成人午夜在线全部免费| 91蝌蚪视频在线观看| 女人av社区男人的天堂| 国产中文在线亚洲精品官网| 国产欧美自拍视频| 亚洲系列中文字幕一区二区| 国产成a人片在线播放| 女人毛片a级大学毛片免费| 日韩性网站| 91亚洲精品国产自在现线| 高清久久精品亚洲日韩Av| 亚洲男人天堂网址| 奇米精品一区二区三区在线观看| AV网站中文| 午夜天堂视频| 国产乱人乱偷精品视频a人人澡| 全部免费毛片免费播放| 在线视频97| 久久精品国产91久久综合麻豆自制| 国产欧美精品一区二区| 色哟哟国产成人精品| 伊人久久精品无码麻豆精品 | 中文字幕在线视频免费| 狠狠操夜夜爽| 国产区精品高清在线观看| 本亚洲精品网站| 国产91色在线| 伊人成人在线| 日韩久久精品无码aV| 亚洲电影天堂在线国语对白| 无码内射在线| 中文字幕va| 午夜少妇精品视频小电影| 免费在线成人网| 亚洲AⅤ波多系列中文字幕| 国产第一色| 国产成人精品亚洲日本对白优播| 久久人搡人人玩人妻精品| 伊人久久婷婷| 最新午夜男女福利片视频| 亚洲欧美国产高清va在线播放| 中国国产高清免费AV片| 欧美不卡视频一区发布| 欧美日韩在线国产| 2020国产在线视精品在| 欧美日韩一区二区三区四区在线观看| 久久亚洲中文字幕精品一区| 国产一区二区免费播放| 久久综合AV免费观看| 亚洲久悠悠色悠在线播放|