胡甜媛,姜 瑛
1(云南省計(jì)算機(jī)技術(shù)應(yīng)用重點(diǎn)實(shí)驗(yàn)室,云南 昆明 650500)
2(昆明理工大學(xué) 信息工程與自動(dòng)化學(xué)院,云南 昆明 650500)
隨著智能終端的廣泛應(yīng)用,APP 軟件發(fā)展迅速.APP 軟件的特點(diǎn)是開發(fā)周期短,更新速度快,同類型產(chǎn)品競(jìng)爭(zhēng)激烈.在日益激烈的市場(chǎng)競(jìng)爭(zhēng)中,用戶驅(qū)動(dòng)的軟件演化更具有實(shí)際意義.Panago 等人[1]指出,由于軟件開發(fā)者和用戶互不認(rèn)識(shí),用戶使用反饋,如建議意見和系統(tǒng)異常等對(duì)開發(fā)者更加重要.因此,獲取有價(jià)值的軟件使用反饋可以讓用戶參與到軟件的設(shè)計(jì)和維護(hù)中,是軟件開發(fā)商在競(jìng)爭(zhēng)激烈的軟件市場(chǎng)取得更好收益的重要保證.Jiang 等人[2]認(rèn)為,APP 軟件的在線用戶評(píng)論憑借覆蓋用戶廣泛、內(nèi)容豐富、時(shí)效性強(qiáng)等優(yōu)勢(shì),成為軟件使用反饋獲取的重要資源.Lu 等人[3]認(rèn)為,針對(duì)產(chǎn)品的在線用戶評(píng)論可以及時(shí)地體現(xiàn)用戶關(guān)注的產(chǎn)品屬性、同類型其他產(chǎn)品的優(yōu)勢(shì)與自身產(chǎn)品的劣勢(shì)以及下一版本需要改進(jìn)的地方.因此,基于APP 軟件的用戶評(píng)論挖掘可以幫助獲取有價(jià)值的軟件使用反饋,分析用戶在使用軟件過程中的使用感受及用戶所關(guān)注的軟件特征,幫助軟件開發(fā)者站在用戶的視角有針對(duì)性地維護(hù)和改進(jìn)軟件,最終輔助軟件開發(fā)者提高軟件產(chǎn)品的競(jìng)爭(zhēng)力.此外,挖掘體現(xiàn)使用反饋的用戶評(píng)論有助于軟件應(yīng)用市場(chǎng)綜合分析軟件的實(shí)際使用情況,從而給潛在用戶提供有效的參考.
然而,APP 軟件用戶群體廣泛,用戶評(píng)論內(nèi)容多樣.海量的用戶評(píng)論中包含大量與APP 軟件使用反饋不相關(guān)的用戶評(píng)論信息,例如,與所評(píng)價(jià)的APP 軟件無關(guān)的用戶評(píng)論、未體現(xiàn)APP 軟件實(shí)際使用情況或用戶使用觀點(diǎn)的用戶評(píng)論等.針對(duì)用戶評(píng)論數(shù)據(jù)規(guī)模大、更新快等特點(diǎn),如何過濾大規(guī)模用戶評(píng)論數(shù)據(jù)中未體現(xiàn)使用反饋的用戶評(píng)論,準(zhǔn)確、高效地獲取有建設(shè)性的APP 軟件用戶的使用反饋是當(dāng)前亟需解決的問題.
針對(duì)挖掘用戶評(píng)論中有價(jià)值的使用反饋,國(guó)內(nèi)外學(xué)者開展了相關(guān)研究.Cui 等人[4]提出基于評(píng)論挖掘的需求獲取方法RERM(software requirement elicitation method on review mining),通過采用本體和條件隨機(jī)場(chǎng)模型融合的特征提取方法,結(jié)合情感分析技術(shù),對(duì)軟件存在的相關(guān)問題分類匯總,如改進(jìn)特征、建議意見和缺陷修改等.為了挖掘用戶評(píng)論中體現(xiàn)軟件存在的問題的使用反饋,Panichella 等人[5]應(yīng)用一種自然語言解析器(stanford typed dependencies parser)進(jìn)行特征抽取,通過對(duì)依賴關(guān)系的分析,檢測(cè)評(píng)論文本結(jié)構(gòu),分析特定的關(guān)鍵字所對(duì)應(yīng)的精確語法角色和特定語法結(jié)構(gòu),從而判斷用戶評(píng)論是否與軟件缺陷或用戶功能請(qǐng)求等方面的使用反饋相關(guān).Grano 等人[6]提供了APP 軟件的用戶反饋類型的概述,并記錄了相關(guān)代碼度量標(biāo)準(zhǔn)的演變.
部分研究通過分類、聚類來挖掘用戶評(píng)論.Guzman 等人[7]為了識(shí)別用戶評(píng)論中體現(xiàn)使用反饋的細(xì)粒度的功能特征,利用主題建模技術(shù)對(duì)細(xì)粒度功能進(jìn)行分組,將其轉(zhuǎn)化為更有意義的高級(jí)特征.Keertipati 等人[8]為了挖掘用戶評(píng)論中體現(xiàn)的軟件需要改進(jìn)的特征,應(yīng)用文獻(xiàn)[7]中主題模型的方法抽取用戶評(píng)論中的相關(guān)特征,站在APP 軟件開發(fā)者的角度,對(duì)挖掘出的軟件使用過程中存在的問題或用戶期望進(jìn)行優(yōu)先級(jí)排序.Gao 等人[9]提出的主題排序和評(píng)論排序計(jì)劃可以對(duì)用戶評(píng)論進(jìn)行優(yōu)先級(jí)排序,從而幫助開發(fā)者應(yīng)用最合適的主題模型發(fā)現(xiàn)軟件使用過程中存在的最新問題.Palomba 等人[10]圍繞相似的體現(xiàn)軟件未達(dá)到期望的用戶評(píng)論,通過主題模型LDA(latent Dirichlet allocation)等3 種聚類技術(shù)對(duì)評(píng)論中的用戶請(qǐng)求進(jìn)行分組.Guzman 等人[11]應(yīng)用多個(gè)分類器對(duì)用戶評(píng)論進(jìn)行更詳細(xì)的種類劃分,將APP 軟件用戶評(píng)論劃分為7 個(gè)類別:缺陷報(bào)告、功能優(yōu)點(diǎn)、功能缺點(diǎn)、用戶請(qǐng)求、表揚(yáng)、抱怨和使用場(chǎng)景,不同類型的用戶評(píng)論可以反饋出用戶對(duì)軟件的滿意程度或軟件存在的問題等.Maalej 等人[12]采用文本分類、自然語言處理、多種情感分析等技術(shù)將用戶評(píng)論分為問題報(bào)告、功能請(qǐng)求、用戶體驗(yàn)和評(píng)分4 種類型.Villarroel 等人[13]設(shè)計(jì)了一種分類、聚類的方法——CLAP(crowd listener for release planning),對(duì)體現(xiàn)軟件缺陷、特征請(qǐng)求等用戶評(píng)論進(jìn)行分類,同時(shí)針對(duì)體現(xiàn)相似軟件缺陷的用戶評(píng)論進(jìn)行聚類.Gu 等人[14]根據(jù)預(yù)定義的句式結(jié)構(gòu)直接抽取用戶評(píng)論句子中的對(duì)象-觀點(diǎn)對(duì),通過對(duì)象-觀點(diǎn)進(jìn)行相同方面的聚類來總結(jié)用戶評(píng)論中體現(xiàn)的使用反饋.
通過分析現(xiàn)有研究我們發(fā)現(xiàn):(1)在經(jīng)過預(yù)處理后的用戶評(píng)論數(shù)據(jù)中,仍然包含大量無用數(shù)據(jù),應(yīng)用分類技術(shù)挖掘用戶評(píng)論,大量無關(guān)的用戶評(píng)論數(shù)據(jù)會(huì)影響有價(jià)值的使用反饋數(shù)據(jù)的挖掘;(2)基于已有的知識(shí)庫的方式只能匹配知識(shí)庫中已有的內(nèi)容,無法識(shí)別知識(shí)庫外有價(jià)值的信息;(3)應(yīng)用有限的軟件特征詞挖掘體現(xiàn)使用反饋的用戶評(píng)論,忽略了句式結(jié)構(gòu)的重要性;已有針對(duì)用戶評(píng)論進(jìn)行使用反饋挖掘的研究對(duì)象大部分為用戶評(píng)論內(nèi)容,而忽略了用戶評(píng)論的句式結(jié)構(gòu)在用戶表達(dá)使用反饋時(shí)的規(guī)律.此外,由于在線網(wǎng)絡(luò)環(huán)境下,用戶評(píng)論數(shù)量大、更新快且類型豐富,部分研究采用有監(jiān)督的學(xué)習(xí)方式,需要建立完備的數(shù)據(jù)資源,且隨著時(shí)間的推移,人工標(biāo)注的數(shù)據(jù)資源需要不斷補(bǔ)充甚至重新構(gòu)建,難以滿足挖掘需求.如何綜合分析APP 軟件用戶評(píng)論的評(píng)論內(nèi)容和評(píng)論句式結(jié)構(gòu)的特點(diǎn),通過半監(jiān)督自學(xué)習(xí)的方式,自動(dòng)挖掘出體現(xiàn)不同類型的使用反饋的APP 軟件用戶評(píng)論是本文的研究重點(diǎn).
由于軟件的維護(hù)和演化應(yīng)該嚴(yán)格地由用戶評(píng)論中包含的用戶請(qǐng)求來引導(dǎo),所以軟件用戶的使用反饋分析尤其重要[15].通過分析用戶針對(duì)APP 軟件發(fā)表的不同類型的使用反饋,可以幫助軟件開發(fā)者獲得有價(jià)值的軟件信息,發(fā)現(xiàn)用戶主要關(guān)注的軟件特征和常見的軟件存在的問題.文獻(xiàn)[16]認(rèn)為,從用戶的使用反饋中獲取用戶需求的主要任務(wù)是從海量、非結(jié)構(gòu)化、有噪聲、不確定的評(píng)論中抽取用戶共同關(guān)注的軟件特征及其群體觀點(diǎn).在挖掘體現(xiàn)使用反饋的用戶評(píng)論過程中,本文認(rèn)為,用戶所關(guān)注的軟件特征即評(píng)價(jià)對(duì)象,用戶所表達(dá)的觀點(diǎn)即評(píng)價(jià)觀點(diǎn).評(píng)價(jià)對(duì)象就是觀點(diǎn)持有者表達(dá)情感的目標(biāo)實(shí)體,通常由一個(gè)或多個(gè)單詞組成[17].評(píng)價(jià)觀點(diǎn)指的是能夠表達(dá)用戶自身觀點(diǎn)的帶有情感傾向的詞語,是判斷用戶對(duì)評(píng)價(jià)對(duì)象情感的根本依據(jù)[18].因此,用戶針對(duì)不同的評(píng)價(jià)對(duì)象發(fā)表不同的觀點(diǎn),對(duì)評(píng)價(jià)觀點(diǎn)進(jìn)行歸類可以挖掘出不同類型的用戶使用反饋.通過分析大量體現(xiàn)使用反饋的APP 軟件用戶評(píng)論后發(fā)現(xiàn),有價(jià)值的APP 軟件使用反饋往往針對(duì)該APP 軟件的實(shí)際使用情況發(fā)表滿意或者不滿意的觀點(diǎn),不滿意的用戶評(píng)論觀點(diǎn)一般體現(xiàn)出軟件在實(shí)際使用過程中存在的問題.此外,用戶評(píng)論體現(xiàn)的建議或意見對(duì)于APP 軟件的維護(hù)和改進(jìn)也具有較大的參考價(jià)值.因此,本文將用戶評(píng)論體現(xiàn)的APP 軟件使用反饋總結(jié)為以下3 種類型.
(1)軟件滿足的需求:描述了用戶在實(shí)際使用軟件的過程中,軟件的某些特征或軟件整體使用戶具有較好的使用體驗(yàn).
(2)軟件存在的問題:描述了用戶在實(shí)際使用軟件的過程中,軟件存在的問題,例如崩潰、錯(cuò)誤或性能問題.
(3)軟件未達(dá)到的期望:表達(dá)了用戶希望達(dá)到的功能(例如其他同類型軟件提供的功能),分享如何通過添加或更改特性來改進(jìn)未來版本軟件的想法.
針對(duì)上述3 種不同類型的APP 軟件使用反饋,本文進(jìn)行用戶評(píng)論的挖掘,主要針對(duì)一條用戶評(píng)論中的評(píng)價(jià)對(duì)象和評(píng)價(jià)觀點(diǎn)進(jìn)行分析,排除用戶評(píng)論中大量無關(guān)信息的干擾,旨在以評(píng)價(jià)對(duì)象和評(píng)價(jià)觀點(diǎn)作為一條用戶評(píng)論的核心內(nèi)容,從海量用戶評(píng)論中挖掘出體現(xiàn)不同使用反饋類型的用戶評(píng)論.
針對(duì)APP 軟件的使用反饋進(jìn)行用戶評(píng)論挖掘,可以通過分析評(píng)價(jià)對(duì)象和評(píng)價(jià)觀點(diǎn)判斷用戶評(píng)論是否體現(xiàn)了某種類型的使用反饋.此外,通過分析大量用戶評(píng)論,本文發(fā)現(xiàn),針對(duì)體現(xiàn)不同類型的使用反饋,特定的句式結(jié)構(gòu)可以輔助挖掘體現(xiàn)不同使用反饋類型的用戶評(píng)論.例如:“安裝/v 不/d 了/y”和“登/v 不/d 上/vf”(其中,v 表示動(dòng)詞、d 表示副詞、y 表示語氣詞、vf 表示趨向動(dòng)詞),其評(píng)價(jià)對(duì)象不同,分別為“安裝/v”和“登/v”,但兩者句式結(jié)構(gòu)相似,均為“v+d(否定副詞)”,該句式結(jié)構(gòu)特點(diǎn)為:動(dòng)詞v 表示評(píng)價(jià)對(duì)象,否定副詞d 表示評(píng)價(jià)觀點(diǎn),且該句式結(jié)構(gòu)均體現(xiàn)“軟件存在的問題”這一使用反饋類型.由此可以看出,評(píng)價(jià)對(duì)象、評(píng)價(jià)觀點(diǎn)、句式結(jié)構(gòu)這3 個(gè)方面在挖掘用戶評(píng)論時(shí)都至關(guān)重要.由于詞體現(xiàn)評(píng)價(jià)內(nèi)容,詞性體現(xiàn)句式結(jié)構(gòu),所以綜合分析詞和詞性是挖掘體現(xiàn)使用反饋的用戶評(píng)論的重要手段.
本節(jié)定義評(píng)價(jià)對(duì)象和評(píng)價(jià)觀點(diǎn)的抽取規(guī)則,通過該抽取規(guī)則分析一條用戶評(píng)論的核心內(nèi)容;結(jié)合APP 軟件使用反饋類型定義了評(píng)論種子,通過定義評(píng)論種子,綜合應(yīng)用一條用戶評(píng)論的詞和詞性可以挖掘與之相同或相似的體現(xiàn)相同使用反饋類型的用戶評(píng)論;利用評(píng)價(jià)對(duì)象和評(píng)價(jià)觀點(diǎn)的抽取規(guī)則輔助分析評(píng)論種子的評(píng)價(jià)對(duì)象和評(píng)價(jià)觀點(diǎn),抽取新的評(píng)論種子,從而獲得評(píng)論種子的核心表達(dá)內(nèi)容、排除無關(guān)內(nèi)容的干擾.
為了判斷用戶評(píng)論中的核心內(nèi)容是否體現(xiàn)使用反饋,需抽取用戶評(píng)論中的評(píng)價(jià)對(duì)象和評(píng)價(jià)觀點(diǎn).
評(píng)價(jià)對(duì)象多為名詞或者名詞短語[19].此外,由于本文針對(duì)體現(xiàn)使用反饋的用戶評(píng)論進(jìn)行挖掘,通過人工分析大量體現(xiàn)使用反饋的用戶評(píng)論的評(píng)價(jià)對(duì)象發(fā)現(xiàn),存在用戶針對(duì)軟件功能性的行為動(dòng)作進(jìn)行評(píng)價(jià)的情況,如評(píng)價(jià)對(duì)象為“下載/v”和“退出/v 播放/v”等.因此,本文主要針對(duì)名詞、動(dòng)詞及其組合形式建立評(píng)價(jià)對(duì)象詞性組合規(guī)則以抽取評(píng)價(jià)對(duì)象,抽取規(guī)則見表1.

Table 1 Extracting rules of evaluation object表1 評(píng)價(jià)對(duì)象抽取規(guī)則
其中,v 表示動(dòng)詞、vi 表示不及物動(dòng)詞、vn 表示動(dòng)名詞、a 表示形容詞、n 表示名詞.
文獻(xiàn)[20]指出,形容詞或動(dòng)詞可以作為判別句子中情感傾向的依據(jù),副詞作為形容詞以及動(dòng)詞的修飾詞,起到了增強(qiáng)情感強(qiáng)度的作用,而形容詞、動(dòng)詞能夠更好地指示其情感傾向.但是,通過人工分析大量體現(xiàn)使用反饋的用戶評(píng)論的評(píng)價(jià)對(duì)象后發(fā)現(xiàn),否定副詞在修飾形容詞或動(dòng)詞表示評(píng)價(jià)觀點(diǎn)時(shí)起到否定修飾的作用而不是增強(qiáng)情感,如“不/d 喜歡/v”.因此,本文主要針對(duì)形容詞、動(dòng)詞、否定副詞及其組合形式建立評(píng)價(jià)觀點(diǎn)詞性規(guī)則以抽取評(píng)價(jià)觀點(diǎn),抽取規(guī)則見表2.

Table 2 Extracting rules of evaluation opinion表2 評(píng)價(jià)觀點(diǎn)抽取規(guī)則
其中,an 表示名形詞,al 表示形容詞性慣用語,vg 表示動(dòng)詞性語素,ag 表示形容詞性語素,ng 表示名詞性語素,y 表示語氣詞.
表2 中“否定修飾觀點(diǎn)”涉及否定副詞的概念,本文參考文獻(xiàn)[21],抽取了如下否定副詞:“沒有、不、非、匪、弗、否、靡、蔑、莫、末、蒯、微、未、無、毋、勿、別、沒、休、白、空、徒、枉”.如表2 中的用戶評(píng)論示例“廣告/n 太/d 長(zhǎng)/a”,該評(píng)論包含詞性組合“d+a”,其中的d 為“太”,由于“太”不是否定副詞,所以該用戶評(píng)論的評(píng)價(jià)觀點(diǎn)為“長(zhǎng)”.
如果一條用戶評(píng)論滿足多條評(píng)價(jià)對(duì)象(評(píng)價(jià)觀點(diǎn))抽取規(guī)則,就會(huì)引發(fā)沖突,此時(shí)需要為抽取規(guī)則定義相應(yīng)的優(yōu)先級(jí).主要存在以下兩種情況.
(1)用戶評(píng)論同時(shí)滿足多條評(píng)價(jià)對(duì)象(評(píng)價(jià)觀點(diǎn))抽取規(guī)則,且每條規(guī)則不相關(guān).例如:“棒/ng,/wd 不過/c 皮膚/n 不/d 夠/v”,該用戶評(píng)論通過“名詞獨(dú)立對(duì)象”規(guī)則抽取的評(píng)價(jià)對(duì)象為“皮膚”.然而,在抽取評(píng)價(jià)觀點(diǎn)的過程中,該用戶評(píng)論同時(shí)滿足“否定修飾行為觀點(diǎn)”規(guī)則和“語素獨(dú)立觀點(diǎn)”規(guī)則.通過“否定修飾行為觀點(diǎn)”規(guī)則抽取出的評(píng)價(jià)觀點(diǎn)為“不夠”,通過“語素獨(dú)立觀點(diǎn)”規(guī)則抽取出的評(píng)價(jià)觀點(diǎn)為“棒”.評(píng)價(jià)觀點(diǎn)“不夠”修飾評(píng)價(jià)對(duì)象“皮膚”,且該評(píng)價(jià)觀點(diǎn)對(duì)分析用戶使用反饋更有建設(shè)性,因此,“否定修飾行為觀點(diǎn)”規(guī)則的優(yōu)先級(jí)高于“語素獨(dú)立觀點(diǎn)”規(guī)則.
(2)用戶評(píng)論同時(shí)滿足多條評(píng)價(jià)對(duì)象(評(píng)價(jià)觀點(diǎn))抽取規(guī)則,且其中一條規(guī)則的詞性組合包含另一條規(guī)則的詞性組合.例如,評(píng)論“不/d 好/a”在抽取評(píng)價(jià)觀點(diǎn)的過程中,可能同時(shí)滿足表2 中“否定修飾觀點(diǎn)”和“形容詞獨(dú)立觀點(diǎn)”規(guī)則,且“否定修飾觀點(diǎn)”規(guī)則的詞性組合“d+a”包含“形容詞獨(dú)立觀點(diǎn)”規(guī)則的詞性組合“a”,但通過“否定修飾觀點(diǎn)”規(guī)則抽取出的評(píng)價(jià)觀點(diǎn)才是表達(dá)正確的評(píng)價(jià)觀點(diǎn),因此,“否定修飾觀點(diǎn)”規(guī)則的優(yōu)先級(jí)高于“形容詞獨(dú)立觀點(diǎn)”規(guī)則.
針對(duì)上述兩種評(píng)價(jià)對(duì)象(評(píng)價(jià)觀點(diǎn))抽取規(guī)則的沖突情況,我們通過分析大量體現(xiàn)使用反饋的用戶評(píng)論數(shù)據(jù),總結(jié)了不同抽取規(guī)則在分析用戶評(píng)論的評(píng)價(jià)對(duì)象和評(píng)價(jià)觀點(diǎn)時(shí)的有效性,對(duì)每個(gè)抽取規(guī)則定義了不同的優(yōu)先級(jí).優(yōu)先級(jí)體現(xiàn)了抽取規(guī)則的優(yōu)先程度,優(yōu)先級(jí)越高,抽取規(guī)則的優(yōu)先程度越高.
按照表1 和表2 中抽取規(guī)則中的優(yōu)先級(jí)分別抽取評(píng)價(jià)對(duì)象和評(píng)價(jià)觀點(diǎn),主要遵循以下原則.
(1)在抽取評(píng)價(jià)對(duì)象(評(píng)價(jià)觀點(diǎn))時(shí),若用戶評(píng)論同時(shí)包含多種優(yōu)先級(jí)的評(píng)價(jià)對(duì)象(評(píng)價(jià)觀點(diǎn))類型,則按優(yōu)先級(jí)最高的評(píng)價(jià)對(duì)象(評(píng)價(jià)觀點(diǎn))類型的規(guī)則進(jìn)行抽取,不考慮其他規(guī)則.
(2)在抽取評(píng)價(jià)對(duì)象的過程中,若用戶評(píng)論中同時(shí)包含同一優(yōu)先級(jí)的評(píng)價(jià)對(duì)象類型,則根據(jù)該評(píng)價(jià)對(duì)象類型的詞性組合出現(xiàn)的先后順序,抽取位置較前的詞性組合所對(duì)應(yīng)的評(píng)價(jià)對(duì)象.
(3)在完成評(píng)價(jià)對(duì)象抽取之后進(jìn)行評(píng)價(jià)觀點(diǎn)抽取時(shí),若用戶評(píng)論中同時(shí)包含同一優(yōu)先級(jí)的評(píng)價(jià)觀點(diǎn)類型,則根據(jù)該評(píng)價(jià)觀點(diǎn)類型的詞性組合與已抽取的評(píng)價(jià)對(duì)象的距離,抽取與評(píng)價(jià)對(duì)象距離較近的詞性組合所對(duì)應(yīng)的評(píng)價(jià)觀點(diǎn).
應(yīng)用本節(jié)構(gòu)建的評(píng)價(jià)對(duì)象和評(píng)價(jià)觀點(diǎn)的抽取規(guī)則可以自動(dòng)抽取一條用戶評(píng)論中的評(píng)價(jià)對(duì)象和評(píng)價(jià)觀點(diǎn),通過該方式可挖掘一條用戶評(píng)論中的核心內(nèi)容,并通過核心內(nèi)容分析用戶評(píng)論是否體現(xiàn)使用反饋及其使用反饋類型.
為了更準(zhǔn)確地挖掘出體現(xiàn)使用反饋的APP 軟件用戶評(píng)論,針對(duì)不同使用反饋類型,本文從綜合考慮詞和詞性的角度出發(fā),結(jié)合評(píng)價(jià)對(duì)象和評(píng)價(jià)觀點(diǎn)的抽取規(guī)則提出了評(píng)論模式和評(píng)論種子的概念.首先,為了便于挖掘用戶評(píng)論,本文將用戶評(píng)論的內(nèi)容定義為評(píng)論模式.
定義1.評(píng)論模式(mode):用戶評(píng)論的有代表性的表達(dá)方式,包含詞、詞性、權(quán)重和使用反饋類型4 個(gè)屬性.評(píng)論庫中共有r條用戶評(píng)論,對(duì)應(yīng)r個(gè)評(píng)論模式:mode={mode1,…,modem,…,moder}(1≤m≤r),modem=〈wordm1+…+wordmn+…+wordmq,speechm1+…+speechmn+…+speechmq,weightm1+…+weightmn+…+weightmq,feedback_typem〉(1≤n≤q).
其中,word代表詞;speech代表詞性;weight代表詞及其詞性對(duì)應(yīng)的權(quán)重;+代表詞/詞性/權(quán)重的連接;q代表評(píng)論模式中詞(詞性)的數(shù)量;feedback_typem代表用戶評(píng)論commentm體現(xiàn)的使用反饋類型,未對(duì)評(píng)論commentm進(jìn)行使用反饋類型判斷時(shí),其值為unknown.
針對(duì)用戶評(píng)論表達(dá)不規(guī)則、數(shù)量大、更新快的特點(diǎn),本文借鑒了種子的相關(guān)思想.種子的概念被廣泛應(yīng)用于知識(shí)獲取的半監(jiān)督機(jī)器學(xué)習(xí)[22]中,將人工標(biāo)注的少量語料作為評(píng)論種子,并通過半監(jiān)督自學(xué)習(xí)的方式從大量未標(biāo)注的語料中自動(dòng)迭代擴(kuò)大評(píng)論種子集.由于評(píng)價(jià)對(duì)象、評(píng)價(jià)觀點(diǎn)、句式結(jié)構(gòu)這3 個(gè)方面在挖掘用戶評(píng)論時(shí)都至關(guān)重要,本文通過詞性的方式體現(xiàn)句式結(jié)構(gòu),通過詞和權(quán)重的方式體現(xiàn)評(píng)價(jià)對(duì)象和評(píng)價(jià)觀點(diǎn)這兩個(gè)核心評(píng)價(jià)內(nèi)容,并設(shè)置使用反饋類型標(biāo)識(shí)評(píng)論種子體現(xiàn)的使用反饋類型,具體的評(píng)論種子定義如下.
定義2.評(píng)論種子(seed):體現(xiàn)使用反饋的具有代表性的評(píng)論表達(dá)方式,包含詞、詞性、權(quán)重、距離和使用反饋類型5 個(gè)屬性.評(píng)論種子庫中共有s個(gè)評(píng)論種子.

其中,word代表詞;speech代表詞性;p代表評(píng)論種子中詞(詞性)的數(shù)量;weight代表詞及其詞性對(duì)應(yīng)的權(quán)重,可體現(xiàn)評(píng)價(jià)對(duì)象和評(píng)價(jià)觀點(diǎn);+代表詞/詞性/權(quán)重的連接;disi為該評(píng)論種子的距離,其值為評(píng)價(jià)對(duì)象和評(píng)價(jià)觀點(diǎn)之間可擴(kuò)展的最大距離以及評(píng)論種子中評(píng)價(jià)對(duì)象和評(píng)價(jià)觀點(diǎn)的詞(詞性)的數(shù)量之和,評(píng)價(jià)對(duì)象和評(píng)價(jià)觀點(diǎn)之間可擴(kuò)展的最大距離表示評(píng)價(jià)對(duì)象和評(píng)價(jià)觀點(diǎn)之間可能出現(xiàn)不影響評(píng)論表達(dá)含義的其他詞的最大數(shù)量;feedback_typei表示該評(píng)論種子體現(xiàn)的使用反饋類型.應(yīng)用第3.1 節(jié)中的評(píng)價(jià)對(duì)象和評(píng)價(jià)觀點(diǎn)抽取規(guī)則,抽取評(píng)論種子中的評(píng)價(jià)對(duì)象和評(píng)價(jià)觀點(diǎn),評(píng)論種子的詞及其詞性對(duì)應(yīng)的權(quán)重weight的計(jì)算如公式(1)所示:

其中,numObjectOpinion代表該評(píng)論種子的評(píng)價(jià)對(duì)象和評(píng)價(jià)觀點(diǎn)的總個(gè)數(shù).例如,評(píng)論種子“〈內(nèi)存+太+大,n+d+a,0.5+0+0.5,6,軟件存在的問題〉”,應(yīng)用“獨(dú)立名詞對(duì)象”的詞性組合規(guī)則抽取出該評(píng)論種子的評(píng)價(jià)對(duì)象為“內(nèi)存”,應(yīng)用“否定修飾觀點(diǎn)”的詞性組合規(guī)則抽取出該評(píng)論種子的評(píng)價(jià)觀點(diǎn)為“大”.該評(píng)論種子的評(píng)價(jià)對(duì)象和評(píng)價(jià)觀點(diǎn)的詞(詞性)的數(shù)量為2,針對(duì)該評(píng)論種子的表達(dá)方式,評(píng)價(jià)對(duì)象和評(píng)價(jià)觀點(diǎn)之間一般由副詞修飾評(píng)價(jià)觀點(diǎn),且副詞數(shù)量最大為4[23],因此,該評(píng)論種子的距離為評(píng)價(jià)對(duì)象和評(píng)價(jià)觀點(diǎn)之間可擴(kuò)展的最大距離與評(píng)論種子中評(píng)價(jià)對(duì)象和評(píng)價(jià)觀點(diǎn)的詞(詞性)的數(shù)量之和,即4+2=6.
基于評(píng)論模式和評(píng)論種子的定義,可以結(jié)合評(píng)價(jià)對(duì)象和評(píng)價(jià)觀點(diǎn)的抽取規(guī)則設(shè)置評(píng)論種子的詞及其詞性的權(quán)重,通過權(quán)重的方式反映出該評(píng)論種子中體現(xiàn)使用反饋的核心評(píng)論內(nèi)容.針對(duì)評(píng)論模式和評(píng)論種子中的詞和詞性,從評(píng)論內(nèi)容和句式結(jié)構(gòu)兩方面挖掘用戶評(píng)論,挖掘出與評(píng)論種子相同或相似的用戶評(píng)論與評(píng)論種子體現(xiàn)相同的使用反饋類型.
由于體現(xiàn)APP 軟件使用反饋類型的用戶評(píng)論變化多樣,人工標(biāo)注的數(shù)據(jù)資源無法滿足挖掘體現(xiàn)使用反饋的用戶評(píng)論的要求.因此,本文采用半監(jiān)督學(xué)習(xí)的方式,主要通過循環(huán)挖掘過程中動(dòng)態(tài)擴(kuò)充評(píng)論種子庫,擴(kuò)大挖掘體現(xiàn)使用反饋的用戶評(píng)論的范圍,在人工標(biāo)注數(shù)據(jù)有限的情況下提高挖掘體現(xiàn)使用反饋的用戶評(píng)論的能力.循環(huán)挖掘過程包括以下4 個(gè)步驟.
(1)通過評(píng)論種子挖掘與評(píng)論種子相同或相似的體現(xiàn)使用反饋的用戶評(píng)論:不局限于特定的評(píng)價(jià)對(duì)象、評(píng)價(jià)觀點(diǎn)或固定的評(píng)論句式結(jié)構(gòu),應(yīng)用評(píng)論種子定義的詞、詞性、權(quán)重及距離這4 個(gè)屬性共同挖掘與評(píng)論種子相同或相似的用戶評(píng)論.
(2)通過能愿動(dòng)詞挖掘體現(xiàn)“軟件未達(dá)到的期望”的用戶評(píng)論:評(píng)論種子的數(shù)量限定了能被挖掘出的體現(xiàn)使用反饋的用戶評(píng)論是有限的,但與評(píng)論種子匹配失敗的用戶評(píng)論中仍然可能包含體現(xiàn)使用反饋的用戶評(píng)論,通過明確體現(xiàn)“用戶期望”的能愿動(dòng)詞挖掘用戶評(píng)論,此類用戶評(píng)論可以體現(xiàn)“軟件未達(dá)到的期望”這一使用反饋類型,抽取其評(píng)論模式進(jìn)入候選評(píng)論模式庫.
(3)通過軟件簡(jiǎn)介和情感分析挖掘體現(xiàn)“軟件存在的問題”和“軟件滿足的需求”的用戶評(píng)論:由于能愿動(dòng)詞有較強(qiáng)的針對(duì)性,用戶評(píng)論數(shù)目相對(duì)較少,剩余的用戶評(píng)論中仍然可能包含體現(xiàn)使用反饋的用戶評(píng)論,因此通過軟件簡(jiǎn)介判斷該用戶評(píng)論是否與評(píng)價(jià)軟件相關(guān),針對(duì)與評(píng)價(jià)軟件相關(guān)的用戶評(píng)論通過情感分析的方式判斷該用戶表達(dá)出的情感觀點(diǎn)正負(fù),確定該用戶評(píng)論體現(xiàn)的使用反饋類型——“軟件存在的問題”或“軟件滿足的需求”,抽取其評(píng)論模式進(jìn)入候選評(píng)論模式庫.
(4)通過候選評(píng)論模式抽取新評(píng)論種子:通過評(píng)論種子可以挖掘與之相同或相似的、體現(xiàn)使用反饋的用戶評(píng)論,動(dòng)態(tài)擴(kuò)充評(píng)論種子可以適應(yīng)評(píng)論數(shù)據(jù)量大、更新快的特點(diǎn),實(shí)現(xiàn)體現(xiàn)使用反饋的用戶評(píng)論的動(dòng)態(tài)挖掘.本文針對(duì)每次循環(huán)挖掘,建立不同的候選評(píng)論模式庫,該候選評(píng)論模式庫中包含未挖掘出的、體現(xiàn)使用反饋的用戶評(píng)論,基于候選評(píng)論模式庫抽取新的具有代表性的評(píng)論種子,進(jìn)入下一次的循環(huán),挖掘剩余評(píng)論數(shù)據(jù)中體現(xiàn)使用反饋的用戶評(píng)論.
挖掘體現(xiàn)使用反饋的用戶評(píng)論的流程圖如圖1 所示.

Fig.1 The flow diagram of mining user’s comments reflecting usage feedback圖1 挖掘體現(xiàn)使用反饋的用戶評(píng)論流程圖
本文針對(duì)循環(huán)挖掘體現(xiàn)使用反饋的用戶評(píng)論定義挖掘收斂條件,針對(duì)第time次循環(huán),應(yīng)用Levenshtein相似度計(jì)算方法[24]計(jì)算新評(píng)論種子的評(píng)價(jià)對(duì)象和評(píng)價(jià)觀點(diǎn)與已有評(píng)論種子的評(píng)價(jià)對(duì)象和評(píng)價(jià)觀點(diǎn)之間的文本相似度.為了確定文本相似度的閾值,本文隨機(jī)選取了一批體現(xiàn)APP 軟件使用反饋的評(píng)論種子,多次計(jì)算任意兩個(gè)評(píng)論種子對(duì)應(yīng)的評(píng)價(jià)對(duì)象和評(píng)價(jià)觀點(diǎn)之間的文本相似度.我們發(fā)現(xiàn),當(dāng)詞性組合完全相同且詞完全不同時(shí),文本相似度為0.4.如果兩個(gè)評(píng)論種子的評(píng)價(jià)對(duì)象和評(píng)價(jià)觀點(diǎn)的詞性組合完全相同且存在相同詞,文本相似度會(huì)大于0.4,此時(shí),兩個(gè)評(píng)論種子體現(xiàn)的使用反饋相似,例如評(píng)論種子“〈軟件+功能+好,n+n+a,0.33+0.33+0.33,7,軟件滿足的需求〉”和“〈視頻+界面+好,n+n+a,0.33+0.33+0.33,7,軟件滿足的需求〉”對(duì)應(yīng)的評(píng)價(jià)對(duì)象和評(píng)價(jià)觀點(diǎn)之間的文本相似度為0.5,且這兩者均體現(xiàn)“軟件滿足的需求”這一使用反饋類型.根據(jù)上述原因,我們計(jì)算與已有評(píng)論種子的文本相似度的最大值大于0.4 的新評(píng)論種子數(shù)numNewSeed′time,當(dāng)numNewSeed′time與該次循環(huán)產(chǎn)生新評(píng)論種子總數(shù)numNewSeedtime相同時(shí),體現(xiàn)使用反饋的新評(píng)論種子與已有評(píng)論種子完全相似,應(yīng)用新評(píng)論種子挖掘相似的用戶評(píng)論的數(shù)量顯著降低,停止擴(kuò)充評(píng)論種子庫,挖掘過程結(jié)束.體現(xiàn)使用反饋的用戶評(píng)論的挖掘效果收斂判斷依據(jù)見公式(2):

在圖1 中,首先需要將一條用戶評(píng)論的評(píng)論模式與某個(gè)評(píng)論種子匹配,判斷該用戶評(píng)論是否與某個(gè)體現(xiàn)使用反饋的評(píng)論種子相似,與評(píng)論種子相似的用戶評(píng)論與評(píng)論種子體現(xiàn)相同的使用反饋類型.評(píng)論種子中包含5個(gè)屬性:詞、詞性、權(quán)重、距離和使用反饋類型,其中,詞、詞性、權(quán)重是判斷一條用戶評(píng)論是否與評(píng)論種子的詞(詞性)匹配的關(guān)鍵,距離是綜合判斷一條用戶評(píng)論與評(píng)論種子是否匹配的關(guān)鍵.因此,假設(shè)某條用戶評(píng)論commentm的評(píng)論模式為modem,某評(píng)論種子為seedi,判斷commentm與seedi是否匹配的過程主要包括兩個(gè)部分:計(jì)算詞(詞性)匹配值和計(jì)算綜合匹配值.
4.1.1 計(jì)算詞(詞性)匹配值
首先,針對(duì)每條用戶評(píng)論commentm與評(píng)論種子seedi的初始化詞(詞性)匹配值word_matchmi(speech_matchmi)為0.進(jìn)行詞匹配時(shí),將評(píng)論種子seedi的詞wordij和commentm的詞依次進(jìn)行匹配,每一次詞匹配開始的位置都是commentm中上一次匹配成功的詞的位置,若wordmn匹配wordij成功,則記錄評(píng)論中詞的位置n到詞匹配成功位置集合pos_word中,且詞匹配標(biāo)記word_flagij為1,否則為0,所有詞匹配完成后,word_matchmi的計(jì)算如公式(3)所示:

計(jì)算詞匹配值的具體流程如圖2 所示.

Fig.2 The flow diagram of calculating word-matching value圖2 詞匹配值計(jì)算流程
詞性匹配值計(jì)算流程與詞匹配值計(jì)算流程相似,不同之處在于:進(jìn)行第1 次詞性匹配時(shí),從commentm匹配成功的第1 個(gè)詞的位置開始,將評(píng)論種子seedi的詞性speechij和用戶評(píng)論commentm的詞性依次進(jìn)行匹配,第1 次詞性匹配之后,每一次詞性匹配開始的位置都是commentm中上一次匹配成功的詞性的位置.若speechmn匹配speechij成功,則記錄用戶評(píng)論中詞性的位置n到詞性匹配成功位置集合pos_speech中,且詞性匹配標(biāo)記speech_flagij為1,否則,speech_flagij為0,所有詞性匹配完成后,speech_matchmi的計(jì)算如公式(4)所示:

4.1.2 計(jì)算綜合匹配值
完成詞(詞性)匹配值計(jì)算后需要進(jìn)行綜合判斷,由于詞和詞性對(duì)于判斷用戶評(píng)論是否與評(píng)論種子匹配都至關(guān)重要,所以通過計(jì)算commentm與seedi的綜合匹配值both_matchmi來判斷用戶評(píng)論與評(píng)論種子是否匹配.由于用戶評(píng)論與評(píng)論種子匹配成功的詞(詞性)的最大距離反映了該用戶評(píng)論是否滿足評(píng)論種子的語法表達(dá)規(guī)則,若匹配成功的詞(詞性)的最大距離大于或等于評(píng)論種子的距離,則表明用戶評(píng)論與評(píng)論種子匹配成功的詞(詞性)不在評(píng)價(jià)對(duì)象和評(píng)價(jià)觀點(diǎn)之間可擴(kuò)展的最大距離定義的位置范圍內(nèi),不符合評(píng)論種子所定義的語法表達(dá)規(guī)則,反之,則滿足.因此,為判斷用戶評(píng)論與評(píng)論種子匹配成功的詞(詞性)是否符合評(píng)論種子定義的語法距離限定,需要計(jì)算commentm和seedi匹配成功的詞(詞性)之間的最大距離dis_wordmi(dis_speechmi)是否小于評(píng)論種子的距離disi.由于詞(詞性)匹配都是從上一次詞(詞性)匹配成功的位置開始的,因此集合pos_word(pos_speech)是遞增序列,故用公式(5)和公式(6)計(jì)算dis_wordmi和dis_speechmi:

在用戶評(píng)論的詞或詞性不滿足評(píng)論種子所定義的語法表達(dá)規(guī)則時(shí),不論用戶評(píng)論與評(píng)論種子的詞(詞性)匹配值為多少,綜合匹配值都應(yīng)該為0;否則,根據(jù)詞匹配值和詞性匹配值共同計(jì)算綜合匹配值both_matchmi,計(jì)算如公式(7)所示:

用戶評(píng)論commentm需要與所有評(píng)論種子依次進(jìn)行匹配,最后抽取其與第g個(gè)評(píng)論種子的最大綜合匹配值both_matchmg,判斷是否匹配成功,抽取最大綜合匹配值如公式(8)所示:

commentm和seedg的綜合匹配值越高,該用戶評(píng)論與該評(píng)論種子匹配成功的可能性越大,且使用評(píng)論種子挖掘出的正確的用戶評(píng)論條數(shù)越多.這里需要設(shè)定一個(gè)閾值,只有當(dāng)綜合匹配值大于該閾值時(shí),該用戶評(píng)論與評(píng)論種子seedg才能匹配成功.在用戶評(píng)論與評(píng)論種子匹配的過程中,詞匹配成功可以保證其對(duì)應(yīng)詞性匹配成功,而詞性匹配成功不能保證詞匹配成功.因此,即使在詞性完全匹配的情況下(其詞性匹配值為1),仍無法保證該用戶評(píng)論中存在與評(píng)論種子匹配成功的詞,即無法保證該用戶評(píng)論與評(píng)論種子的評(píng)價(jià)對(duì)象或評(píng)價(jià)觀點(diǎn)相關(guān).為了保證與評(píng)論種子匹配成功的用戶評(píng)論中包含體現(xiàn)該評(píng)論種子使用反饋類型的評(píng)價(jià)對(duì)象或評(píng)價(jià)觀點(diǎn),本文將閾值設(shè)置為0.5.
當(dāng)最大的綜合匹配值both_matchmg>0.5 時(shí),commentm與seedg的評(píng)論內(nèi)容和句式結(jié)構(gòu)比較相似,commentm與seedg匹配成功,commentm與seedg體現(xiàn)相同的使用反饋類型;否則,commentm與評(píng)論種子庫中所有評(píng)論種子匹配失敗.其中,若最大的綜合匹配值both_matchmg=1,commentm與seedg的評(píng)論內(nèi)容和句式結(jié)構(gòu)完全相同.
例如,用戶評(píng)論“播放/v 界面/n 真的/d 非常/d 丑/a”與評(píng)論種子“〈界面+很+丑,n+d+a,0.5+0+0.5,6,軟件存在的問題〉”進(jìn)行詞匹配,匹配成功的詞為“界面”和“丑”,word_matchmi為1;進(jìn)行詞性匹配,匹配成功的詞性為“n”和“a”,speech_matchmi為1.在以上用戶評(píng)論中,匹配成功的詞“界面”和“丑”的位置分別為2 和5,匹配成功的詞性之間的最大距離為3;匹配成功的詞性為“n”和“a”的位置分別為2 和5,匹配成功的詞之間的最大距離為3.由于詞(詞性)匹配值均小于6,所以,both_matchmi為1,評(píng)論文本與評(píng)論種子匹配成功,評(píng)論文本與評(píng)論種子體現(xiàn)相同的使用反饋——“軟件存在的問題”.
在用戶評(píng)論與評(píng)論種子匹配的過程中,由于評(píng)論種子庫中的評(píng)論種子并不能代表所有評(píng)論,部分體現(xiàn)APP軟件使用反饋的用戶評(píng)論與評(píng)論種子匹配失敗,這些用戶評(píng)論包含與已有評(píng)論種子差異較大的、體現(xiàn)使用反饋的評(píng)論內(nèi)容,應(yīng)該從中抽取出新的具有代表性的評(píng)論種子,以便于后續(xù)挖掘出更多與新評(píng)論種子相似的、體現(xiàn)使用反饋的用戶評(píng)論.為了保證新抽取的評(píng)論種子能夠體現(xiàn)使用反饋,需要挖掘出與評(píng)論種子匹配失敗的用戶評(píng)論中可以體現(xiàn)“軟件滿足的需求”“軟件存在的問題”或“軟件未達(dá)到的期望”這3 個(gè)不同使用反饋類型的用戶評(píng)論.本文主要應(yīng)用能愿動(dòng)詞挖掘體現(xiàn)“軟件未達(dá)到的期望”的用戶評(píng)論,應(yīng)用軟件簡(jiǎn)介及情感分析挖掘體現(xiàn)“軟件滿足的需求”和“軟件存在的問題”的用戶評(píng)論,通過上述兩種方式挖掘出的體現(xiàn)使用反饋的用戶評(píng)論建立候選評(píng)論模式庫,在候選評(píng)論模式庫的基礎(chǔ)上抽取新評(píng)論種子.由于針對(duì)不同使用反饋類型,代表性和抽象性高的評(píng)論種子的挖掘效果更好,因此,針對(duì)體現(xiàn)相同使用反饋的評(píng)論模式進(jìn)行文本相似度計(jì)算,以此抽取體現(xiàn)不同使用反饋類型的具有代表性的新評(píng)論種子.
通過分析大量用戶評(píng)論后發(fā)現(xiàn),體現(xiàn)APP 軟件未達(dá)到的期望的用戶評(píng)論數(shù)量較少,且該類型用戶評(píng)論可能包含其他針對(duì)軟件總體或部分已有功能等方面的評(píng)價(jià).為了挖掘出該類用戶評(píng)論,針對(duì)評(píng)論種子匹配失敗的用戶評(píng)論,本文首先應(yīng)用能愿動(dòng)詞挖掘出體現(xiàn)“軟件未達(dá)到的期望”的用戶評(píng)論,根據(jù)文獻(xiàn)[25],抽取出如下針對(duì)體現(xiàn)使用反饋的能愿動(dòng)詞:“應(yīng)該、應(yīng)當(dāng)、須得、必得、樂意、愿、愿意、情愿、想、想要、要、要想、希望、企圖、好意思、樂得、高興、樂于、敢于、勇于、甘于、苦于、懶得、便于、有助于、難于、易于、善于、適于、宜于”.通過上述能愿動(dòng)詞抽取體現(xiàn)“軟件未達(dá)到的期望”的用戶評(píng)論的評(píng)論模式進(jìn)入候選評(píng)論模式庫.
在挖掘體現(xiàn)“軟件未達(dá)到的期望”的用戶評(píng)論之后,剩余的用戶評(píng)論中包含針對(duì)該軟件特征進(jìn)行評(píng)論的信息,本文通過應(yīng)用軟件簡(jiǎn)介的方式判斷用戶評(píng)論是否針對(duì)該軟件進(jìn)行評(píng)價(jià),并通過情感值計(jì)算的方式判斷用戶評(píng)論針對(duì)該軟件表達(dá)的情感正負(fù),其中,情感表達(dá)為正的用戶評(píng)論體現(xiàn)“軟件滿足的需求”,情感表達(dá)為負(fù)的評(píng)論體現(xiàn)“軟件存在的問題”.
APP 軟件簡(jiǎn)介由開發(fā)者官方發(fā)布并具有權(quán)威性,這些信息描述了該APP 軟件的大部分特征,可以作為判斷用戶評(píng)論是否針對(duì)該軟件進(jìn)行評(píng)價(jià)的依據(jù),因此,本文提取APP 軟件簡(jiǎn)介中的名詞和動(dòng)詞系列的相關(guān)詞作為軟件特征詞,通過判斷用戶評(píng)論中是否包含這些特征詞分析用戶評(píng)論是否體現(xiàn)該軟件的用戶反饋.在挖掘出的針對(duì)該軟件的用戶評(píng)論的基礎(chǔ)上,應(yīng)用評(píng)價(jià)對(duì)象和評(píng)價(jià)觀點(diǎn)抽取規(guī)則,抽取該用戶評(píng)論的評(píng)價(jià)觀點(diǎn),針對(duì)評(píng)價(jià)觀點(diǎn)通過構(gòu)建的情感極值表計(jì)算該用戶評(píng)論的情感值,挖掘體現(xiàn)使用反饋的用戶評(píng)論進(jìn)入候選評(píng)論模式庫.
體現(xiàn)使用反饋的用戶評(píng)論類型包括以下兩種.
(1)若該情感值為正,則表明該用戶評(píng)論針對(duì)軟件表達(dá)正面情感,用戶實(shí)際使用該軟件過程中該軟件滿足某個(gè)功能特征或軟件的整體使用感受較好,即體現(xiàn)“軟件滿足的需求”;
(2)若該情感值為負(fù),則表明該用戶評(píng)論針對(duì)軟件表達(dá)負(fù)面情感,用戶實(shí)際使用該軟件過程中該軟件未滿足某功能特征或軟件的整體使用感受較差,即該用戶評(píng)論體現(xiàn)“軟件存在的問題”.
通過應(yīng)用軟件簡(jiǎn)介及情感分析挖掘出體現(xiàn)“軟件滿足的需求”或“軟件存在的問題”的用戶評(píng)論,并抽取其評(píng)論模式構(gòu)建候選評(píng)論模式庫,保證候選評(píng)論模式庫中在評(píng)論數(shù)據(jù)較為充足的情況下有體現(xiàn)多個(gè)使用反饋類型的評(píng)論模式,以便抽取出代表不同使用反饋類型的新評(píng)論種子.
在用戶評(píng)論與評(píng)論種子匹配的過程中,由于評(píng)論種子庫中的評(píng)論種子數(shù)是有限的,部分用戶評(píng)論會(huì)出現(xiàn)與評(píng)論種子匹配失敗的情況.這些用戶評(píng)論可能體現(xiàn)了APP 軟件使用反饋,此外,這些評(píng)論實(shí)際上蘊(yùn)藏著評(píng)論種子庫中不存在的內(nèi)容,應(yīng)該從與已有評(píng)論種子匹配失敗的用戶評(píng)論中抽取出新的評(píng)論種子,以便于后續(xù)挖掘出更多與之相似的體現(xiàn)使用反饋的用戶評(píng)論.通過第4.2 節(jié)和第4.3 節(jié)中的方法,挖掘出與評(píng)論種子匹配失敗的用戶評(píng)論中體現(xiàn)“軟件滿足的需求”“軟件存在的問題”和“軟件未達(dá)到的期望”這3 種不同使用反饋類型的用戶評(píng)論,并建立相應(yīng)的候選評(píng)論模式庫.進(jìn)入候選評(píng)論模式庫的評(píng)論模式各自體現(xiàn)了不同的使用反饋類型,且體現(xiàn)相同使用反饋類型的評(píng)論模式在表達(dá)內(nèi)容和句式結(jié)構(gòu)上更具有相似性,所以,針對(duì)體現(xiàn)相同使用反饋的評(píng)論模式進(jìn)行文本相似度計(jì)算,以抽取體現(xiàn)不同使用反饋類型的具有代表性的新評(píng)論種子.
由于候選評(píng)論模式庫中包含體現(xiàn)3 種不同使用反饋類型的候選評(píng)論模式,所以本文參考文獻(xiàn)[26]這一專利——基于候選評(píng)論模式庫抽取反映不同軟件使用質(zhì)量屬性的新評(píng)論種子的方法,主要針對(duì)體現(xiàn)相同使用反饋類型的評(píng)論模式進(jìn)行文本相似度計(jì)算從而抽取出新的、體現(xiàn)不同使用反饋類型、具有代表性的新評(píng)論種子.應(yīng)用評(píng)論模式庫抽取新評(píng)論種子主要通過以下3 個(gè)步驟來實(shí)現(xiàn).
(1)抽取體現(xiàn)不同使用反饋類型具有代表性的評(píng)論模式
參考文獻(xiàn)[26]這一專利應(yīng)用Levenshtein 相似度[24]的計(jì)算方法,本文在不同的使用反饋類型下,計(jì)算評(píng)論模式與其他評(píng)論模式的詞文本相似度和詞性文本相似度,針對(duì)3 種不同使用反饋類型,每次循環(huán)過程中計(jì)算出至多3 個(gè)綜合文本相似度最大的、具有代表性的評(píng)論模式.
(2)抽取評(píng)論模式對(duì)應(yīng)的評(píng)論種子
基于至多3 個(gè)代表不同使用反饋類型的文本相似度最大的評(píng)論模式,結(jié)合本文第3.1 節(jié)中的評(píng)價(jià)對(duì)象和評(píng)價(jià)觀點(diǎn)抽取規(guī)則,確定評(píng)論模式的評(píng)價(jià)對(duì)象和評(píng)價(jià)觀點(diǎn),根據(jù)評(píng)價(jià)對(duì)象和評(píng)價(jià)觀點(diǎn)確定該評(píng)論模式中的詞及其詞性所對(duì)應(yīng)的權(quán)重,即該評(píng)論模式對(duì)應(yīng)的評(píng)論種子的權(quán)重,最終抽取出這3 個(gè)評(píng)論模式的評(píng)論種子.
(3)更新新評(píng)論種子的距離
根據(jù)評(píng)論種子距離的定義,為了保證即將進(jìn)入評(píng)論種子庫中的評(píng)論種子的距離可以代表評(píng)價(jià)對(duì)象和評(píng)價(jià)觀點(diǎn)之間可擴(kuò)展的最大距離,本文應(yīng)用文獻(xiàn)[26]這一專利中更新評(píng)論種子的距離的方法,抽取其中的最大值作為該評(píng)論種子的距離.
通過上述方法,在人工標(biāo)注的初始評(píng)論種子有限的情況下,首先應(yīng)用評(píng)論模式和評(píng)論種子,綜合評(píng)論種子的多個(gè)屬性,將用戶評(píng)論與評(píng)論種子進(jìn)行匹配,匹配成功的用戶評(píng)論可以體現(xiàn)與評(píng)論種子相同的使用反饋;其次,通過能愿動(dòng)詞、軟件簡(jiǎn)介和情感分析挖掘出與評(píng)論種子匹配失敗的用戶評(píng)論中的體現(xiàn)使用反饋的用戶評(píng)論,并構(gòu)建候選評(píng)論模式庫;最后,針對(duì)每次循環(huán)挖掘過程中構(gòu)建的候選評(píng)論模式庫抽取具有代表性的新評(píng)論種子,用于下一次的循環(huán)挖掘,實(shí)現(xiàn)體現(xiàn)使用反饋的用戶評(píng)論的循環(huán)挖掘.
為了驗(yàn)證本文方法的有效性,我們使用Java 語言開發(fā)了一個(gè)體現(xiàn)使用反饋的APP 軟件用戶評(píng)論挖掘原型工具(mining user’s comment based on seed,簡(jiǎn)稱MUCBS)進(jìn)行實(shí)驗(yàn).我們從安卓電子市場(chǎng)(http://apk.hiapk.com/apps)隨機(jī)爬取了多款A(yù)PP 軟件的用戶評(píng)論,并據(jù)此建立了APP 軟件用戶評(píng)論庫.本文從APP 軟件用戶評(píng)論庫中隨機(jī)選取娛樂類、視頻類、購物類、社交類和工具類的92 811 條用戶評(píng)論,使用ICTCLAS 2018 作為數(shù)據(jù)預(yù)處理的工具,完成了用戶評(píng)論分詞及詞性標(biāo)注.由于網(wǎng)絡(luò)用戶評(píng)論往往存在大量的網(wǎng)絡(luò)詞匯和拼寫錯(cuò)誤,可能導(dǎo)致分詞結(jié)果存在誤差,目前,本文對(duì)此沒有進(jìn)行處理.在完成分詞的用戶評(píng)論數(shù)據(jù)的基礎(chǔ)上,過濾其中不包含評(píng)價(jià)對(duì)象(即詞性中不包含n 或v)的用戶評(píng)論,最終針對(duì)50 072 條用戶評(píng)論數(shù)據(jù)進(jìn)行挖掘(經(jīng)人工標(biāo)記,其中有38 789 條體現(xiàn)使用反饋的用戶評(píng)論).
在本實(shí)驗(yàn)中,通過分析常見的體現(xiàn)使用反饋的用戶評(píng)論,我們隨機(jī)設(shè)置了11 條比較具有代表性的初始評(píng)論種子.每次循環(huán)挖掘過程中,當(dāng)次循環(huán)過程中與評(píng)論種子匹配成功的評(píng)論不再進(jìn)入下一次循環(huán)挖掘,應(yīng)用當(dāng)次循環(huán)新抽取的評(píng)論種子進(jìn)行下一次循環(huán)挖掘.
5.2.1 候選評(píng)論模式庫的建立
首先,建立體現(xiàn)使用反饋的候選評(píng)論模式庫以便抽取可以合理體現(xiàn)使用反饋的新評(píng)論種子.由于與評(píng)論種子匹配成功的評(píng)論不再進(jìn)入下一次循環(huán)挖掘,所以第1 次循環(huán)挖掘結(jié)束時(shí)抽取的候選評(píng)論模式數(shù)量多、覆蓋廣,本文針對(duì)50 072 條用戶評(píng)論進(jìn)行第1 次循環(huán)挖掘后建立的候選評(píng)論模式庫進(jìn)行了分析,分析結(jié)果見表3.
表3 中,通過應(yīng)用能愿動(dòng)詞挖掘體現(xiàn)“軟件未達(dá)到的期望”的用戶評(píng)論、應(yīng)用軟件簡(jiǎn)介及情感分析挖掘體現(xiàn)“軟件存在的問題”及“軟件滿足的需求”的用戶評(píng)論建立候選評(píng)論模式庫.例如,表3 中候選評(píng)論模式“〈非常+棒+平臺(tái),d+a+n,0.0+0.5+0.5,軟件滿足的需求〉”,依據(jù)第2 節(jié)中APP 軟件使用反饋的定義,用戶評(píng)論“非常棒平臺(tái)”體現(xiàn)出軟件整體給用戶較好的使用體驗(yàn),因此,該候選評(píng)論模式體現(xiàn)了“軟件滿足的需求”這一使用反饋類型.通過綜合分析,抽取的候選評(píng)論模式的平均準(zhǔn)確率為88.71%,表明本文抽取的候選評(píng)論模式庫是有效的.但是,根據(jù)抽取的部分用戶評(píng)論的候選評(píng)論模式可以看出,在挖掘體現(xiàn)使用反饋的用戶評(píng)論過程中仍存在一些錯(cuò)誤.
(1)應(yīng)用能愿動(dòng)詞挖掘出的用戶評(píng)論的評(píng)論模式為“〈建議+大家+下載,n+rr+v,0.5+0.0+0.5,軟件未達(dá)到的期望〉”,該用戶評(píng)論中能愿動(dòng)詞“建議”表示該評(píng)論用戶給其他軟件用戶的建議,無法體現(xiàn)“軟件未達(dá)到的期望”.
(2)通過情感分析挖掘出的負(fù)面評(píng)論模式“〈好+到+不+行,a+v+d+vi,0.0+0.0+0.5+0.5,軟件存在的問題〉”,針對(duì)“不/d 行/vi”進(jìn)行情感分析后結(jié)果為負(fù)面,而該用戶是通過夸張手法表達(dá)的是正面情感,本文方法在進(jìn)行情感分析的過程中針對(duì)“夸張”“諷刺”等表達(dá)方式挖掘效果較差.
建立體現(xiàn)使用反饋的候選評(píng)論模式庫后,可以基于候選評(píng)論模式庫進(jìn)一步擴(kuò)充評(píng)論種子庫,從而實(shí)現(xiàn)體現(xiàn)使用反饋的用戶評(píng)論的循環(huán)挖掘.

Table 3 The example of the candidate comment mode library表3 候選評(píng)論模式庫示例
5.2.2 應(yīng)用評(píng)論種子挖掘用戶評(píng)論的效果
為了驗(yàn)證本文提出的循環(huán)挖掘的有效性,在建立體現(xiàn)使用反饋的候選評(píng)論模式庫的基礎(chǔ)上,應(yīng)當(dāng)抽取出能夠合理體現(xiàn)使用反饋的新評(píng)論種子,并且應(yīng)用該評(píng)論種子可以挖掘體現(xiàn)使用反饋的用戶評(píng)論.針對(duì)第5.2.1 節(jié)的50 072 條用戶評(píng)論進(jìn)行多次循環(huán)挖掘,直到針對(duì)體現(xiàn)使用反饋的用戶評(píng)論挖掘收斂,參與循環(huán)挖掘的評(píng)論種子情況見表4.

Table 4 Comment seeds in interative mining process表4 循環(huán)挖掘過程中的評(píng)論種子
在表4 中,由于第5 次循環(huán)抽取的新評(píng)論種子中,與已有評(píng)論種子的文本相似度大于0.4 的新評(píng)論種子數(shù)為3,與該次循環(huán)產(chǎn)生新評(píng)論種子的總數(shù)相同.因此,第5 次循環(huán)挖掘后,抽取的新評(píng)論種子與已有評(píng)論種子相似,循環(huán)挖掘效果收斂,停止擴(kuò)充評(píng)論種子庫,體現(xiàn)使用反饋的用戶評(píng)論的循環(huán)挖掘停止.根據(jù)表4 中的評(píng)論種子可以看出,隨著循環(huán)次數(shù)的增加,部分新評(píng)論種子的抽象性逐漸降低.例如,新評(píng)論種子“〈QQ+空間+直播+,+不+了+,+差+評(píng),n+n+vn+wd+d+y+wd+v+v,0.33+0.33+0+0+0.33+0+0+0+0,13,軟件存在的問題〉”針對(duì)具體的評(píng)價(jià)對(duì)象,即“QQ 空間”.
此外,由于循環(huán)次數(shù)增加,針對(duì)某一使用反饋類別,部分新評(píng)論種子對(duì)應(yīng)的評(píng)論模式越來越復(fù)雜,即評(píng)論模式對(duì)應(yīng)的用戶評(píng)論中可能包含多個(gè)分句,且分句語義不連貫.針對(duì)這一情況,抽取新評(píng)論種子的評(píng)價(jià)對(duì)象和評(píng)價(jià)觀點(diǎn)的準(zhǔn)確度降低.例如,針對(duì)“軟件存在的問題”這一使用反饋類別,新評(píng)論種子對(duì)應(yīng)的用戶評(píng)論中往往包含多個(gè)分句,在第5 次循環(huán)挖掘過程中,新評(píng)論種子“〈沒用+了+,+用+不+了,vi+y+wd+p+d+y,0.5+0+0+0+0.5+0,8,軟件存在的問題〉”對(duì)應(yīng)的評(píng)價(jià)對(duì)象和評(píng)價(jià)觀點(diǎn)為“沒用/vi”和“不/d”,該評(píng)論種子的評(píng)價(jià)對(duì)象和評(píng)價(jià)觀點(diǎn)無實(shí)質(zhì)含義.然而,針對(duì)“軟件滿足的需求”這一使用反饋類別,由于用戶評(píng)論表達(dá)簡(jiǎn)潔的情況較為常見,因此,在循環(huán)挖掘過程中,體現(xiàn)“軟件滿足的需求”的新評(píng)論種子的抽象性整體較高,復(fù)雜性較 低,如“〈 可 以+,+很+好,v+wd+d+a,0.5+0+0+0.5,8,軟件滿足的需求〉”和“〈好玩+,+我+喜歡,a+wd+rr+vi,0.5+0+0+0.5,12,軟件滿足的需求〉”.經(jīng)過5 次循環(huán)挖掘,體現(xiàn)使用反饋的用戶評(píng)論挖掘效果如圖3 所示.

Fig.3 The mining effect of comment seed in interative mining process圖3 循環(huán)挖掘過程中評(píng)論種子挖掘效果
圖3 中,由于參與第1 次循環(huán)挖掘的評(píng)論種子為人工標(biāo)注的初始評(píng)論種子,數(shù)量較多且抽象程度較高,所以,第1 次循環(huán)挖掘效果較好.根據(jù)圖3 中應(yīng)用評(píng)論種子挖掘出的用戶評(píng)論數(shù)的趨勢(shì)可以看出,循環(huán)中應(yīng)用評(píng)論種子挖掘的用戶評(píng)論數(shù)隨著循環(huán)次數(shù)的增加而減少,第5 次循環(huán)挖掘結(jié)果中應(yīng)用新評(píng)論種子挖掘的用戶評(píng)論數(shù)量顯著降低,這主要是因?yàn)殡S著循環(huán)次數(shù)的增加,體現(xiàn)使用反饋的新評(píng)論種子的抽象性逐漸降低,評(píng)論數(shù)據(jù)中與新評(píng)論種子相似的用戶評(píng)論較少,應(yīng)用新評(píng)論種子挖掘用戶評(píng)論的效果逐漸變差.
5.2.3 體現(xiàn)使用反饋的用戶評(píng)論整體挖掘效果
經(jīng)過5 次體現(xiàn)用戶反饋的用戶評(píng)論循環(huán)挖掘后,共有23 條評(píng)論種子參與了循環(huán)挖掘,應(yīng)用本文方法共挖掘出30 252 條體現(xiàn)使用反饋的用戶評(píng)論,體現(xiàn)不同使用反饋類型的用戶評(píng)論的整體挖掘結(jié)果如圖4 所示.

Fig.4 The overall mining effect of user’s comment reflecting usage feedback圖4 體現(xiàn)使用反饋的用戶評(píng)論的整體挖掘效果
圖4 中,由于本文通過能愿動(dòng)詞僅挖掘體現(xiàn)“軟件未到達(dá)的期望”的用戶評(píng)論,所以通過能愿動(dòng)詞挖掘體現(xiàn)“軟件滿足的需求”和“軟件存在的問題”的用戶評(píng)論數(shù)為0.與之類似,通過軟件簡(jiǎn)介和情感計(jì)算也無法挖掘出體現(xiàn)“軟件未達(dá)到的期望”的用戶評(píng)論.此外,前4 項(xiàng)挖掘出的用戶評(píng)論是存在重復(fù)的,通過評(píng)論種子挖掘的用戶評(píng)論中包含通過能愿動(dòng)詞或軟件簡(jiǎn)介和情感分析的方式挖掘出的部分用戶評(píng)論.由圖4 可以看出,與人工標(biāo)注的體現(xiàn)使用反饋的用戶評(píng)論相比,本文的方法針對(duì)體現(xiàn)“軟件滿足的需求”和“軟件未達(dá)到的期望”的用戶評(píng)論挖掘率較低,分別為75.26%和74.73%,針對(duì)體現(xiàn)“軟件存在的問題”這一使用反饋類型的用戶評(píng)論挖掘率最高為83.46%.由于體現(xiàn)“軟件滿足的需求”的用戶評(píng)論可能是針對(duì)軟件整體的評(píng)論,因此應(yīng)用包含明確評(píng)價(jià)對(duì)象的評(píng)論種子挖掘一般性的整體評(píng)論,其挖掘率較低,如“非常/d 好/a”這種表述簡(jiǎn)潔、單一的用戶評(píng)論沒有被挖掘出來.與體現(xiàn)“軟件滿足的需求”的用戶評(píng)論相比,體現(xiàn)“軟件存在的問題”的用戶評(píng)論表達(dá)更具有針對(duì)性,表達(dá)方式相對(duì)較少,因此,應(yīng)用本文提出的評(píng)論種子概念,基于初始和循環(huán)挖掘出的體現(xiàn)“軟件存在的問題”的評(píng)論種子可以挖掘出較多的與之相似的體現(xiàn)“軟件存在的問題”的用戶評(píng)論.此外,由于通過能愿動(dòng)詞挖掘出的部分用戶評(píng)論不體現(xiàn)用戶針對(duì)軟件評(píng)價(jià)的“軟件未達(dá)到的期望”,如用戶評(píng)論“很/d 好/a,/wd 希望/v 大家/rr 快快/d 下載/v”中“希望/v”的表達(dá)對(duì)象是其他用戶,所以針對(duì)體現(xiàn)“軟件未達(dá)到的期望”的用戶評(píng)論挖掘率較低.
最后綜合分析,體現(xiàn)使用反饋的用戶評(píng)論的平均挖掘率(即3 種不同使用反饋類型的用戶評(píng)論挖掘率的平均值)為77.82%,說明本文提出的方法是有效的.
5.2.4 不同初始評(píng)論種子的挖掘效果
本文采用半監(jiān)督自學(xué)習(xí)的方式,基于有限數(shù)量和類型的評(píng)論種子,通過多次循環(huán)的方式挖掘體現(xiàn)使用反饋的用戶評(píng)論,這是一個(gè)評(píng)論種子逐漸擴(kuò)充、挖掘效果逐漸提升的過程.為了驗(yàn)證本文提出的循環(huán)挖掘方法的有效性,我們針對(duì)第5.2.1 節(jié)中的50 072 條用戶評(píng)論設(shè)計(jì)了3 個(gè)不同的循環(huán)挖掘?qū)嶒?yàn),每個(gè)實(shí)驗(yàn)中,初始評(píng)論種子的數(shù)量或類型是不同的.實(shí)驗(yàn)1 的評(píng)論種子見表4,實(shí)驗(yàn)2 和實(shí)驗(yàn)3 的初始評(píng)論種子及其整體挖掘效果見表5.

Table 5 Initial comment seeds and overall mining effects of Experiment 2 and Experiment 3表5 實(shí)驗(yàn)2 和實(shí)驗(yàn)3 的初始評(píng)論種子及其整體挖掘效果
通過分析3 個(gè)不同實(shí)驗(yàn)的整體挖掘效果可以發(fā)現(xiàn),應(yīng)用不同數(shù)量和不同類型的初始評(píng)論種子進(jìn)行體現(xiàn)使用反饋的用戶評(píng)論挖掘,每個(gè)實(shí)驗(yàn)最終挖掘出的新評(píng)論種子是相似的,這些新評(píng)論種子代表了該批數(shù)據(jù)中常見的評(píng)論表達(dá).在實(shí)驗(yàn)1~實(shí)驗(yàn)3 中,共同出現(xiàn)在3 個(gè)不同的實(shí)驗(yàn)的新評(píng)論種子比例分別為75.00%、60.00%和75.00%.此外,單次循環(huán)挖掘效果取決于參與本次循環(huán)挖掘的評(píng)論種子的代表性和數(shù)量,例如實(shí)驗(yàn)1 和實(shí)驗(yàn)2 應(yīng)用相同數(shù)量的初始評(píng)論種子挖掘出的用戶評(píng)論條數(shù)分別為9 641 和8 113,這表明,在評(píng)論種子數(shù)量相同的情況下,評(píng)論種子的代表性越高,挖掘效果越好.實(shí)驗(yàn)3 應(yīng)用8 條初始評(píng)論種子挖掘出7 670 條用戶評(píng)論,實(shí)驗(yàn)2 應(yīng)用11 條初始評(píng)論種子挖掘出8 113 條用戶評(píng)論.因此,在保證評(píng)論種子代表性的前提下,增加評(píng)論種子數(shù)量可以提高用戶評(píng)論的挖掘效果.通過實(shí)驗(yàn)1(評(píng)論種子總數(shù)為23)和實(shí)驗(yàn)2(評(píng)論種子總數(shù)為26)的整體挖掘效果可以看出,由于實(shí)驗(yàn)1 的評(píng)論種子針對(duì)該批數(shù)據(jù)更具有代表性,因此實(shí)驗(yàn)1 應(yīng)用較少的評(píng)論種子的整體挖掘效果較好.總的來說,即使每個(gè)實(shí)驗(yàn)的初始評(píng)論種子不同,但最終挖掘出體現(xiàn)使用反饋的用戶評(píng)論數(shù)相近,因此,本文提出的針對(duì)APP 軟件使用反饋的用戶評(píng)論挖掘方法是有效的.
5.2.5 體現(xiàn)使用反饋的用戶評(píng)論挖掘效果對(duì)比
我們開發(fā)了一個(gè)基于貝葉斯的體現(xiàn)使用反饋的APP 軟件用戶評(píng)論挖掘原型工具(mining user’s comment based on Bayes,簡(jiǎn)稱MUCBB),使用貝葉斯網(wǎng)絡(luò)進(jìn)行用戶評(píng)論分類,將用戶評(píng)論劃分為“軟件未達(dá)到的期望”“軟件存在的問題”和“軟件滿足的需求”這3 種使用反饋類型.為了將MUCBS 與MUCBB 進(jìn)行更好的比較,針對(duì)第5.2.1 節(jié)中的50 072 條用戶評(píng)論,我們通過表4 中體現(xiàn)不同使用反饋類型的評(píng)價(jià)對(duì)象和評(píng)價(jià)觀點(diǎn)訓(xùn)練MUCBB.MUCBS 與MUCBB 的用戶評(píng)論挖掘效果對(duì)比如圖5 所示.

Fig.5 The comparison of overall mining effect of user’s comment reflecting usage feedback圖5 體現(xiàn)使用反饋的用戶評(píng)論的整體挖掘效果對(duì)比
從圖5 中MUCBB 的用戶評(píng)論挖掘效果可以看出,針對(duì)體現(xiàn)“軟件未達(dá)到的期望”和“軟件存在的問題”的用戶評(píng)論挖掘率較高,分別為63.83%和62.77%,而體現(xiàn)“軟件滿足的需求”的用戶評(píng)論挖掘率則為39.48%.通過分析發(fā)現(xiàn),由于實(shí)驗(yàn)使用表4 中體現(xiàn)不同使用反饋類型的評(píng)論種子對(duì)應(yīng)的評(píng)價(jià)對(duì)象和評(píng)價(jià)觀點(diǎn)訓(xùn)練MUCBB,“軟件未達(dá)到的期望”和“軟件存在的問題”類別下的訓(xùn)練數(shù)據(jù)較多,而“軟件滿足的需求”類別下的訓(xùn)練數(shù)據(jù)較少,訓(xùn)練數(shù)據(jù)不平衡導(dǎo)致MUCBB 的用戶評(píng)論挖掘效果較差.此外,MUCBB 在訓(xùn)練數(shù)據(jù)較少的情況下,受訓(xùn)練數(shù)據(jù)中的評(píng)價(jià)對(duì)象、評(píng)價(jià)觀點(diǎn)的限制,MUCBB 無法挖掘出表達(dá)內(nèi)容相似或句式結(jié)構(gòu)相似的用戶評(píng)論.例如,針對(duì)用戶評(píng)論“可以/v 下載/v,/wd 速度/n 挺/d 快/a”,MUCBB 錯(cuò)誤地將該用戶評(píng)論劃分為“軟件存在的問題”這一使用反饋類型.而MUCBS 將該用戶評(píng)論與評(píng)論種子“〈可以+,+很+好,v+wd+d+a,0.5+0+0+0.5,8,軟件滿足的需求〉”匹配成功,該評(píng)論體現(xiàn)“軟件滿足的需求”這一使用反饋類型.因此,即使在體現(xiàn)不同使用反饋的初始評(píng)論種子不平衡的情況下,MUCBS 可以通過自動(dòng)挖掘體現(xiàn)使用反饋的、具有代表性的新評(píng)論種子,在不受特定的評(píng)價(jià)對(duì)象、評(píng)價(jià)觀點(diǎn)限制的情況下,結(jié)合句式結(jié)構(gòu)的特點(diǎn)挖掘體現(xiàn)使用反饋的用戶評(píng)論.但是,由于MUCBS 需要進(jìn)行循環(huán)挖掘直至挖掘效果收斂,導(dǎo)致MUCBS 的挖掘效率比MUCBB 要低.綜合分析,與MUCBB 相比,MUCBS 可以更有效地挖掘體現(xiàn)APP 軟件使用反饋的用戶評(píng)論.
應(yīng)用本文方法,可以挖掘出體現(xiàn)APP 軟件使用反饋的用戶評(píng)論.分析人員可以針對(duì)這些挖掘出的體現(xiàn)不同使用反饋類型的用戶評(píng)論進(jìn)行深入分析,以獲取APP 軟件用戶評(píng)論中有價(jià)值的信息.
本文將用戶評(píng)論體現(xiàn)的使用反饋定義為“軟件滿足的需求”“軟件存在的問題”和“軟件未達(dá)到的期望”這3種類型,提出了一種挖掘體現(xiàn)使用反饋的APP 軟件用戶評(píng)論的方法.為了針對(duì)體現(xiàn)使用反饋的用戶評(píng)論中的核心內(nèi)容,本文通過構(gòu)建評(píng)價(jià)對(duì)象和評(píng)價(jià)觀點(diǎn)抽取規(guī)則抽取一條用戶評(píng)論的評(píng)價(jià)對(duì)象和評(píng)價(jià)觀點(diǎn).在此基礎(chǔ)上,定義了評(píng)論種子和評(píng)論模式,應(yīng)用評(píng)論種子挖掘用戶評(píng)論庫中與之相同或相似的、體現(xiàn)使用反饋的用戶評(píng)論,綜合應(yīng)用能愿動(dòng)詞、軟件簡(jiǎn)介和情感分析技術(shù)構(gòu)建候選評(píng)論模式庫,借鑒半監(jiān)督自學(xué)習(xí)的思想基于候選評(píng)論模式庫擴(kuò)充評(píng)論種子庫,實(shí)現(xiàn)體現(xiàn)APP 軟件使用反饋的用戶評(píng)論的循環(huán)挖掘.通過挖掘體現(xiàn)不同使用反饋的用戶評(píng)論,軟件應(yīng)用市場(chǎng)可以綜合分析體現(xiàn)“軟件滿足的需求”和“軟件存在的問題”的用戶評(píng)論,給潛在用戶提供軟件實(shí)際使用情況的參考.此外,體現(xiàn)“軟件存在的問題”和“軟件未達(dá)到的期望”的用戶評(píng)論中包含大量用戶關(guān)注的軟件特征,有助于軟件開發(fā)人員對(duì)此進(jìn)行維護(hù)和改進(jìn).
實(shí)驗(yàn)結(jié)果表明,本文的方法適應(yīng)網(wǎng)絡(luò)用戶評(píng)論數(shù)據(jù)更新快、數(shù)量大的特點(diǎn),通過半監(jiān)督自學(xué)習(xí)的方式,在人工標(biāo)記數(shù)量有限的情況下挖掘體現(xiàn)使用反饋的用戶評(píng)論.本文提出的用戶評(píng)論與評(píng)論種子的匹配方法的優(yōu)勢(shì)在于挖掘體現(xiàn)使用反饋的用戶評(píng)論時(shí),不受特定的評(píng)價(jià)對(duì)象、評(píng)價(jià)觀點(diǎn)或固定的評(píng)論句式結(jié)構(gòu)的限定,將三者綜合考慮,從而擴(kuò)大了挖掘體現(xiàn)相同使用反饋的、核心評(píng)價(jià)內(nèi)容或評(píng)論句式結(jié)構(gòu)相似的用戶評(píng)論的范圍.由于目前建立的評(píng)價(jià)對(duì)象和評(píng)價(jià)觀點(diǎn)抽取規(guī)則不夠全面,對(duì)表達(dá)復(fù)雜的用戶評(píng)論的抽取效果較差,下一步將繼續(xù)完善抽取表達(dá)復(fù)雜的用戶評(píng)論的評(píng)價(jià)對(duì)象和評(píng)價(jià)觀點(diǎn),并針對(duì)評(píng)論文本中包含多個(gè)分句的情況進(jìn)行相關(guān)研究.此外,網(wǎng)絡(luò)用戶評(píng)論中存在大量的網(wǎng)絡(luò)詞匯或者拼寫錯(cuò)誤,可能影響用戶評(píng)論的挖掘效果,我們將結(jié)合這一情況展開進(jìn)一步的研究.