曹書芳 李金海
摘要:文章對納入在線評論觀點挖掘過程中的領域本體的概念獲取方法研究現狀進行了分析,發現存在一些不足,之后基于這些不足與在線評論的特點,提出了基于領域劃分與觀點五元組的領域本體概念獲取方法。
關鍵詞:在線評論;觀點挖掘;本體構建;概念獲取
一、研究背景
在線評論指消費者通過互聯網提交的有關產品或者公司的評論信息,是網絡口碑的重要來源。不少學者嘗試從在線評論中自動提取有用信息,并逐漸形成了觀點挖掘方法體系,即從帶有情感色彩的主觀性文本中抽取用戶對話題、產品、個人、組織和服務等的情緒、意見、喜好、情感傾向。觀點挖掘主要任務有產品特征識別、情感識別、情感計算與匯總。最初學者采用基于統計、機器學習、詞典等方法,但由于語義描述模塊的缺失,存在一定局限,如韓忠明等(2017)提出句子中觀點內容指向的是具有層次關系或者從屬關系的對象,因此需要能夠自動識別對象間層次關系的方法來幫助提高整個模型的有效性。基于此,隨著本體理論的發展,國內外學者開始嘗試將本體引入觀點挖掘過程,主要原理是利用領域本體對特征等概念間的關系進行描述,從而實現模型效果的提升。如王付國(2014)基于對象本體與情感本體實現本體推理,設計了一個基于領域本體的網絡評論觀點挖掘模型。隨著研究的深入,少量學者對領域本體的構建進行了研究,普遍認為首要步驟就是領域概念的獲取。本文重點關系領域本體概念獲取的方法,分析現有成果與不足,并構建了改善的方法。
二、領域本體相關理論技術
(一)領域本體的概念
本體是共享概念模型的明確的形式化規范說明,領域本體(domain ontology)是指對一定領域范圍內的概念進行描述的本體,它通過定義類、實例、屬性、關系、公理等元素,刻畫出領域中的類和實例及其之間的關系,對領域知識進行歸納和抽象。一個本體需要滿足四個基本特征。
1.概念化。指通過對客觀世界中的具體現象進行抽象歸納出的相關概念而獲得的模型。
2.明確性。指本體所使用的概念以及使用相應概念的約束具有明確的定義。
3.形式化。指本體可以被計算機或信息系統所理解和處理。
4.共享性。指本體中所體現的是范圍內共同認可的知識。
因此,創建領域本體的首要工作是明確領域中的概念的范圍、類型。本體中的概念可以是一般意義上的概念,也可以是集合、對象類型或事物的種類等,用來描述具有相似點或共同特征的資源的集合。
(二)領域本體的構建過程
領域本體的構建有多種方法,其中應用最廣泛的是七步法。七步法是斯坦福大學提出的一種構建方法,其主要過程分為七個步驟,如圖1所示。
在這些步驟中,前兩步是正式構建前的預備工作,是為了明確本體的需求。第三步指出的領域中的重要術語即概念,之后類的創建、關系分析、實例的構建均在該步驟工作的成果上進行,因此概念的獲取在一定程度上關系著領域本體構建的成敗。
三、在線評論觀點挖掘過程中領域本體概念獲取研究分析
(一)現有研究成果與不足
有少量學者對領域本體的構建進行了分析。馬捷等(2012)從《教育主題詞表》中選取教育領域專業概念以構建教育領域本體。李慶賽(2015)以“旅游”、“旅行”為關鍵詞檢索新浪博客中的標簽并加以整理,構建了旅游領域相關術語待選集,之后參考《中國分類主題詞表》中的相關主題及相關行業標準,對術語進行最終篩選與規范。王雙鳳(2016)參考旅游行業標準《旅游目的地信息分類與描述》,對旅游目的地相關信息的分類層級結構以及概念描述進行了分析,構建了旅游目的地領域本體。翟羽佳(2015)從網絡中檢索出1613篇有關“農民工”的文章,之后通過分詞與詞性標注抽取了1049個術語。陳云志(2017)通過教材、圖書、期刊文獻等渠道收集大量的疾病知識,并參考醫學主題詞表等設計了肝炎本體。可以看出,王雙鳳等學者對于概念的獲取來自于現成中文詞匯,首先獲得待選概念集,然后加以整理定義領域概念。以往學者對于領域內重要概念的獲取主要通過以下四種方法。
1. 基于領域專家知識
比如行業標準等政策法規,相關圖書、期刊文獻、企業官網等領域專家知識。基于該方法構建的本體在術語集上具有完備性,一般涵蓋了大部分的領域知識。
2. 基于大眾分類法與社會化標簽
如從豆瓣、博客等標簽較為集中的網站上通過關鍵詞搜索的方式獲取大量標簽,形成術語待選集,之后篩選出最終術語。該方法基于用戶視角收集概念,充分考慮了領域的全員參與性,但容易出現大量冗余標簽。
3. 基于主題詞表的方法
如《中國分類主題詞表》以及《教育主題詞表》等領域主題詞表。該方法基于標準化術語,很好地對領域術語進行了規范化,但忽略了術語的社會化屬性,即社會大眾使用不規范的、口語化的表達對領域進行描述。
4. 基于文本挖掘的方法
利用自然語言處理技術,從由句子組成的篇章段落中抽取領域術語。該方法對技術要求高,所抽取術語的范圍和專業度較依賴于語料樣本。
(二)基于在線評論特征的領域本體概念獲取方法
為了將領域本體更好地應用于在線評論觀點挖掘過程中,需要構建出適用性更強的本體,首先需要對在線評論的特征進行分析。在線評論具有一系列鮮明的特征。
1. 專業性強。如產品的物理結構、選用材質等含有大量專有名詞與技術參數,通過領域專家知識獲取更有針對性。
2. 社會化屬性。產品生產的最終目的是銷售,因此產品領域概念具有與消費者交互的特征,同一個概念既有專業術語,也有通用說法。
3. 分散性。不像教育、醫學等領域本體涉及的概念非常集中,在線評論涉及多個領域的概念,如與產品運輸相關的物流,電商平臺相關的店鋪、客服,產品本身涉及的專業概念等。
4. 消費者屬性。雖然產品領域具有大量的概念,但消費者對于這些概念的關注度是不同的,對企業來說,將主要精力放在消費者重點關注的概念上,更有利于后續的口碑獲取與運營決策。
因此,在獲取領域術語時,即要參考領域專家知識,又要充分考慮術語的社會化屬性,還要將多個領域的概念加以整合。基于此,本文提出了基于領域細分與觀點五元組的概念獲取思路:首先將領域概念劃分為幾個細分領域,之后根據每個領域的特點分別獲取概念,最后將所有領域的概念進行整合。領域本體的概念可分為四個模塊。
一是產品特征模塊。該模塊對產品相關概念進行了描述。產品結構相關概念可從產品官網、技術論壇等領域專家知識獲取。此外,由于口碑的社會化屬性,還應從社會化文本中提取特征概念,比如從社會化標簽中提取標簽集、從在線評論文本中抽取產品特征。
二是消費者模塊。消費者是口碑評價的主體,消費者相關概念的獲取可參考電商平臺新用戶注冊時需要錄入的相關字段。
三是情感模塊。情感是消費者評價中特征的具體指向,具有情感極性和強度兩個屬性。情感極性有正向、負向和中性之分,情感強度通過 “非常”、“有點兒”等程度副詞表現。可將事先定義的情感詞典導入本體知識庫完成情感模塊創建。目前已經構建的情感詞典有HowNet情感詞典、大連理工大學情感詞匯本體、同義詞詞林等。
四是時間模塊。時間描述了消費者評價發出的時間,是Liu Bing(2012)[10]提出的觀點五元組(實體,分面,情感,持有者,時間)中的重要元素,從在線評論網站數據庫中即可獲取。
這四個模塊構成的領域本體涵蓋了觀點完備的元素,能更好地輔助進行觀點挖掘。
四、結論與展望
本文通過對觀點挖掘、領域本體構建相關理論技術進行分析,發現了有關領域本體概念獲取方法的成果與不足,并在此基礎上提出了優化的方法——基于在線評論特點與觀點五元組的領域劃分本體構建方法。本文目前僅是提出了理論思路和技術路線,希望未來能將文中所構建的方法應用于具體的領域本體構建過程中,更好地驗證本文所提出方法的有效性。
參考文獻:
[1]Serrano-Guerrero J, Olivas J A, Ro
mero F P, et al. Sentiment analysis: A review and comparative analysis of web services[J].Information Sciences, 2015(05).
[2]韓忠明,李夢琪,劉雯,張夢玫,段大高,于重重.網絡評論方面級觀點挖掘方法研究綜述[J].軟件學報,2018(09).
[3]王付國.基于領域本體的網絡評論觀點挖掘[D].吉林大學,2014.
[4]Gruber T R. Toward principles for the design of ontologies used for knowledge sharing[J]. International Journal of Human-Computer Studies, 1995(06).
[5]馬捷,劉小樂,黃嵐,張喜艷.教育領域本體構建研究[J].情報理論與實踐,2012(07).
[6]李慶賽.旅游領域本體構建研究[D].鄭州大學,2015.
[7]王雙鳳.旅游目的地本體構建研究[D].湘潭大學,2016.
[8]翟羽佳,王芳.基于文本挖掘的中文領域本體構建方法研究[J].情報科學,2015(06).
[9]陳云志.肝炎本體構建及語義相似度研究[D].浙江大學,2017.
[10]Liu B. Sentiment Analysis and Opi
nion Mining[C]. Synthesis Lectures on Human Language Technologies. Morgan & Claypool,2012.
*本文系江蘇省社會科學基金項目“大數據視角下基于領域本體的網絡輿情預警研究”(項目編號:16TQB009),江蘇省高校哲學社會科學研究基金項目“大數據環境下基于情境語義推理的移動個性化推薦研究”(項目編號:2017SJB1892)的研究成果。
(作者單位:曹書芳,江蘇大學;李金海,泰州學院)