徐勇 武雅利 李東勤 趙濤 焦夢蕾
〔摘要〕用戶生成內容是Web20下由網絡用戶創作的互聯網信息,分析其相關理論研究進展從而為UGC的進一步研究及商業利用提供思路具有重要的參考意義。本文在界定了UGC產生的背景基礎上,從UGC基本范疇、生成動機、質量問題和法律問題4方面,分析了UGC研究動態;探究UGC情感分析中情感詞語和情感量化問題,歸納現有情感分析涉及的算法應用。在研究現狀分析基礎上,指出下一步應重點研究促進網絡用戶生產出高質量UGC的激勵和約束政策,建立更加完善、準確的推薦模型,設計符合不同應用領域的情感詞量化方法,構建保護用戶隱私的UGC生產、利用機制。
〔關鍵詞〕Web 20;用戶生成內容;研究動態;情感分析
DOI:10.3969/j.issn.1008-0821.2018.11.022
〔中圖分類號〕G202〔文獻標識碼〕A〔文章編號〕1008-0821(2018)11-0130-06
Survey on Research Trend of User Generated ContentXu Yong1,2Wu Yali1Li Dongqin1Zhao Tao1Jiao Menglei1
(1.School of Management Science and Engineering,Anhui Finance and Economics University,
Bengbu 233000,China;
2.School of Statistics and Applied Mathematics,Anhui Finance and Economics University,
Bengbu 233000,China)
〔Abstract〕User Generation Content is an active topic in recent years under the condition of Web 20.Literatures on User Generation Content were reviewed.The paper introduced the background of UGC,then analyzed its research trends from four views,basic concept,generation motivation,quality and legal problem of UGC.Sentimental words and sentimental quantification in UGCs sentimental analysis were studied,and the application of algorithms used in the existing sentimental analysis was introduced.Finally,interesting works in the future,such as policies which could improve UGCs quality,recommendation models that could get high accuracy of UGC mining,quantitative method how to construct a sufficient sentimental dictionary for different area,privacy preserving of UGC,were proposed.
〔Key words〕Web 20;user generated content;research trends;sentiment analysis
Web 10時代是以網站編輯為主,用戶往往作為信息接受者而存在,信息的傳遞是單向的。在此基礎上的Web 20時代,強調發揮用戶的能動性,賦予用戶更多主動權,信息在網站與用戶之間是雙向傳遞的關系,用戶不再僅僅是信息的消費者,還是信息制造者,“以人為本”是其區別于Web 10的主要特點。2004年,Web 20的概念產生于OReilly和Media Live International的一場頭腦風暴中,次年9月,Tim OReilly[1]在“What is Web 20”一文中概括了Web 20的概念,認為Web 20是網絡中利用集體智慧的平臺,數據庫管理是Web 20時代的核心競爭力,并給出Web 20的架構圖。
用戶生成內容(User Generated Content)正是在Web 20環境下應運而生的產物,早期的研究中,用戶生成內容還被稱作User Created Content(UCC)、Consumer Generated Media(CGM)等。2005年,有“互聯網女皇”之稱的摩根斯坦利首席分析師Mary Meeker首次提出用戶生成內圖1Web 20架構圖
2018年11月第38卷第11期現代情報Journal of Modern InformationNov.,2018Vol38No112018年11月第38卷第11期用戶生成內容研究進展綜述Nov.,2018Vol38No11容(UGC,User-Generated Content)這一術語,并逐漸得到廣泛認可。同年4月,BBC率先試水建立一個UGC小組,在當年7月的倫敦地鐵爆炸案中,BBC在新聞播報中就使用了人們在逃離現場時抓拍的照片進行剪輯。次年,時代周刊(TIME)創新性地將“You”評選為其年度人物。2007年,世界經濟合作與發展組織(OECD)在“Participative Web and User-Created Content:Web 20 Wikis and Social Networking”報告中將UGC的3大特點總結出來:互聯網上公開的內容;內容具有一定程度的創新性;由非權威人士及非專業手段創作發布。這3大特點也成為后續UGC研究的基礎。門亮等[2]認為對于用戶來說,用戶生成內容可視為其在互聯網中的DIY(Do It Yourself),利用手機、電腦等設備,加入自身思考,制造出屬于自己的UGC,發布到互聯網中實現信息交流。
《紙牌屋》(House of Cards)作為利用大數據技術分析UGC應用于影視作品中的一個里程碑,其制作理念是以用戶需求為主,根據用戶點擊量、用戶在某網頁停留時間等用戶信息,去制作用戶喜愛的作品。《紙牌屋》的制作公司是美國最大的在線影片租賃提供商網飛(Netflix)公司,作為美國三大流媒體公司,Netflix擁有全球最好的個性化推薦系統,以及大量用戶的收視習慣數據。《紙牌屋》的開拍不同于傳統影視劇的制作方法,Netflix公司在決定投拍前,充分收集用戶數據,發現許多用戶愛看1990年BBC同名迷你劇《紙牌屋》,與此同時,導演大衛·芬奇(David Fincher)和演員凱文·史派西(Kevin Spacey)也深得這些用戶喜愛。在這些知識的支持下,Netflix于2013年初推出其首部自制劇集《紙牌屋》。Netflix的用戶數量在《紙牌屋》正式上線后增加了300萬,足以說明了解用戶的需求對于影視制作的重要性[3-4]。近些年來,UGC在國內影視作品中的應用也愈加明顯,2009年,酷6在創業初期就提出了UGC模式[5]。作為國內第一家視頻網站,優酷所理解的UGC的重點在于“U”,也就是用戶的創意是最珍貴的,優酷于2013年推出的“分享計劃”,目的就在于發掘并收集草根用戶的創意想法,為有想法的拍客創造舞臺。隨后國內短視頻分享網站如雨后春筍般出現,無疑也是充分體現UGC價值的有力佐證。除了在網絡視頻制作中發揮作用,越來越多的企業也意識到UGC的重要性,并順勢提出各種策略以利用UGC為企業帶來效益,如戴爾的Idea Storm、星巴克的My Starbucks Idea、網易云每日推薦、淘寶猜你喜歡等等。以星巴克為例,李奕瑩等[6-7]構建了企業開放式創新社區(OIC)中UGC對其創新的貢獻價值研究模型,分析OIC中UGC信息質量、UGC互動質量、用戶創新行為和用戶互動行為這4個自變量對UGC貢獻價值的影響。并在OIC的條件下,建立創新價值鏈模型,分析星巴克的My Starbucks Idea策略。
用戶生成內容頗有全民參與的含義,并且已經影響到生活的很多領域。UGC充分利用Web 20環境為其提供的技術便利、更開放的社交氛圍,激發用戶創造UGC的積極性,UGC的作用也漸漸滲入到商業、新聞輿論、日常社交等層面。
1UGC相關概念
基于OECD在2007年給出的UGC 3大特點,用戶生成內容可理解為普通的非權威人士在網絡上發布的帶有一定創意的內容,其形式包括音頻、視頻、文本、圖片等等。若發布的主體是有一定影響力的權威人士或團隊,用戶生成內容就會轉化為專業生產內容(Professionally-generated Content,PGC),相比之下,PGC的影響力、質量都遠遠高于普通用戶生成的UGC,這也是優酷等幾大視頻網站希望發掘更多PGC的原因。PGC本質上仍然是用戶自發的行為,而職業生產內容(Occupationally-generated Content,OGC)是將內容生產行為作為一種職業活動,是為獲取報酬而進行內容編輯、整理,三者的關系如圖2所示。
相較于國外,國內UGC的研究起步較晚,早期人們大多通過報紙、新聞等載體意識到UGC會對我們生活產生較大影響,之后就有學者針對UGC的概念、特點、內容形式等方面進行深入研究。藍勤華[8]認為UGC特點主要是個人化、個性化、強調創意和弱利益驅動,并將UGC的類型劃分為SNS類的社交網站、視頻分享網絡、照片分享網絡等。胡華[9]認為UGC的存在形式可以分為視頻、音頻、圖片、應用程序、文本5種,閆婧[10]將UGC分為文字類、圖片類、音頻/視頻類和社交聚合4大類。雖然大家對UGC的特點、形式總結得不完全相同,但都基于OECD所給出的UGC基本概念與特點。由于UGC可在不同用戶、不同對象之間形成一種聯系,張振宇等[11]將UGC視為一種新穎的媒體形態,并從商業價值的角度出發,結合用戶之間、用戶與媒體的強弱關系,發現“強關系”下產生的UGC通常具有較高的商業價值,“弱關系”條件下,商業價值不高。
2UGC動機研究
動機是指人在做出某種行為、從事某種活動時的心理狀態。用戶在創作UGC時必定是出于某種動機,現有研究中對UGC動機的分類已較為完善。2007年,在OECD的報告中,已對UGC產生動因的相關因素進行了分析,將UGC產生動機分為技術驅動力、社會驅動力、經濟驅動力以及制度和法律驅動力4方面。在此后的研究中,學者們也大多基于這些因素。比如,趙宇翔等[12]將動因分成社會驅動、技術驅動、個體驅動3個維度和人口統計學特征1個調節集。柳瑤等[13]將動機分為內在需求、社會誘因和技術誘因3個層面。其中,內在需求主要源于用戶個體的自我認知與自身需求,比如意見表達、休閑娛樂、追求利益等等,是為了滿足自身行為而出現的動機;社會誘因是由于用戶處在社會的大環境中,為了得到他人認同或換取更高的社會地位與重視程度,在社會刺激下產生的動機;技術誘因是指基于技術接受理論、社會認知理論等理論基礎,用戶可預知到其付出成本,如感知易用性、安全性。除了用戶的主觀動機外,范哲等[14]加入外部環境的機會感知和用戶自身的能力認知。通過實證分析,他們認為影響用戶生成UGC的主要因素是利他與互惠,并且感知易用性與感知有用性是外部環境機會感知中最顯著的變量。此外,用戶也必須具備將其自身知識儲備轉化為UGC的能力。
明確UGC的產生動機,了解不同用戶在生產UGC時的心理活動,可根據不同的動機對用戶進行分類,從而實施不同的激勵措施,引導用戶產生數量更多、質量更高的UGC。在現有研究中,已有學者針對UGC的激勵措施展開研究。
激勵理論主要有內容型激勵理論、過程型激勵理論、行為改造型激勵理論和綜合激勵理論,其中包括馬斯諾的需求層次論、赫茲伯格的雙因素理論、期望理論、歸因理論、公平理論、強化理論、內外綜合激勵理論等。趙宇翔[15]在《社會化媒體中用戶生成內容的動因與激勵設計研究》一文中,將目前對UGC的研究提煉出用戶、內容、技術、組織和社會五大要素,進而從不同的維度分析影響UGC的動因,從用戶分類、雙因素和時間3個維度構建了用戶激勵策略研究的概念框架。研究發現不同用戶群體對影響在線用戶生成內容行為的激勵因素和保健因素的感知存在一定的差異。普通參與者將網站的易用性、信息構建、個人隱私和信息安全保障、人—機交互性等因素作為保健因素,而將外部獎勵、人—人交互性、歸屬感、網站的可用性等因素作為激勵因素。
除了將UGC動機與激勵措施結合的研究之外,張世穎[16]認為通過對UGC動機的確定,還可以對UGC質量做出判斷,UGC的產生動機與其質量之間存在著一定的因果邏輯關系,針對大量的網絡用戶,可以針對不同層次的用戶實施提高UGC質量的激勵措施,實現質量由“劣”轉“優”的目的,并且使UGC達到一種“量”與“質”的平衡與統一,促使網絡用戶創造更多的高質量UGC。圖3即表示UGC動機研究與UGC激勵措施、UGC質量評價之間的關聯。
3UGC質量研究
隨著物聯網、云計算等技術的發展,大數據時代已經到來。UGC作為數據的一種,也滿足大數據的5V特點[17]:Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價值密度)、Veracity(真實性)。其中Value和Veracity都可理解為UGC質量參差不齊,以淘寶評論為例,針對某商品的評論甚至會多至數千條,但其中高質量的評論并不多,例如大量“好評”、文本極短、答非所問等等,這體現了UGC也有價值密度低的特點,這主要是因為互聯網中不會因用戶類別而限制其生產UGC。此外,有圖3UGC動機研究與激勵措施、UGC質量的關聯圖
些商家雇傭水軍刷好評、惡意詆毀競爭對手、利用返現誘惑買家給好評等虛假行為,導致評論中存在不實信息,也被稱作垃圾信息。因此,對UGC質量分析具有現實意義。
針對UGC中存在的質量評價、質量指標、質量控制等現實問題,金燕[18]總結后認為目前UGC質量問題主要存在于內容錯誤、垃圾內容、內容價值密度低3方面。在UGC質量評價方面,目前存在人工檢測法和自動測量方法兩種方法,但都存在缺陷,如主觀性太強或評價指標多樣性等因素都會導致評價結果不統一,故現在急需一套適用性強的UGC質量評價指標體系。從UGC創建過程角度出發,金燕等[19]構建了一個通用的UGC質量實時監控框架,該框架由數據采集層、數據存儲層和質量監控層3個主要模塊構成,SPC技術的利用可以對UGC創建過程的每一個階段進行實時監控。針對用戶評論產生的文本UGC,林煜明等[20]圍繞著評論質量評估、評論總結和垃圾評論檢測3方面總結了國際上評論質量檢測與控制的研究內容、技術和方法的研究進展。從UGC主體生產評論,到其他用戶在網絡上接收該評論,這一過程中可以通過用戶輸入約束、UGC評估、垃圾檢測、UGC總結和排序系統進行控制。從評論內容的角度看,影響評論質量的因素主要包括評論的語法特征、語義特征、元特征、文本的統計特征、可讀性和相似性特征。從UGC主體角度,在考慮UGC質量時應考慮到主體的基本屬性,如該用戶是否有不良記錄、注冊時間長短、基本資料完成度、活躍時間分布情況等。垃圾評論檢測也是UGC質量控制的一種重要方式,檢測的主要判斷標準為評論是否為垃圾內容、評論主體或團隊的質量高低。此外,評論排序對用戶高效利用UGC也十分重要,現有應用中,淘寶的評論排序根據用戶等級、評分和推薦,當當網的評論排序根據評論的回復數,eBay的評論排序根據相關度。為了更準確地檢測虛假評論,汪建成等[21]依據評論UGC的特性建立了基于主題——對立情感依賴的模型,該模型會提取正反兩類情感詞語,在潛在狄利克雷模型(LDA)中加入情感層,即將LDA擴展成文檔—主題—情感—詞語結構。在此基礎上提出TOSDM模型,結合評論UGC的主題與情感,提取出6位特征對虛假評論展開檢測。
如圖4所示,對UGC質量的研究可以劃分為基于內容和基于用戶兩方面,其中基于用戶可以通過UGC質量尋找領袖意見,以及進行虛假主體判別,通常情況下,若UGC質量非常低,那么產生該UGC的主體很可能是虛假主體。
由于網絡中UGC的量之大,普通用戶很難尋找到自身需要的UGC,因此可根據內容創建某領域的推薦系統,還可以基于內容進行垃圾識別與謠言檢測等。
4UGC法律問題
由于目前用戶在網絡上發表言論具有隨機性、匿名性、數據海量性等特點,導致用戶對其發表UGC的版權問題不夠重視,在不經意間會侵犯他人權益或者無法保障自身權益。在網絡出現初期,為解決著作權產生的利益問題,美國政府于1998年通過了美國數字千年版權法,目前仍應用于網絡法治。此外,UGC規則雖然已被提出,但許多網絡龍頭企業并未簽字認同,目前來說并不是理想的網絡自治規則。當前,我國的網絡治理主要根據2006年國務院發布的《信息網絡傳播權條例》。張慧霞[22]指出網絡治理的發展將是未來研究的重點與難點。
目前在UGC版權問題上,李妙玲等[23]認為存在著過濾識別技術不到位、網絡自治不規范、全民版權意識薄弱、產權意識教育滯后于技術的發展等問題。除此之外,用戶的隱私保護也是學術界研究的熱點,一方面,實行實名制有助于保證UGC的質量,在此條件下用戶若發表言論會考慮到其言論的影響,以及會不會對自己帶來麻煩。但實名制也會限制用戶創作UGC,有些用戶需要用匿名來保護自己,將UGC作為秘密分享出來,比如樹洞類UGC。蔣曉麗等[24]將樹洞類UGC平臺分為社會類和群體類兩種。社會化樹洞UGC面向范圍更廣,如微博樹洞。與之相對,群體化樹洞UGC是以職業、興趣等屬性促成的。這兩類UGC平臺都為用戶提供了隱私保護、言論自由的空間,滿足信息化時代網民抒發情緒的需求。樹洞可以讓用戶更自由地袒露心聲,故引起許多憂郁癥領域專家學者的注意,如何利用樹洞UGC對憂郁癥患者改善病情等問題不斷被深入探究[25-26]。
目前學者們普遍認為若要解決UGC相關法律問題,作為UGC主體,用戶應自覺地進行版權教育;從社會角度出發,學校和社會也應該加強版權知識的普及;在UGC網站角度,應提高用戶版權意識,建立適當的獎懲措施。
5情感分析
51UGC情感描述
情感識別問題的提出源于美國MIT大學的Minsky教授,其在《The Society of Mind》中第一次提出智能機器的情感識別問題,引起學術界的關注。“情感計算”的概念源于1997年Picard所著的《Affective Computing》一書中,Picard認為情感計算是源于人類情感產生、情感識別、情感表示以及影響情感因素度量等方面的計算科學,是利用計算機完成信息載體、情感極性傾向和強度度量的過程。情感是用戶內心思想的主觀反映,可以直接反映用戶的喜惡。早期的UGC的研究主要圍繞UGC概念及其商業應用、UGC動機與激勵措施等方面進行。尤其是UGC在視頻類軟件中的應用,這主要是因為UGC剛提出時,youTube率先發揮其商業價值,導致國內的關注點聚焦于其商業價值。隨著研究的深入,越來越多的學者開始針對UGC意見挖掘、情感分析等其他領域進行研究。比如,針對微博中的文本進行分析,挖掘出群眾的輿論導向與情感變化,可以推測出微博用戶的關注信息,從而為用戶提供針對性服務。
若要對文本UGC進行情感類別劃分,需要一個較為完善的情感詞典為基礎。現有的情感詞典尤其是中文情感詞典規模不足是影響情感分析效果的一個重要因素。除了詞典規模小這一缺點外,趙妍妍等[27]認為現有的情感詞典在情感分析任務的使用中存在詞典中的詞太過正式、詞典中僅包括詞語而沒有詞組等不足。英文詞典方面具有代表性的有General Inquirer和Opinion Lexicon,這兩大詞典都有數千個褒義詞和貶義詞,其中依據詞語的強度、詞性等基本屬性,General Inquirer給每個詞語貼上標簽,以方便人們在使用詞典時能夠更簡便地完成任務。中文情感詞典領域,HowNet在UGC情感傾向分析中的利用較為普遍,近些年,中國科學院計算技術研究所研制出的漢語詞法分析系統ICTCLAS也逐漸得到認可,并逐漸被推廣使用。對于文本類型UGC的信息提取工作,Egger M[28]將其分為信息收集、分析和可視化3階段,并在此基礎上,將步驟細分為數據的收集與清洗、文檔級信息抽取、句子與短語和詞級的信息抽取、選擇的挑戰等。基于Ekman的6種基本情緒理論,賴凱聲等[29]通過人工對《現代漢語詞典》、《實用漢語形容詞詞典》和《現代漢語實詞搭配詞典》進行詞語擴展,最終收集448個情緒詞,在此基礎上結合POMS量表和羅躍嘉詞表等詞庫,通過新浪微博的搜索功能對國內網絡流行詞匯情感詞進行驗證,以篩除使用頻率較低的生僻詞,最終得到2242個情緒詞。
情感分析過程中,除了需要情感詞外,還需對每個情感詞進行量化,即確定其分值。目前大多研究中,都將情感詞分為積極與消極兩種,潘宇等[30]在研究餐廳評論極性時,選擇以食品味道、餐廳環境、服務態度和消費價格作為衡量用戶評論的標準,對UGC進行特征標注從而對UGC進行極性分析,對評論中出現的正向情感詞語量化為+1,負面情緒的詞語賦值為-1。此外文獻[31]中也提到文本UGC的情感量化問題,只是對于情感傾向的判斷仍限于語義范圍,針對目前情感詞語量化的深度與廣度都還有待提高。
52情感分析方法
傳統應用于情感分類的文本分類方法有樸素貝葉斯(Naive Bayesian,NB)、k近鄰(k-Nearest Neighbor,kNN)、支持向量機(Support Vector Machine,SVM)、決策樹等。對于目前國內情感分析的研究,饒元等[32]認為主要是情緒的極性化分析計算與觀點傾向性分析計算2個方面。為了分析觀點傾向問題,徐琳宏等[33]通過計算詞匯與知網中褒貶性之間的相似度,從而對詞匯的傾向做出判斷,將傾向性明顯的詞語視為特征詞,接著采用SVM對這些特征詞進行分類操作,根據情感詞的傾向就可判斷UGC的整體傾向。同樣是利用SVM分類方法,針對服裝電商評論情感值問題,李宏媛等[34]采用線性回歸模型,通過對比平均絕對誤差、均方差誤差、均方根誤差等發現商品評論對產品銷售量的具體影響。
除了分類算法外,還有學者利用關聯算法進行UGC情感分析,以豆瓣為例,Yang J等[35]提出了一種改進的基于MapReduce的內容挖掘Apriori算法,作者認為對UGC進行情感分析,可以對觀眾喜愛以及用戶接下來的動作進行預測,以豆瓣為例,可發掘用戶喜愛的電影以及其他相關信息,那么行業利益相關者,如制片人即可有效地宣傳其內容,據此改善用戶體驗,更好地幫助觀眾找到與其興趣有關的電影。通過UGC深入了解消費者可以縮短出版方與觀眾的差距。潛在狄利克雷分布模型(LDA)是一種概率生成模型,考慮到朋友間交互所表現出的情感比非朋友間交互表現出的情感相似度更高,基于此,黃發良等[36]針對微博用戶提出微博主題情感傾向分析的SRTSM模型,該模型是在傳統LDA的基礎上加入情感層與微博用戶關系參數,接著采取吉布斯采樣方法,利用SRTSM模型進行微博主題和情感分析。為了對產品評論提供一個全面的評價,Raghupathi D等[37]提出了一個較為準確的整體情感評級算法,從單個文本分析出發,用一個影響語言字典來評價單詞樹的葉子。該算法雖然對評論UGC的情感傾向足夠重視,卻因為重視整體而忽視了個體的作用。根據情感分析的過程,文本類型UGC的情感分析可細化成情感信息的抽取、情感信息的分類以及情感信息的檢索與歸納[38]。其中分類任務又可分為主、客觀信息的二元分類和主觀信息的情感分類。對UGC進行的情感分析可以應用于用戶評論分析與決策、輿情監控和信息預測,但由于一些國外的研究技術和情感資源無法直接移植到中文處理中,因此結合中文的特點,尋找適用于中文處理的技術與手段,仍是接下來應繼續探索的問題。
6下一步的研究趨勢
通過對已有文獻的梳理,文中對UGC的概念、動機、質量和法律方面進行概述,接著對UGC情感分析的情感描述、分析方法展開研究。對于接下來的研究,可以針對以下幾方面展開:
61追求高質量
隨著大數據時代的到來,每天都會產生大量的UGC,數量爆炸式增長的同時,并未能保證UGC的高質量。UGC的創造越來越多地依靠手機、Pad等移動電子產品,用戶傾向于利用零碎時間生產UGC,因此大多數UGC的質量是不高的。此外,由于被利益驅使的網絡灌水、刷屏等非正常現象的大量出現,容易對UGC研究樣本造成污染,所以若能有效地改善UGC的質量,有助于提高數據分析的準確率和高效性。比如,UGC網站對于穩定產出高質量的UGC主體給予一定的激勵政策,虛擬的積分或游戲幣等。
62提高推薦準確度
UGC感知易用性的高低因人而異,用戶創作UGC時帶有強烈的個性特點,如何結合用戶個體,理解UGC表達的真實含義、判斷UGC質量高低是值得研究的問題。這其中會涉及到中文語義復雜度較高、容易產生歧義等問題。還可以結合UGC特點對用戶信譽或用戶活躍度進行預測與分類,對不同層次的用戶進行針對性的廣告投放或推薦方案,進一步挖掘UGC的商業價值。為了提高商家的服務質量,林煜明等[20]提出綜合考慮用戶的地理信息和用戶對商品的評論,兩者的結合將在很大程度上為商家和用戶帶來便利。但用戶與UGC的屬性如何準確分類,如何建立更加完善、準確的推薦模型是接下來值得研究的熱點。
63完善情感詞庫
英文詞庫已經較為完善,在分詞階段只需將單個的單詞拆開即可。中文因其特殊性與復雜性,中文分詞比英文分詞困難,針對UGC情感分析問題,可嘗試構建更加完善的情感詞庫,更加充分地考慮停用詞、歧義詞等問題。由于目前研究中,在情感量化方面沒有統一標準,大多研究在權值的分配問題上研究仍然不夠深入,在實際應用時不能準確地表達用戶的情感傾向,如何將情感詞量化得更符合現實意義,也是值得探究的方向。此外,不同性格的用戶生產UGC時,在情感表達方面都有差異。比如,性格外向的用戶可能會更加善于表達自己的情感,所用的情感詞會較為強烈;性格內向的用戶產生的UGC可能會較為平穩,情感方面波動不明顯。因此,在情感分析階段,也可嘗試結合用戶的個性特點采取針對性分析。
64加強用戶隱私保護
用戶生成內容因其網上發布的特點,存在著UGC主體組成復雜、形式摻雜、質量不齊等問題,此外,目前國內網絡自治規則也并不完善。隨著網絡直播等第三方視頻網站的興起,網站僅充當用戶的UGC展示平臺,因此作為網站營運者,如何加強監管、對每天產生的海量UGC進行審核是個問題。除此之外,今后還應注重解決因UGC引發的相關法律道德問題,充分利用UGC使其發揮積極作用,加強對“人肉”等侵犯個人隱私的治理力度。
參考文獻
[1]http://www.oreilly.com/pub/a/web2/archive/what-is-web-20.html?page=1[EB].
[2]門亮,楊雄勇.UGC平臺的特征及其信息流的分析[J].設計,2015,(5):52-54.
[3]李冰,郄婧琳.大數據、流媒體與視頻內容生產新策略——美劇《紙牌屋》的啟示[J].出版廣角,2015,(3):89-91.
[4]黎孔靜.由Netflix自制劇《紙牌屋》的熱播引發的思考[J].電視研究,2013,(9):76-77.
[5]劉倩琦.中國視頻UGC的掘金路[J].投資北京,2014,(1):50-53.
[6]李奕瑩,戚桂杰.企業開放式創新社區中用戶生成內容的創新貢獻[J].中國科技論壇,2017,(4):95-102.
[7]李奕瑩,戚桂杰.創新價值鏈視角下企業開放式創新社區管理的系統動力學研究[J].商業經濟與管理,2017,(6):60-70.
[8]藍勤華.UGC(用戶創造內容)概念之辨析[J].中國網絡傳播研究,2010,(00):279-286.
[9]胡華.基于中文UGC信息源的半自動應用本體構建研究[D].武漢:武漢大學,2014.
[10]閆婧.基于用戶信譽評級的UGC質量預判方法[D].鄭州:鄭州大學,2017.
[11]張振宇,喻發勝.公共性與商業性:UGC媒體發展的兩難境地——以媒介形態研究的視角[J].湖北社會科學,2015,(8):192-198.
[12]趙宇翔,朱慶華.Web20環境下影響用戶生成內容的主要動因研究[J].中國圖書館學報,2009,(5):107-116.
[13]柳瑤,郎宇潔,李凌.微博用戶生成內容的動機研究[J].圖書情報工作,2013,57(10):51-57.
[14]范哲,張乾.MOA視角下的問答網站用戶貢獻行為研究[J].圖書與情報,2015,(5):123-132.
[15]趙宇翔.社會化媒體中用戶生成內容的動因與激勵設計研究[D].南京:南京大學,2011.
[16]張世穎.移動互聯網用戶生成內容動機分析與質量評價研究[D].長春:吉林大學,2014.
[17]https://baike.so.com/doc/5374131-5610149.html[EB].
[18]金燕.國內外UGC質量研究現狀與展望[J].情報理論與實踐,2016,39(3):15-19.
[19]金燕,李丹.基于SPC的用戶生成內容質量監控研究[J].情報科學,2016,34(5):86-90,141.
[20]林煜明,王曉玲,朱濤,等.用戶評論的質量檢測與控制研究綜述[J].軟件學報,2014,25(3):506-527.
[21]汪建成,嚴馨,余正濤,等.基于主題-對立情感依賴模型的虛假評論檢測方法[J].山西大學學報:自然科學版,2015,(1):31-38.
[22]張慧霞.美國UGC規則探討——兼論網絡自治與法治的關系[J].電子知識產權,2008,(5):37-39.
[23]李妙玲,岳慶榮.我國用戶生成內容的版權侵權問題治理模式研究[J].新世紀圖書館,2015,(5):54-59.
[24]蔣曉麗,楊珊.虛擬社會安全閥:樹洞類UGC平臺的宣泄功能研究[J].新聞界,2017,(6):54-59.
[25]王賽.樹洞文化在互聯網中的應用與發展[J].青年記者,2014,(32):69-70.
[26]耿紹寧.試析網絡“樹洞”應用對高校和諧穩定的影響——以“樹洞”微博為例[J].思想理論教育,2013,(15):76-78,82.
[27]趙妍妍,秦兵,石秋慧,等.大規模情感詞典的構建及其在情感分類中的應用[J].中文信息學報,2017,31(2):187-193.
[28]Egger M.A Brief Tutorial on How to Extract Information from User-Generated Content(UGC)[J].KI - Künstliche Intelligenz,2013,27(1):53-60.
[29]賴凱聲,陳浩,錢衛寧,等.微博情緒與中國股市:基于協整分析[J].系統科學與數學,2014,34(5):565-575.
[30]潘宇,林鴻飛.基于語義極性分析的餐館評論挖掘[J].計算機工程,2008,17(17):208-210.
[31]王海雷,章彥星,趙海玉,等.基于用戶生成內容的產品搜索模型[J].中文信息學報,2013,27(4):89-95.
[32]饒元,吳連偉,王一鳴,等.基于語義分析的情感計算技術研究進展[J].軟件學報,2018,29(8):1-25.
[33]徐琳宏,林鴻飛,楊志豪.基于語義理解的文本傾向性識別機制[J].中文信息學報,2007,21(1):96-100.
[34]李宏媛,陶然.服裝電商評論情感分析研究[J].智能計算機與應用.2017,7(1):27-34.
[35]Yang J,Yecies B.Mining Chinese Social Media UGC:A Big Data Framework for Analyzing Douban Movie Reviews[J].Journal of Big Data,2016,3(1):1-23.
[36]黃發良,于戈,張繼連,等.基于社交關系的微博主題情感挖掘[J].軟件學報,2017,28(3):694-707.
[37]Raghupathi D,Yannou B,Farel R,Emilie Poirson.Customer Sentiment Appraisal from User-generated Product Reviews:A Domain Independent Heuristic Algorithm[J].International Journal on Interactive Design and Manufacturing(IJIDeM),2015,9(3):201-211.
[38]趙妍妍,秦兵,劉挺.文本情感分析[J].軟件學報,2010,21(8):1834-1848.
(責任編輯:陳媛)2018年11月第38卷第11期現代情報Journal of Modern InformationNov.,2018Vol38No112018年11月第38卷第11期理性行為理論及其在信息系統研究中的應用與展望Nov.,2018Vol38No11
收稿日期:2018-08-15