999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

企業(yè)互聯(lián)網(wǎng)負(fù)面信息分析與去噪

2018-02-01 07:05:54蔣鳴珂曾偉紅
科技與創(chuàng)新 2018年3期
關(guān)鍵詞:語義文本情感

蔣鳴珂,曾偉紅

(湘潭大學(xué) 信息工程學(xué)院,湖南 湘潭 411105)

1 概述

隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,人們能夠在互聯(lián)網(wǎng)中找到各種有用的信息,特別是近年來大數(shù)據(jù)技術(shù)的迅速發(fā)展,社會(huì)已經(jīng)進(jìn)入了大數(shù)據(jù)時(shí)代。在現(xiàn)代社會(huì),企業(yè)的負(fù)面信息對于我們來說是非常重要的,銀行放貸時(shí)需要確定該企業(yè)是否有負(fù)面信息,以此判斷該企業(yè)是否有能力還貸然后再發(fā)放貸款,而我們在尋找合作伙伴時(shí)也需要這些信息來幫助我們做個(gè)判斷。企業(yè)在互聯(lián)網(wǎng)中的負(fù)面信息可以通過爬蟲來獲取,但是,有時(shí)通過爬蟲獲取的數(shù)據(jù)并不能直接被判斷為是負(fù)面信息,所以,我們需要對爬蟲獲取的初步數(shù)據(jù)進(jìn)行進(jìn)一步的分析和去噪,從而精確獲取企業(yè)負(fù)面信息。獲取精確的企業(yè)負(fù)面信息能夠便于銀行和某些特定用戶直觀地看到企業(yè)狀況,從而做出相應(yīng)的決定。

2 相關(guān)工作

文本作為一種重要的信息表達(dá)方式,如何分辨一段文本是否是負(fù)面信息呢?我們需要對其進(jìn)行情感分析,研究文本語義和情感傾向。

對于一段文本來說,能夠表達(dá)其情感傾向的主要是構(gòu)成文本的詞語。所以,判斷一段文本是否為負(fù)面信息,主要是判斷其中某些關(guān)鍵字的語義傾向。張錦明提出了一種基于詞匯的語義傾向向量空間模型表示算法(SOVR算法),它結(jié)合了語法、語義、語用,將統(tǒng)計(jì)測度方法與機(jī)器學(xué)習(xí)方法結(jié)合起來,大大提升了判斷性能。但是,這種方法還存在側(cè)重統(tǒng)計(jì)方法、規(guī)則利用較為單一、對特定領(lǐng)域依賴較大等問題。以單詞為基礎(chǔ)的語義傾向研究是對文章語義傾向研究的基礎(chǔ)。Vasileios Hatzivassiloglou和Kathleen R.McKeown依賴于文本語料庫對形容詞語義進(jìn)行分析,他們發(fā)現(xiàn),形容詞語義會(huì)受到連接詞的影響,所以,可分析連接詞前后2個(gè)形容詞來判斷其是否有相同或者不同的取向。文中提出一種四步走的方法來有效判別一個(gè)形容詞的語義傾向。Peter D.Turney運(yùn)用統(tǒng)計(jì)方法,使用點(diǎn)互信息(PMI)和潛在語義分析(LSA)對正面和負(fù)面樣例詞匯進(jìn)行語義傾向分析,從而提高各類詞統(tǒng)計(jì)的準(zhǔn)確率。

機(jī)器學(xué)習(xí)方法在情感分類中發(fā)揮著非常重要的作用。Bo Pang和Lillian Lee使用機(jī)器學(xué)習(xí)解決文本情感分類,利用樸素貝葉斯、最大熵分類器和SVM這3種方法分析電影評論數(shù)據(jù)。經(jīng)過實(shí)驗(yàn)對比,在對相同數(shù)據(jù)進(jìn)行文本語義傾向分析時(shí),在這3種方法中,樸素貝葉斯效果相對比較差,而SVM的效果相對比較好。情感傾向研究在互聯(lián)網(wǎng)中被廣泛應(yīng)用。楊歡在其文章中闡述將文本分類用于微博中情感傾向的研究,解決了以往檢索和采集以關(guān)鍵字為基礎(chǔ)難以支持情感傾向挖掘的問題。同時(shí),他還提出了一種基于主題情感相關(guān)的改進(jìn)k最近鄰算法,這種方法能夠?qū)η楦羞M(jìn)行正面、負(fù)面和中性的分類,在處理微博熱門中文主題情感時(shí)有一定的可行性。從目前情況來看,這個(gè)領(lǐng)域還沒有一個(gè)完整的語料庫。因此,楊江等人提出建設(shè)漢語語義傾向語料庫,以語言主觀性多維度描述體系為指導(dǎo)理論,將類別、程度、形式、成分、關(guān)聯(lián)和模式6個(gè)維度構(gòu)成一個(gè)體系,每個(gè)維度表示一種屬性,從而構(gòu)建一個(gè)具有檢索統(tǒng)計(jì)、結(jié)果檢查、可視化等特點(diǎn)的語料庫工具箱系統(tǒng),這對于人們理解語言主觀性有一定的幫助。朱嫣嵐、閔錦等人基于HowNet提出語義相似度和基于語義相關(guān)場的2種語義傾向計(jì)算方法,通過選擇褒貶基準(zhǔn)詞,計(jì)算被測試詞與基準(zhǔn)詞之間的語義緊密程度,從而得到這個(gè)詞的語義傾向值。這種方法在漢語常用詞中效果比較好,具有一定的實(shí)用價(jià)值。

3 數(shù)據(jù)描述與分析

基于百度搜索使用爬蟲來獲取所需要的數(shù)據(jù),使用“公司全稱或者簡稱+負(fù)面詞”的方式搜索,使用420個(gè)負(fù)面詞循環(huán)抓取百度搜索結(jié)果前10頁的數(shù)據(jù),最終獲取了10萬多條數(shù)據(jù)并對其進(jìn)行分析。

3.1 數(shù)據(jù)處理流程

對于獲取到的數(shù)據(jù),具體處理流程是:①判斷是否有簡稱或全稱+負(fù)面詞。②識別內(nèi)容中的實(shí)體,判斷公司名稱是否為全稱。例如搜索的簡稱是“國基建設(shè)”,全稱是“湖北國基建設(shè)”,結(jié)果內(nèi)容中實(shí)體卻是“湖南國基建設(shè)”,則這個(gè)結(jié)果不符合,就要去除。③對包含負(fù)面詞的句子調(diào)用HanLP進(jìn)行依存句法分析,進(jìn)一步解析,判斷其是否為負(fù)面信息。爬蟲獲取的整個(gè)網(wǎng)頁的原始數(shù)據(jù)被存放在一個(gè)json中,在處理數(shù)據(jù)時(shí),會(huì)先從這段文本中找出負(fù)面關(guān)鍵字所在的句子,將其提取出來,然后調(diào)用HanLP對其進(jìn)行依存句法解析,并根據(jù)解析結(jié)果得到依存句法樹。數(shù)據(jù)處理流程如圖1所示。

圖1 數(shù)據(jù)處理流程圖

3.2 依存句法分析

依存句法用來描述詞語之間的依存關(guān)系,即用來表示詞語之間句法上的搭配關(guān)系,這種關(guān)系與語義相關(guān)。在依存句法樹中,輸入的句子從普通排列模式變成樹狀結(jié)構(gòu),可以更加直觀地發(fā)現(xiàn)句子內(nèi)部詞語之間的遠(yuǎn)距離搭配或者修飾關(guān)系。中文文本詞性標(biāo)注情況如表1所示。

經(jīng)過依存句法分析后,生成的依存句法樹如圖2所示。

表1 中文文本詞性標(biāo)注

圖2 生成依存句法樹的結(jié)果

通過依存句法樹我們可以清楚看到,負(fù)面詞“涉案”的主語是“員工”,員工一共3名,而員工是“中聯(lián)重科”的員工,所以,該語句可以判斷為是中聯(lián)重科的負(fù)面信息。

4 負(fù)面信息噪聲產(chǎn)生因素分析

在本節(jié)中,對比、分析獲取到的10萬多條數(shù)據(jù),最終得到了若干可能會(huì)造成負(fù)面信息噪聲的因素,并將其歸納為以下幾點(diǎn)。

4.1 負(fù)面詞否定

在眾多影響負(fù)面信息去噪的因素中,負(fù)面詞否定可以說是一種比較直接的影響因素,因?yàn)榉穸ㄐ揎椩~往往直接作用于負(fù)面詞。在此次實(shí)驗(yàn)中,共獲取該類語句8 812條,占總數(shù)據(jù)的8.5%.例如,“從根本上控制污染”中,“污染”是負(fù)面詞,但是“控制”修飾“污染”構(gòu)成動(dòng)賓關(guān)系,“控制污染”并不是負(fù)面詞,所以,該語句不能被列為負(fù)面信息;“并不會(huì)夸張到有95%的創(chuàng)業(yè)公司倒閉”中,“倒閉”是負(fù)面詞,但是,“夸張”和“有”為并列關(guān)系,而“有”修飾“倒閉”,所以,該語句也不能被列為負(fù)面信息;“在沖擊下堅(jiān)挺危機(jī)逆襲”中,“危機(jī)”是負(fù)面詞,但是,“逆襲”作為定語修飾“危機(jī)”,“危機(jī)逆襲”不能表達(dá)出負(fù)面信息,所以,該語句不是負(fù)面信息。

4.2 有負(fù)面詞但不是負(fù)面信息

在眾多噪聲因素中,有很多語句包含負(fù)面詞但不是負(fù)面信息這個(gè)問題比較普遍。在本次實(shí)驗(yàn)中,共獲取該類語句17 353條,占總數(shù)據(jù)的16.7%.該問題的出現(xiàn)大致可以分為以下幾種情況:①負(fù)面詞可能夾雜在某個(gè)專有名詞中出現(xiàn),即負(fù)面詞只是作為某個(gè)名詞中的部分出現(xiàn)。例如,“暫停業(yè)務(wù)”中的“停業(yè)”,“遇難題”中的“遇難”,都是負(fù)面詞作為部分出現(xiàn),而“青山寨特產(chǎn)店”中的“山寨”也是作為店鋪名字中部分出現(xiàn),它們都不屬于負(fù)面信息。②有負(fù)面詞但是并不能體現(xiàn)負(fù)面意思。例如,“曝光”“借款”等負(fù)面詞所表示的內(nèi)容可能并不是負(fù)面的,需要對其作進(jìn)一步的判斷。③負(fù)面詞可能是某一個(gè)產(chǎn)品介紹中的詞語。例如,“出現(xiàn)交通事故,車子會(huì)馬上報(bào)警”中的“事故”,“意外傷害保險(xiǎn)”中的“傷害”,“舉報(bào)受理方式”中的“舉報(bào)”,這些雖然都是負(fù)面詞,但具體內(nèi)容均為產(chǎn)品或業(yè)務(wù)介紹,并不屬于負(fù)面信息。④負(fù)面詞體現(xiàn)出正面意思或者是欲揚(yáng)先抑。例如,“正是這樣的困境,構(gòu)成了創(chuàng)新工場人工智能工程院建設(shè)的初衷”中的“困境”,“有很多珠寶企業(yè)資金鏈出現(xiàn)了危機(jī),而該公司卻逆市而上”中的“危機(jī)”均為負(fù)面詞,但卻體現(xiàn)出了目標(biāo)公司的正面形象,不屬于負(fù)面信息。

4.3 負(fù)面詞主語問題

負(fù)面詞主語問題在噪聲中也算是一個(gè)重要問題。在本次實(shí)驗(yàn)中,共獲取該類語句28 655條,占總數(shù)據(jù)的27.5%.經(jīng)過研究,可以將該問題劃分成以下3類:①語句中表達(dá)的公司不是目標(biāo)公司,或者是目標(biāo)公司去舉報(bào)別的公司。例如,“OKAI公司侵犯了合肥華泰集團(tuán)的商標(biāo)權(quán)”中的目標(biāo)公司為“合肥華泰集團(tuán)”,負(fù)面詞為“侵犯”,“在梯子網(wǎng)倒閉的同時(shí),在線教育行業(yè)遭遇質(zhì)問關(guān)鍵節(jié)點(diǎn),績優(yōu)堂還能受到如此熱捧”中目標(biāo)公司是“績優(yōu)堂”,負(fù)面詞是“倒閉”。這兩句話都可被認(rèn)定為噪聲,因?yàn)樨?fù)面詞所說的公司并不是目標(biāo)公司。②語句中負(fù)面詞的主語不是公司。例如,“有4家規(guī)模較小的企業(yè)出現(xiàn)了大幅虧損”中負(fù)面詞“虧損”,“曾伙同他人在梅縣維也納酒店內(nèi)故意損害酒店財(cái)物,涉案金額總計(jì)8 850元”中“損害”“涉案”為負(fù)面詞。雖然此類例子中有負(fù)面詞,但是,負(fù)面詞的主語與公司無關(guān),所以也是噪聲。③負(fù)面詞反映了一個(gè)行業(yè)的問題。例如,“寶怡珠寶這種穩(wěn)扎穩(wěn)打、有實(shí)力、有準(zhǔn)備的珠寶企業(yè),更容易在危機(jī)中找到進(jìn)一步發(fā)展的機(jī)遇”中“危機(jī)”為負(fù)面詞,但是,該語句說明的是珠寶行業(yè)的問題,與目標(biāo)公司無關(guān),屬于噪聲。

4.4 簡稱問題

在搜索階段使用公司簡稱搜索可能會(huì)獲得更多的相關(guān)信息,但是,這么搜索在獲得更多信息的同時(shí)也會(huì)出現(xiàn)很多噪聲信息。在本次實(shí)驗(yàn)中,通過簡稱搜索到數(shù)據(jù)36 331條,其中,存在噪聲問題的數(shù)據(jù)有14 323條,占搜索到的額外數(shù)據(jù)的39.4%,占總數(shù)據(jù)的13.8%.出現(xiàn)簡稱問題的原因也有幾種,例如目標(biāo)搜索公司可能有很多分公司,或者有名字相近的公司,但是,使用公司簡稱搜索后可能會(huì)搜到很多分公司信息,或者搜索到了別的公司,而這些信息并不屬于你的目標(biāo)公司,屬于噪聲;又或者搜索到的內(nèi)容中的簡稱關(guān)鍵字可能只是一句話中的某些詞語,對于公司來說并沒有什么意義,也可列為噪聲。

4.5 負(fù)面詞庫設(shè)置

負(fù)面詞庫中負(fù)面詞的設(shè)置不僅決定著爬蟲抓取信息量,還在負(fù)面信息噪聲判斷方面發(fā)揮著重要作用。增加負(fù)面詞庫中的負(fù)面詞數(shù)量,可以使爬蟲在抓取信息過程中獲得更多負(fù)面信息,但是,在去噪過程中,會(huì)發(fā)現(xiàn)有部分負(fù)面詞在大多數(shù)語句中并不能表現(xiàn)為負(fù)面信息,此時(shí)就要?jiǎng)h減負(fù)面詞庫來提升去噪效果。

4.6 句式

在爬蟲獲取的大量語句中,除了有以上幾種問題外,還有小部分包含負(fù)面詞的語句可能是疑問句或者是假設(shè)句,等等,這類句子也需要對其進(jìn)行二次判斷才能確定是否為噪聲。例如,“如果發(fā)現(xiàn)有拖欠農(nóng)民工工資等違法違規(guī)行為”是假設(shè)句,“是否會(huì)產(chǎn)生此類危害”是疑問句,但是這都不能直接將其語句列為負(fù)面語句,需要再次判斷。

4.7 數(shù)據(jù)總體分析

獲取數(shù)據(jù)分布情況如圖3和圖4所示,可以看出,主語問題在噪聲中占有較大的比例,有負(fù)面詞但不是負(fù)面信息和簡稱問題隨后,占比最小的是負(fù)面詞否定問題。

圖3 數(shù)據(jù)分布柱狀圖

圖4 數(shù)據(jù)分布餅圖

5 總結(jié)與展望

本文主要考察了爬蟲獲取的初步文本中噪聲產(chǎn)生的因素,并且分析了判斷一個(gè)語句是否為負(fù)面信息時(shí)噪聲造成的影響。使用HanLP對語句進(jìn)行依存句法分析,得到依存句法樹,然后對其進(jìn)行解析,能夠有效判斷一個(gè)語句是否為負(fù)面信息。

然而本文還有一些地方需要改進(jìn),例如,可能還有其他噪聲因素等待我們?nèi)グl(fā)現(xiàn),需要進(jìn)一步獲取更多數(shù)據(jù)來分析實(shí)驗(yàn)。此外,是否還有其他方法可以用來判斷一個(gè)語句是否為負(fù)面信息還需要我們進(jìn)一步探索,如果有的話,對比現(xiàn)有方法,其在效率、復(fù)雜度上是否更有優(yōu)勢等。

[1]張錦明.中文語義傾向識別的關(guān)鍵算法研究[D].北京:北京郵電大學(xué),2008.

[2]Vasileios Hatzivassiloglou,Kathleen R.McKeown.Predicting the Semantic Orientation ofAdjectives[C]//In:Proceedings of the 35th Annual Meeting of the Association for Computational Linguistics and the 8th Conference of the European Chapter of the ACL,1997:174-181.

[3]Peter D.Turney,Michael L.Littman.Measuring Praise and Criticism:Inference of Semantic Orientation from Association[J].ACM Transactions on Information Systems,2003,21(4):315-346.

[4]Bo Pang,Lillian Lee,Shivakumar Vaithyanathan.Thumbs up Sentiment Classification Using Machine Learning Techniques[C]//In:Proceedings of the 2002 Conference on Empirical Methods in Natural Language Processing,2002:79-86.

[5]楊歡.基于文本分類的微博情感傾向研究[D].重慶:重慶師范大學(xué),2016.

[6]楊江,李薇,彭石玉.漢語語義傾向語料庫的建設(shè)[J].中文信息學(xué)報(bào),2014,28(05):74-82.

[7]朱嫣嵐,閔錦,周雅倩,等.基于HowNet的詞匯語義傾向計(jì)算[J].中文信息學(xué)報(bào),2006(01):14-20.

[8]徐軍,丁宇新,王曉龍.使用機(jī)器學(xué)習(xí)方法進(jìn)行新聞的情感自動(dòng)分類[J].中文信息學(xué)報(bào),2007(06):95-100.

[9]馬妍.商品評論情感分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D].北京:北京交通大學(xué),2015.

[10]宋光鵬.文本的情感傾向分析研究[D].北京:北京郵電大學(xué),2008.

[11]馬那那.面向產(chǎn)品評論的情感文本分類研究[D].合肥:安徽大學(xué),2017.

[12]李鈍,喬保軍,曹元大,等.基于語義分析的詞匯傾向識別研究[J].模式識別與人工智能,2008,21(04):482-487.

[13]李正華.漢語依存句法分析關(guān)鍵技術(shù)研究[D].哈爾濱:哈爾濱工業(yè)大學(xué),2013.

猜你喜歡
語義文本情感
如何在情感中自我成長,保持獨(dú)立
語言與語義
失落的情感
北極光(2019年12期)2020-01-18 06:22:10
情感
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
如何在情感中自我成長,保持獨(dú)立
“上”與“下”語義的不對稱性及其認(rèn)知闡釋
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
認(rèn)知范疇模糊與語義模糊
主站蜘蛛池模板: 日韩美毛片| 99成人在线观看| 日本高清成本人视频一区| 欧美不卡视频在线观看| 精品少妇人妻av无码久久| 久久精品免费国产大片| 婷婷久久综合九色综合88| 亚洲精品福利视频| 视频二区国产精品职场同事| www.精品国产| 亚洲综合婷婷激情| 中文字幕在线日本| 成人福利一区二区视频在线| 久操中文在线| 欧美日韩成人| 国产精品亚洲片在线va| 精品视频在线一区| 欧美色图久久| 国产女人在线视频| 亚洲AⅤ无码国产精品| 国产日韩欧美精品区性色| 国产男女免费视频| 激情成人综合网| 精品自窥自偷在线看| 国产精品无码一二三视频| 性做久久久久久久免费看| 蝴蝶伊人久久中文娱乐网| 99精品在线看| 欧美日韩在线成人| 国产免费人成视频网| 中文字幕欧美成人免费| 91人妻日韩人妻无码专区精品| 美女被操91视频| 国产午夜一级淫片| 成年人免费国产视频| 精品人妻一区二区三区蜜桃AⅤ| 亚洲精品777| 99re视频在线| 亚洲第一成年网| 97se亚洲综合在线韩国专区福利| 亚洲日韩第九十九页| 久久综合国产乱子免费| 中文字幕啪啪| 波多野结衣的av一区二区三区| 亚洲av无码专区久久蜜芽| 国产91全国探花系列在线播放 | 国产精品黑色丝袜的老师| 都市激情亚洲综合久久| 国产精品亚洲天堂| 激情影院内射美女| 青青操国产| 精品无码一区二区三区电影| 国产精品2| 一级做a爰片久久毛片毛片| 在线播放真实国产乱子伦| 国产成人久久综合777777麻豆| 国产福利免费视频| 亚洲中文制服丝袜欧美精品| 欧美精品影院| 尤物精品国产福利网站| 丰满的少妇人妻无码区| 成人久久精品一区二区三区| 久久久久青草大香线综合精品| 青草视频网站在线观看| 免费一级毛片在线观看| 伊人福利视频| 国产一区二区人大臿蕉香蕉| 国产亚洲视频免费播放| 亚洲国产看片基地久久1024| av色爱 天堂网| 91精品专区国产盗摄| 国产在线视频自拍| 精品小视频在线观看| 欧美综合区自拍亚洲综合绿色| 国产综合色在线视频播放线视 | 日韩福利在线视频| 久久精品嫩草研究院| 亚洲一级色| 狠狠色成人综合首页| 国产精品999在线| jijzzizz老师出水喷水喷出| 国产91线观看|