999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

企業互聯網負面信息分析與去噪

2018-02-01 07:05:54蔣鳴珂曾偉紅
科技與創新 2018年3期
關鍵詞:語義文本情感

蔣鳴珂,曾偉紅

(湘潭大學 信息工程學院,湖南 湘潭 411105)

1 概述

隨著互聯網技術的飛速發展,人們能夠在互聯網中找到各種有用的信息,特別是近年來大數據技術的迅速發展,社會已經進入了大數據時代。在現代社會,企業的負面信息對于我們來說是非常重要的,銀行放貸時需要確定該企業是否有負面信息,以此判斷該企業是否有能力還貸然后再發放貸款,而我們在尋找合作伙伴時也需要這些信息來幫助我們做個判斷。企業在互聯網中的負面信息可以通過爬蟲來獲取,但是,有時通過爬蟲獲取的數據并不能直接被判斷為是負面信息,所以,我們需要對爬蟲獲取的初步數據進行進一步的分析和去噪,從而精確獲取企業負面信息。獲取精確的企業負面信息能夠便于銀行和某些特定用戶直觀地看到企業狀況,從而做出相應的決定。

2 相關工作

文本作為一種重要的信息表達方式,如何分辨一段文本是否是負面信息呢?我們需要對其進行情感分析,研究文本語義和情感傾向。

對于一段文本來說,能夠表達其情感傾向的主要是構成文本的詞語。所以,判斷一段文本是否為負面信息,主要是判斷其中某些關鍵字的語義傾向。張錦明提出了一種基于詞匯的語義傾向向量空間模型表示算法(SOVR算法),它結合了語法、語義、語用,將統計測度方法與機器學習方法結合起來,大大提升了判斷性能。但是,這種方法還存在側重統計方法、規則利用較為單一、對特定領域依賴較大等問題。以單詞為基礎的語義傾向研究是對文章語義傾向研究的基礎。Vasileios Hatzivassiloglou和Kathleen R.McKeown依賴于文本語料庫對形容詞語義進行分析,他們發現,形容詞語義會受到連接詞的影響,所以,可分析連接詞前后2個形容詞來判斷其是否有相同或者不同的取向。文中提出一種四步走的方法來有效判別一個形容詞的語義傾向。Peter D.Turney運用統計方法,使用點互信息(PMI)和潛在語義分析(LSA)對正面和負面樣例詞匯進行語義傾向分析,從而提高各類詞統計的準確率。

機器學習方法在情感分類中發揮著非常重要的作用。Bo Pang和Lillian Lee使用機器學習解決文本情感分類,利用樸素貝葉斯、最大熵分類器和SVM這3種方法分析電影評論數據。經過實驗對比,在對相同數據進行文本語義傾向分析時,在這3種方法中,樸素貝葉斯效果相對比較差,而SVM的效果相對比較好。情感傾向研究在互聯網中被廣泛應用。楊歡在其文章中闡述將文本分類用于微博中情感傾向的研究,解決了以往檢索和采集以關鍵字為基礎難以支持情感傾向挖掘的問題。同時,他還提出了一種基于主題情感相關的改進k最近鄰算法,這種方法能夠對情感進行正面、負面和中性的分類,在處理微博熱門中文主題情感時有一定的可行性。從目前情況來看,這個領域還沒有一個完整的語料庫。因此,楊江等人提出建設漢語語義傾向語料庫,以語言主觀性多維度描述體系為指導理論,將類別、程度、形式、成分、關聯和模式6個維度構成一個體系,每個維度表示一種屬性,從而構建一個具有檢索統計、結果檢查、可視化等特點的語料庫工具箱系統,這對于人們理解語言主觀性有一定的幫助。朱嫣嵐、閔錦等人基于HowNet提出語義相似度和基于語義相關場的2種語義傾向計算方法,通過選擇褒貶基準詞,計算被測試詞與基準詞之間的語義緊密程度,從而得到這個詞的語義傾向值。這種方法在漢語常用詞中效果比較好,具有一定的實用價值。

3 數據描述與分析

基于百度搜索使用爬蟲來獲取所需要的數據,使用“公司全稱或者簡稱+負面詞”的方式搜索,使用420個負面詞循環抓取百度搜索結果前10頁的數據,最終獲取了10萬多條數據并對其進行分析。

3.1 數據處理流程

對于獲取到的數據,具體處理流程是:①判斷是否有簡稱或全稱+負面詞。②識別內容中的實體,判斷公司名稱是否為全稱。例如搜索的簡稱是“國基建設”,全稱是“湖北國基建設”,結果內容中實體卻是“湖南國基建設”,則這個結果不符合,就要去除。③對包含負面詞的句子調用HanLP進行依存句法分析,進一步解析,判斷其是否為負面信息。爬蟲獲取的整個網頁的原始數據被存放在一個json中,在處理數據時,會先從這段文本中找出負面關鍵字所在的句子,將其提取出來,然后調用HanLP對其進行依存句法解析,并根據解析結果得到依存句法樹。數據處理流程如圖1所示。

圖1 數據處理流程圖

3.2 依存句法分析

依存句法用來描述詞語之間的依存關系,即用來表示詞語之間句法上的搭配關系,這種關系與語義相關。在依存句法樹中,輸入的句子從普通排列模式變成樹狀結構,可以更加直觀地發現句子內部詞語之間的遠距離搭配或者修飾關系。中文文本詞性標注情況如表1所示。

經過依存句法分析后,生成的依存句法樹如圖2所示。

表1 中文文本詞性標注

圖2 生成依存句法樹的結果

通過依存句法樹我們可以清楚看到,負面詞“涉案”的主語是“員工”,員工一共3名,而員工是“中聯重科”的員工,所以,該語句可以判斷為是中聯重科的負面信息。

4 負面信息噪聲產生因素分析

在本節中,對比、分析獲取到的10萬多條數據,最終得到了若干可能會造成負面信息噪聲的因素,并將其歸納為以下幾點。

4.1 負面詞否定

在眾多影響負面信息去噪的因素中,負面詞否定可以說是一種比較直接的影響因素,因為否定修飾詞往往直接作用于負面詞。在此次實驗中,共獲取該類語句8 812條,占總數據的8.5%.例如,“從根本上控制污染”中,“污染”是負面詞,但是“控制”修飾“污染”構成動賓關系,“控制污染”并不是負面詞,所以,該語句不能被列為負面信息;“并不會夸張到有95%的創業公司倒閉”中,“倒閉”是負面詞,但是,“夸張”和“有”為并列關系,而“有”修飾“倒閉”,所以,該語句也不能被列為負面信息;“在沖擊下堅挺危機逆襲”中,“危機”是負面詞,但是,“逆襲”作為定語修飾“危機”,“危機逆襲”不能表達出負面信息,所以,該語句不是負面信息。

4.2 有負面詞但不是負面信息

在眾多噪聲因素中,有很多語句包含負面詞但不是負面信息這個問題比較普遍。在本次實驗中,共獲取該類語句17 353條,占總數據的16.7%.該問題的出現大致可以分為以下幾種情況:①負面詞可能夾雜在某個專有名詞中出現,即負面詞只是作為某個名詞中的部分出現。例如,“暫停業務”中的“停業”,“遇難題”中的“遇難”,都是負面詞作為部分出現,而“青山寨特產店”中的“山寨”也是作為店鋪名字中部分出現,它們都不屬于負面信息。②有負面詞但是并不能體現負面意思。例如,“曝光”“借款”等負面詞所表示的內容可能并不是負面的,需要對其作進一步的判斷。③負面詞可能是某一個產品介紹中的詞語。例如,“出現交通事故,車子會馬上報警”中的“事故”,“意外傷害保險”中的“傷害”,“舉報受理方式”中的“舉報”,這些雖然都是負面詞,但具體內容均為產品或業務介紹,并不屬于負面信息。④負面詞體現出正面意思或者是欲揚先抑。例如,“正是這樣的困境,構成了創新工場人工智能工程院建設的初衷”中的“困境”,“有很多珠寶企業資金鏈出現了危機,而該公司卻逆市而上”中的“危機”均為負面詞,但卻體現出了目標公司的正面形象,不屬于負面信息。

4.3 負面詞主語問題

負面詞主語問題在噪聲中也算是一個重要問題。在本次實驗中,共獲取該類語句28 655條,占總數據的27.5%.經過研究,可以將該問題劃分成以下3類:①語句中表達的公司不是目標公司,或者是目標公司去舉報別的公司。例如,“OKAI公司侵犯了合肥華泰集團的商標權”中的目標公司為“合肥華泰集團”,負面詞為“侵犯”,“在梯子網倒閉的同時,在線教育行業遭遇質問關鍵節點,績優堂還能受到如此熱捧”中目標公司是“績優堂”,負面詞是“倒閉”。這兩句話都可被認定為噪聲,因為負面詞所說的公司并不是目標公司。②語句中負面詞的主語不是公司。例如,“有4家規模較小的企業出現了大幅虧損”中負面詞“虧損”,“曾伙同他人在梅縣維也納酒店內故意損害酒店財物,涉案金額總計8 850元”中“損害”“涉案”為負面詞。雖然此類例子中有負面詞,但是,負面詞的主語與公司無關,所以也是噪聲。③負面詞反映了一個行業的問題。例如,“寶怡珠寶這種穩扎穩打、有實力、有準備的珠寶企業,更容易在危機中找到進一步發展的機遇”中“危機”為負面詞,但是,該語句說明的是珠寶行業的問題,與目標公司無關,屬于噪聲。

4.4 簡稱問題

在搜索階段使用公司簡稱搜索可能會獲得更多的相關信息,但是,這么搜索在獲得更多信息的同時也會出現很多噪聲信息。在本次實驗中,通過簡稱搜索到數據36 331條,其中,存在噪聲問題的數據有14 323條,占搜索到的額外數據的39.4%,占總數據的13.8%.出現簡稱問題的原因也有幾種,例如目標搜索公司可能有很多分公司,或者有名字相近的公司,但是,使用公司簡稱搜索后可能會搜到很多分公司信息,或者搜索到了別的公司,而這些信息并不屬于你的目標公司,屬于噪聲;又或者搜索到的內容中的簡稱關鍵字可能只是一句話中的某些詞語,對于公司來說并沒有什么意義,也可列為噪聲。

4.5 負面詞庫設置

負面詞庫中負面詞的設置不僅決定著爬蟲抓取信息量,還在負面信息噪聲判斷方面發揮著重要作用。增加負面詞庫中的負面詞數量,可以使爬蟲在抓取信息過程中獲得更多負面信息,但是,在去噪過程中,會發現有部分負面詞在大多數語句中并不能表現為負面信息,此時就要刪減負面詞庫來提升去噪效果。

4.6 句式

在爬蟲獲取的大量語句中,除了有以上幾種問題外,還有小部分包含負面詞的語句可能是疑問句或者是假設句,等等,這類句子也需要對其進行二次判斷才能確定是否為噪聲。例如,“如果發現有拖欠農民工工資等違法違規行為”是假設句,“是否會產生此類危害”是疑問句,但是這都不能直接將其語句列為負面語句,需要再次判斷。

4.7 數據總體分析

獲取數據分布情況如圖3和圖4所示,可以看出,主語問題在噪聲中占有較大的比例,有負面詞但不是負面信息和簡稱問題隨后,占比最小的是負面詞否定問題。

圖3 數據分布柱狀圖

圖4 數據分布餅圖

5 總結與展望

本文主要考察了爬蟲獲取的初步文本中噪聲產生的因素,并且分析了判斷一個語句是否為負面信息時噪聲造成的影響。使用HanLP對語句進行依存句法分析,得到依存句法樹,然后對其進行解析,能夠有效判斷一個語句是否為負面信息。

然而本文還有一些地方需要改進,例如,可能還有其他噪聲因素等待我們去發現,需要進一步獲取更多數據來分析實驗。此外,是否還有其他方法可以用來判斷一個語句是否為負面信息還需要我們進一步探索,如果有的話,對比現有方法,其在效率、復雜度上是否更有優勢等。

[1]張錦明.中文語義傾向識別的關鍵算法研究[D].北京:北京郵電大學,2008.

[2]Vasileios Hatzivassiloglou,Kathleen R.McKeown.Predicting the Semantic Orientation ofAdjectives[C]//In:Proceedings of the 35th Annual Meeting of the Association for Computational Linguistics and the 8th Conference of the European Chapter of the ACL,1997:174-181.

[3]Peter D.Turney,Michael L.Littman.Measuring Praise and Criticism:Inference of Semantic Orientation from Association[J].ACM Transactions on Information Systems,2003,21(4):315-346.

[4]Bo Pang,Lillian Lee,Shivakumar Vaithyanathan.Thumbs up Sentiment Classification Using Machine Learning Techniques[C]//In:Proceedings of the 2002 Conference on Empirical Methods in Natural Language Processing,2002:79-86.

[5]楊歡.基于文本分類的微博情感傾向研究[D].重慶:重慶師范大學,2016.

[6]楊江,李薇,彭石玉.漢語語義傾向語料庫的建設[J].中文信息學報,2014,28(05):74-82.

[7]朱嫣嵐,閔錦,周雅倩,等.基于HowNet的詞匯語義傾向計算[J].中文信息學報,2006(01):14-20.

[8]徐軍,丁宇新,王曉龍.使用機器學習方法進行新聞的情感自動分類[J].中文信息學報,2007(06):95-100.

[9]馬妍.商品評論情感分析系統的設計與實現[D].北京:北京交通大學,2015.

[10]宋光鵬.文本的情感傾向分析研究[D].北京:北京郵電大學,2008.

[11]馬那那.面向產品評論的情感文本分類研究[D].合肥:安徽大學,2017.

[12]李鈍,喬保軍,曹元大,等.基于語義分析的詞匯傾向識別研究[J].模式識別與人工智能,2008,21(04):482-487.

[13]李正華.漢語依存句法分析關鍵技術研究[D].哈爾濱:哈爾濱工業大學,2013.

猜你喜歡
語義文本情感
如何在情感中自我成長,保持獨立
語言與語義
失落的情感
北極光(2019年12期)2020-01-18 06:22:10
情感
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
如何在情感中自我成長,保持獨立
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
認知范疇模糊與語義模糊
主站蜘蛛池模板: 精品国产三级在线观看| 欧美视频在线观看第一页| www.日韩三级| 成人韩免费网站| 欧美精品v| 日韩a级毛片| 91福利一区二区三区| 亚洲αv毛片| 国产精品黑色丝袜的老师| 欧美亚洲网| 色九九视频| 国产高清在线观看| 亚洲精品制服丝袜二区| 性视频久久| 日韩人妻少妇一区二区| 九九免费观看全部免费视频| 美女无遮挡免费网站| 久久精品电影| 亚洲中文无码av永久伊人| av天堂最新版在线| 97超爽成人免费视频在线播放| 波多野结衣无码中文字幕在线观看一区二区| 在线国产毛片| 91无码网站| 国产在线拍偷自揄拍精品| 久久77777| 狂欢视频在线观看不卡| 女人爽到高潮免费视频大全| 一本色道久久88亚洲综合| 免费国产黄线在线观看| 亚洲人成影视在线观看| 免费无码网站| 手机精品视频在线观看免费| 深爱婷婷激情网| 丁香婷婷久久| 激情综合激情| 国产肉感大码AV无码| 538精品在线观看| 99热6这里只有精品| 91精品啪在线观看国产| 在线欧美日韩国产| 欧美国产日韩在线| 亚洲熟女偷拍| 色九九视频| 亚洲国产精品久久久久秋霞影院| 91黄视频在线观看| 国产精品林美惠子在线播放| 国产高清毛片| 亚洲国产天堂久久综合| 69av免费视频| 无码一区中文字幕| 国产女人爽到高潮的免费视频 | 成人第一页| 一级一级一片免费| 在线欧美一区| 亚洲品质国产精品无码| 一级毛片中文字幕| 午夜国产大片免费观看| 99视频在线观看免费| 国产精品成人啪精品视频| 精品伊人久久久久7777人| 国产精品55夜色66夜色| 无码日韩精品91超碰| 99视频只有精品| 午夜不卡视频| 久草青青在线视频| 国产精品流白浆在线观看| 国产精品99久久久久久董美香 | 理论片一区| 视频二区亚洲精品| 久久性妇女精品免费| 成人国产小视频| 欧美中文字幕无线码视频| 欧美日韩高清在线| 久久免费视频播放| 国产十八禁在线观看免费| 99一级毛片| 婷婷成人综合| 亚洲乱码精品久久久久..| 国产综合无码一区二区色蜜蜜| 国产91透明丝袜美腿在线| 91亚洲视频下载|