999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

輿情分析中自然語言處理的研究

2020-12-15 06:53:14杜芳
商情 2020年47期

杜芳

【摘要】輿情來源于網頁內容,對網頁內容的理解程度,即對自然語言處理的能力,在一定程度上決定了對網絡軍事輿情分析的準確性及有效性。自然語言處理屬于文本挖掘領域,隨著人工智能的發展,自然語言處理成為人工智能與語言學領域的交叉學科,對該學科的研究有著重要的現實意義,包括文本分類、信息檢索、智能摘要、機器翻譯等行業,因此,大量的專家和學者均對該課題進行了深入的探索。

【關鍵詞】自然語言處理;中文分詞;詞向量

自然語言處理通常包括了詞向量,文本向量,文本壓縮,模型預測四個方面。對自然語言進行處理,第一步是對文本進行詞向量,詞向量算法中,不僅要考慮詞本身的準確識別,同時還應考慮語義距離,使得對單詞的識別能夠結合上下文語義。第二步是文本向量,大多數自然語言處理問題面對的不是單個詞語,而是通篇的文章,根據詞向量的結果,將整個文章編碼為矩陣模型。第三步文本壓縮,也稱為注意力機制,將文本向量矩陣壓縮為向量表示,即對高緯度信息進行降維。第四步為模型預測,將壓縮好的文本向量輸入預測模型中,輸出相應的預測標簽。

一、中文分詞

在自然語言處理,尤其是對輿情信息進行分析前,需要對大量的文本信息進行處理,文本信息主要是抽象的非結構化信息,對于人類來說非常容易理解,但是對于機器而言,很難結合句子上下文,對整個文本的意見進行識別,挖掘文本中的話題、事件及情感傾向。

(1)中文分詞

中文分詞的主要難點包括歧義消除和未錄入詞語,分詞歧義的產生主要是由于分詞粒度難以標準化產生的,具體的包括詞語組合產生的歧義,單詞共用產生的歧義。如對于“軍事網絡輿情”為例,粗粒度的劃分可以直接識別出這個詞語是“軍事網絡輿情”,細粒度劃分可以識別為“軍事”,“網絡”,“輿情”三個詞。中文分詞在搜索引擎中屬于很重要的一個科學分支,通常的做法是,為保證搜索的召回率,在構建索引時使用細粒度分詞,為保證精度,在查詢的時候使用粗粒度分詞。

分詞算法主要包括基于詞典的分詞和基于機器學習的分詞,基于詞典的使用了傳統的基于字符串匹配的方法,以預先寫好的正則表達式作為策略,將待分詞的文本信息與一個類似詞典的知識庫進行匹配,若詞典中包含了該詞條,則識別為匹配,由于漢字固有特性,通常出現一個單詞屬于詞典中多個單詞的子集,出現一對多的關系,造成歧義,因此需要制定相關的匹配粒度,常使用的包括正向最大匹配法,在一些文章中也稱之為最長詞有限匹配法,雙向匹配法等。隨著機器學習和人工智能的興起,單純的使用正則匹配策略無法達到分詞應有的準確率和召回率?,F階段,通常使用機器學習與詞典算法相結合的方式,在保證精確度的前提下,提升領域適應性。

二、詞向量

語言作為人類進化過程中總結、傳承知識的載體,具有極高的抽象性,僅根據字面意義,機器幾乎無法判定兩個詞語之間的關系,因此,如何對文本數據進行合理的劃分,即特征工程,使得文本數據能夠被神經網絡等機器學習模型使用,變得尤為重要,常見的詞向量模型包括獨熱表示和分布式表示。

單詞的獨熱表示,是根據其英文含義one-hot representation翻譯而來的,獨熱表示在處理結構化數據的過程中表現了優異的性能,將數據進行符號化,在用戶推薦等領域占到了主導的地位[29]。設機器學習模型所有的輸入集合為N,定義一個列向量,V=[P1,P2,P3,……,PN],其維度為N,且每個維度上的取值僅有0和1兩種選項,每個位置均描述了輸入的一種可能條件是否存在,如果存在,則置1,如果不存在,則為0,因此,為了描述單個節點的輸入內容,任何時刻,一個列向量中只可能有一位為1。以“機器學習”,“軍事”,“網絡”,“輿情”,“分析”這五個詞為例,其輸入集合N=5,則器編碼為:“分析”:[0,0,0,0,1]

當輸入情況較多時,為了避免向量維度過高產生的不必要運算,使用Hash表為每個單詞分配編號。這種表示方法在進行一般的二分類或多分類的過程中,極大地解決了計算機語言與實際情況之間的映射問題,如MINIST數據集中,對于手寫數字的識別只可能為0到9中的一個,共計10中可能,使用獨熱編碼完全可以滿足要求,而面對文本識別的問題時,文本中的單詞量非常大,以在“中華軍事網”2018年3月1日發布的文章“中國空軍發布殲-16宣傳片,飛行畫面披露”為例,其中共有498個字,使用中科院計算所的NLPIR的分詞器得到了共計169個單詞,為了能夠描述這篇短文,需要構建169維的列向量對每個單詞進行表示,隨著文章的篇幅不斷增加,這個數字會不斷擴充,最終由于維度過大導致計算量過載。在自然語言處理方面,獨熱編碼的缺點主要包括:一是使用獨熱編碼表示自然語言維度過大,難以計算;二是任意詞語之間是孤立的,無法結合上下文對語義進行分析,即無法解決詞匯鴻溝問題。

通過分析獨熱編碼的缺點,明確了在對自然語言進行處理時,單詞向量化的目標包括緯度不能過大,否則會出現計算過載的問題,同時,需要不僅要刻畫目標詞本身的含義,還需要刻畫其上下文的關系。根據Harris與1954年提出的分布假設,表明單個單詞的語義需要由其上下文決定。其核心思想為:通過對語言進行訓練,得出每個詞的低緯向量表示,通常維度為50到100之間,這里所談及的低緯度是相對于獨熱編碼動輒成百上千維度而言的,可以得到一個向量空間,該語言所有的詞語都可以在向量空間中進行定位,通過訓練,可以得到空間點的距離,在對語義進行相似度判定是,可以引入空間距離,很好的結合了上下文。將單詞映射到三維空間中,基于對已經人工標記文章的訓練,可以通過模型將所有單詞均映射在同一個三維空間中,亦可以得到其距離。根據建模方式的不同,將分布式表示分為基于矩陣的分布式表示、基于聚類的分布式表示和基于神經網絡的分布式表示。

綜上,詞向量在自然語言處理中扮演著重要的角色,使用機器學習、深度學習等模型能夠有效地對單詞進行分詞和向量化,為下一步的文本分析和話題識別提供適用于模型的優質數據。

參考文獻:

[1]朱丹浩,楊蕾,王東波.基于深度學習的中文機構名識別研究一種漢字級別的循環神經網絡方法[J].數據分析與知識發現,2017,32(12):36-43.

[2]牛耘,潘明慧,魏歐,等.基于詞典的中文微博情緒識別[J].計算機科學,2014,41(9):253-258.

主站蜘蛛池模板: 色屁屁一区二区三区视频国产| 思思热精品在线8| 欧美日韩精品在线播放| 国产成人亚洲欧美激情| 99久久人妻精品免费二区| 欧美精品xx| 性视频一区| 国产福利在线免费观看| 欧美福利在线| 国产AV无码专区亚洲A∨毛片| 亚洲欧美日韩另类在线一| 久久久久中文字幕精品视频| 激情综合婷婷丁香五月尤物| 亚洲欧美综合精品久久成人网| 激情综合图区| 亚洲人成人伊人成综合网无码| 国产精品30p| 亚洲女同欧美在线| 亚洲中文字幕无码爆乳| 国产在线日本| 老司机精品一区在线视频| 在线欧美一区| 天天摸天天操免费播放小视频| 中文字幕亚洲第一| 国产精品对白刺激| 色综合日本| 亚洲毛片一级带毛片基地| 不卡的在线视频免费观看| 精品国产毛片| 伊人色天堂| 日本尹人综合香蕉在线观看| 成人一级黄色毛片| 99久久精品国产综合婷婷| 亚洲国产精品不卡在线 | 久久综合九色综合97网| 91丝袜乱伦| 特级精品毛片免费观看| 中文字幕乱妇无码AV在线| 久久午夜夜伦鲁鲁片不卡| 免费一级α片在线观看| 午夜视频www| 真人高潮娇喘嗯啊在线观看| 久久福利网| 久视频免费精品6| 狠狠色成人综合首页| 色婷婷丁香| 在线看免费无码av天堂的| 中文字幕无码电影| 五月天综合网亚洲综合天堂网| 人妻免费无码不卡视频| 99国产精品免费观看视频| 成人福利在线免费观看| 久久国产精品影院| 免费毛片视频| 久久伊人操| 国产一在线观看| 亚洲高清无码久久久| 欧美色图久久| 爱色欧美亚洲综合图区| 女人18毛片久久| 高清无码一本到东京热| 91久久大香线蕉| 午夜电影在线观看国产1区| 精品亚洲麻豆1区2区3区| 国产真实乱子伦视频播放| 国产激情第一页| 91精品啪在线观看国产91九色| 凹凸国产分类在线观看| 国产Av无码精品色午夜| 波多野结衣一二三| v天堂中文在线| 免费人成黄页在线观看国产| 中文字幕第4页| 国产亚洲欧美另类一区二区| 日韩高清一区 | 色悠久久综合| 亚洲一欧洲中文字幕在线| 国产区免费| 国产精品 欧美激情 在线播放| 欧美日韩另类国产| 欧美一区二区三区不卡免费| jizz在线观看|