劉 銳河南省鄭州市消防支隊信息通信科,河南鄭州 450001
基于大數據的消防產品評價系統
劉 銳
河南省鄭州市消防支隊信息通信科,河南鄭州 450001
目前,大數據的應用已經滲透到各個領域,但在消防部隊仍處于初級階段,如何有效應用大數據技術為消防部隊服務,利用現有的海量數據和自然語言處理技術,建立有效的關系模型,分析現有數據之間存在的關系,預測未來事物的發展趨勢,為消防滅火救援、消防防火執法、消防部隊管理、消防裝備采購等方面提供輔助決策。在這篇文章中研究和討論是利用計算機自然語言處理技術對相關消防產品的海量評論數據進行挖掘,判斷出這些評價信息的褒貶傾向和強度。經過測試,正確率可達到89%,如果拋除一些無傾向性的信息,正確率可達到94.5%。
消防;大數據;自然語言處理;輔助決策;褒貶傾向和強度
隨著網絡數據的不斷增加,在網絡上關于消防產品的信息也不斷增多。大數據的處理在消防上的應用也越來越廣泛。一些消防類產品會有成百上千的評論文章,在這些評論中會有用戶對相關消防產品的評價信息。當用戶在了解某個消防產品或者廠家需要了解需求的時候,這些信息就顯得尤為重要。但面對這些海量的信息,如果使用人工閱讀和判斷就顯得較為困難,會耗費大量的人力和物力,也很難做出準確的決定。面對這些問題,利用計算機處理海量數據的優勢,對評價信息做出判斷是最方便快捷的應用。在這篇文章中研究和討論是利用計算機自然語言處理技術對相關消防產品的海量評論數據進行挖掘,判斷出這些評價信息的褒貶傾向和強度。經過測試,正確率可達到89%,如果拋除一些無傾向性的信息,正確率可達到94.5%。
在對相關產品進行評價之前,需要建立相關的基礎資源,如影響元素數據表、組合元素、產品數據表、詞義傾向性數據表、相關特征數據、清除元素、特殊元素等等。
1.1影響元素數據表
一段評論或文章中的某些詞本身并不具有褒貶傾向性的意義,但是它對句子的褒貶程度會產生一定的影響力,例如程度副詞或否定副詞等詞語,起到了增強、減弱和否定等作用,在此我們會對這些元素用不同的符號進行標注表示不同的影響程度。
一些影響元素需要和褒貶詞有一定的間隔限制才會影響到句子的褒貶程度。例如,“AT消防車外部的電子液位顯示器絕對是為了讓消防員更便捷的掌握消防車液位量而設計的。”其中“便捷”是對AT消防車的評價,但影響元素“絕對”并不能增強評論人員對AT消防車的感情色彩。我們規定影響元素必須與褒貶詞緊鄰或者之間由“那么、這么、是、得”等詞間隔時才會起作用。
還存在一些情況,如“一七消防車的器材箱門沒有一絲的瑕疵”,“瑕疵”是貶義的,加上了“沒有”就起到了否定的作用。
1.2組合元素
一些詞語雖然本身并沒有什么意義,但如果與另一些詞搭配使用時就會帶有傾向性的意義,例如“性價比高”“噪聲低”,其中“高”“低”本身無褒貶性,但與前面的詞語搭配使用就具有了褒貶性。
1.3產品數據表
本文研究的主要是對一些消防產品進行評價,被評價的消防產品就是產品數據。例如一七消防車、大力水泵、海洋王頭燈等。系統分析一個品牌消防產品的不同形式的全部信息,即將一個產品的所有相關信息都映射到它本身。
1.4詞義傾向性數據表
一個信息的傾向性主要是由褒貶詞決定的,對這些詞匯的提取工作是最基礎也是最重要的。可以根據詞匯的褒貶程度再進行細分,可將其劃分為加強褒、褒、加強貶和貶,用“+、-、*、~”來表示。
在判斷一個詞的褒貶傾向性的時候要考慮到領域、詞性等因素,一個詞放在某個句子時是褒義的,但放在另一個句子是可能就會是貶義的,因為我們研究的是基于消防產品的評價,所以我們只考慮在消防領域中的表達意義。當然也需要考慮詞性的問題,當一個詞為形容詞時它可能表示的是貶義,但為動詞時就表示褒義,所以這就需要利用自然語言處理的分詞技術對語料進行提前的標注。
1.5相關特征數據
相關特征數據即對每一個消防產品都有一個特征數據表,特征數據表的每一個信息都是該產品的一部分。例如一個4G圖像傳輸設備的特征數據表中有電池、攝像頭、連接線等等。
1.6清除元素
一些詞本身是有意義的,但如果與另一些詞搭配使用就會失去意義,如“用這樣的方法改裝消防車是否成功有待在實戰中進一步驗證”,“成功”是褒義的,但與“是否”搭配后就失去了意義。所以我們會把這樣的句子做清除處理。
1.7特殊元素
一些詞語與褒義詞連用就會形成貶義,如“過”字的出現,對于這些組合我們也要考慮到并做出處理。
2.1功能
收集大量的消防產品評價信息,對其進行分詞,并對相關產品及特征進行評價,給出詳細的評分。
2.2流程
輸入信息庫數據,利用自然語言處理分詞技術進行分詞后選擇需要憑評價的產品進行測評。系統會利用前期建立的資源進行遍歷,最終計算出每篇文章的得分和得分細節。
收集了1 000余篇文章進行了評價,這些文章前期已經經過了評價,但沒有對相關產品和產品特征進行評價,得出實驗結果為:用所有資源評價整篇文章褒貶的正確率為89%,僅用褒貶詞評價整篇文章的正確率為88%,由此可以看出褒貶詞對文章的褒貶性的影響是非常大的。
在用上影響元素和組合元素后正確率略微提升,但實驗中發現影響元素和組合元素在判讀傾向性級別和強度時是很有用的。
在實驗中我們發現,系統對于一些中性的文章評價效果不好。
在這篇文章中我們研究和討論了如何利用計算機自然語言處理技術對相關消防產品的海量評論數據進行挖掘,判斷出這些評價信息的褒貶傾向和強度。系統的正確率為89%,如果拋除一些無傾向性的信息,正確率可達到94.5%。
雖然取得了良好的效果,但系統還有許多需要改進的地方:一是提升分詞的正確率;二是對一些特殊語句的處理有待進一步提高;三是在處理詞匯間的連詞放面有待進一步改善。
目前我們已經進入了大數據時代,大數據給我們帶來的好處已經隨處可見,我們可以利對大數據分析和挖掘來提升我們的工作效率、增強對事物判斷的準確性,消防工作更離不開大數據應用的支持,我們將不斷探索和研究大數據在消防行業中的應用,讓其更好地為消防事業服務。
[1]Turney P, Littman M. Measuring praise and criticism: Inference of semantic orientation from association[J]. ACM Transactions on Information Systems (TOIS), 2003, 21(4): 315-346.
[2]RWM Yuen, TYW Chan, TBY Lai, OY Kwong, BKY Tsou. Morpheme-based Derivation of bipolar semantic orientation of Chinese words. Proceedings of the 20th International Conference on Computational Linguistics (COLING-2004), 2004, pp. 1008.
[3]Wilson T, Wiebe J, Hoffmann P. Recognizing contextual polarity in phrase-level sentiment analysis[C]. In Proceedings of joint conference on Human Language Technology Conference on Empirical Methods in Natural Language Processing (HLT/ EMNLP’05), 2005: 347-354.
[4]R. Xu, K.F. Wong and Y. Xia. Opinmine-Opinion Analysis System by CUHK for NTCIR-6 Pilot Task. Proc. of NTCIR-6. 2007.
[5]B Liu, M Hu, J Cheng. Opinion Observer: Analyzing and Comparing Opinions on the Web. In: Proceedings of WWW’05, the 14th International Conference on WorldWide Web,Chiba, Japan, 2005:342-351.
F4
A
1674-6708(2016)170-0070-02
劉銳,助理工程師,河南省鄭州市消防支隊信息通信科,研究方向為計算機。