999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

關鍵詞抽取在協同管理中的應用

2019-06-10 09:35:31鄧時滔干陽琳趙乾
科技創新導報 2019年4期
關鍵詞:文本方法

鄧時滔 干陽琳 趙乾

摘 ? 要:為了自動提取協同管理平臺中的修改意見的主題,本文從選取候選詞集和基于統計的抽取方法入手進行關鍵詞抽取,首先利用維基百科作為語料庫,利用最大匹配算法生成候選詞集,然后綜合考慮了詞頻、逆文本頻率、詞長等三項指標,利用改進的TF-IDF關鍵詞抽取方法,抽取關鍵詞來表示修改意見的主題。將關鍵詞與樸素貝葉斯分類算法相結合,對修改意見語料集進行實驗,結果表明,抽取來的關鍵詞能夠更準確地表示修改意見的主題。

關鍵詞:短文本 ?候選詞集 ?關鍵詞抽取 ?TF-IDF

中圖分類號:F560.81 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 文獻標識碼:A ? ? ? ? ? ? ? ? ? ? ? ?文章編號:1674-098X(2019)02(a)-0200-02

目前,在企業協同管理平臺存有大量修改意見,需要人工對這些意見進行分析,了解企業用戶經常犯什么錯誤,從而采取針對性培訓,提高企業執行效率。但是在執行過程發現工作量大、時間效率低、存在人為主觀性等缺點。為了克服這些缺點,我們需要讓計算機能夠“讀懂”修改意見,根據對意見的收集可以得知用戶經常犯的錯誤,并挖掘出一些潛在的企業管理短板,采取針對性培訓。

根據評論進行意見收集實質是對短文本進行關鍵詞抽取。短文本指的是篇幅小、表現形式多種多樣、內容零碎的一類文本,大多都是能夠表達完整意見的語句。關鍵詞指的是代表短文本主題內容的詞或短語,便于讀者快速理解短文本內容并對文本進行歸類總結。中文關鍵詞抽取一般分為通過中文分詞產生候選詞集和對候選詞集進行抽取兩個部分。中文與拉丁系語言區別在于字之間沒有空格或分隔符來識別詞語的邊界,中文字可以自由組合產生多種含義,單個字的重復利用率高,從上述可以發現主要難點在于如何得到一個好的候選詞集和如何將其中的關鍵詞抽選出來。

1 ?短文本候選詞集

由于中文具有一定語義的最小單位是詞,詞與詞之間沒有明顯切分標志,中文分詞效果的好壞直接影響到關鍵詞抽取的最終結果。如何提高分詞效果和將大量未在分詞詞典中出現的未定義詞(縮略語、網絡語言等新詞)識別出來,是中文分詞中的難點。特別是相對長文本,短文本中詞的數量要少得多,候選詞集的選取更是難上加難。

為了實現高效的分詞,基礎前提是構建一個高效的詞表,通常短文本分詞可以借助現有大語料庫或詞典等外來資源擴充短文本語義特征[1],本文利用中國科學院計算技術研究所發布的免費版分詞詞典作為分詞詞典[2],利用分詞過程中產生的多頻率詞和單位常用的專業術語作為分詞詞典的補充。

中文分詞是將一個漢字序列切分成一個個單詞的過程。傳統的中文分詞算法分為三類:基于字符串匹配的分詞方法、基于理解的分詞方法和基于統計的分詞方法。本文采用了第一種方法,即按照一定的策略將漢字字符串與一個詞典中的詞進行匹配。常見和實用的分詞匹配算法有正向最大匹配法、百度的雙向最大匹配算法BMMM和GOOGLE逆向最大匹配算法RMMM[3]。本文應用正向最大匹配法對短文本進行詞條匹配,具體思想是已知分詞詞典中的最長的詞條字數為L個,取評論的前L個字作為匹配字段,在分詞詞典中查找,若詞典中有這個詞,則匹配成功,就切分出來,取下一個L個字段;如果詞典中找不到該詞,則匹配失敗,將匹配失敗的詞條進行記錄、存儲,當再次出現時進行頻率更新,當詞頻數等于某一個設定的值時,作為未定義詞,更新分詞詞典。然后去掉匹配字段的最后一個字,重新進行上述的操作, 直到切分出所有詞為止。

然后過濾掉不能反映主題的停用詞,諸如“的”之類助詞和“因此”等只能反映句子語法結構的詞語,本文的停用詞確定為所有虛詞以及標點符號。

2 ?關鍵詞抽取

現有的中文關鍵詞抽取方法,主要有基于語義分析、基于規則和基于統計的方法。基于語義分析通過研究自然語言的語法關系來抽取關鍵詞,可以分為語義分析、詞法分析、句法分析和篇章分析,但是需要對文本逐步進行分析,耗費大量人力物力?;谝巹t的方法主要是通過建立關鍵詞的位置、詞性等特征規則等方法來進行抽取,需要人工統計規則,規則自適應性弱,領域性較強。基于統計的分析方法分為有監督和無監督的關鍵詞抽取方法,有監督的關鍵詞抽取方法指的是基于決策樹、樸素貝葉斯、SVM等機器學習方法,需要大規模人工標注的訓練語料作為基礎支持,抽取效果依賴具體的訓練語料的質量。雖然該類方法精確度高,但是對語料需要耗費大量的人力資源進行標注,而在沒有大量人工標注的標準語料庫作為支持的情況下,無監督的方法更加適用關鍵詞抽取的實際應用。本文通過無監督的統計TF-IDF方法確定候選詞的權重,從中篩選出權重較大者作為最終的關鍵詞。

特征詞的挑選通常應該具備以下原則:(1)能夠確實標識文本內容,即與文本主題內容應密切相關;(2)具備將目標文本與其他文本區分開的能力;(3)個數適中,不宜過多;(4)特征詞分離操作易實現。

本文用改進的TFIDF來衡量每個類中訓練文檔的詞條的權重,并按照權重大小排序,從每個類中選出K(K=40)個權重最大的詞,根據這些詞語進行了相關性分析,對管理中出現的問題進行了整理。

本文選取出來的特征詞與樸素貝葉斯NB分類算法相結合應用于修改意見,對修改意見進行文本分類,觀測分類效果,以確認關鍵詞的優劣。

采用兩個評判指標-查全率、查準率,查全率是分類器正確判別為屬于該類的文本數與分類器預測為該類的文本數的比值;查準率是分類器正確判別為屬于該類的文本數與實際屬于該類的文本數的比值;格式錯誤的查全率為81.3%,查準率為87.3%,缺項漏項的查全率為76.1%,查準率為88.1%,說明關鍵詞的抽取具有一定的效果。

3 ?結語

為了自動提取協同管理平臺中的修改意見的關鍵詞,本文從候選詞集選取和關鍵詞抽取方法入手,利用維基百科作為詞表生成候選詞集,從綜合考慮了詞頻、逆文本頻率、詞長等三項指標, 提出了改進的TF-IDF方法,選取一部分關鍵詞,取得一定的成果。但本文未能考慮詞的位置、評論來源的重要性等外部信息對評論的影響,將是筆者下一步研究的內容。

參考文獻

[1] 范云杰,劉懷亮.基于維基百科的中文短文本分類研究[D].西安:西安電子科技大學,2013.

[2] 錢愛兵,江嵐.基于改進 TF-IDF的中文網頁關鍵詞抽取[J].情報理論與實踐,2008(6):945-950.

[3] 周滿英.百度和谷歌的中文分詞技術淺析[J].中國索引,2011(2):44-46.

[4] 張玉芳,彭時名,呂佳.基于文本分類TFIDF方法的改進與應用[J].計算機工程,2006(10):76-78.

[5] 丁藎.微博熱點發現技術的研究與實現[D].武漢:華中科技大學,2012.

猜你喜歡
文本方法
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
在808DA上文本顯示的改善
學習方法
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
論《柳毅傳》對前代文本的繼承與轉化
人間(2015年20期)2016-01-04 12:47:10
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
主站蜘蛛池模板: 国产自视频| 伊人色在线视频| 久无码久无码av无码| jizz国产视频| 丁香六月激情综合| 国产精品久久久久婷婷五月| 亚洲an第二区国产精品| 亚洲欧洲免费视频| 中文字幕在线免费看| 欧美视频在线不卡| 丁香婷婷久久| 玖玖精品视频在线观看| 真实国产精品vr专区| 中文毛片无遮挡播放免费| 青青热久麻豆精品视频在线观看| 日韩在线影院| 亚洲色图欧美激情| 精品少妇人妻av无码久久| 一区二区三区四区日韩| 亚洲国产成人在线| 无码免费试看| 久久国产黑丝袜视频| 在线a网站| 国产一区二区三区精品久久呦| 伊伊人成亚洲综合人网7777| 中文无码伦av中文字幕| 99re这里只有国产中文精品国产精品 | 为你提供最新久久精品久久综合| 麻豆国产原创视频在线播放 | 成人精品视频一区二区在线| 中文字幕在线播放不卡| 一本二本三本不卡无码| 114级毛片免费观看| 人人91人人澡人人妻人人爽| 99热在线只有精品| 欧美色亚洲| 国产精品无码一区二区桃花视频| 国产精品三区四区| 最新国产高清在线| 怡红院美国分院一区二区| 国产精品久久久久久久久久久久| 国产成人高清精品免费软件| 久久性视频| 免费无遮挡AV| 国产乱子伦无码精品小说| 九九热精品免费视频| 97亚洲色综久久精品| 午夜福利在线观看成人| 人妻无码一区二区视频| 亚洲AV成人一区二区三区AV| a级毛片网| 日本成人福利视频| 国产理论一区| 亚洲国产天堂在线观看| 国产丝袜丝视频在线观看| 亚洲国产天堂在线观看| 日韩精品一区二区三区免费| 国产一线在线| 精品国产黑色丝袜高跟鞋| 婷婷丁香色| 国产在线自揄拍揄视频网站| 伊人久久精品亚洲午夜| 午夜福利免费视频| 欧美在线网| 99九九成人免费视频精品| 国产精品欧美亚洲韩国日本不卡| 亚洲三级网站| 青青草原偷拍视频| 国产迷奸在线看| 成人韩免费网站| 91年精品国产福利线观看久久 | 国产精品女在线观看| 国产v精品成人免费视频71pao| 伊人中文网| 老司机午夜精品网站在线观看| 国产精品爽爽va在线无码观看| 久久亚洲日本不卡一区二区| 国产95在线 | 99视频有精品视频免费观看| 在线看免费无码av天堂的| 亚洲欧美成人综合| 欧美在线视频不卡第一页|