999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向工業(yè)互聯(lián)網(wǎng)資訊的中文關(guān)鍵詞抽取

2020-03-05 04:22:24陳碩殷鋒袁平
現(xiàn)代計(jì)算機(jī) 2020年3期
關(guān)鍵詞:特征

陳碩,殷鋒,袁平

(1.四川大學(xué)計(jì)算機(jī)學(xué)院,成都 610065;2.西南民族大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,成都610041;3.重慶第二師范學(xué)院數(shù)學(xué)與信息工程學(xué)院,重慶400067)

0 引言

關(guān)鍵詞是一篇文章主題內(nèi)容和思想的體現(xiàn),關(guān)鍵詞的抽取是文本分析處理領(lǐng)域的一項(xiàng)重要的工作,無(wú)論是信息檢索、文本聚類(lèi)、文本分類(lèi)、文檔摘要等任務(wù)中,還是在搜索引擎、新聞資訊推薦、圖書(shū)檢索和用戶(hù)畫(huà)像構(gòu)建等應(yīng)用中,都發(fā)揮著不可替代的作用[1-2]。本文面向工業(yè)互聯(lián)網(wǎng)資訊信息推薦領(lǐng)域,提出了一種基于多特征的關(guān)鍵詞抽取算法。在分詞階段,提出了兩種擴(kuò)充分詞詞典的方法,提高了分詞的準(zhǔn)確率,進(jìn)而提高了關(guān)鍵詞抽取的準(zhǔn)確率;在候選詞選取階段,提出了候選詞度量指標(biāo)關(guān)鍵詞覆蓋率,通過(guò)這個(gè)指標(biāo),可以選出合適的候選詞個(gè)數(shù),在保證了候選詞包含關(guān)鍵詞的前提下,還能保證該算法的效率;在特征選取階段,本文選取了6大類(lèi)21種特征。根據(jù)中文文章結(jié)構(gòu)總分總的特點(diǎn),本文首次提出了尾詞頻這個(gè)特征。此外,在中文關(guān)鍵詞抽取領(lǐng)域,首次利用短語(yǔ)向量和文檔向量衡量詞語(yǔ)與文檔的相關(guān)性,并將其作為一個(gè)度量特征,加強(qiáng)了在關(guān)鍵詞抽取時(shí)對(duì)語(yǔ)義特征的考慮;通過(guò)對(duì)候選關(guān)鍵詞的子串進(jìn)行去除,提高了關(guān)鍵詞抽取算法的覆蓋度。

1 關(guān)鍵詞抽取

1.1 分詞

進(jìn)行關(guān)鍵詞抽取,就首先需要進(jìn)行分詞。分詞的準(zhǔn)確率直接影響著關(guān)鍵詞抽取的準(zhǔn)確率。由于工業(yè)互聯(lián)網(wǎng)是一個(gè)近些年新興的一個(gè)學(xué)科,所以現(xiàn)有的分詞工具中詞典存在大量的未登錄詞。文獻(xiàn)[4]表明,未登錄詞問(wèn)題是導(dǎo)致分詞不準(zhǔn)確的一個(gè)很大的原因。所以,解決現(xiàn)有詞典未登錄詞問(wèn)題,可以有效提高分詞的準(zhǔn)確率,進(jìn)而提高關(guān)鍵詞抽取的準(zhǔn)確率。本文采用增加自定義詞典的方式擴(kuò)充詞庫(kù),進(jìn)而減少未登錄詞。

本文的自定義詞典從兩個(gè)方面進(jìn)行獲取,一方面是從搜狗輸入法網(wǎng)站上1https://pinyin.sogou.com/dict/下載了搜狗輸入法詞庫(kù)中工業(yè)互聯(lián)網(wǎng)相關(guān)領(lǐng)域詞典,并將這些詞典的詞語(yǔ)提取出來(lái)作為一個(gè)自定義詞典;另一方面是從爬蟲(chóng)抓取的21464篇工業(yè)互聯(lián)網(wǎng)相關(guān)資訊中,根據(jù)特定表達(dá)規(guī)則進(jìn)行詞語(yǔ)的抽取出來(lái)作為另一個(gè)自定義詞典。然后通過(guò)開(kāi)源的jieba2https://github.com/fxsjy/jieba工具包作為分詞工具,同時(shí)加大自定義詞典的中詞語(yǔ)的權(quán)重,保證專(zhuān)業(yè)詞匯不被切分開(kāi)來(lái)。

1.2 數(shù)據(jù)的標(biāo)注

本文隨機(jī)抽選出251篇工業(yè)互聯(lián)網(wǎng)資訊文檔進(jìn)行關(guān)鍵詞標(biāo)注,每篇文檔標(biāo)注3至5個(gè)關(guān)鍵詞,為了盡量保證關(guān)鍵詞標(biāo)注的準(zhǔn)確與客觀,讓多人參與了關(guān)鍵詞的標(biāo)注、審查和修改。標(biāo)注完成后,本文對(duì)關(guān)鍵詞總數(shù)做了統(tǒng)計(jì),共計(jì)995個(gè)關(guān)鍵詞,平均每篇文檔3.96個(gè)關(guān)鍵詞。

1.3 候選詞的抽取

基于特征的關(guān)鍵詞抽取算法一般是把關(guān)鍵詞抽取問(wèn)題轉(zhuǎn)化為一個(gè)詞語(yǔ)是否是關(guān)鍵詞的二分類(lèi)問(wèn)題,通過(guò)標(biāo)注的數(shù)據(jù)訓(xùn)練出一個(gè)分類(lèi)器。但如果將所有的詞語(yǔ)都進(jìn)行訓(xùn)練,會(huì)導(dǎo)致正負(fù)樣本相差過(guò)大,進(jìn)而導(dǎo)致無(wú)法訓(xùn)練出一個(gè)合適的分類(lèi)器。因此,需要首先選出候選詞,候選詞的選取對(duì)最終分類(lèi)器的效果有著巨大的影響[5]。本文分別采用基于TF-IDF的關(guān)鍵詞抽取算法和基于TextRank的關(guān)鍵詞抽取算法進(jìn)行了候選詞抽取,并采用關(guān)鍵詞覆蓋率(Coverage rate)對(duì)抽取效果進(jìn)行了度量。關(guān)鍵詞覆蓋率等于候選詞中關(guān)鍵詞的個(gè)數(shù)除以關(guān)鍵詞的總數(shù),如公式(1)所示,其中An表示第n個(gè)文檔候選詞的集合,Bn表示第n個(gè)文檔關(guān)鍵詞的集合。

本文利用已經(jīng)標(biāo)注關(guān)鍵詞的251篇文檔,測(cè)試了上述兩種算法覆蓋率的情況,覆蓋率與候選詞個(gè)數(shù)直接的變化關(guān)系如圖1所示,其中折線(xiàn)1和折線(xiàn)2分別表示基于TF-IDF的關(guān)鍵詞抽取算法、基于TextRank的關(guān)鍵詞抽取算法,折線(xiàn)3和折線(xiàn)4分別表示基于TF-IDF、基于TextRank的關(guān)鍵詞抽取算法抽取的候選詞加上標(biāo)題詞語(yǔ)的個(gè)數(shù)與其覆蓋率變化情況。通過(guò)圖1,我們可以觀察到在本領(lǐng)域的情況下:基于TF-IDF的關(guān)鍵詞抽取算法抽取的關(guān)鍵詞加上標(biāo)題詞語(yǔ)的效果最好,并在候選詞為20的時(shí)候,覆蓋率趨于平穩(wěn)。由此,我們采取基于TF-IDF的關(guān)鍵詞抽取算法抽取20個(gè)詞語(yǔ),再加上標(biāo)題中的詞語(yǔ)一起作為候選詞。

圖1覆蓋率與候選詞個(gè)數(shù)的關(guān)系

1.4 特征的選取

本文主要選取了詞頻特征、長(zhǎng)度特征、位置特征、語(yǔ)言特征、圖特征和向量特征,共計(jì)6大類(lèi)21種特征作為初步選擇的特征。

詞頻類(lèi)特征中包含詞頻、頭詞頻、尾詞頻和TFIDF四種特征,詞頻表示這一個(gè)詞在文檔中出現(xiàn)的頻率。一般而言,一個(gè)詞出現(xiàn)的頻率越高,表示這個(gè)詞是關(guān)鍵詞的概率也就越大;頭詞頻表示一個(gè)詞在文檔的前1/4位置中出現(xiàn)的頻率[6],在中文文章的結(jié)構(gòu)中,文章一般為總分總結(jié)構(gòu),所以一篇文章中的不僅開(kāi)頭比較重要,結(jié)尾同樣也是比較重要的,所以根據(jù)頭詞頻,本文提出了尾詞頻,即一個(gè)詞在當(dāng)前文檔后1/4處出現(xiàn)的頻率;TF-IDF代表一個(gè)詞的頻率與逆文檔頻率的乘積[7],如公式(2)所示,其中逆文檔頻率表示一個(gè)詞在所在的文檔在所有文檔中所占的比率。為了防止生僻詞導(dǎo)致分母為0,本文對(duì)其進(jìn)行了加1平滑,平滑后的逆文檔頻率如公式(3)所示,其中N表示文檔總數(shù)的大小,N(x)表示包含詞語(yǔ)x的文檔數(shù)。

長(zhǎng)度類(lèi)特征也是關(guān)鍵詞抽取的一個(gè)重要指標(biāo)[8],本文選取詞長(zhǎng)、標(biāo)題長(zhǎng)度和文章長(zhǎng)度三個(gè)特征作為關(guān)鍵詞抽取中的長(zhǎng)度類(lèi)特征。

在一篇文檔中,不同的位置出現(xiàn)關(guān)鍵詞的概率是不同的[9]。通常來(lái)說(shuō),該文檔的標(biāo)題、首句和末句出現(xiàn)關(guān)鍵詞的概率會(huì)更高[10],因此,本文選取了是否出現(xiàn)在標(biāo)題、是否出現(xiàn)在頭詞、是否出現(xiàn)在尾詞、是否出現(xiàn)在開(kāi)頭、是否出現(xiàn)在結(jié)尾、是否出現(xiàn)在中間、首次出現(xiàn)位置、首現(xiàn)句子位置這八個(gè)特征作為模型的位置類(lèi)特征。同樣的,詞語(yǔ)的詞性等語(yǔ)言特征也對(duì)關(guān)鍵詞的抽取有著巨大的影響[11]。因此,本文選取了詞語(yǔ)的詞性、命名實(shí)體、該詞是否出現(xiàn)在自定義詞典中(是否為書(shū)名、會(huì)議名等)3個(gè)特征作為語(yǔ)言特征。

一直以來(lái),如何度量關(guān)鍵詞的語(yǔ)義與文檔所表達(dá)的語(yǔ)義之間的關(guān)系是關(guān)鍵詞抽取中的一個(gè)難點(diǎn),文獻(xiàn)[13]首次提出了利用詞語(yǔ)的向量與文檔的向量的相似度進(jìn)行關(guān)鍵詞抽取。本文收集2萬(wàn)余篇工業(yè)互聯(lián)網(wǎng)資訊相關(guān)的文檔,利用Gensim3https://radimrehurek.com/gensim訓(xùn)練出一個(gè)Doc2Vec模型和一個(gè)Word2Vec模型,迭代1000輪,其余參數(shù)采用默認(rèn)參數(shù),然后根據(jù)這兩個(gè)模型分別計(jì)算文檔的向量與詞語(yǔ)的向量,最后將詞語(yǔ)向量與文檔的向量之間余弦相似度和歐氏距離作為兩個(gè)向量方面的特征。

1.5 關(guān)鍵詞的抽取

本文首先將251篇人工標(biāo)注的文檔隨機(jī)篩選出175篇文檔作為訓(xùn)練集,剩余的51篇文檔作為測(cè)試集,如表1所示,通過(guò)此表的關(guān)鍵詞平均數(shù),我們可以觀察出訓(xùn)練集和測(cè)試集的劃分較為合理。然后根據(jù)每個(gè)候選詞生成的6大類(lèi),共計(jì)21種特征,利用改進(jìn)的隨機(jī)森林算法[12]將訓(xùn)練集所有候選詞的特征結(jié)合起來(lái),訓(xùn)練出一個(gè)二分類(lèi)器。

表1語(yǔ)料劃分情況

1.6 覆蓋度的提高

關(guān)鍵詞抽取算法的效果可以通過(guò)可讀性、相關(guān)性、重要性、覆蓋度、一致性等指標(biāo)進(jìn)行體現(xiàn)[2]。首先,本文所有詞語(yǔ)是未進(jìn)行拼接,所以不存在可讀性方面的問(wèn)題;其次,本文采用的21種特征中不僅包含了詞頻類(lèi)、位置類(lèi)、長(zhǎng)度類(lèi)等常見(jiàn)特征,還包含了其語(yǔ)義特征,即通過(guò)詞語(yǔ)向量與文檔向量充分利用了候選詞的語(yǔ)義與文檔語(yǔ)義的相關(guān)信息。然后通過(guò)隨機(jī)森林將這些特征進(jìn)行結(jié)合并訓(xùn)練出一個(gè)分類(lèi)器,保證了其相關(guān)性、重要性和一致性。在覆蓋度方面,本文做了相似關(guān)鍵詞的去除。即在一篇文檔中,可能出現(xiàn)“工業(yè)互聯(lián)網(wǎng)平臺(tái)”和“工業(yè)互聯(lián)網(wǎng)”都是關(guān)鍵詞,因?yàn)椤肮I(yè)互聯(lián)網(wǎng)”是“工業(yè)互聯(lián)網(wǎng)平臺(tái)”的子串,所以將“工業(yè)互聯(lián)網(wǎng)”這個(gè)關(guān)鍵詞舍去,然后根據(jù)分類(lèi)器預(yù)測(cè)的概率再選擇一個(gè)新的關(guān)鍵詞,以提高覆蓋度。

2 實(shí)驗(yàn)與分析

本文采用精確率P、召回率R和F值這3個(gè)指標(biāo)作為關(guān)鍵詞抽取算法的評(píng)價(jià)指標(biāo),精確率P、召回率R和F值的計(jì)算方法分別如公式(4)、公式(5)和公式(6)所示:

為了驗(yàn)證用戶(hù)自定義詞典對(duì)關(guān)鍵詞抽取算法的影響,以及本文提出的面向工業(yè)互聯(lián)網(wǎng)資訊的中文關(guān)鍵詞抽取算法的效果,分別進(jìn)行了實(shí)驗(yàn)與分析。

為了驗(yàn)證分詞對(duì)關(guān)鍵詞抽取算法的影響,本文在76篇測(cè)試集上進(jìn)行了實(shí)驗(yàn)1.1和實(shí)驗(yàn)1.2:

實(shí)驗(yàn)1.1探究未加載用戶(hù)自定義詞典的情況下基于TF-IDF的關(guān)鍵詞抽取算法的效果隨抽選關(guān)鍵詞個(gè)數(shù)的變化情況;

實(shí)驗(yàn)1.2探究加載了用戶(hù)自定義詞典的情況下基于TF-IDF的關(guān)鍵詞抽取算法的效果隨抽選關(guān)鍵詞個(gè)數(shù)的變化情況。

實(shí)驗(yàn)1.1和實(shí)驗(yàn)1.2的結(jié)果如圖2所示,根據(jù)圖2可以觀察到,加載了用戶(hù)自定義詞典后,該算法無(wú)論是精確率、召回率還是F值,都有了明顯的提高,該實(shí)驗(yàn)證明了通過(guò)用戶(hù)自定義詞典提高分詞的準(zhǔn)確率,進(jìn)而提高關(guān)鍵詞抽取的準(zhǔn)確率的方法是可取的。

為了驗(yàn)證本文提出的面向工業(yè)互聯(lián)網(wǎng)資訊的中文關(guān)鍵詞抽取算法的效果,本文利用76篇測(cè)試集文檔對(duì)該算法進(jìn)行了評(píng)估,同時(shí)采用pke4https://github.com/boudinfl/pke關(guān)鍵詞抽取算法[13]、基于TF-IDF的關(guān)鍵詞抽取算法和基于TextRank的關(guān)鍵詞抽取算法作為參照實(shí)驗(yàn),分別在精確率、召回率和F值三個(gè)方面進(jìn)行對(duì)比,實(shí)驗(yàn)結(jié)果分別如圖3(a-c)所示。本文提出的面向工業(yè)互聯(lián)網(wǎng)資訊的中文關(guān)鍵詞抽取算法的效果無(wú)論是精確率、召回率還是F值,都遠(yuǎn)高于其他三種算法。值得一提的是,pke關(guān)鍵詞抽取算法的優(yōu)勢(shì)在于能夠發(fā)現(xiàn)詞組,由于在此實(shí)驗(yàn)中,在分詞階段便將詞組當(dāng)作一個(gè)詞來(lái)處理了,所以pke算法在實(shí)驗(yàn)中的效果略低于基于TF-IDF算法。同時(shí),也證明了中文關(guān)鍵詞抽取中分詞的重要性。

當(dāng)關(guān)鍵詞抽取個(gè)數(shù)與測(cè)試集中平均關(guān)鍵詞個(gè)數(shù)一致時(shí),即當(dāng)關(guān)鍵詞個(gè)數(shù)為4時(shí),本文所提的算法的精確率、召回率和F值均比其他三種關(guān)鍵詞抽取算法的效果要好。

圖2分詞對(duì)關(guān)鍵詞抽取算法的影響

圖3基于特征的關(guān)鍵詞抽取算法評(píng)估

3 結(jié)語(yǔ)

本文主要研究了面向工業(yè)互聯(lián)網(wǎng)領(lǐng)域的中文關(guān)鍵詞抽取,提出了一種基于特征的關(guān)鍵詞抽取算法。該算法通過(guò)建立用戶(hù)自定義詞典和通過(guò)特征組合有效地提高了關(guān)鍵詞抽取的效果,同時(shí)還根據(jù)一個(gè)關(guān)鍵詞是否為另一個(gè)關(guān)鍵詞的子串進(jìn)行過(guò)濾,進(jìn)而提高該算法所抽取出的關(guān)鍵詞的覆蓋度。最終,經(jīng)過(guò)試驗(yàn)證明該算法在精確率、召回率和F值三個(gè)指標(biāo)上性能較于常用的算法都得到有效提高。在未來(lái),可以繼續(xù)探究不同特征以及不同特征間的組合對(duì)基于特征的關(guān)鍵詞抽取算法的影響。

猜你喜歡
特征
抓住特征巧觀察
離散型隨機(jī)變量的分布列與數(shù)字特征
具有兩個(gè)P’維非線(xiàn)性不可約特征標(biāo)的非可解群
月震特征及與地震的對(duì)比
如何表達(dá)“特征”
被k(2≤k≤16)整除的正整數(shù)的特征
不忠誠(chéng)的四個(gè)特征
詈語(yǔ)的文化蘊(yùn)含與現(xiàn)代特征
新聞傳播(2018年11期)2018-08-29 08:15:24
抓住特征巧觀察
基于特征篩選的模型選擇
主站蜘蛛池模板: 日韩精品免费一线在线观看| 亚洲国产精品无码久久一线| 伊人激情综合网| 无码电影在线观看| 国产AV毛片| 欧美成人a∨视频免费观看| 亚洲开心婷婷中文字幕| 成年看免费观看视频拍拍| 国产杨幂丝袜av在线播放| 午夜无码一区二区三区| 青青国产成人免费精品视频| 99久久99这里只有免费的精品| 无码丝袜人妻| 国产精品无码久久久久AV| 国产美女91视频| 亚洲无码不卡网| 国产综合网站| 欧美日本在线一区二区三区| 91精品国产自产91精品资源| 亚洲天堂网2014| 免费又爽又刺激高潮网址 | 日本AⅤ精品一区二区三区日| 日韩毛片基地| 一级毛片不卡片免费观看| 亚洲精品在线影院| 欧美激情视频在线观看一区| 国产真实乱子伦精品视手机观看| 午夜高清国产拍精品| 欧洲熟妇精品视频| 亚洲V日韩V无码一区二区| 国产成人精彩在线视频50| 亚洲精品777| 欧洲精品视频在线观看| 热99精品视频| 中文字幕人妻av一区二区| 精品无码一区二区在线观看| 亚洲欧美日韩精品专区| 亚洲国产中文综合专区在| 99热精品久久| 亚洲成人福利网站| 国产综合欧美| 午夜久久影院| 国产爽歪歪免费视频在线观看 | 亚洲成a人在线观看| 国产91蝌蚪窝| 免费看的一级毛片| 欧美福利在线观看| 日韩欧美国产精品| 国产精品主播| 亚洲国产成熟视频在线多多| 久久96热在精品国产高清| 亚洲色图综合在线| 亚洲中文字幕23页在线| 免费xxxxx在线观看网站| 久久婷婷五月综合色一区二区| 亚洲第一色网站| 日本欧美中文字幕精品亚洲| 亚洲欧美在线综合一区二区三区| 狠狠色噜噜狠狠狠狠色综合久| 亚洲一区二区无码视频| 国产专区综合另类日韩一区| 欧美激情视频在线观看一区| 亚洲第一区欧美国产综合 | 色偷偷男人的天堂亚洲av| 国产福利在线免费| 丁香婷婷激情综合激情| 四虎永久在线精品影院| 久久五月天综合| 亚洲人成网7777777国产| 国产欧美视频综合二区| 欧美精品v日韩精品v国产精品| 久久久久久久久亚洲精品| 日韩午夜福利在线观看| 久久天天躁狠狠躁夜夜躁| 伊人久久久久久久| 2022国产无码在线| 久久久无码人妻精品无码| 99伊人精品| 真人高潮娇喘嗯啊在线观看| 久久国产精品电影| 成人午夜免费视频| 真人高潮娇喘嗯啊在线观看|