999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向“智慧政務(wù)”文本挖掘的研究*

2021-01-29 07:37:36劉紅美
科技與創(chuàng)新 2021年2期
關(guān)鍵詞:語(yǔ)義文本信息

張 影,劉紅美

(三峽大學(xué)理學(xué)院,湖北 宜昌 443000)

在大數(shù)據(jù)和信息化的時(shí)代特征下,網(wǎng)絡(luò)平臺(tái)無(wú)疑為收集海量的文本數(shù)據(jù)提供了便捷,如何快速、有效、精確地篩選出主要信息并對(duì)其分類(lèi)、答復(fù),是一個(gè)需要不斷精化、持續(xù)進(jìn)步的課題。為了不斷改進(jìn)智能文本挖掘模型及算法,對(duì)計(jì)算機(jī)讀取的研究引起了人們的廣泛關(guān)注。

計(jì)算機(jī)讀取技術(shù)的發(fā)展對(duì)信息檢索、自動(dòng)文摘、答復(fù)系統(tǒng)等自然語(yǔ)言處理研究任務(wù)有積極作用,同時(shí)也能夠直接改善搜索引擎、智能APP 等產(chǎn)品的用戶(hù)體驗(yàn)。因此,以讀取篩選、文本挖掘?yàn)槠鯔C(jī)研究機(jī)器自然語(yǔ)言的技術(shù),在有限的信息范圍內(nèi)要做到準(zhǔn)確全面處理,具有重要的研究與應(yīng)用價(jià)值。

網(wǎng)絡(luò)問(wèn)政平臺(tái)作為一種新興模式,以其快捷、不受時(shí)空限制等優(yōu)點(diǎn)而受到政府機(jī)構(gòu)的青睞。借助網(wǎng)政平臺(tái)收集群眾反饋的海量信息數(shù)據(jù),是實(shí)時(shí)了解民意、匯聚民智、凝聚民氣的重要渠道。如果能從群眾留下的信息中敏銳地捕捉信號(hào),不僅能夠提升政府的管理水平,同時(shí)也能更好地為群眾百姓提供服務(wù),進(jìn)行互贏模式間的雙向信息傳遞。本文針對(duì)智慧政務(wù)的文本挖掘問(wèn)題,采用潛在語(yǔ)義分析、聚類(lèi)分析、主成分分析方法,基于留言的一級(jí)標(biāo)簽分類(lèi),實(shí)現(xiàn)了對(duì)熱點(diǎn)問(wèn)題的挖掘和排名。

1 預(yù)處理工作

數(shù)據(jù)來(lái)源為“智慧政務(wù)”互聯(lián)網(wǎng)公開(kāi)渠道,對(duì)其留言的一級(jí)標(biāo)簽分類(lèi)簡(jiǎn)述的處理過(guò)程如下。

基于Python,采用sklearn 提供的函數(shù)劃分?jǐn)?shù)據(jù)集,實(shí)現(xiàn)分層抽樣,以保證60%訓(xùn)練集、20%驗(yàn)證集、20%測(cè)試集3 部分?jǐn)?shù)據(jù)的一級(jí)標(biāo)簽分布均勻性。

數(shù)據(jù)清洗:清除附件“留言詳情”欄附有HTML 標(biāo)簽、URL 地址等文本標(biāo)記的無(wú)效分類(lèi)信息以及標(biāo)點(diǎn)符號(hào),去除噪聲,為后續(xù)分類(lèi)奠定基礎(chǔ)。分詞采用Python 開(kāi)發(fā)的一個(gè)中文分詞模塊——jieba 分詞器,分詞效果如圖1 所示。

建立停用詞字典:維護(hù)一個(gè)停用詞表,在分詞后將停用詞去除。

基于TF-IDF 對(duì)文本特征進(jìn)行提取[1],以向量空間模型(VSM)[2]表示文本留言。

Word2vec 是一個(gè)Estimator,它采用一系列代表文檔的詞語(yǔ)來(lái)訓(xùn)練Word2vec model。該模型將每個(gè)詞語(yǔ)映射到一個(gè)固定大小的詞向量,將文本結(jié)構(gòu)化。

2 模型的建立

2.1 熱點(diǎn)問(wèn)題的挖掘

2.1.1 語(yǔ)義空間降維

通常情況下,當(dāng)?shù)贸鑫谋鞠蛄亢螅苯颖容^兩向量的夾角的余弦值,并進(jìn)行相似度計(jì)算。但是,針對(duì)智慧政務(wù)平臺(tái)上的留言所構(gòu)造的詞匯-文本矩陣是一個(gè)巨大矩陣,計(jì)算起來(lái)比較困難。另外,留言文本信息中存在同義詞和近義詞等詞語(yǔ),即使通過(guò)特征抽取轉(zhuǎn)化得到的文本向量,可能仍然達(dá)不到自然語(yǔ)言屬性本質(zhì)的要求。

因此,這里需要借用潛在語(yǔ)義分析(Latent Semantic Semantic Analysis,LSA)理論[3]將留言信息中文本向量空間中非完全正交的多維特征投影到維數(shù)較少的潛在語(yǔ)義空間上。而LSA 對(duì)特征空間進(jìn)行處理時(shí)用的關(guān)鍵技術(shù)是奇異值分解(Singular Value Decomposition,SVD),在統(tǒng)計(jì)學(xué)上,它是針對(duì)矩陣中的特征向量進(jìn)行分解和壓縮的技術(shù)。

圖1 過(guò)濾后分詞結(jié)果

2.1.1.1 一般的奇異值分解

奇異值分解可以將網(wǎng)頁(yè)文本通過(guò)向量轉(zhuǎn)換后的非完全正交的多維特征投影到較小的一個(gè)潛在語(yǔ)義空間中,同時(shí)保持原空間的語(yǔ)義特征,從而可以實(shí)現(xiàn)對(duì)特征空間的降噪和降維處理。奇異值分解是一類(lèi)矩陣分解,是正規(guī)矩陣酉對(duì)角化的一種推廣。對(duì)于任意的矩陣A,其奇異值分解表達(dá)式為A=U∑VT,其中A∈Rm×n,且Rank(A)≤min(m,n),正交矩陣(即A的左右奇異向量),U∈Rm×m和V∈Rn×n,半正定對(duì)角矩陣…≥σr≥0,UUT=Im,VVT=In。

在奇異值分解A=U∑VT中,有A的k階截距陣即:

由上述可知,在F-范數(shù)中,Ak是和A相似度最高的k秩矩陣,這將用于矩陣降維。

2.1.1.2 詞匯-文本矩陣的奇異值分解

對(duì)于矩陣詞匯-文檔矩陣Am×n的奇異值分解可表示為:

∑矩陣表示某類(lèi)詞與留言文本之間的相關(guān)性。在生成的“語(yǔ)義空間”中,大的奇異值對(duì)應(yīng)的維度更具有詞的共性,而小的奇異值所對(duì)應(yīng)的維度更具有詞的個(gè)性。

在A矩陣中,Ui和∑決定每一行i的信息,和∑決定每一列j的信息。對(duì)角矩陣∑的信息主要由奇異值大小決定,奇異值越大,對(duì)∑的影響也越大,對(duì)整個(gè)矩陣的影響也越大。因此,可以通過(guò)保留較大的奇異值,刪去較小的奇異值,從而對(duì)矩陣進(jìn)行行與列的降維處理。

另一方面,∑矩陣的奇異值σ1≥σ2≥…≥σr中,如果σi(1,2,…,r)的值比較小,則它對(duì)整個(gè)詞匯-文本矩陣A的影響也小,所以可以刪除對(duì)矩陣A影響較小的σ以及對(duì)應(yīng)的U和VT的信息,保留影響較大主要信息,得到Am×n的近似矩陣Ak。

在不影響留言文本分析結(jié)果的同時(shí)對(duì)矩陣進(jìn)行降維處理,簡(jiǎn)化了運(yùn)算的復(fù)雜度。

通常情況下,前10%的奇異值的和占總奇異值和的99%。k值的選取決定著近似矩陣的相似性,k值的大小與主要信息的承載量成正比,k值越大,所包含的主要信息越多,相應(yīng)地對(duì)次要信息的刪除就會(huì)減少,且會(huì)減弱降維的效果,而取值越小,則會(huì)刪除更多信息,以至于剩下的信息沒(méi)有很好的區(qū)分度。

由于在∑矩陣中只取非零的奇異值,只要滿(mǎn)足m×n≥m×k+n×k+k×k(近似矩陣中的三個(gè)矩陣的元素個(gè)數(shù)),即可以去掉次要的信息,保留主要信息,達(dá)到降維的目的,降低計(jì)算機(jī)對(duì)存儲(chǔ)的要求,從而保證聚類(lèi)的準(zhǔn)確性。

2.1.2 向量語(yǔ)義化

對(duì)某一特征項(xiàng)為n的文本向量t進(jìn)行奇異值分解以及t在進(jìn)行k維映射后得到的向量t′為:進(jìn)行語(yǔ)義壓縮后的向量被認(rèn)為投影在同一空間里,然后方可進(jìn)行文本聚類(lèi)。

2.1.3 文本聚類(lèi)

2.1.3.1 留言文本相似度計(jì)算

為表示不同留言間的差異,先計(jì)算基于距離度量的歐幾里得距離,再轉(zhuǎn)化為余弦相似度[4]。

令i=(x1,x2,…,xp)和j=(y1,y2,…,yp)是兩個(gè)被p個(gè)數(shù)值屬性標(biāo)記的對(duì)象,則對(duì)象i和j之間的歐氏距離,以及根據(jù)余弦相似度和歐氏距離的關(guān)系,留言文本間的余弦相似度可表示為:

2.1.3.2 基于K-means 聚類(lèi)[5]的文本聚類(lèi)

該算法要求在計(jì)算之前給定k值。本文通過(guò)初步估計(jì)留言數(shù)據(jù)中的熱點(diǎn)問(wèn)題數(shù),并以此給定k的值,這里令k=7 為初值,根據(jù)后續(xù)的熱度值大小,進(jìn)行適當(dāng)增減k的值,也就是對(duì)熱點(diǎn)問(wèn)題的數(shù)量進(jìn)行調(diào)控。原理流程如圖2 所示。主成分基本步驟如圖3 所示。

圖2 K-means 聚類(lèi)流程圖

圖3 主成分基本步驟

2.2 熱點(diǎn)問(wèn)題的排名

2.2.1 矩陣和特征量的計(jì)算

考慮到影響熱點(diǎn)問(wèn)題間的差異性,將每個(gè)熱點(diǎn)問(wèn)題所包含的留言數(shù)、留言時(shí)間密集度、點(diǎn)贊數(shù)、反對(duì)數(shù)等作為評(píng)價(jià)指標(biāo)。

希望用較少的綜合變量來(lái)代替原來(lái)較多的變量,而這幾個(gè)綜合變量又能盡可能多地反映原來(lái)變量的信息,并且彼此之間互不相關(guān)。

標(biāo)準(zhǔn)化指標(biāo)變量:選取m1個(gè)指標(biāo),

計(jì)算相關(guān)系數(shù)矩陣R的特征值λ1≥λ2≥…≥λm1≥0,及對(duì)應(yīng)的特征向量a1,a2,…,am1,其中aj=[a1j,a2j,…,am1j]T,由特征向量組成m1個(gè)新的指標(biāo)變量:

2.2.2 主成分的選擇

為達(dá)到降維,選取部分更具代表性的主成分,計(jì)算各主成分Fj的信息貢獻(xiàn)率bj及F1,F(xiàn)2,…,F(xiàn)p的累計(jì)貢獻(xiàn)率αp:

當(dāng)αp接近于1(取αp>0.95)時(shí),則選擇前p個(gè)指標(biāo)變量F1,F(xiàn)2,…,F(xiàn)p作為p個(gè)主成分,代替原來(lái)m1個(gè)指標(biāo)變量,從而可對(duì)p個(gè)主成分進(jìn)行綜合分析。

2.2.3 主成分分析的綜合評(píng)價(jià)

篩選出p個(gè)主成分;通過(guò)標(biāo)準(zhǔn)化指標(biāo)前特征向量數(shù)值的相對(duì)大小,分析各主成分主要反映的對(duì)應(yīng)指標(biāo)。

以p個(gè)主成分的信息貢獻(xiàn)率為權(quán)重,構(gòu)建綜合評(píng)價(jià)模型求出綜合分

3 實(shí)證分析求解

在純文字文本下,調(diào)用Python 的庫(kù)函數(shù),根據(jù)語(yǔ)義分析LSA 的奇異值分解SVD 技術(shù)和K-means 算法,實(shí)現(xiàn)留言語(yǔ)義空間降維,將相似問(wèn)題聚類(lèi)并實(shí)現(xiàn)熱點(diǎn)挖掘。

經(jīng)統(tǒng)計(jì),數(shù)據(jù)來(lái)源共有4 326 條留言,經(jīng)Python 處理得每個(gè)熱點(diǎn)的留言信息,首先分層篩選出留言文本在前175 條的熱點(diǎn)占總留言?xún)?nèi)容的98.86%,因此其余留言可以忽略不計(jì),進(jìn)而構(gòu)造上述指標(biāo),利用SPSS 對(duì)其進(jìn)行綜合排名。

對(duì)篩選得到的數(shù)據(jù)導(dǎo)入SPSS 進(jìn)行標(biāo)準(zhǔn)化處理,得到各標(biāo)準(zhǔn)化指標(biāo)的解釋方差,如表1 所示。

由表1 可知,成分1~6 的因子比較重要,其方差累計(jì)貢獻(xiàn)率達(dá)到了92.6%(>90%)符合主成分分析方差提取原則。考慮到因子較多時(shí),剔除主成分的第一行特征值小于1的因子,因此成分1~4 的因子是主導(dǎo)作用的。

表1 解釋方差

對(duì)篩選出的4 個(gè)主成分,經(jīng)計(jì)算得如下各標(biāo)準(zhǔn)化指標(biāo)前的特征向量表,如表2 所示。

表2 特征向量矩陣

將得到的特征向量與標(biāo)準(zhǔn)化后的數(shù)據(jù)相乘,可以得出各個(gè)主成分得分值。以每個(gè)主成分所對(duì)應(yīng)的特征值占總特征值的比例作為權(quán)重計(jì)算主成分綜合得分F,其中λi表示第i主成分因子的特征值。

得到綜合排名分F以及排名前5 的熱點(diǎn)問(wèn)題,如表3所示。

表3 熱點(diǎn)問(wèn)題表

4 結(jié)語(yǔ)

本文的研究是針對(duì)智慧政務(wù)平臺(tái)的留言信息,結(jié)合所建模型以及算法對(duì)留言進(jìn)行了充分挖掘,原理可解釋性極強(qiáng),實(shí)驗(yàn)也表明其結(jié)果具有可靠性和有效性,非常適用于此類(lèi)大量文本數(shù)據(jù)的情況。對(duì)熱點(diǎn)問(wèn)題的排名采用主成分分析法,很好消除了評(píng)價(jià)指標(biāo)之間的相關(guān)影響,減少了指標(biāo)選擇的工作量,且便于實(shí)現(xiàn)。

為了更好地對(duì)類(lèi)似政務(wù)平臺(tái)單位進(jìn)行政務(wù)文本挖掘,解決文本熱點(diǎn)留言的挖掘問(wèn)題,推進(jìn)簡(jiǎn)化平臺(tái)的發(fā)展,對(duì)智慧政務(wù)留言信息文本進(jìn)行了詳細(xì)分析研究,具有一定的理論研究意義和廣泛的實(shí)際應(yīng)用價(jià)值。

對(duì)留言文本采用降維方式匹配篩選的綜合模型,如何精簡(jiǎn)所建模型及算法,同時(shí)對(duì)留言的情感語(yǔ)義進(jìn)行分析,是筆者們下一步的工作。

猜你喜歡
語(yǔ)義文本信息
語(yǔ)言與語(yǔ)義
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
“上”與“下”語(yǔ)義的不對(duì)稱(chēng)性及其認(rèn)知闡釋
文本之中·文本之外·文本之上——童話(huà)故事《坐井觀天》的教學(xué)隱喻
認(rèn)知范疇模糊與語(yǔ)義模糊
展會(huì)信息
如何快速走進(jìn)文本
語(yǔ)義分析與漢俄副名組合
主站蜘蛛池模板: 2020久久国产综合精品swag| 综合天天色| 91久久青青草原精品国产| 国产屁屁影院| 又粗又硬又大又爽免费视频播放| 亚洲一区二区三区国产精品| 日本不卡视频在线| 72种姿势欧美久久久大黄蕉| 久久不卡国产精品无码| 国产剧情无码视频在线观看| 久久这里只有精品国产99| 国产成人a毛片在线| 久青草网站| 国产在线91在线电影| yjizz国产在线视频网| 91激情视频| 午夜啪啪网| 久无码久无码av无码| 国产a v无码专区亚洲av| 国产欧美视频在线观看| 亚洲精品综合一二三区在线| 久久久精品无码一二三区| 精品五夜婷香蕉国产线看观看| 日本人又色又爽的视频| 日韩无码精品人妻| 五月天福利视频| 色天堂无毒不卡| 欧美综合一区二区三区| 国产精品99r8在线观看| 美女高潮全身流白浆福利区| 欧美国产日韩在线播放| 精品国产免费观看| 国产欧美又粗又猛又爽老| 欧美人与性动交a欧美精品| 人妻无码一区二区视频| 成人毛片免费在线观看| 国产综合另类小说色区色噜噜| 91亚洲免费视频| 99精品久久精品| 成人免费一区二区三区| 国产极品粉嫩小泬免费看| 人人澡人人爽欧美一区| 久久9966精品国产免费| 国产真实乱子伦视频播放| 在线国产综合一区二区三区| 亚洲三级视频在线观看| 热99精品视频| 蜜桃臀无码内射一区二区三区| 亚洲系列无码专区偷窥无码| 露脸真实国语乱在线观看| 亚洲国产精品无码久久一线| 亚洲AV一二三区无码AV蜜桃| 亚洲精品高清视频| 国产人成乱码视频免费观看| 美女扒开下面流白浆在线试听| 欧美国产视频| 亚洲国内精品自在自线官| 亚洲午夜综合网| 精品国产中文一级毛片在线看| 毛片在线播放a| 人妻精品久久久无码区色视| 九九视频免费在线观看| 国产一区二区三区日韩精品| 最新亚洲人成网站在线观看| 亚洲无码高清一区二区| 人妻丝袜无码视频| 欧洲欧美人成免费全部视频| 色视频久久| 国产精品19p| 国产福利小视频高清在线观看| 亚洲人成网7777777国产| 在线播放精品一区二区啪视频| 日韩美一区二区| 在线毛片网站| 在线中文字幕日韩| 国产精品55夜色66夜色| 色久综合在线| 国产精品55夜色66夜色| 99精品伊人久久久大香线蕉| 欧美成人精品高清在线下载| 国产永久免费视频m3u8| 久热这里只有精品6|