999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于改進TFIDF算法的文本特征選擇和聚類分析

2023-11-09 10:37:42趙軍愉柴小亮李士林徐松曉王強
微型電腦應用 2023年10期
關鍵詞:文本模型

趙軍愉, 柴小亮, 李士林, 徐松曉, 王強

(1.國網(wǎng)河北省電力有限公司保定供電分公司,河北,石家莊 050021;2.國網(wǎng)河北省電力有限公司,河北,石家莊 050021)

0 引言

隨著當前互聯(lián)網(wǎng)通信技術的快速發(fā)展,促進了各類通信工具與軟件的開發(fā)與推廣,產(chǎn)生了微信、微博、知乎、頭條等各類社交與資訊平臺,并在上述系統(tǒng)平臺中產(chǎn)生了大量文本數(shù)據(jù)[1-3]。T.Y.Lin設計了一種全覆蓋模型并進行了粒計算測試,屬于一類特定的部分覆蓋模型,苗奪謙等[4]利用上述模型對多粒度問題進行智能分析,極大降低了復雜問題的求解難度,實現(xiàn)信息處理效率的大幅度提升,同時也為推廣相關技術理論起到了一定的參考作用。國內(nèi)學者李順勇等[5]通過多粒度粗糙決策的方式建立屬性約簡算法,能夠滿足對多粒度條件進行屬性約簡的處理要求。楊田等[6]在WANG等[7]提出的屬性約簡算法基礎上進行分析得到存在高復雜度的二元關系屬性約簡算法,經(jīng)過特例分析大幅度減小了時間復雜度。李兵洋等[8]主要從降低約簡冗余屬性的層面分析,選擇合適的屬性權值以或合適的閾值來達到上述效果,最終構建了包含融合屬性權重的優(yōu)化約簡方法。CHEN等[9]主要對覆蓋決策過程的一致性進行了分析,并根據(jù)覆蓋決策確定了知識約簡。JING等[10]利用多粒度視圖方法對增量屬性進行了約簡處理,結果發(fā)現(xiàn)能夠滿足大數(shù)據(jù)的快速約簡。謝珺等[11]設計了全覆蓋粒數(shù)學模型,可以同時實現(xiàn)知識約簡并滿足屬性重要度分析要求,采用全覆蓋粒知識約簡的方式對文本特征實施降維,最后通過全覆蓋粒屬性特點實現(xiàn)文本的聚類分析。

根據(jù)以上關于全覆蓋粒的文獻,本文采用全覆蓋粒計算方法對特征選擇算法的數(shù)據(jù)高維性與稀疏性進行分析,顯著改善了聚類結果;根據(jù)不同特征選擇方法對比結果判斷算法有效性。

1 改進TFIDF算法

1.1 傳統(tǒng)TFIDF算法

TFIDF算法屬于向量空間模型中用于特征詞分析的一個重要算法[12-13]。IDF屬于逆文檔頻率,隨著文檔數(shù)量不斷增加,該參數(shù)也發(fā)生了持續(xù)降低的趨勢,采用該特征詞無法實現(xiàn)文檔類別進行準確區(qū)分的目標。TF為詞頻,隨著特征詞頻率的提高,對應的權值也越大,可以判斷此時該特征詞達到了更強的文檔區(qū)分性能。以下為TFIDF計算式:

(1)

式中,t是第m篇文檔出現(xiàn)詞t的頻率,N為所有文檔的數(shù)量,n是含有詞t的文檔數(shù)。

利用TFIDF算法對均勻狀態(tài)的詞進行高效過濾,但也需注意此算法具有較大缺陷需要克服,進行貢獻度計算時只分析特征詞頻率的影響,并未針對特征詞位置與詞性進行研究,處于不同的詞性與位置條件下,特征詞實際表達的含義也存在明顯差異。其中,名詞與動詞可以獲得比形容詞更強的主題表現(xiàn)力,對文檔達到更精確的表達效果,而當詞語出現(xiàn)在標題區(qū)域時則可以獲得比正文區(qū)域更重要的意義,對上述情況的各類詞需將其與常規(guī)詞區(qū)分處理。

1.2 TFIDF_SP算法

針對TFIDF算法存在的缺陷,本文設計了一種經(jīng)過改進后的TFIDF_SP算法。通過權重系數(shù)綜合分析詞性與位置并建立復合權值,計算得到特征加權并將其與TFIDF方法進行結合處理,由此區(qū)分文檔內(nèi)處于不同部位的特征詞重要性。以下給出了對應的計算式:

(2)

其中,tk=tk1+tk2。

(3)

式中,tfi,j是對特征詞進行權重調(diào)整得到的詞頻,λj屬于詞性權重系數(shù)。其中,名詞在λ=3時達到最優(yōu),動詞在λ=2時最優(yōu),其他詞在λ=1時達到最優(yōu),tk是文檔i中的詞j頻率,u1、u2依次為詞在標題與正文區(qū)域下的權重系數(shù),取值分別在4與1時獲得最佳結果,tk1、tk2代表詞j在標題與正文條件下形成的詞頻,l是第i篇文檔內(nèi)包含的各個詞的數(shù)量總和。利用對特征詞進行詞性與位置加權歸一化,并將結果拓展,特征詞除了頻率較高以外,還可以更加高效體現(xiàn)出文本的結構特點。

1.3 bLDA主題模型

LDA屬于一種典型概率模型,對高維文檔集合進行映射生成維度更低的潛在語義空間,從而將文檔表示成不同主題的混合形式,本次選擇詞空間分布作為主題,對特征詞進行軟聚類分析,再通過抽象方法獲取文本內(nèi)容。在LDA主題模型基礎上進行擴展得到bLDA主題模型,按照伯努利分布的形式確定各詞的背景與先驗主題。

使用bLDA主題模型進行分析時,需通過GibbsSampling推理的過程對特征詞wi進行主題z測試。以下為各參數(shù)的采樣計算式:

(4)

p(zi=k|zi,x)∝

(5)

(k=1,2,…,n)

式中,zi對應詞特征i的主題變量,n(t)為第m篇文檔內(nèi)詞t出現(xiàn)的頻率,n(k)為主題k詞頻,n(0)為第m篇文檔形成的主題k(k=0)詞頻,n為主題數(shù)量,V為文檔集包含的所有詞數(shù)量,lamada為背景主題先驗概率,βt與αk依次對應詞t與主題k狄利克雷先驗分布結果。

2 文本流程

2.1 文本特征粒化

按照全覆蓋粒知識約簡的方式對以上特征詞集實施約簡,從中選擇可以有效表達文檔并且包含有用信息的特征詞集,從而同時實現(xiàn)減小復雜度以及增加精度的效果。

文本特征算法的具體處理過程如下。

從文檔集N中選擇特征詞集D作為輸入,以經(jīng)過約簡得到的特征詞集core作為輸出。

第一步:對特征詞集進行數(shù)據(jù)處理確定中心center(D),之后再計算得到粒度熵I(D)。

第二步:以core(D)表示經(jīng)過約簡處理得到的特征詞集,同時計算文檔集Di重要度SigD。

第三步:判斷I(core(D))=I(D)是否滿足條件,當符合判斷條件時則處理過程結束,由此得到的core(D)屬于最小粒約簡;反之,重新跳轉到第四步。

第四步:以P表示core(D),再把文檔集結算結果加入P中。

第五步:判斷是否滿足I(P)=I(D),當結果滿足時則停止處理過程,由此得到的P屬于特征詞集D約簡;反之繼續(xù)執(zhí)行第四步。

2.2 算法流程

對特征詞進行加權處理后雖可以達到優(yōu)異文檔表達能力,能夠有效克服特征稀疏性的問題,但優(yōu)異該處理方法具有明顯的高維特征,導致計算量大幅度增加,整個處理過程非常復雜,最終引起聚類精度的降低。選擇全覆蓋粒知識約簡方法進行處理時可以控制約簡前后處于同樣的特征表達狀態(tài)下,實現(xiàn)計算復雜度的顯著減小。按照以下步驟對文本特征進行全覆蓋粒計算。

其中,特征詞集通過TFIDF_SP算法進行計算作為輸入,以經(jīng)過約簡的特征詞集加權作為輸出。

第一步:以TFIDF_SP算法獲得特征詞集內(nèi)概率在0以上的詞置1,生成取值等于0或1的特征詞集。

第二步:粒化取值等于0或1的特征詞集,再對特征粒進行約簡處理。

第三步:對特征集進行加權處理,同時保留約簡部分,再對其按照min-max方式實施歸一化,由此獲得約簡特征詞集。

各流程見圖1。

圖1 算法流程

3 實驗結果分析

3.1 實驗語料

通過搜狐網(wǎng)站信息爬取的方式得到1250篇新聞語料,對這些新聞進行分類統(tǒng)計,屬于“健康”類的新聞總共180篇,“財經(jīng)”類共660篇,“IT”類共410篇,分別從各篇新聞中提取標題與正文內(nèi)容進行測試,文本規(guī)模基本在3~8 KB之間。

3.2 實驗方案評價指標

通過實驗語料獲得相關的實驗數(shù)據(jù)集,按照2.2節(jié)的算法流程計算各評價指標,并驗證算法有效性。

通過爬取獲得的搜狐新聞都是以人工分類得到的文本集,由此實現(xiàn)聚類A和人工類別B的相互對應,此時A的文本基本都屬于B的文本。綜合考慮準確率(Precision)、召回率(Recall)、F參數(shù)對實際聚類性能進行評價。

3.3 主題數(shù)γ參數(shù)設置

采用以上語料庫作為測試數(shù)據(jù),建立bLDA主題模型時,將參數(shù)設定為α=50/k、β=0.01,總共迭代1000次。測試時主題數(shù)k屬于一個不確定參數(shù),當取值變化時會引起特征選擇有效性也存在顯著差異,將n值依次設定在1~10,設定主題模型包含的主題數(shù),再以K-medoids聚類得到的F值進行評價,從而獲得根據(jù)語義建立的“文檔—詞語”矩陣,經(jīng)測試得到結果如圖2所示。

圖2 bLDA主題個數(shù)設置

其中,橫坐標代表實際設定的主題數(shù)量,縱坐標代表評價指標,根據(jù)以上測試數(shù)據(jù)判斷特征選擇算法有效性與bLDA主題模型主題數(shù)之間的關系。通過分析可知,在主題數(shù)k=3的情況下,獲得了最大聚類F,表明此時達到了最優(yōu)處理效果,與人工標注主題數(shù)相符。同時還可以看到,主題數(shù)接近人工標注主題數(shù)的情況下,形成了基本一致的評價指標,通過bLDA主題模型可以獲得較優(yōu)主題粒度,從而更接近文檔表達含義;以bLDA主題模型進行粗主題粒度提取時無法獲得良好的聚類性能,并無法對各類主題特征詞進行明顯分類,導致區(qū)分度偏差;當采用bLDA主題模型提取細主題粒度時也無法獲得理想聚類效果,此時會對相同主題特征詞造成弱化,將其判斷為不同主題類型的特征詞。

在特征選擇時,將k設定在3,參數(shù)因子γ依次設定在0.50~0.95,在不同γ值下經(jīng)對比得到K-medoids聚類F值,由此獲得最優(yōu)特征詞集權重,測試所得結果見圖3。

圖3 γ的最優(yōu)設置

γ值介于0.5~0.8之間時,當γ值提高時獲得了更優(yōu)文本聚類性能,而在γ值達到0.8以上,繼續(xù)增加γ值則會降低文本聚類性能,由此判斷γ值取0.8時可以獲得最優(yōu)聚類效果。因此可以從側面推斷出,與采用bLDA主題模型處理獲得的“文檔—詞語”概率相比,通過TFIDF算法獲得的“文檔—詞語”概率可以更加準確地表達文本含義,促進權重的進一步提升。

3.4 方法比較

據(jù)以上搜狐新聞語料,為驗證特征詞權重分析方式有效性,分別以TFIDF算法與bLDA主題模型作為Baseline、Baseline2,再以上述2種方法相結合的形式組成Baseline3,之后利用同一語料庫測試上述各項算法相對TFIDF_SP算法及bLDA主題模型方法的綜合處理性能,再根據(jù)K-medoids聚類算法準確率、召回率、F值進行綜合評估,測試得到結果如表1所示。

表1 不同方法對比結果

通過比較發(fā)現(xiàn),采用TFIDF_SP和bLDA主題模型或采用TFIDF和bLDA主題模型進行結合處理時比單一使用bLDA主題模型處理方式和TFIDF算法獲得更優(yōu)的性能,因此需要對TFIDF算法與bLDA主題模型進行結合分析,從而為特征詞分配合適的權重。以TFIDF_SP和bLDA主題模型進行結合分析時,可以獲得比TFIDF和bLDA主題模型結合高1.62%的聚類準確率,表明當特征詞方式詞性與位置變化時會引起文檔表達效果的顯著影響。

4 總結

采用bLDA主題模型提取細主題粒度的時候也無法獲得理想聚類效果,此時會對相同主題特征詞造成弱化,將其判斷為不同主題類型的特征詞。γ值取0.8時可以獲得最優(yōu)聚類效果,此時本文改進TFIDF算法能促進權重的進一步提升。本文改進TFIDF算法可以獲得比TFIDF和bLDA主題模型結合高1.62%的聚類準確率,表明當特征詞方式詞性與位置變化時會引起文檔表達效果的顯著影響。

猜你喜歡
文本模型
一半模型
重要模型『一線三等角』
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
重尾非線性自回歸模型自加權M-估計的漸近分布
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
3D打印中的模型分割與打包
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
論《柳毅傳》對前代文本的繼承與轉化
人間(2015年20期)2016-01-04 12:47:10
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 在线观看免费黄色网址| 中文字幕在线永久在线视频2020| 91无码人妻精品一区二区蜜桃| 欧亚日韩Av| 蜜桃视频一区二区| 国产成人综合亚洲欧洲色就色| 国产精品成人第一区| a网站在线观看| 免费黄色国产视频| 精品色综合| 日韩第九页| 精品国产乱码久久久久久一区二区| 国产福利免费在线观看| 毛片免费视频| 国产精品自在自线免费观看| 国产成人亚洲精品无码电影| 2021国产v亚洲v天堂无码| 无码AV高清毛片中国一级毛片| 小蝌蚪亚洲精品国产| 夜色爽爽影院18禁妓女影院| 成色7777精品在线| 萌白酱国产一区二区| 国产XXXX做受性欧美88| a毛片在线| 国产精品专区第1页| 狠狠做深爱婷婷综合一区| 毛片一级在线| 亚洲日韩精品欧美中文字幕 | 国产成人一区二区| 黄色网站在线观看无码| 欧美日韩中文字幕二区三区| 国产免费高清无需播放器| 九九热视频精品在线| 无码区日韩专区免费系列| 日日拍夜夜嗷嗷叫国产| 中文字幕亚洲电影| 欧美日韩资源| 亚洲精品无码不卡在线播放| 国产视频 第一页| 国产成人亚洲欧美激情| 日韩欧美国产三级| 婷婷六月综合| 天堂成人av| 99热国产这里只有精品无卡顿"| 国产成人精品日本亚洲| 久久精品亚洲中文字幕乱码| 久久亚洲AⅤ无码精品午夜麻豆| 国产呦精品一区二区三区网站| 国内精品九九久久久精品| 伊人久久婷婷| 国产一在线| 国产第一页第二页| 亚洲欧美日韩视频一区| 露脸国产精品自产在线播| 中文字幕天无码久久精品视频免费| 性激烈欧美三级在线播放| 久久久久九九精品影院 | 亚洲人成电影在线播放| 日韩无码黄色网站| 在线视频精品一区| 狼友av永久网站免费观看| 无码一区18禁| 久久精品91麻豆| 欧美日本激情| 欧美国产日产一区二区| 免费一级无码在线网站| 国产在线观看成人91| 91久久精品国产| 日本一本正道综合久久dvd| 亚洲色图欧美激情| 香蕉网久久| 亚洲国产黄色| 久久香蕉国产线看观| 91精品国产91久久久久久三级| 亚洲高清在线播放| 美女视频黄频a免费高清不卡| 久久久波多野结衣av一区二区| 欧美日韩在线亚洲国产人| www.99在线观看| 成人精品午夜福利在线播放| 欧美精品啪啪| 91亚洲视频下载|