999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種文本聚類的增強數據挖掘方法

2018-05-09 02:58:44魏爽
電腦與電信 2018年3期
關鍵詞:語義概念文本

魏爽

(三亞學院信息與智能工程學院,海南 三亞 572000)

1 引言

各種信息源的信息每天都在快速地增長,從大量的信息中提取并發現有價值的信息的需要也與日俱增。數據挖掘就是一個用于從大量的原始數據集中提取有用信息的方法。

文本挖掘是從不同的文本源中通過識別不同的模式和趨勢來獲得高質量信息的過程。由于傳統的數據庫有已知的、固定的結構,而文檔是非結構化的或者半結構化的,文本挖掘比一般意義上的數據挖掘要困難得多[1,2]。故而,文本挖掘涉及到一系列的進行數據預處理和建模的步驟,以獲得適用于結構化數據挖掘方法的數據[3]。文本挖掘可以節省大量的人力,通過利用信息檢索、機器學習、信息理論以及概率統計等方法,可以解決諸如文檔檢索、文檔歸類、文檔比較、提取關鍵信息、摘要文檔等問題。

2 基本概念

自然語言處理(Natural Language Processing,NLP)是計算機科學、人工智能以及語言學結合的一門技術,處理機器和人類自然語言的交互[4]。要機器理解人類語言,就需要對人類對世界的認識進行一定形式的表達。文本挖掘就是利用自然語言處理和數據挖掘技術,試圖發現新的未知的信息。文本挖掘存在的一個問題就在于,自然語言是用于人類間交流以及記錄信息的,而計算機離理解自然語言有很大的差距。

聚類可以認為是非監督學習的最重要的一個問題,它要在沒有標注的數據中找到一種結構。一個類別就是一組有相似特征的對象的集合,而與其它類中對象不相似。

動詞相關的角色研究稱為題元角色分析。一般來說,一個句子的語義結構可以通過動詞參數結構(Verb Argument Structure)來辨別[5]。動詞參數結構可以將文本表面的結構參數和其語義角色關聯起來。

3 基于概念的挖掘模型

基于概念(concept-based)的挖掘模型在句子、文檔以及文集級別分析句子的各個項目(item),可以高效地將句子中對于構成句子語義非重要的項目和包含了句子語義的概念區分開。采用該模型,可以通過句子的語義有效地識別出文檔間重要的匹配概念。

模型分析句子和文檔中每一個項目的語義結構而不是僅僅計算出其在一個文檔中的出現頻率。模型的輸入為原始的文本文檔,每個文檔都定義好了句子邊界。文檔中的每個句子的每個項目都會被自動地貼上標注。貼上這些語義角色標注后,文檔中的每個句子就會有一個或者更多的帶標注的動詞參數結構(Verb Argument Structure)。這些動詞參數結構的數量完全取決于句子中的信息量。擁有多個帶有參數的動詞的句子,就會有多個帶標注的動詞參數結構。這些標注決定組成句子語義的項目在句子中的語義角色。句子中的每個項目有一個語義角色,即“概念”(concept)。概念可以是一個詞,或一個短語,完全取決于句子的語義結構。當對一個新的文檔進行分析的時候,該挖掘模型通過掃描新文檔、提取出匹配的概念,可以檢測出該文檔中與之前處理過的所有文檔相匹配的概念。

帶標注的動詞參數結構是語義角色標注的輸出,會在句子、文檔以及文集等級別分別進行分析。在該模型中,動詞和其參數都認為是項目。一個項目可以視作同一個句子中的多個動詞的參數。這就意味著,這些項目在一個句子中可能會有多個語義角色。

通過對文檔進行NLP,可以獲取其中的概念。例如,對于句子“張三打球”,動詞是“打”,ARG0是“張三”,ARG1是“球”。這就貼上了語義標注。通過使用語義角色,就可以獲得詞在句子中的內容。

4 挖掘模型實現

模型分為以下四個部分:

(1)文本預處理

從文集中讀出文檔。根據每個句子中項目對應的動詞數量,將這些參數標注為ARG0、ARG1、ARG2等。此外,降低文本的維度在進行文本挖掘時也很重要,即去除非必要詞語,可以通過標準停止字列表實現:對每一個詞進行檢測,如果是一個停止字,如“的”、“地”、“得”、“啊”、“了”等,就認為其是非關鍵詞并將其移除。

(2)概念識別

通過第一步,留下來帶標注的待匹配的項目,每個項目就是一個概念。概念分析分三種:基于句子的概念分析,基于文檔的概念分析以及基于文集的概念分析。通過基于句子的概念分析,獲取概念項目頻率(conceptual term frequency,ctf)。通過基于文檔的概念分析,獲取項目頻率(term frequency,tf),即概念在原始文檔中出現的次數。通過基于文集的概念分析,獲取文檔頻率(document frequency,df),用于區別不同的文檔。

(3)計算ctf

首先,計算出句子s中的ctf,即句子s的動詞參數結構中概念c出現的次數。然后,計算文檔d中概念c的ctf。在一個文檔d中,對于每個概念c,在不同的句子中,可能有多個ctf,那么,文檔d中概念c的ctf值就通過如下公式計算:

其中,sn為文檔d中包含概念c的句子的總數,ctfn為第n個句子中概念c的ctf值。

(4)文檔聚類

聚類就是將一組對象集進行分組,這樣每組中的對象在某種意義上比其他組中的對象有更多的相似處。聚類是探測性數據挖掘的主要工作,統計分析的常用技術聚類算法有很多,這里采用層次聚類和k-最近鄰聚類方法[6-8]。層次聚類是一種非遞增貪婪聚類算法,用來將原始文檔數據進行分層。K-最近鄰是一種遞增式的聚類算法,對于每個新文檔,先算出和所有其它文檔的相似度,然后選取最相近的k個文檔,并將該新文檔歸入到這k個文檔所屬類中。

文檔d1和d2相似度的計算見公式(2)和(3)。其中li1、li2分別為兩個文檔中動詞參數結構中每個概念的長度,Lvi1、Lvi2為包含匹配概念的動詞參數結構的長度,N為文檔的總數。

通過公式(3)計算出文檔d中概念i的基于概念的權值,其中tfweighti的值代表文檔d中概念i在文檔級別的權值,ctfweighti代表文檔中概念i根據其在文檔d中句子語義的組成在句子級別的權值。當概念i出現在少量的文檔中時,log(N/dfi)補償了其在文集級別的權值。tfweighti和ctfweighti的和準確表達了每個概念對句子語義的構成的重要性。通過公式(3)可以有效地區別文集中不同的文檔。

隨著匹配的概念的長度越接近其動詞參數結構的長度,公式(2)的值會更高。因為該概念包含更多關于句子語義的信息。

在公式(4)中,對文檔d中項目頻率tfij矢量長度進行了標準化。cn是文檔d中有項目頻率的概念的總數。

將模型應用于1000篇分別關于動物(350篇)、植物(370篇)、微生物(200篇)以及人文介紹(80篇)的文檔集合中,得到實驗結果如表1所示:

表1 實驗結果

由于人文類別的文檔中包含部分動物、植物相關信息,這三者之間有所混合,出現一定錯誤。而微生物類別比較突出,能完全識別。可見,該模型的聚類準確率高。

5 結語

文章將NLP和文本挖掘聯系起來,提出了一個新的基于概念的挖掘模型。該模型可以改進文本聚類。通過利用文檔中句子的語義結構,獲得了更好的聚類結果。首先是基于句子的概念分析,通過ctf分析每個句子的語義結構來捕獲句子中的概念;然后是基于文檔的概念分析,利用tf分析文檔層面的每個概念;再在文集層面,通過df進行文集層面的概念分析;最后,根據句子語義、文檔主題以及文集中文檔分類,計算基于概念的相似度。通過此方法,可以在文集中進行概念匹配、概念相似度計算。該方法可靠性、準確率高。通過此模型進行的文本聚類準確率大大超過了傳統的基于單一項目的方法。該模型尚需進行完善,以便用于其他類型的文檔聚類,如Web文檔聚類。

參考文獻:

[1]薛為民,陸玉昌.文本挖掘技術研究[J].北京聯合大學學報(自然科學版),2005(04):59-63.

[2]諶志群,張國煊.文本挖掘研究進展[J].模式識別與人工智能,2005,18(01):65-74.

[3]諶志群,張國煊.文本挖掘與中文文本挖掘模型研究[J].情報科學,2007(07):1046-1051.

[4]李生.自然語言處理的研究與發展[J].燕山大學學報,2013,37(05):377-384.

[5]曹火群.題元角色:句法—語義接口研究[D].上海:上海外國語大學,2009.

[6]陳磊磊.不同距離測度的K-Me a n s文本聚類研究[J].軟件,2015,36(01):56-61.

[7]奚雪峰,周國棟.面向自然語言處理的深度學習研究[J].自動化學報,2016,42(10):1445-1465.

[8]曹曉.文本聚類研究綜述[J].情報探索,2016(01):131-134.

猜你喜歡
語義概念文本
Birdie Cup Coffee豐盛里概念店
現代裝飾(2022年1期)2022-04-19 13:47:32
語言與語義
幾樣概念店
現代裝飾(2020年2期)2020-03-03 13:37:44
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
學習集合概念『四步走』
聚焦集合的概念及應用
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
認知范疇模糊與語義模糊
主站蜘蛛池模板: 国产香蕉在线视频| 精品91自产拍在线| 久久人妻系列无码一区| 巨熟乳波霸若妻中文观看免费| 国产精品jizz在线观看软件| 日韩精品亚洲人旧成在线| 国产精品主播| 青青操国产| 国产91高跟丝袜| 亚洲中文字幕精品| 不卡无码h在线观看| 国产福利免费视频| 女同久久精品国产99国| 亚洲丝袜中文字幕| 香蕉在线视频网站| 亚洲丝袜中文字幕| 2019国产在线| 国产精品永久不卡免费视频| 中文字幕在线播放不卡| 成人国产精品网站在线看| 极品性荡少妇一区二区色欲| 9cao视频精品| 激情综合激情| 国产亚洲精品yxsp| 激情综合激情| 亚洲视频一区在线| 亚洲人成色77777在线观看| 天天色天天操综合网| 中文无码精品A∨在线观看不卡| 国产免费一级精品视频| 中文字幕波多野不卡一区| 亚洲日韩国产精品无码专区| 亚洲AV永久无码精品古装片| 久久精品aⅴ无码中文字幕| 最新亚洲人成无码网站欣赏网| 男女性午夜福利网站| 亚洲伦理一区二区| 日韩高清欧美| 亚洲人免费视频| 日韩色图在线观看| 亚洲色欲色欲www在线观看| 国产在线精彩视频二区| 欧美日本激情| av色爱 天堂网| 欧美三级视频网站| 99热在线只有精品| 午夜不卡视频| 亚洲欧洲一区二区三区| 国产女同自拍视频| 9999在线视频| 99精品这里只有精品高清视频| 无码免费的亚洲视频| 欧美日韩国产精品va| 欧美自拍另类欧美综合图区| 亚洲无码精彩视频在线观看| 成人国产免费| 精品久久蜜桃| 国产黄在线免费观看| 国产毛片高清一级国语| 尤物精品视频一区二区三区| 亚洲欧洲综合| 精品国产自| 成人在线综合| 国产欧美专区在线观看| 久久香蕉国产线看观看亚洲片| 午夜国产精品视频| 国内视频精品| 国产成人精品亚洲77美色| 97久久精品人人做人人爽| 国产精品内射视频| 亚洲福利一区二区三区| 久久综合色视频| 91精品国产综合久久不国产大片| 国产精品99久久久| 99在线视频网站| 亚洲人成人无码www| 欲色天天综合网| 又粗又大又爽又紧免费视频| 亚洲天堂视频网站| 日本一本正道综合久久dvd| 国产一级裸网站| 亚洲娇小与黑人巨大交|