999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于文本挖掘的網(wǎng)絡(luò)媒體報道研究

2011-01-01 00:00:00阮光冊
知識管理論壇 2011年6期

[摘要] 探討基于實體關(guān)系的文本挖掘機制,以文本挖掘為方法,輔以屬性抽取、屬性關(guān)系映射等方式,以上海世博新聞媒體網(wǎng)絡(luò)版報道為例,對新聞媒體網(wǎng)絡(luò)版這種非結(jié)構(gòu)化信息進行研究。在屬性抽取時結(jié)合相似度算法,使屬性抽取的準確率得到提高。選取香港、臺灣、境外媒體華語版、上海本地媒體對世博會相關(guān)報道進行實證分析,基于內(nèi)容對報道差異進行闡述,并得出結(jié)論。研究表明,運用文本挖掘?qū)π侣劽襟w文本進行分析和評價,可以挖掘出媒體報道的更多內(nèi)涵,為情報分析提供思路。

[關(guān)鍵詞] 文本挖掘 網(wǎng)絡(luò)媒體 實體關(guān)系 屬性抽取 上海世博

1 引言

隨著信息技術(shù)的發(fā)展和網(wǎng)絡(luò)信息資源的豐富,數(shù)字化信息不斷改變著我們的思維方式和工作模式。然而面對海量信息,如何發(fā)現(xiàn)并獲取有價值的信息成為難題。如今,各種網(wǎng)絡(luò)搜索引擎可以幫助人們進行有效的信息檢索和分類,但是利用這些工具檢索出來的信息仍然是海量的。如何從檢索到的海量信息中挖掘出用戶感興趣的內(nèi)容,并能對信息進行必要的分析、提煉成為信息管理、情報分析領(lǐng)域的新課題呢?本文將運用屬性抽取和文本挖掘的方法,以網(wǎng)絡(luò)版新聞報道為例,對報道的內(nèi)容進行分析,并挖掘出媒體報道的內(nèi)涵。

文本挖掘是數(shù)據(jù)挖掘技術(shù)中日益盛行的重要研究領(lǐng)域,同數(shù)據(jù)挖掘的區(qū)別在于文本挖掘主要處理非結(jié)構(gòu)化的文本數(shù)據(jù),包括新聞文章、研究論文、書籍、期刊、報告、專利說明書、會議文獻、技術(shù)檔案、政府出版物、技術(shù)標準、電子郵件消息及Web頁面等,這些數(shù)據(jù)不像關(guān)系數(shù)據(jù)庫那樣具有規(guī)范格式,因此處理難度都較高。同時,這些文檔又大多采用自然語言描述,對挖掘提出更高的要求。從1995年Feldman正式提出文本挖掘的概念[1]至今,國外學者對文本挖掘的應(yīng)用研究進行了很多有益的探討,這方面最主要的研究集中在文本挖掘理論體系與技術(shù)手段方面,獲得的成果有文本挖掘模型[2-3]、非結(jié)構(gòu)化文本文件特征抽取與文本中間表示[4-6]、文本挖掘算法 [7-8]、語義關(guān)系挖掘[9-10]、文本聚類與主題分析[11-12]等,對文本挖掘國外學者已經(jīng)形成了一套較成熟的理論體系,并且應(yīng)用于多個領(lǐng)域,如網(wǎng)絡(luò)聊天室文本流主題跟蹤[11]、在線新聞實時監(jiān)控[12]、專利數(shù)據(jù)分析[13]等。最近幾年,國內(nèi)學者對文本挖掘的關(guān)注度開始提高,但仍然處于吸收國外研究成果階段,在理論方面,對文本特征抽取和文本聚類[14-16]等進行了一定的探討;在實踐應(yīng)用中,文獻[17]運用文本挖掘的方法對政府工作報告中用戶感興趣的區(qū)域經(jīng)濟關(guān)系進行了實證研究,并得到相關(guān)結(jié)論。通過國內(nèi)外的研究對比,筆者發(fā)現(xiàn),無論在理論探討還是實踐應(yīng)用方面,國內(nèi)的文本挖掘研究還不夠深入,仍處于小規(guī)模實驗階段。

本文擬運用文本挖掘的基本方法,就我國臺灣、香港及其他境外媒體華語版及上海本地媒體對上海世博會相關(guān)報道進行分析,研究的新聞文本量近29 000篇,通過屬性抽取分析媒體報道的差異。

2 網(wǎng)絡(luò)媒體文本挖掘方法分析

本次實驗選取的新聞樣本為境內(nèi)外主流媒體網(wǎng)絡(luò)版,主要包括上海本地的《解放日報》、《新民晚報》等,香港地區(qū)的《大公報》、《香港商報》、《香港文匯報》等,臺灣地區(qū)包括《經(jīng)濟日報》、《聯(lián)合報》、《中國時報》等,國外媒體中文版包括《星洲日報》(馬來西亞)、《明報》(加拿大)、《聯(lián)合早報》(新加坡)等,共計30家中文主流媒體。

作為一種文本信息,新聞報道的格式也相對一般文本文件更為規(guī)范,這樣便于挖掘的實現(xiàn)。與傳統(tǒng)的新聞分析強調(diào)事件(新聞主題)、人物、時間、地點不同,這里運用文本屬性抽取和文本內(nèi)容挖掘以獲取新聞報道的關(guān)注點并分析不同地區(qū)媒體報道的差異,因此與傳統(tǒng)的信息統(tǒng)計分析等情報學方法又有一定的區(qū)別,可作為特定信息集合的信息挖掘和特征提取的實踐應(yīng)用。

在進行文本挖掘工作前,我們需要對所操作的對象進行抽象化。如果將一篇新聞報道看做一個實體的話,那么新聞報道所反映的信息可以看做該實體的屬性,我們可以將實體所關(guān)注的重點進行抽象。如:某篇新聞(實體)是關(guān)于世博會安全保障(屬性)方面的報道,那么安全保障即為該實體的屬性,是這篇報道的主要內(nèi)容。本文關(guān)注的是在一個實體集合中哪些屬性是他們的共同特征,并且與另外的實體集合有哪些差異,并進行比較。例如:對于上海世博會的報道,香港地區(qū)媒體和上海本地媒體就是不同的實體集合,在這兩個實體集合中哪些屬性是相同的,如報道的關(guān)注度主要集中在哪里,哪些又是不同的,如香港地區(qū)媒體主要側(cè)重于哪些方面的報道等。我們希望通過文本挖掘的方式進行報道差異的分析。

為了便于實現(xiàn)計算機的文本挖掘,需要建立相應(yīng)的實體—屬性對應(yīng)關(guān)系,這里我們引入了一級屬性和二級屬性的概念,如下圖所示:

依據(jù)上文的解釋,屬性是用來描述某一實體的特征,對于新聞報道來說可以體現(xiàn)為具體內(nèi)容的抽象,如世博會安全保障(屬性)是某篇新聞(實體)的核心內(nèi)容。然而,安全保障這個屬性又是較為抽象的概念,需要將其進一步拆分,如安檢、園區(qū)秩序等均可用來具體描述安全保障的內(nèi)容。因此,在設(shè)計實體—屬性關(guān)系時,一級屬性用來描述實體的核心內(nèi)容,而二級屬性用來具體表述抽象的屬性。

對于不同的實體,都有相應(yīng)的屬性描述,當一類實體組成一個實體集合(如上海本地媒體關(guān)于上海世博會報道的集合)時,屬性就能反映出不同實體集的差異和不同的關(guān)注點。

3 網(wǎng)絡(luò)版新聞媒體挖掘?qū)崿F(xiàn)流程

網(wǎng)絡(luò)版新聞報道是一種文本文件格式,相對于關(guān)系數(shù)據(jù)庫中的信息來說屬于非結(jié)構(gòu)化信息,如今對非結(jié)構(gòu)化信息挖掘的難點之一是自然語言的處理。為了降低自然語言處理的難度,我們首先將非結(jié)構(gòu)化文本內(nèi)容通過程序自動導入數(shù)據(jù)庫,形成結(jié)構(gòu)化數(shù)據(jù),對結(jié)構(gòu)化數(shù)據(jù)再進行簡單的自然語言識別以實現(xiàn)屬性抽取操作,并建立屬性(內(nèi)容)同實體(新聞)的關(guān)聯(lián)關(guān)系,進而實現(xiàn)對新聞報道的文本挖掘。流程如圖2所示:

我們使用檢索策略從網(wǎng)上獲取關(guān)于上海世博會新聞報道的專題集,在形成專題報道集的過程中,對文本信息進行相應(yīng)規(guī)范化處理,運用自行開發(fā)的軟件實現(xiàn)內(nèi)容自動入庫,并形成以地區(qū)為分類標準的不同實體集合。

對于入庫的文本信息,提取新聞屬性,首先要創(chuàng)建一個屬性關(guān)系集合,在集合中包含一級屬性和二級屬性的關(guān)系。確定屬性集合的方法分兩步:①確定一級屬性集合,我們采用的方法是人工對《胡錦濤考察世博會籌辦 要求確保安保萬無一失》的講話,以及俞正聲《萬眾一心全力以赴辦好世博會》的講話進行內(nèi)容整理,統(tǒng)計出9個一級屬性,分別為:服務(wù)保障、安保工作、外事工作、新聞宣傳、社會氛圍、場館建設(shè)、科技創(chuàng)新綠色生活、世博園場館、世博相關(guān)等;②確定二級屬性集合,我們的方法是采用第三方軟件(WordSmith)對文本集進行詞頻統(tǒng)計,人工篩選出與世博有關(guān)的高頻信息,通過篩選我們獲得近200個高頻信息,在人工的干預(yù)下實現(xiàn)一級屬性和二級屬性的映射關(guān)系。表1顯示的是我們獲取的部分屬性:

這樣一級屬性和二級屬性就可抽象為如下的邏輯關(guān)系:

{KNo,KName,KListk}, KListk = ,k=1,2,…,R;i=1,2,…,n。其中,KNo為屬性編號,KName為一級屬性名,R為一級屬性分類數(shù),KListk為類別K的二級屬性,共有n個相應(yīng)二級屬性。

4 新聞媒體屬性抽取模型

新聞媒體報道的語言具有自然語言的特點,在屬性特征抽取時如果僅僅以建立的二級屬性表進行簡單的匹配處理將使得處理結(jié)果的準確性受到影響,因此我們在特征提取時考慮運用相似度的算法來匹配較為相近的內(nèi)容,提高屬性抽取的完整性。

基于文本挖掘的新聞媒體分析首先是確定信息抽取的方法,提取描述實體的屬性信息。根據(jù)圖1實體—屬性關(guān)系,抽取的模板為:Template={TNo, TName, News, KSet}

其中,TNo為模板的編號,TName為實體集的名稱,取值為所選取的媒體名稱,如《解放日報》等;News為實體名稱,取值為具體新聞名稱,如《站在歷史的連接點上——寫在上海世博會開幕之際》;KSet為實體描述的屬性集合,該屬性集合是一個細分的屬性描述,即二級屬性,能夠反映某一News的報道內(nèi)容。

抽取過程中要對自然語言進行相應(yīng)的判斷,我們運用相似度的計算,公式如下所示:

這里的TigerKey為二級屬性KListk的觸發(fā)器{t1,t2,t3,……tn},通過這些詞匯的存在來進行信息的抽取,但考慮到自然語言的表述問題,需要對出現(xiàn)的詞匯進行相似度判斷。公式中,S表示為一個句子,在屬性抽取過程中,計算句子和TigerKey觸發(fā)器的相似度,當大于一個閥值時,確定為某一KSet的內(nèi)容。通過相似度的算法,在屬性抽取過程中,程序?qū)ⅰ鞍踩珯z測”和“安全檢查”視為同一屬性描述,并進行提取。這樣可以保證由于自然語言表述不同所造成的屬性抽取錯誤。

為了更好地挖掘新聞內(nèi)容,需要對新聞實體所包含的各種描述屬性進行挖掘。我們在對新聞報道進行瀏覽時,發(fā)現(xiàn)一篇新聞報道雖然有某一方面的報道側(cè)重點,但不可避免地會涉及到多個主題,如報道世博服務(wù)為主題的新聞報道,還會涉及關(guān)于安全保障等方面的內(nèi)容。因此,為了全面地反映相關(guān)內(nèi)容,在屬性提取時,我們考慮實體和屬性一對多的關(guān)系,并設(shè)計了一對多的新聞實體模板,如表2所示。

在具體操作中,屬性抽取的基本算法如下:

(1)選取新聞報道專集文本(如臺灣媒體),從二級屬性中獲得屬性集合{ KListk |=k=1,2,…,s};

(2)k=1;

(3)獲取新聞專集{TNj|j=1,2,……s};

(4)j=1,GetNews(TNj);

(5)在TNj的句子S中查找KListk,SearchKeyword(S,KListk);

(6)如果找到,則將KListk置于緩沖區(qū)內(nèi),SetKeywork(KListk),結(jié)合相似度算法查找相似屬性;

(7)如果一篇新聞查找結(jié)束,并且緩沖區(qū)不為空,則取出緩沖區(qū)的內(nèi)容,按照一級屬性和二級屬性的關(guān)系模板標識相關(guān)新聞實體模板,填充新聞名稱、屬性集合、相似屬性;

(8)如果j>s,則新聞專題集結(jié)束,否則j=j+1,轉(zhuǎn)(4);

(9)如果k>s,則屬性集合結(jié)束,否則k=k+1,轉(zhuǎn)(2)。

5 基于文本挖掘的媒體報道差異分析

我們選取了國內(nèi)上海、香港、臺灣及國外媒體華語版2010年4-11月關(guān)于世博報道的29 000篇新聞,這些報道來自于《解放日報》、《新民晚報》、《大公報》、《香港商報》、《香港文匯報》、《經(jīng)濟日報》、《聯(lián)合報》、《中國時報》、《星洲日報》(馬來西亞)、《明報》(加拿大)、《聯(lián)合早報》(新加坡)等共計30家中文版主流媒體,具體分布如表3所示.

國外媒體華語版我們選取了亞洲媒體8家、北美媒體3家,總報道量為3 436篇。對這些新聞文本,我們也進行了字數(shù)統(tǒng)計,表4是各媒體報道的平均字數(shù)。

從統(tǒng)計的平均報道字數(shù)上來看,各地媒體對世博會的報道還是較為重視的,報道的篇幅也較長,報道較為全面。

根據(jù)文本挖掘、屬性相似匹配以及屬性的對照關(guān)系,我們對29 000篇來自香港、臺灣、上海、國外媒體華語版的新聞報道進行處理,可以大致發(fā)現(xiàn),這些報道更多地集中在對世博會社會氛圍、安保工作、科技創(chuàng)新綠色生活方面,圖3顯示了相關(guān)的統(tǒng)計結(jié)果。

本次世博會突出綠色環(huán)保這一主題,并且參觀人數(shù)超過7 300萬,因此媒體對“科技創(chuàng)新綠色生活”和世博“安保工作”的關(guān)注度較高是可以理解的,同時世博會又產(chǎn)生了巨大的社會效應(yīng),如對志愿者的宣傳等。然而,讓我們感到有些意外的是關(guān)于具體場館的關(guān)注度并不高,看來媒體更加關(guān)注世博會的宣傳和安全運營。

我們對各地媒體報道關(guān)注度的差異進行了對比分析,發(fā)現(xiàn)不同地區(qū)對這三大主題的關(guān)注度有一定細微的差異。見圖4。

從圖4我們可以看到,在三大主要宣傳主題中,上海媒體報道量較為平均,分別為24%、26%和29%,而香港、臺灣、國外媒體華語版的報道則相對有其側(cè)重點,其中香港和臺灣媒體更關(guān)注世博會的主題,對科技創(chuàng)新綠色生活專題的報道較多,分別占報道總量的39%和41%,國外媒體華語版則更多地關(guān)注世博會的安保工作,共有34%的報道量反映這方面的問題。

圖5從左至右,由上到下分別顯示了上海媒體、臺灣媒體、香港媒體、國外媒體華語版在2010年4-11月期間關(guān)于世博會三大主要內(nèi)容報道的走勢。

可以看出,各地媒體對世博會關(guān)注的熱度基本保持穩(wěn)定,對所關(guān)注的主題也基本保持平穩(wěn)的走勢。僅有國外媒體華語版在5月份以后,報道量有一定下降,但是降幅不大,仍然保持一定的關(guān)注熱度。

此外,從二級屬性來看,各地媒體所關(guān)注的細節(jié)也有所差異,我們選取了關(guān)注的前五項進行對比分析,見圖10。

從表5中我們可以發(fā)現(xiàn),各地媒體共同關(guān)注的內(nèi)容主要集中在科技創(chuàng)新、綠色環(huán)保以及參觀人數(shù)方面,說明世博主題和參觀人數(shù)是各媒體的關(guān)注重點,然而各地媒體在報道中也有一些差異,如:上海媒體在志愿者(小白菜)這方面有較多的報道,但其他地區(qū)媒體則對此關(guān)注較少,說明對于世博的社會效應(yīng)關(guān)注不夠;另外國外媒體華語版對世博園區(qū)內(nèi)人流、排隊秩序方面關(guān)注較多,說明其對世博的安全運營較為關(guān)注。

6 結(jié)束語

隨著網(wǎng)絡(luò)和信息技術(shù)的不斷發(fā)展,網(wǎng)絡(luò)上的文本信息呈幾何數(shù)增長,面對海量的信息,人工對其進行相關(guān)分析已變得不可能。因此,借助于文本挖掘技術(shù)發(fā)現(xiàn)潛在的有價值的信息是情報分析研究的一個重要應(yīng)用。本文以上海世博會媒體網(wǎng)絡(luò)報道為例,運用文本挖掘技術(shù)并輔以屬性抽取、屬性關(guān)系映射等方法,實現(xiàn)了對海量數(shù)據(jù)的聚類分析,并對差異進行了比較研究。在實際研究中,考慮到新聞報道中大量采用自然語言的特點,在屬性抽取時結(jié)合了相似度的算法,使挖掘的準確率得到了提高。但是,對于屬性之間的有向關(guān)系、屬性的相關(guān)分析、以及如何保證屬性構(gòu)建的準確性等問題還需要進一步的探討。

參考文獻:

[1] Feldman R, Dagan I. Knowledge discovery in textual databases (KDT)// Proceedings of the First International Conference on Knowledge Discovery and Data Mining (KDD-95) ,1995 :112-117.

[2] Mothe J , Chrisment C, Dkaki T. Information mining - use of the document dimensions to analyse interactively a document set// BCS - IRSG 23rd European Colloquium on Information retrieval research, GMD-IPSI, Darmstadt,2001:6-20.

[3] Ghanem M, Chortaras A, Guo Y, et al. A grid infrastructure for mixed bioinformatics data and text mining. Computer Systems and Applications ,2005, 34(1):116-130.

[4] Karanikas H, Tjortjis C, Theodoulidis B. An approach to text mining using information extraction// Proceedings of the Fourth European Conference on Principles and Practice of Knowledge Discovery in Databases. Lyon, France,2000:13-16.

[5] Montes-y-Gómez M, Gelbukh A, López-López A. Text mining at detail level using conceptual graphs// Proceedings of the International Conference on Conceptual Structures.New York: Springer,2002,32-40.

[6] Hu Q h, Yu D R, Duan Y F,et al. A novel weighting formula and feature selection for text classification based on rough set theory. Proceedings of Natural Language Processing and Knowledge Engineering ,2003: 638.

[7] Blake C, Pratt W. Better rules,few features :A semantic approach to selecting features from text// Proceedings of 2001 IEEE International Conference on Data Mining ,2001:59–66.

[8] Kawahara M, Kawano H. An application of text mining:Bibliographic navigator powered by extended association rules// Proceedings of 33rd Hawaii International Conference on System Sciences, 2000:2009-2018.

[9] Girju R, Moldovan D. Text mining for causal relations// Proceedings of the International Florida Artificial Intelligence Research Society (FLAIRS 2002) ,Pensacola ,F(xiàn)lorida. May 2002:360-364.

[10] Lin D K, Pantel P. DIRT - Discovery of inference rules from text. Journal of Natural Language Engineering. Fall-Winter ,2001(12) :22-31.

[11] Bingham E. Topic identification in dynamical text by extracting minimum complexity time components// Proceedings of ICA,2001:546-551.

[12] Montes-y-Gómez M, Gelbukh A, López-López A. Discovering ephemeral associations among news topics// Proceedings of IJCAI—— 2001 Workshop on Adaptive Text Extraction and Mining, 2001:216-230.

[13] Lent B , Agrawal R, Srikant R. Discovering trends in text databases// Proceedings of the Third International Conference on Knowledge Discovery and Data Mining,1997: 227-230.

[14] 周茜,趙明生, 扈曼.中文文本分類中的特征選擇研究.中文信息學報,2004 ,18(3) :17-23.

[15] 盧嬌麗,鄭家恒.基于粗糙集的文本分類方法研究.中文信息學報,2005 ,19(2) :66-70.

[16] 劉云峰,齊歡.基于潛在語義空間維度特性的多層文檔聚類.清華大學學報(自然科學版) ,2005 ,45 (S1) :1783-1786.

[17] 丁堃,劉盛博,許侃. 基于文本挖掘機制的區(qū)域經(jīng)濟關(guān)系分析.情報學報,2006,27(3):418-424

[作者簡介]阮光冊,男,1976年生,博士研究生,發(fā)表論文10余篇。

主站蜘蛛池模板: h视频在线播放| 国产亚洲一区二区三区在线| 九色视频最新网址 | 久久鸭综合久久国产| 欧美亚洲日韩中文| 日本www在线视频| 亚洲成人一区二区三区| 久久精品中文字幕免费| 亚洲自偷自拍另类小说| 国产杨幂丝袜av在线播放| 国产一区二区精品福利| 国产欧美日韩综合在线第一| 19国产精品麻豆免费观看| 久久香蕉欧美精品| 97国产在线视频| 91www在线观看| 91在线精品麻豆欧美在线| 欧美成人日韩| 久久99国产精品成人欧美| 中文成人在线| 久久99国产精品成人欧美| 中国一级特黄视频| 香蕉久人久人青草青草| 免费精品一区二区h| 一本久道久综合久久鬼色| 91午夜福利在线观看| 日韩最新中文字幕| 国产一级无码不卡视频| 国产麻豆精品在线观看| 欧美成人h精品网站| 无码内射中文字幕岛国片 | 久久亚洲精少妇毛片午夜无码| 无码一区二区波多野结衣播放搜索| 青草午夜精品视频在线观看| 99久久精品免费看国产电影| 亚洲一区二区成人| 亚洲熟女偷拍| 国产网站免费观看| 国产永久无码观看在线| 天堂va亚洲va欧美va国产| 亚洲天堂福利视频| 亚洲第一国产综合| 亚洲黄色视频在线观看一区| 国产乱子精品一区二区在线观看| 精品久久香蕉国产线看观看gif| h视频在线播放| 国产欧美精品一区二区| 无码人中文字幕| 中文字幕色在线| 99热国产在线精品99| 无码中文AⅤ在线观看| 精品一区二区三区无码视频无码| 久久精品国产免费观看频道| 国产av剧情无码精品色午夜| 女人18毛片水真多国产| 99人体免费视频| 国产第一页免费浮力影院| 国产成人精品高清在线| 亚洲天堂网在线播放| 无码视频国产精品一区二区| 在线欧美日韩国产| 中文字幕一区二区人妻电影| 精品少妇人妻av无码久久| 欧美日韩中文国产va另类| 亚洲欧美成人综合| 色悠久久久久久久综合网伊人| 99久久性生片| 在线精品欧美日韩| 理论片一区| 中文国产成人精品久久| 亚洲天堂网在线视频| 日韩精品亚洲人旧成在线| 亚洲人成日本在线观看| 日本免费一区视频| 夜夜爽免费视频| 欧美啪啪一区| 99视频精品在线观看| 波多野结衣视频网站| 亚洲激情区| 99久久国产综合精品女同| 国产成人精彩在线视频50| 草逼视频国产|