999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

非結構化文本分析軟件比較研究*——以KHCoder和Wordstat為例

2015-03-19 06:17:36程慧榮黃國彬
圖書與情報 2015年4期
關鍵詞:單詞文本用戶

程慧榮 黃國彬 鄭 琳

(1.魯東大學圖書館 山東煙臺 264025)

(2.北京師范大學政府管理學院 北京 100875)

1 引言

非結構化文本是指以文本(字符、數字、標點、各種可打印的符號等)為數據形式的非結構化數據。非結構化文本數據的典型代表是圖書館數據庫中的文檔,這些文檔可能包含結構字段,如標題、作者、出版日期、長度、分類等等,也可能包含大量非結構化文本成分,如摘要和內容。當前互聯網上也存在大量的非結構化電子文本,如新聞、博客、電子郵件、政府文件、聊天記錄等。人們應該如何正確理解這些數據?目前普遍的方式是通過人工注釋語義信息實現對非結構化文本進行分析。但是數據量的過于巨大使得這項任務不可能完全憑借人工方式來完成,迫切的需要借助于計算機的幫助來完成對大量非結構化文本進行信息抽取和分析。在此情況下,非結構化文本分析軟件就應運而生了。非結構化文本,主要是指類似于字符、標點、各種可打印的符號等數據。比如,一篇文檔既可能包含結構字段,如標題、作者、出版日期、長度、分類等,也可能包含大量非結構化文本成分,如摘要和正文內容。而所謂非結構化文本分析軟件,是指能夠對非結構化文本進行自動化分析,進而將文本中詞頻、詞性、詞間關系等特征以結構化數據或者可視化方式呈現給用戶的計算機軟件。

早在 20世紀 50年代末,H.P.Luhn就已經在非結構化文本分析領域進行了開創性的研究,提出了將詞頻統計思想用于文本的自動分類。之后,這一領域逐漸得到學者們的重視,出現了許多新的研究成果。如Maron M E等人圍繞如何對非結構化文本進行自動分類開展了研究與探討;Ghanem M等人在經過深入研究后,提出了適用于非結構化文本的分析模型。除此之外,我國也有許多學者對這一問題加以關注,研究重點主要集中在文本特征抽取與文本中間表示、關聯規則抽取、語義關系挖掘、文本聚類與主題分析以及趨勢分析等領域。例如,李凡等人曾于2001年對文本特征的抽取進行研究,提出了一種新的文本特征抽取方法;萬小軍等人于2003年撰文試圖對文檔聚類方法k-means算法加以改進;而黃曉斌教授等學者則試圖對互聯網文本內容進行分析挖掘以達到對輿情信息的分析與預測。與此同時,由于對非結構化文本分析的需求日益加大,許多支持非結構化文本分析、功能日益完善的軟件也相繼出現,數量多達數十個。因此,美國哈佛大學學者Lowe W于2002年撰文對前述非結構化文本分析軟件進行了詳細的分類與介紹,以期為用戶選用非結構化文本分析軟件提供借鑒與幫助。然而,盡管有越來越多的學者將目光聚焦于非結構化文本分析這一問題,也產生了豐碩的研究成果,但是應該明確的是,現有研究大都從實現技術層面著手試圖對非結構化文本分析技術加以改進,而從用戶角度出發,將關注點集中在應用層面的文章卻少之又少。鑒于此,本文試圖以兩款較為常用的非結構化文本分析軟件——KH Coder和Wordstat為例,從內外特征共11個方面對其數據格式、工作流程、主要功能等進行比較分析,以期為用戶選用并研究非結構化文本分析軟件提供參考。

2 非結構化文本分析軟件的主要類型

根據筆者對各類非結構化文本分析軟件的調研,并且結合前人的研究成果,可初步將非結構化文本分析軟件按照主要功能劃分為如下三個類型:基于詞典的非結構化文本分析軟件、包含開發環境的非結構化文本分析軟件以及包含注釋的非結構化文本分析軟件。

2.1 基于詞典的非結構化文本分析軟件

基于詞典的非結構化文本分析軟件以詞典或詞表為基礎,通過將文本中的單詞與詞典或詞表進行匹配來完成對文本的分析。其最終結果通常是對詞頻等特征的統計數據,如CATPAC、Concordance等。

2.2 . 包含開發環境的非結構化文本分析軟件

包含開發環境的非結構化文本分析軟件在對文本進行分析時,能夠自動生成對應的詞典或詞表。其最終結果也是各類統計數據,但是與基于詞典的非結構化文本分析軟件相比,由于使用的詞典更具針對性,因此統計出的最終結果也更為精準,如Profiler Plus、DIMAP 等。

2.3 包含注釋的非結構化文本分析軟件

包含注釋的非結構化文本分析軟件是三種非結構化文本分析軟件中自動化程度最高的一種,其最終結果將以旁注、交叉參考以及筆記的形式呈現,其形式好比一個研究人員對某篇論文做的讀書筆記一樣,如 Atlas-ti、NUDIST等。

本文選擇了兩款第一種類型 (基于詞典的非結構化文本分析軟件)非結構化文本分析軟件(KH Coder、Wordstat)進行比較分析。之所以選擇第一種類型的非結構化文本分析軟件是由于:相對來講,第一種類型的非結構化文本分析軟件的使用更為普遍;之所以選擇KH Coder和Wordstat來作為比較分析的具體對象,一是由于上述兩款軟件較為普及,二是由于上述兩款軟件均為開源軟件 (Wordstat雖然非開源,但是有免費試用期)。

3 外在特征比較研究

本部分主要對上述兩款非結構化文本分析軟件的外部特征,即兩款非結構化文本分析軟件的基本概況進行比較,具體包括:軟件的費用、軟件的更新速度、軟件所支持的運行環境、軟件支持的語言種類、軟件運行的客戶端方式以及軟件是否配備有用戶指南等方面(見表1)。

表1 外部特征比較

3.1 軟件費用

費用問題將很大程度上影響用戶對軟件的選用。上述兩款非結構化文本分析軟件中,KH Coder是完全免費的,用戶可以通過其官網自行下載。Wordstat則是非開源的,但是有30天的試用期,在30天內用戶可以免費試用,超出試用期后,需要額外購買才能使用。可見,在軟件費用方面,KH Coder相對占有優勢,但是由于Wordstat允許用戶有30天的試用期限,也能夠一定程度上滿足用戶需求。

3.2 更新速度

軟件更新越快就意味著軟件自身的功能越完善,因此,軟件的更新速度直接影響到用戶對軟件使用的滿意程度。總的來說,上述兩款非結構化文本分析軟件都保持了良好的版本更新狀況。其中KHCoder的版本更新相對較快,最近一次更新是在2014年的4月17日。由此可見,上述兩款非結構化文本分析軟件中,KH Coder在更新速度上相對占有優勢。

3.3 運行環境

軟件所支持的運行環境越多樣,就意味著軟件的通用性越強,用戶使用時就可以不受物理條件的限制。上述兩款非結構化文本分析軟件中,KH Coder只能在Windows或MACOS X系列的環境下運行。Wordstat可以在全部的系統環境下運行,但是由于Wordstat只是一個功能模塊,因此必須在QDAMiner或者Simstat的基礎上才能運行。可見,雖然KH Coder支持的環境范圍較為狹小,但是不需要安裝額外的軟件,而Wordstat雖然可以支持全部的環境,但是需要額外安裝QDAMiner或者Simstat,二者各有利弊。

3.4 語言種類

非結構化文本分析軟件支持語言種類的多少可以從一定程度上作為軟件功能是否強大的判斷標準,支持的語言種類越多,其應用范圍就越廣泛。上述兩款非結構化文本分析軟件中,KH Coder可以支持日語、英語、法語、德語、意大利語、葡萄牙語和西班牙語共7種語言;Wordstat可以支持英語、法語、西班牙語以及荷蘭語共4種語言。由此可見,在所支持的語言種類方面,KH Coder占有明顯優勢,基本涵蓋了較為通用的外文語種。值得注意的是,兩款非結構化文本分析軟件都無法支持中文文本。

3.5 客戶端方式

客戶端方式是指用戶運行軟件時是可以將軟件下載到本地離線使用,還是需要登錄到軟件官網在線使用。相較而言,離線客戶端方式無須網絡,在本地就可以進行操作,更加方便易行,在線使用則相對繁瑣不便。上述兩款非結構化文本分析軟件中,二者都支持離線獨立客戶端的操作方式。

3.6 用戶指南

用戶指南可以降低用戶負擔,使用戶在最快的時間內迅速掌握軟件的使用方法,是影響用戶滿意度以及用戶是否選用軟件的重要因素之一。上述兩款非結構化文本分析軟件都配有詳細的使用說明手冊,用戶完全可以通過閱讀手冊自學軟件的使用方法。在這一點上,二者相差不大。

4 內在特征比較研究

本部分主要從主要功能、工作流程、所支持的數據格式、可視化功能中的展現方式以及關系揭示5個維度來對上述兩款非結構化文本分析軟件進行比較分析。其中,工作流程主要是對兩款非結構化文本分析軟件預處理階段的工作流程進行對比。這是因為,上述兩款非結構化文本分析軟件所具有的功能各不相同,用戶根據不同需求選用不同的功能時,其整體的工作流程也會改變,是不具有可比性的。但是作為軟件能夠順利完成分析的基礎,預處理環節是二者的必經步驟。因此,本文主要選擇預處理功能為主要對象進行工作流程方面的分析。

4.1 主要功能

軟件的主要功能是評價軟件優劣最重要的標準之一。通常情況下,非結構化文本分析軟件的主要基本功能有:詞頻統計、詞性分析、上下文關鍵詞、檢索功能、相似度計算、自動分類、概念發現、主題詞生成、可視化以及預測功能等方面(見表2)。

表2 主要功能比較

比較可知,Wordstat支持除相似度計算功能之外的全部功能,而KH Coder支持除摘要生成功能之外的全部功能。因此,總體而言,在基本功能的覆蓋方面,二者不相上下。并且雖然上述兩款非結構化文本分析軟件都無法支持全部的功能,但是卻形成了互補的態勢。因此用戶完全可以不局限在一款軟件中而將兩款軟件結合使用。此外,雖然上述兩款非結構化文本分析軟件都具有預測功能,但是二者的側重點各有不同。Wordstat的預測功能主要是通過對文本中的單詞、語法特征等進行分析,進而推斷出文本所屬作者的性別;而KH Coder的預測功能則主要是將文本中的單詞分為積極、中性和消極三個維度,通過對單詞性質的統計來預測文本的情感趨勢。

4.2 工作流程

本部分主要是對上述兩款非結構化文本分析軟件的預處理過程進行比較分析(見表3)。通常情況下,基于詞典的非結構化文本分析軟件的預處理流程為:停用詞處理、詞形還原、拼寫糾錯、詞句歸類、自動增刪詞表以及文本內部表示。

在預處理的模式方面,Wordstat為用戶提供了多種數據預處理的模式,用戶完全可以根據自己的需要自定義數據預處理的類型。例如,用戶可以選擇Porter stemmer項去掉單詞的前綴和后綴,也可以選擇n-grams項將每個單詞劃分為若干個特征值。而KH Coder只支持單一的預處理模式,其預處理過程主要是對文本進行句子切分、切詞處理、詞性分析以及詞形還原。用戶無法根據自己的需求自定義預處理的模式。相較而言,Wordstat不僅提供的預處理功能更全面,用戶根據需求選擇特定的幾個預處理模式也更加節省時間。可見,在預處理方面,與KH Coder相比,Wordstat占有絕對優勢。

表3 工作流程比較分析

在停用詞處理方面,兩款軟件都具有停用詞處理功能。其中,KH Coder的停用詞表來自Stanford POS Tagger。用戶在啟動KH Coder后,可以從KH Coder的下載包中將原本已有的Stanford POS Tagger拖拽到停用詞表中;Wordstat的停用詞表為自己編寫,但是兩款軟件所用的停用詞表相差不大,并且兩款軟件都支持用戶對停用詞表進行修改。可見,在停用詞處理方面,兩款軟件的差距不大。

在詞形還原方面,兩款非結構化文本分析軟件都可以對文本中的單詞進行詞形還原。但是KH Coder的詞形還原處理僅限于去掉前后綴等較為淺顯的詞形還原,而不包括對單詞的時態進行轉換等功能。Wordstat的詞形還原功能則較為強大,包含對單詞時態的轉換。可見,在詞形還原方面,Wordstat的功能比KH Coder更為豐富。

在拼寫糾錯方面,KH Coder沒有此功能,而Wordstat則可以對拼寫錯誤的單詞進行糾錯。可見,在拼寫糾錯方面,Wordstat占有優勢。

在詞句歸類方面,兩款軟件都會對文本進行歸類處理,即將一些詞義、語義相近的詞或句子歸類到同一個類別之下,以方便對文本的情感傾向進行預測。如,文本中出現的“好的”、“棒的”等詞語都會被歸類到“積極評價”這一個類目之下。可見,在詞句歸類方面,上述兩款軟件的差距不大。

在自動增刪詞表方面,Wordstat會根據文本中單詞出現的頻數自動增刪詞表中的單詞。對詞表中的單詞頻數進行統計后,Wordstat會將原本詞表中不存在但是文本中出現頻率高的詞增添到詞表中來,也會將原本此表中包含但是文本中出現頻數低的詞從詞表中刪除掉。同時,Wordstat還會刪除那些頻率過高,對分辨文本內容不具貢獻的超高頻詞。最后,Wordstat將會對文本中對象之間的關系以可視化的方式呈現出來。而KH Coder則沒有此項功能。可見,在自動增刪詞表方面,Wordstat更占有優勢。

在文本內部表示方面,KH Coder會將預處理后的結果轉化為內部表示的統一形式,并導入到后臺的MySQL數據庫中,以備之后的重復檢索和分析。Wordstat則沒有此項功能。可見,在文本內部表示方面,KH Coder占有優勢。

4.3 數據格式

軟件可以支持的數據格式的多少,是評價軟件兼容性的一條重要標準。軟件支持的數據格式越多,其使用范圍就越廣,通用性就越強。本文選擇了幾種最常見的數據格式用以檢驗上述兩款非結構化文本分析軟件所支持的數據格式的類型(結果見表4)。

表4 數據格式比較

比較發現,上述兩種非結構化文本分析軟件中,Wordstat可以支持TXT文件、Word文件、Excel文件以及數據庫文件四種數據格式,在數據庫文件中,Wordstat可以處理的數據庫文件類型包括:Access文件、dBase文件以及 Paradox文件。KH Coder僅可以支持TXT文件一種數據類型,想要處理其他類型的文件,需將其轉化為TXT文件才可進行。可見,在所支持的數據格式類型方面,Wordstat更占優勢,其通用性與兼容性都要遠遠勝于KH Coder。但是值得注意的是,上述兩款非結構化文本分析軟件都不支持矢量表示的文件格式,如PDF文件等,也不支持網頁文件、圖片文件以及音視頻文件。因此,總的來說,上述兩款非結構化文本分析軟件所支持的數據類型還十分有限。

4.4 展現方式

展現方式是對文本進行分析,以及對文本中的對象之間關系進行揭示的最終呈現,對于軟件的可視化功能來講,具有至關重要的作用。常見的可視化展現方式包括:柱狀圖、餅狀圖、折線圖、網狀圖、散點圖、氣泡圖、概念地圖、熱圖、聚類分析樹狀圖等(見表 5)。

表5 展現方式比較

比較發現,Wordstat支持上述9種展現方式,并且對于散點圖和概念地圖來講,還支持2D和3D兩種方式。KH Coder僅支持柱狀圖、折線圖、網狀圖、第三點圖、氣泡圖以及聚類分析樹狀圖6種。并且,KH Coder所支持的散點圖僅限制在2D散點圖類型而不支持3D模式。可見,在展現方式方面,Wordstat基本支持所有的展現方式,相比更具有優勢。

4.5 關系揭示

關系揭示是指對文本分析對象之間的關系進行展示。對于非結構化文本來講,常見的對象之間的關系主要就是指詞間關系。通常情況下,常見的詞間關系包括:CO-Occurrence、Chi-square、Likelihood ratio、Student's F、Tau-a、Tau-b、Tau-c、symmetric Somers'D、asymmetric Somers'Dxy、Dxy、Gamma、Pearson's R以及Spearman's Rho等(見表6)。

表6 詞間關系揭示比較

比較發現,在詞間關系的揭示方面Wordstat占有絕對優勢。不僅能夠揭示關鍵詞之間的共現關系,還支持其他多種類型的關鍵詞之間的關系揭示。而KH Coder在詞間關系方面僅支持關鍵詞共現關系的揭示。但需要指出的是,KH Coder除了支持詞間關系的揭示之外,還支持關鍵詞與章節之間的關系。即KH Coder可以通過統計關鍵詞在不同章節中出現的頻次來幫助用戶判斷文本中哪些章節為核心章節。而Wordstat則不具有揭示關鍵詞與章節之間關系的功能。因此在關鍵詞與章節之間關系的揭示方面,KH Coder更占優勢。

4.6 兩款非結構化文本分析軟件的應用對比分析

為進一步展示兩款非結構化文本分析軟件之間的異同與特點,本文選用同一文本對上述兩款軟件的基本功能進行了進一步的比較,比較的功能包括詞頻統計、上下文關鍵詞、檢索功能以及預測功能。在待分析文本的選擇上,選擇了二者都支持的TXT格式,文本內容為英文版小說《botchan》。筆者首先在預處理環節中對兩款軟件的停用詞表進行了修改,保證待分析文本所使用停用詞表的一致性。對比的結果顯示:

在詞頻統計方面,上述兩款軟件的統計結果基本一致,但有部分單詞的統計結果存在誤差。例如,對文本中“red”一詞進行頻數統計,KH Coder的統計結果為201次,而Wordstat的統計結果為204次。這可能是由于Wordstat的預處理環節無法處理帶有連詞符號的單詞,因而在遇到帶有連詞符號的單詞時,軟件默認其為兩個單詞,進而導致了某些單詞在頻數上的差異。并且,在呈現結果方面,KH Coder首先將單詞按照詞性進行了區分,進而統計單詞在每一種詞性下出現的頻次。仍以 “red”一詞為例,KH Coder對其的統計結果顯示,其以名詞出現的頻數為175次,以形容詞出現的頻數為26次;而Wordstat的詞頻統計結果并不支持特定詞性下的頻數統計,而是對單詞按照頻數高低、單詞首字母等順序進行排序(見圖 1)。

圖1 兩款軟件的詞頻統計功能

在上下文關鍵詞方面,兩款軟件的統計結果有較大差異。這主要體現為,KH Coder的查找結果中會涵蓋該單詞及該單詞其他所有形式,而Wordstat的返回結果中只包含該單詞。例如,在對單詞“room”進行查找時,KH Coder的返回結果中既有包含“room”的語句,也有包含“rooms”、“rooming”的語句,而Wordstat的返回結果中只有包含“room”的語句。在這一點上,兩款軟件是各有利弊的。對于想要一次性找全某一單詞全部形式的用戶來講,KH Coder無疑是一個很好的選擇,但是對于那些對所查找單詞的時態、單復數形式要求較高的用戶來講,Wordstat則更能滿足其需求(見圖2)。

在檢索功能方面,上述兩款非結構化文本分析軟件都能實現對特定單詞的精確檢索與定位,因而在檢索方面兩款軟件差異不大。

在預測功能方面,Wordstat的預測功能主要是通過對文本中單詞、語法特征等進行分析,推斷出文本作者的性別。例如,選擇對“love”一詞進行分析,得出其作者是男性的概率為47.8%,是女性的概率為52.2%。而KH Coder的預測功能則利用提前設置好的詞表(詞表中的單詞分為積極、中性和消極三個維度)與文本中的單詞進行匹配,以此來預測文本的情感趨勢 (見圖3,其中左圖為KH Coder,右圖為Wordstat)。

5 討論與結論

5.1 KH Coder和Wordstat的總體評價

對于KH Coder,其為開源軟件,打破用戶選用軟件時的經費障礙;更新速度快速,基本滿足用戶的需求;支持日文、英文、法文、德文、意大利文、葡萄牙文和西班牙文共7種語言,基本涵蓋了較為通用的語種;功能強大,支持除相似度計算的全部功能;預處理環節中,可以將待處理文件轉化為內部表示文本以備重復調用,節省時間和精力。但是,KH Coder的預處理部分僅包含停用詞處理等幾項步驟,并且不支持自定義預處理,模式較為單一;僅支持TXT一種數據格式,其他的常見數據格式,如Word、Excel等都不予支持,使用范圍較窄;僅支持樹狀圖、散點圖等較為基礎的幾種可視化展現方式,其他的圖形(如熱圖等)都不予支持,并且散點圖中僅支持2D模式的散點圖。可視化展現方式較為單一;僅支持關系揭示中的共現關系一種,對其他常見的詞間關系不予揭示,關系揭示的類型較為單一。因此,該軟件可考慮增加可處理文本的類型,并且豐富其可視化結果的展現方式,如增加概念地圖、熱圖等展現方式。

圖2 兩款軟件的上下文關鍵詞功能

圖3 兩款軟件的預測功能

對于Wordstat,其功能強大,支持除生成摘要外的全部功能,支持自定義的預處理功能,對文本的處理更為細膩;支持的數據格式更為全面,展現方式更為多樣,關系的揭示更為全面。然而,Wordstat為非開源軟件,費用方面處于弱勢;盡管支持的運行系統十分全面,但是需要在QDAMiner或者Simstat的基礎上才能運行,前期準備工作較為復雜;僅支持英文、法文、西班牙文和荷蘭文四種語言,對其他科研實力較高國家的語種則不予支持,如中文、日文等;不支持圖片、音視頻等格式的文本的分析,所支持的數據格式有限,預處理環節中,不能將文本標準化后轉變為內部表示的文本,以備反復調用。因而,在未來的發展中,該軟件可考慮增加可處理語言的種類及文本類型,同時增加文本內部表示及重復調用的功能。

5.2 非結構化文本分析軟件的未來發展

隨著數字化信息資源數量和種類的不斷增加,針對博客、微博、微信、系統日志等海量非結構化文本,如何快速、準確地對其進行挖掘,以提煉出人們所需要的簡潔、精煉、可理解的知識,是大數據時代文本分析的重要議題。由于非結構化文本多涉及人類自然語言,含有語氣、語調、修辭等更為復雜的信息,只靠固定維度的常規分析難以挖掘非結構化文本中隱含的知識點。因此,隨著大數據理念及其相關分析技術的發展,非結構化文本分析軟件的功能改進,將聚集于智能化、處理復雜文本、情感分析、簡化管理等方面。

(1)支持智能化理解。即非結構化文本分析軟件能夠借助主題分析算法確定非結構化文本的主要內容,以作進一步的分類與結構化。目前,已有非結構化文本分析軟件能夠生成文檔的術語矩陣,即提取非結構化文本中的核心詞進行聚類分析,并進一步通過文檔主題的生成模式,對具有相似主題的非結構化文本進行分類與分組。

(2)支持復雜文本處理。即非結構化文本分析軟件能夠對內容龐雜、議題分散等多學科、多來源、多格式的數據進行集成處理。通過嵌入命名實體識別算法,以確定非結構化文本中哪些部分包含人名、地名、機構名、產品名、單位名稱、日期、事件等實體,依托底層的本體模型,進行語義分析與挖掘。目前,國內已有科研機構啟動了大規模的本體建設。其成果將為非結構化文本分析軟件對復雜文本的智能處理提供有力支撐。

(3)支持情感分析。即非結構化文本分析軟件能夠對非結構化文本中的詞語、句子、段落中觀點進行挖掘。非結構化文本的情感挖掘將提供至少兩種維度的挖掘。一類是主觀性分析,包括主觀、客觀和中性;另一類是情感傾向分析,包括褒義、貶義和中性。

(4)支持簡化管理。即非結構化文本分析軟件能夠對不同應用場景、不同操作者,提供不同的操作模式。這種操作模式涵蓋界面設計、參數設置和結果展示等。同時,能夠支持不同操作者對動態變化的非結構化文本進行審計跟蹤、定期檢驗和檢測報告的自動生成。

在大數據時代,以KH Coder和Wordstat為代表的一系列非結構化文本分析軟件,將進一步結合非結構化文本的特性,在功能上進一步完善。

[1] 百度百科.非結構化文本[EB/OL].[2014-07-14].http://baike.baidu.com/link?url=Ekjk1bbPZm89_MiuNqT3ZTaT_Hpjemx l_EZ149BX_OkXOo4cmanZnFLhO3rjLqzOBcF_oBS35oHJBXGdiWZ1_a.

[2] 黃娟.基于文本挖掘技術的蛋白質相互作用預測方法研究[D].長沙:中南大學,2009.

[3] 曾道建,來斯惟,張元哲,劉康,趙軍.面向非結構化文本的開放式實體屬性抽取[J].江西師范大學學報(自然科學版),2013(3):279-283.

[4] Luhn H P.The Automatic Creation of Literature Abstracts[J].IBM Journal of Research and Development,1958,2(2):159-165.

[5] Maron M E,Kuhns JL.On Relevance,Probabilistic Indexing and Information Retrieval [J].Journal of the Acm,1960,7(3):216-244.

[6] Ghanem M,Chortaras A,Guo Y,et al.A grid infrastructure for mixed bioinformatics data and text mining[C].The 3rd ACS/IEEE International Conference,IEEE,2005:41.

[7] 李凡,魯明羽,陸玉昌.關于文本特征抽取新方法的研究[J].清華大學學報(自然科學版),2001(7):98-101.

[8] 萬小軍,楊建武,陳曉鷗.文檔聚類中k-means算法的一種改進算法[J].計算機工程,2003(2):102-103.

[9] 黃曉斌,趙超.文本挖掘在網絡輿情信息分析中的應用[J].情報科學,2009(1):94-99.

[10] Lowe W.Software for content analysis-A Review [M].Cambridge:Weatherhead Center for International Affairs and the Harvard Identity Project,2002.

[11] 孫坦,劉崢.面向外文科技文獻信息的知識組織體系建設思路[J].圖書與情報,2013(1):2-7.

猜你喜歡
單詞文本用戶
單詞連一連
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
看圖填單詞
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
如何獲取一億海外用戶
創業家(2015年5期)2015-02-27 07:53:25
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 国产精品短篇二区| 国产网站免费| 亚洲中文字幕久久精品无码一区 | 无码内射在线| 91丝袜乱伦| 999国产精品永久免费视频精品久久| 欧美日韩一区二区在线免费观看| 国产网站在线看| 国产人碰人摸人爱免费视频| 久久96热在精品国产高清| 亚洲国产欧美目韩成人综合| 久久亚洲AⅤ无码精品午夜麻豆| 日本欧美中文字幕精品亚洲| 国产微拍一区二区三区四区| 亚洲另类第一页| 91香蕉国产亚洲一二三区| 国内精品伊人久久久久7777人| 伊人久久大香线蕉影院| 亚洲日本韩在线观看| 性做久久久久久久免费看| 色哟哟国产精品| 国产导航在线| 青草视频在线观看国产| 亚洲侵犯无码网址在线观看| 国模沟沟一区二区三区| 亚洲中文字幕国产av| 青青热久免费精品视频6| 性色在线视频精品| 精品五夜婷香蕉国产线看观看| 九九久久精品国产av片囯产区| 人妻少妇久久久久久97人妻| 在线欧美日韩国产| 亚洲欧美激情小说另类| 男女男免费视频网站国产| 色天堂无毒不卡| 真人高潮娇喘嗯啊在线观看| 亚洲熟女偷拍| 国产一二视频| 成人综合在线观看| 欧美有码在线| 国产精品xxx| 99久久国产综合精品2023| 91精品国产91久久久久久三级| 国产成+人+综合+亚洲欧美| 综合色婷婷| 国产精品天干天干在线观看 | 67194亚洲无码| 欧美第二区| 亚洲午夜国产精品无卡| 久久免费看片| 夜夜拍夜夜爽| 国产日本欧美在线观看| 国产激情第一页| 人妻无码中文字幕第一区| 亚洲天堂视频网| 精品一区二区三区无码视频无码| 首页亚洲国产丝袜长腿综合| 欧美翘臀一区二区三区| 亚洲欧美精品日韩欧美| 日韩成人午夜| 国产美女精品人人做人人爽| 亚洲第一页在线观看| 2018日日摸夜夜添狠狠躁| 黄网站欧美内射| 国产69精品久久久久妇女| 免费a级毛片18以上观看精品| 丰满人妻中出白浆| 国产美女在线观看| 国产精品妖精视频| 一本视频精品中文字幕| 色天堂无毒不卡| 日韩视频福利| 热伊人99re久久精品最新地| 欧美精品高清| 狠狠色成人综合首页| 午夜视频www| 欧美在线精品一区二区三区| 日韩精品亚洲人旧成在线| 亚洲成a人片| 人妻免费无码不卡视频| AV网站中文| 国产亚洲精品自在线|