999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于文本挖掘和可視化技術的主題自動標引方法

2019-08-23 05:38:50陳博陳建龍
現代情報 2019年8期

陳博 陳建龍

關鍵詞:可視化標引;自動標引;可視化自動標引;格薩爾

文獻標引是針對文獻的情報內容和特征,從目標文獻中抽取檢索標識的過程。當前的標引研究主要聚焦于關鍵詞標引、分類標引等方面,在標引方法上以基于關鍵詞等文本信息的統計分析和語言分析為主。主題法是從內容角度進行文獻標引和檢索的主要方法,主題標引是文獻標引工作的核心之一,其“通過主題詞及主題詞組配所構成的主題標識,來揭示文獻的學科內容”,在實踐中常與分類標引互相補充。隨著全文檢索需求和相關技術的提升,文獻標引相關研究與實踐也逐漸由文獻層深入到文獻內容層。

可視化的認知增強功能,能夠在人們找尋信息和理解信息時提高人們的認知效率與認知能力,減輕人們的信息壓力與信息負荷;可視化的語言文化功能,可基于視覺語言的特性,傳達信息中“不可言說的部分”,為觀察者提供更方便快捷的信息獲取方式,以及更全面直觀的信息內容。

本文研究通過將文本挖掘與可視化技術結合,對文本中的主題相關信息與文獻章節、段落的關系進行可視化呈現,嘗試將標引單元細化到文獻具體內容,探索了一種新的可視化主題自動標引方法,并設計了可視化主題自動標引系統。該系統主要包括文本挖掘模塊、統計模塊、可視化展現模塊三大核心模塊和主題詞全文標引數據庫,為用戶提供可視化、交互式的主題標引和主題檢索途徑,幫助用戶直觀高效獲取信息。

1可視化主題自動標引方法

當前的自動標引研究主要基于關鍵詞自動標引技術,依靠關鍵詞來刻畫和描述文獻。隨著相關技術不斷發展,標引效果也得到了提升,但關鍵詞文本所提供的信息量有限.而且無法體現其背后所指代的核心概念之間的關系;同時,文獻的關鍵詞數量也十分有限,無法收入讀者需要的所有詞語。另外,傳統的自動標引均以文獻整體為標引對象,以統計分析與語言分析為主要方法,近年來的文獻標引工作逐漸深入到文獻內容中,文獻標引詞的發現、全文標引方法的探究受到了許多學者的關注。

本文提出的可視化主題自動標引方法,可基于文本挖掘技術,針對特定主題進行文本內容挖掘,發現更具文獻特征的主題詞.并將其在文獻中的分布情況進行可視化呈現。在可視化圖像中以文本的章節或段落為橫坐標,以特定主題的主題詞為縱坐標,以圖形將主題詞在各章節、段落中的出現次數進行可視化表示,來揭示特定主題下的主題詞在文本中的分布情況,可精確定位到主題詞所在的章節、段落,甚至句子,方便讀者和研究人員進行主題詞的高效檢索,并輔助其發現主題間的潛在關系。讀者可通過上述視覺表現自主獲取文中的多元主題信息,并在直觀的視覺觀察和交互式探索中確定關鍵詞,直接定位到其所出現的具體位置,實現一種全新的基于可視化交互的文獻主題自動標引方法。

2可視化主題自動標引系統

本文嘗試將可視化技術引入文獻標引工作,構建可視化主題自動標引系統,以實現精確到內容的可視化文獻標引。如圖1所示,該系統核心由三大模塊和章節信息數據庫構成,三大模塊分別是用以實現數據文獻全文處理及主題詞自動提取的文本挖掘模塊、基于用戶輸入和主題詞全文標引數據庫的統計模塊,以及支撐用戶完成交互化操作的可視化展現模塊。

2.1實現數據文獻全文處理及主題詞自動提取的文本挖掘模塊

要實現具體文獻的全文標引.首先需要獲取相應的全文數字文獻。對于可直接提取全文文本的數字文獻,如TXT、Word、文本PDF等格式的數字文獻,直接通過自然語言處理(Natural LanguageProcessing)來完成文本挖掘。對于紙質文獻,需要在文本挖掘之前進行掃描前處理,獲取圖片形式的PDF全文.通過OCR(Optical Character Recog.nition)技術將PDF轉換為JSON文本。該文本包含語句所在PDF的文本內容及位置信息.將其文本內容轉換為TXT文本的數字文獻,位置信息轉換為對應的卷、章、頁、段、句等信息。

在完成全文文本信息提取后.進入文獻標引主題詞自動提取和計算流程,主要包括4個技術環節:1)利用分詞器進行文本自動分詞,分詞過程中引入通用的《現代漢語詞典》、文獻相關的領域詞典等外部詞典,幫助提升分詞器性能;2)通過支持向量機模型對分詞結果進行詞性標注,得到詞語的訶l生分類結果;3)基于最大熵模型完成命名實體識別,獲取在文獻中具有特定意義的實體,如人名、地名等;4)基于命名實體識別結果進行特征詞計算.在當前文獻中算出目標詞的詞頻,再使用《人民日報》數據集計算詞語的逆文本頻率指數,進而算出相應的TF-IDF值,數值越大說明該主題詞對于本篇文獻的重要程度越高。

選取數值較高文獻主題詞的重要依據。經由如上步驟,就可以根據標引需求從數字文獻中挖掘并篩選出文獻主題詞。

基于上述的全文數字文獻和主題詞構建起該文獻的主題詞全文標引數據庫,為后續研究提供數據支持。

2.2搭建基于主題詞全文標引數據庫的統計模塊

在主題詞全文標引數據庫中.正文文本以句為基本單位儲存,由其構建出包含卷、章、頁、段、句等的文獻層級結構。以倒排庫形式構建數據庫,可以從關鍵詞出發去定位數據庫中的文檔.快速獲取包含該詞的文檔列表,精確統計出其相應的位置信息,及其在某一章節、段落中出現的頻率。

基于主題詞全文標引數據庫的統計模塊.通過關鍵詞匹配的方法,匹配到用戶輸入的關鍵詞所在的句子,獲取其在文本的卷、章、頁、段、句的位置以及頻率信息,進而完成數據統計。匹配過程中.系統將基于輸入的關鍵詞自動輸出由數組矩陣的形式表示的關鍵詞分布情況,其中關鍵詞出現的詞頻可以章節或段落為單位進行統計和呈現,以實現關鍵詞在文本的卷、章、頁、段、句等各層級中的精準定位。

2.3實現用戶交互式可視化展現模塊

確定待標引的主題.以其包含的主題詞作為關鍵詞,通過統計模塊獲取相應數據后,即可利用可視化工具ECharts中的散點圖模塊,生成相應的可視化表示。在可視化圖像中以文本章節、段落,甚至句子為橫坐標,以主題詞為縱坐標,將主題詞在各章節和段落中的出現次數用大小不同的點進行表示。具體主題詞在橫向和縱向空間的分布情況,能直觀地展示出其在文本中的分布規律及重要程度,也可揭示各主題詞之間的相關性與權重。

用戶可基于可視化呈現效果.根據其中圖形大小、共現位置等的視覺相關關系發現信息,利用可視化展現模塊支持的放大、點擊等交互式操作進一步探索相關信息。交互過程中本模塊將根據用戶輸入反饋相應的可視化分析結果,比如在點擊、放大主題詞所在章節、段落位置的節點后,系統將進一步展現相關信息.讓用戶清晰獲取相關主題詞在各章節、段落中的出現情況,或通過系統直接定位到關鍵詞在章節段落數據庫中所在的具體位置,詳細呈現相應的正文文本內容信息。

3以《英雄格薩爾》為例的可視化主題自動標引

《格薩爾》是廣泛流傳于我國藏區的英雄史詩,素有“東方荷馬史詩”之美譽,其篇幅宏大、情節復雜、版本多樣、說唱體特點鮮明、語言詞匯極具領域性,藝術文化價值巨大,文本處理難度也極高。自11世紀以來,越來越多的研究者和相關人員對其展開整理工作.隨著學科研究的深入,高效便捷地進行全面的文獻研究成為了學科研究面臨的一大挑戰。可視化主題自動標引的方法,有助于優化文獻的全文標引結果,提升學科文獻檢索等相關研究與應用的效果。從文獻內容來看,史詩圍繞格薩爾展開,主要描述眾多人物在各個部落發生的事件,人物、地域宗族是文獻中的重要數據,本文研究即以這兩大主題進行自動標引探索。

3.1《英雄格薩爾》主題自動標引的數據準備與預處理

本文選取降邊嘉措主編的《英雄格薩爾》作為史詩文本,先通過OCR技術對文獻圖片進行文字識別,完成圖片到文本的自動轉換,再經人工校對得到3.95MB的全文文本數據,其中正文部分包含5卷書、220個章節、1833頁、28444個段落和47571個句子,構成了待標引的數字文獻。

鑒于格薩爾領域存在大量領域性顯著的詞匯,文獻主題詞的選取過程較為復雜。首先利用Jieba分詞器以句為基本單位對文本進行分詞.并在過程中添加《現代漢語詞典第5版》和《常見藏語人名地名詞典》以提升分詞效果,之后由手工驗證分詞結果。接著使用哈工大LTP詞性標注模型,通過支持向量機模型和863詞性標注集對分詞結果進行訶l生標注,再手工篩選出人物和地域宗族主題詞匯。接下來對哈工大的LTP命名實體識別模型進行訓練,將《英雄格薩爾》(卷一)標注為人名、地域與宗族名等8類,并將該文本按照9:1的權重分為訓練集與測試集。根據50輪的最大熵模型訓練結果來看,第29輪測試集調和平均值最高,用此輪模型對《英雄格薩爾》第二至五卷的分詞與詞性標注結果進行命名實體識別.將人名標記為Nh,地名標記為Ns。接下來計算人名、地域與宗族名相對于2000年1月至12月的《人民日報》TF-IDF值,按照數值從高到低進行詞語排序,再通過人工篩選就可得到文獻在人物、地域與宗族主題中的主題詞。

基于文本挖掘技術完成《英雄格薩爾》的數字文獻獲取和主題詞選取后.即可利用相關數據構建主題詞全文標引數據庫,配合文獻統計模塊和ECharts中的可視化模塊.以可視化的主題自動標引方法,從人物和地域宗族主題角度進行主題自動標引的實踐探索。

3.2單一主題單個主題詞的可視化主題自動標引

分別從人物主題和地域與宗族主題中選取一個主題詞,以其為例對主題詞在全文章節中的出現情況.及其在某一章節段落中的出現情況進行可視化主題自動標引研究。

根據統計模塊顯示.格薩爾王的王妃之一阿達娜姆在全文中共在64個章節里出場311次,是史詩中的一個重要人物.我們將其作為人物主題的示例進行可視化主題自動標引研究。以章為單位,根據其在全文中的出現次數繪制出圖3,其中橫向坐標對應人物出現的章節位置,散點大小表示出現次數的多少。

觀察圖3可知.阿達娜姆自出場后就開始就持續、有規律地出現在文本中,其中最后幾章的詞頻顯著高于其他章節。統計模塊反饋的數據顯示,阿達娜姆在史詩尾聲的214~218章中詞頻突增,點擊該區域獲取主題詞出現段落的可視化表示,可對人物進行深入了解。以第215章的出現段落分布為例,通過可視化主題自動標引結果,可觀察到人物在該章具體段落中的出現情況如圖4所示。

點擊人物在215章中首次出現的節點,即可于標引系統中Book:5;Chapter:215;Page:48;Para.graph:656;Sentence:1位置檢索到句子:“過了七七四十九天,阿達娜姆的靈魂到了生死沙山山口,此時閻羅王已經感應到了有個非同尋常的人到了地獄中來”.說明與阿達娜姆相關的情節發生的地點轉到了地獄。由“阿達娜姆”在本章的密集分布,推測后續有大量情節與其相關,點擊查看本章其他節點,可知故事圍繞阿達娜姆在地獄接受審判展開,驗證了推測。若想完整了解史詩塑造的人物,則可定位到其在全文中其他章節的節點,獲取人物身份、關涉情節、人物結局等相關信息,通過直觀觀察和便捷的檢索交互即可較清晰地梳理出人物發展脈絡。

在地域與宗族主題中,我們選擇“財寶城”為例進行分析.根據圖5所示的可視化分布結果來看.主題詞集中出現的位置大致在第100~110章,并且其詞頻在最后出現的章節激增。

選中財寶城的出現區域并放大,可清晰查看到其出現位置和次數,如圖6所示,可知第108章是主題詞出現的核心章節。

點擊查看主題詞在第108章的段落分布情況如圖7所示,主題詞在該章節中的分布具有顯著的規律性,出現段落中的詞頻數量均衡,而且前半部分的出現間隔差異較小。

通過點擊段落分布圖節點,定位到該章節中的具體句子.發現財寶城在第108章中Paragraph:4599 Sentence:1、Paragraph:4607 Sentence:1等7個位置的句子內容均為“請攻下大食財寶城”,一方面揭示了本章情節以攻打城堡為主線:另一方面也由主題詞所在的唱詞部分體現出史詩文本說唱體的特點。

根據以上可視化主題自動標引結果可知,單一主題單個主題詞的可視化在揭示主題詞分布規律和主題詞在章節中的重要性方面效果顯著,與其對應的主題自動標引在深入揭示主題詞相關的文本內容、故事情節、人物發展,甚至文本語言特點等方面都有良好表現。

3.3單一主題多個主題詞的可視化主題自動標引

為從整體視角了解人物主題的情況,我們基于人物主題詞的章節出現數據,以章為單位,對詞頻50以上的人物進行研究。可視化主題自動標引顯示,人物在文本中的出場情況大致可分3種:全文貫穿型人物,如格薩爾、丹瑪、絨察查根,出現于史詩全篇,但各人物的出場頻率存在差異;區間出現型人物,如玉拉、白帳王,出現于特定章節,主要與所處章節中的其他人物產生直接關聯:孤立存在型人物,以隆納巴姜為代表,僅出現于單一章節,體現出人物在史詩的整體故事和人物網絡中處于相對獨立的狀態。其中幾個代表人物的出場情況如圖8所示。

分布圖的橫向數據體現出領域人物在全文的出場情況,揭示了各人物在史詩全篇及各章節中的地位,以及人物與故事情節的相關性;縱向數據則可說明各人物間的共現情況,可基于此挖掘人物間的相關性,了解不同人物在同一章節中的重要程度。以圖7中的格薩爾和玉拉為例,雖然主人公格薩爾在史詩中占絕對核心地位,但從第63章到第70章的多個章節中,玉拉的出現詞頻顯著高于格薩爾,一定程度上揭示出玉拉在該部分的權重要高于格薩爾。

從地域和宗族主題的整體情況來看,我們以相同的方法對詞頻10以上的地域與宗族主題詞進行出現章節的可視化主題自動標引.并選擇其中有代表性的主題詞展示如圖9所示。

圖9系統地呈現了各主題詞的分布情況.可幫助受眾快速建立對該主題的整體認知,還可從多個主題詞的縱向分布情況進行相關信息的挖掘。主題詞的共現位置一致性越高,其存在相關關系的可能性越大。我們重點對圖9共現位置高度一致的兩組主題詞進行研究,挖掘財寶城與大食國、雪山國與達瑪拉雅國的相關信息。根據標引定位的Book:2Chapter:103 Page:323 Paragraph:3977 Sentence:3內容:“但按照預言中‘時值木虎年,去攻大食財寶城.為嶺地藏地辟財源的說法,該是征服大食國的時候了”,確認財寶城與大食國存在歸屬關系。基于雪山國和達瑪拉雅國的共現情況定位到的Book:4 Chapter:166 Page:16 Paragraph:123 Sen-tence:1和Sentence:2 Content:見收回赤谷部落如此輕松……想不動刀槍使他們繼續向雪山國納貢。誰知第一個送信的使臣就碰了釘子.達瑪拉雅國拒絕投降。驗證了雪山國與達瑪拉雅國的敵對關系。

如上所述,對單一主題多個主題詞的可視化主題自動標引,可以從整體視角掌握該主題中的主題詞分布情況,還可以對不同主題詞間的權重和相關關系進行分析,并利用系統直觀便捷地獲取相關信息。

3.4多元主題多個主題詞的可視化主題自動標引

從多元視角對史詩進行分析時.可通過多元主題的可視化自動標引發現多維度視角下的新信息。我們匯總人物主題和地域與宗族主題數據.對其進行可視化自動標引,得到多元主題詞的呈現,本文從中選擇主題詞“霍爾、雅澤城、白帳王”進行分析。

如圖10所示,“霍爾、雅澤城、白帳王”的出現位置一致性高,基于三者的共現,可由自動標引系統精確定位到Book:2 Chapter:62 Page:42 Par.agraph:305 Sentence:2位置的“唐澤趕到那兒后,向梅乳澤說明了:‘嶺國大軍到霍爾以后.早就占領了雅澤城,格薩爾王已把白帳王消滅多時了.我已誠心誠意地向格薩爾投誠”等,描述三者關系的句子,明確其間的層級和歸屬關系。可見,這一方法除了能提升文本內容的標引效果和讀者獲取信息的體驗之外,還能發現多維度主題下主題詞間的隱含關系,對領域內多層級的地理區域和部落宗族系統的構建,以及人物與地域宗族關系網絡的梳理等起到輔助作用。

顯然,以可視化方式呈現主題詞的出現情況,能夠在簡化信息獲取流程的同時提供比文字描述更多的信息,特別是隱含信息,進而提升信息獲取的效率。將多元主題結合,多維度綜合主題詞信息進行可視化,可直接觀察多主題內容間的相關性。通過本文提出的可視化主題自動標引系統,用戶可以從不同視角觀察文獻、獲取信息,并基于主題詞在全文的章節、段落、句子中的精確定位,快速進行內容檢索。

4結束語

本文研究將文本挖掘與可視化技術結合應用于文獻標引,提出了一種主題自動標引的方法。基于文本挖掘技術從文獻中自動發現更具代表性的主題詞.構建主題詞全文標引數據庫.再引入可視化技術,搭建可視化的主題自動標引系統。將此系統在格薩爾學科領域的人物主題和地域與宗族主題進行標引驗證,其可視化呈現結果揭示了史詩中的主題相關內容.實現了深入到文獻內容層的自動標引,并以可視化的方式取得了比傳統標引更直觀便捷的標引效果.證實了可視化主題自動標引系統的可行性和有效性。

從信息服務角度看.這一主題自動標引方法以可視化呈現、交互式操作、內容級定位的特點對傳統標引方法進行了革新,深入到文獻內容對主題內容進行可視化標引和展現,實現到篇章、段落,甚至句子級的標引定位。同時,本文的主題自動標引驗證系統在格薩爾領域的可視化驗證表明,該系統可以幫助史詩讀者和研究人員以更高效精準的方式進行領域文獻內容級的檢索與利用,還可以在豐富領域知識檢索、問答對話等相關應用的同時,提高格薩爾史詩的學習和學科研究效率,推動學科發展。

本文研究囿于文章靜態呈現形式和篇幅限制,在研究結果的展現上僅截取了部分靜態的可視化圖像,在后續研究中需推進搭建動態交互系統;在主題自動標引的可視化呈現上,除采用以章節為橫軸的散點圖外,還需擴展到更豐富的視覺表達形式;在主題詞類型選取上,文章基于史詩文獻的題材特點,針對人物、地域與宗族的主題詞展開了自動提取和標引工作,后續應在更廣泛的主題領域中展開相關研究;在標引方法上,研究僅基于關鍵詞標引展開,未來應引入最新的自然語言處理技術,深入挖掘關鍵詞背后的概念及相關概念知識.以實現基于語義的知識標引。

主站蜘蛛池模板: 欧美性色综合网| 国产免费黄| 女人爽到高潮免费视频大全| 久久精品一卡日本电影| 一级黄色欧美| 精品欧美一区二区三区在线| 制服丝袜无码每日更新| 欧美激情伊人| 精品人妻无码中字系列| 亚洲成人黄色在线| 亚洲国内精品自在自线官| 国内嫩模私拍精品视频| 99久久性生片| 欧美精品色视频| 国产极品美女在线| 高潮毛片免费观看| 国产中文一区二区苍井空| 亚洲女同一区二区| 青青青视频免费一区二区| 成人亚洲国产| 国产成本人片免费a∨短片| 直接黄91麻豆网站| 爱色欧美亚洲综合图区| 亚洲精品图区| 香蕉久久国产超碰青草| 免费精品一区二区h| 亚洲午夜福利精品无码不卡| 国产成人亚洲综合A∨在线播放| 四虎亚洲精品| 久久国产精品国产自线拍| 亚洲日韩精品综合在线一区二区| 国内精品一区二区在线观看| 亚亚洲乱码一二三四区| 永久在线播放| 精品91在线| 国产一区三区二区中文在线| 日韩在线影院| 国产在线自乱拍播放| 亚洲永久视频| 老司国产精品视频| 四虎免费视频网站| 亚洲第一色视频| 成年人国产视频| 波多野结衣二区| 国产精品久久久免费视频| 国产一级精品毛片基地| 国产成人艳妇AA视频在线| 久久久久亚洲Av片无码观看| 夜精品a一区二区三区| 毛片a级毛片免费观看免下载| 99国产精品国产高清一区二区| 久爱午夜精品免费视频| 欧美中文字幕在线视频| 91精品啪在线观看国产91九色| 114级毛片免费观看| 精品国产自在现线看久久| 国产女人18毛片水真多1| 国产精品欧美亚洲韩国日本不卡| 亚洲狠狠婷婷综合久久久久| 朝桐光一区二区| 色屁屁一区二区三区视频国产| 911亚洲精品| 亚洲中文在线看视频一区| 国产天天色| 夜夜操狠狠操| 2020亚洲精品无码| 午夜少妇精品视频小电影| 日本久久免费| 国产免费一级精品视频| 国产精品成人AⅤ在线一二三四| 2021国产在线视频| www成人国产在线观看网站| 在线免费不卡视频| 91热爆在线| 亚洲美女高潮久久久久久久| 亚洲精品自产拍在线观看APP| 国产欧美日韩va另类在线播放| 中文字幕有乳无码| 国产九九精品视频| 久久人午夜亚洲精品无码区| 亚洲国产一成久久精品国产成人综合| 亚洲欧美精品一中文字幕|