高國連
[摘 要] 本文主要研究基于自然語言處理技術和數據挖掘技術,面向出版行業,對海量、異構的數字出版文本內容進行智能分析與挖掘,研究與實現命名實體識別與語義關系抽取、自動摘要提取、自動關鍵詞提取、自動分類、自動過濾、自動消重、話題檢測與追蹤、情感分析等關鍵技術,為資源的編輯、加工、整理提供幫助,為知識標引和素材推薦等提供技術支撐。
[關鍵詞] 出版;文本挖掘;異構數據
doi : 10 . 3969 / j . issn . 1673 - 0194 . 2017. 21. 070
[中圖分類號] TP311.13 [文獻標識碼] A [文章編號] 1673 - 0194(2017)21- 0164- 02
1 背 景
數字出版已經成為出版行業的一種趨勢,將逐漸取代傳統出版方式。數字出版所產生的大量數字內容需要進行智能管理和自動加工,而其中文本數字內容數量最多,包括報紙、期刊、圖書等出版類型,對文本數字內容的智能加工與挖掘技術是數字出版領域的關鍵基礎技術,對數字出版多個子系統起到平臺支撐作用。例如,文本分類技術可以將數字內容按照行業分類體系自動歸類,文檔自動摘要技術可以將數字內容進行提煉和標引。這些技術能幫助出版行業單位對數字資源進行明晰化、系統化、智能化的管理,自動發掘潛在的知識規律,替代人工勞動,提高了生產效率。
目前,文本挖掘技術已經被廣泛應用于互聯網搜索與服務行業。主要采用的技術包括網頁信息抽取技術、網頁聚類技術、日志挖掘技術等,其目的是通過對互聯網網頁、用戶日志等數據進行分析,改善搜索效果和提高用戶體驗。然而,與互聯網搜索領域不同,數字出版領域的數字出版物形式多樣,包括期刊、報紙、書籍等等,不同類型的出版物具有不同的篇幅與結構。傳統的文本挖掘技術已不能滿足對數字出版領域數字內容的智能化處理與分析需求,因此亟需研發面向數字出版領域的文本挖掘技術。
2 大數據文本挖掘技術研究現狀
基于自然語言處理技術和數據挖掘技術,面向數字出版領域的文本挖掘技術,對異構出版內容資源內包含的知識體系進行抽取和挖掘,為資源的編輯、加工、整理提供幫助,為知識標引和素材推薦等提供技術支撐。一方面,對已有文本挖掘技術(例如基于條件隨機場的序列標注技術、基于支持向量機的分類技術等)進行升級改造,以滿足數字出版行業的技術要求;另一方面,針對新的技術需求,研發文本挖掘創新技術(例如開放式實體關系抽取技術、基于圖學習模型的摘要和關鍵詞統一抽取技術、非規范文本的情感分析技術等)。
文本挖掘成果的處理對象主要針對新聞文本類型,無法處理數字出版行業所產生的異構數字內容,例如對科技文獻和書籍進行自動摘要的難度要遠大于對新聞文檔的自動摘要,因此這些已有的文本挖掘技術已經打下了一個堅實的基礎。
3 異構數據文本挖掘技術目標
基于自然語言處理技術和數據挖掘技術,面向出版行業,對海量、異構的數字出版文本內容進行智能分析與挖掘,研究與實現命名實體識別與語義關系抽取、自動摘要提取、自動關鍵詞提取、自動分類、自動過濾、自動消重、話題檢測與追蹤、情感分析等關鍵技術,為資源的編輯、加工、整理提供幫助,為知識標引和素材推薦等提供技術支撐。本課題研發的技術將作為數字出版行業的關鍵支撐技術,為多個相關子系統提供服務。
面向新聞的命名實體識別技術、傳統的文檔摘要與關鍵詞抽取技術、面向簡單分類體系的文本分類技術、基于高維索引的文本相似搜索技術、基于規則的文本過濾技術、基于聚類的主題檢測技術、基于查詢的主題追蹤技術、新聞規范文本的情感分類技術。
4 異構數據文本挖掘技術路線
異構數據文本內容文本挖掘技術劃分為三個層次:引擎層、服務層以及應用與管理層。
4.1 引擎層
引擎層包括各項文本挖掘的基礎功能,實現文本挖掘的核心算法。
(1)命名實體識別,識別出文本中出現的專有名稱和有意義的數量短語并加以歸類。
(2)實體關系抽取,識別一個文檔集內存在聯系的實體,并抽取適當的短語描述它們之間的關系。
(3)自動關鍵詞與摘要提取,為給定的一篇或多篇文檔自動提取若干反映文檔主要內容的關鍵詞;在符合長度要求的限制下,抽取若干反映文檔主要內容的若干句子組成摘要;以及針對用戶特定查詢的相關文檔集,生成描述這些文檔與用戶查詢相關的摘要。
(4)自動分類,依據文檔內容,按照預先指定和訓練的分類體系進行自動分類。
(5)文本過濾,根據用戶設置的敏感規則對文檔進行過濾,并特別針對互聯網中出現的各種隱藏的敏感內容的手段加以識別。
(6)文本消重,提供海量文檔的快速相似判斷功能,為版權保護、學術不端行為檢測等系統提供支撐。
(7)話題檢測與追蹤,在沒有話題的先驗知識的情況下從信息流中實時自動檢測出各個話題及其相關的文檔;以及通過若干篇相關報道學習話題內容并在信息流中跟蹤其后續相關報道。
(8)情感分析,以自然語言處理技術和文本挖掘技術為基礎,重點研究對用戶評論文本的情感語義計算核心技術,提供文本情感傾向分析、情感要素抽取功能。
4.2 服務層
服務層包括功能接口和數據接口及并發控制模塊。功能接口對引擎層提供的各項文本挖掘功能進行封裝,與出版企業服務總線相連,為工程其他系統提供服務,同時還開放配置接口以便管理工具和其他系統能夠根據需要調節文本挖掘系統參數。數據接口封裝數據庫、本地文件、網絡數據流相關輸入輸出操作,為文本挖掘模塊提供統一的數據處理接口。數據監視器根據定時計劃任務掃描數據源,發現變化的數據,主動將數據推送給相應的文本挖掘模塊進行處理。并發控制模塊在采用集群部署時負責分配挖掘任務并匯聚挖掘結果。
4.3 應用與管理層
應用系統根據應用需求,通過出版系統總線服務調用文本挖掘系統的一個或幾個功能。例如,選題優化系統可以調用主題檢測功能獲得熱點話題信息;出版輿情分析系統可以調用情感分析功能獲得出版輿論的情感傾向,調用文本過濾功能檢查有無針對敏感內容的用戶評論等。
5 結 語
異構數據文本挖掘技術利用基于規則的敏感信息識別技術和基于樣例文檔的話題追蹤技術分析文本信息流的話題,并利用話題檢測技術分析挖掘當前的熱點話題,為出版選題、效果評估等決策提供科學的依據,應用前景非常廣闊。
主要參考文獻
[1]楊建武,陳曉鷗.XML文檔集的聚類研究[C]//全國數據庫學術會議,2001.
[2]李尚昊,朝樂門.文本挖掘在中文信息分析中的應用研究述評[J].情報科學,2016,34 (8):153-159.
[3]謝秋華.Web文本挖掘的相關技術問題探討[J].長春理工大學學報:自然科學版,2010(7):55-56.
[4]許高建.文本挖掘關鍵技術研究及實現[D].合肥:合肥工業大學, 2007.endprint