張魯冀


一、論文的研究背景和意義
科技檔案是指在自然科學研究、生產技術、基本建設等活動中形成的應當歸檔保存的圖紙、圖表、文字材料、計算材料、照片、影片、錄像、錄音帶等科技文件材料。2010年以前,由于信息傳播速度、信息量以及計算機技術的普及都落后于今天,全國各地的科技情報研究所都是使用人工的手段從科技檔案中收集情報,然后再對數據進行篩選、去重、統計,這種方法既費時又費力。隨著互聯網的發展,數字檔案平臺、科技報告系統的興起以及大數據時代的到來,科技情報研究部門對信息的需求量與日俱增,人工檢索數據、篩選數據的方法必將被淘汰,取而代之的是利用計算機技術自動地對數據進行檢索、處理和分析。
從目前的情況來看,完全用計算機代替科技情報研究人員進行情報分析工作是不現實的,因為很多情報的判讀需要科技情報研究人員常年累積的經驗,計算機可以做的是在最大限度上用計算機代替人工做重復性的工作。此外,情報領域與計算機領域有一定距離,情報研究人員往往不懂計算機技術,甚至對軟件的使用都感到棘手。針對上述實際需求,需要開發一個無監督的系統,該系統可以按照需要自動采集數據,并可以對數據進行去重、分析。
基于以上背景,本文計劃在錢學森提出的綜合集成研討方法指導下,基于數字檔案平臺、科技報告系統等數據庫設計建立一套以人為主,數據、信息、知識和智慧綜合集成,高度智能化的人機結合智慧情報系統,從系統的物理構成來看,包括三部分:一是由參與情報解讀的專家組成的專家體系;二是由為情報工作人員和專家提供各種信息服務的計算機軟硬件技術組成的機器體系;三是由各種形式的信息資源組成的知識體系。從情報分析過程來看,該系統包括三部分:一是基于專家體系經驗判讀的定性情報綜合集成系統;二是基于數據采集處理工具的定量情報分析綜合集成系統;三是從定性情報到定量情報的綜合集成系統。總之,該系統的建設不僅需要建立由不同學科、不同領域專家組成,具有能面對復雜巨系統問題所需要的合理知識結構的專家體系,而且還需要設計開發能夠有效處理海量數據的工具,實現信息的高效采集與精確分析。從技術構成分析,歸類能力、關聯性分析能力、輔助解讀能力、報告輔助生成能力是該系統應具備的幾大核心能力。
文章將主要運用信息智能檢索、數據統一結構化、信息抽取、機器學習、自然語言理解等前沿的數據挖掘分析技術,對各數據庫的結構化與非結構化文本進行處理,實現對海量信息的數據挖掘,完成數據的關鍵詞輸入、引文爬取、數據解析分析、統計。最終形成關于學術專題情報報告雛形。
二、學術專題檔案情報快速輔助生成系統功能需求分析與系統設計
大數據時代的數據特征為情報服務過程中數據采集提出了嚴峻的挑戰,檔案數據庫和科技報告數據庫等結構化信息異構、重復,質量參差不齊,時效性不強,使數據整合成為基礎數據資源建設的難點;其次是是如何通過大數據時代高度發展的移動互聯網技術,充分利用人際網絡獲得一手數據,并與網絡、文獻和數據庫信息進行整合,也成為大數據環境下數據采集的難點。與此同時,無論何種數據來源,由于數據的價值密度低,數據篩選技術都是關鍵的技術難題。
本系統通過利用網絡環境下的搜索引擎技術、本體庫、SVM分類算法、聚類算法和信息篩選技術,構建面向大數據的檔案數據庫數據、科技報告數據庫數據、人際網絡數據和信息篩選的大數據采集與篩選工具,為情報服務的數據資源建設提供工具。
(一)系統需求分析
1.搜索需求:互聯網數據庫信息是情報服務的主要數據來源之一,搜索引擎技術的發展為互聯網數據的獲取提供了便捷、高效的工具,但是由于算法本身局限性,普通搜索引擎只能采集到約10-30%的信息,只能完成情報大概情況的收集,不能滿足情報檢索中查全率的要求,對于查準率也只能滿足部分要求,這種現狀對于情報服務來說,是對互聯網信息資源的浪費。本系統需要在普通搜索引擎的基礎上通過重點、互動、專業垂直搜索,完成深入的、交互式的、專業的科技情報搜索。本部分的科技情報專用搜索工具是由元搜索系統、重點搜索系統、互動搜索系統、垂直搜索系統和深網接口系統封裝在一起構成。
2.大數據篩選:數據庫數據具有數據價值密度低的特點,因此,數據的篩選對于情報服務的質量尤為重要。數據來源的廣泛性使得大數據難以根據同一標準進行篩選,因而計算機難以獨立完成篩選工作。本系統根據研究內容設定采集數據的范圍,將采集得到的數據去噪、剔除相似數據后,根據領域詞匯距離、情報點關鍵詞錄、情報報告關鍵詞錄摘錄出較具情報價值的信息,力爭把以十萬計的海量信息壓縮到600條以內,同時保存足夠的核心信息,并采用人機結合的工作方式,提供專家判讀的界面,為數據篩選的準確性提供保障。
3.動態情報跟蹤與基于科技主體的社會網絡情報需求。搜索引擎完成的是面向互聯網數據庫數據的靜態數據獲取工作,然而對于情報服務來說,動態跟蹤能夠展現情報研究對象的活動軌跡,對于情報分析具有十分重要的價值。根據社會網絡理論,完成科技主體(單位和個人)相互關系的表達,從而確定某一主題下各個科技主體的特征,以使我們能從中找到適合進行情報分析判讀的行業專家。本系統基于移動網絡環境下的情報采集技術,創新情報采集模式,全面采集由情報所所內人員、行業專家、專業情報員,通過科技情報生產的規范化流程、規范化方法,依照科技情報質量控制體系,在情報分析模型方法庫和情報分析方法工具包的協助下,完成情報的分析流程。
(二)系統模塊設計
本系統根據關鍵詞并行進行科技報告系統網頁爬取與數字檔案館中的科技檔案爬取,獲取有效的網頁信息與檔案信息,去重、去噪后得到需要的網頁信息與檔案信息。對數據進行特定的處理,采用特定的算法對獲取的數據進行處理分析,生成需要的圖表格式并得出結論。具體流程如圖1所示。
按照檔案情報流程節點的不同,該學術專題情報快速輔助生成系統可以細分為幾個大模塊:搜索大模塊,控制大模塊,整理大模塊,分析大模塊及結論生成大模塊。大模塊下又可細分為幾個小模塊。學術專題情報快速輔助生成系統模塊劃分如圖2所示
1.搜索模塊:搜索大模塊主要有科技報告系統網頁搜索模塊和數字檔案搜索模塊兩大模塊。網頁搜索模塊致力于在科技報告系統網絡上搜索與關鍵字相關的網頁集合,為后續的操作提供初始的科技報告系統網頁信息材料來源。數字檔案搜索模塊是在制定好的數字檔案館中搜索與關鍵字相關的檔案集合,得到與關鍵字有密切關系的檔案集合,為之后的整理分析等工作提供初始的材料來源。
2.控制大模塊:控制大模塊主要有兩個小模塊:內存控制模塊和線程控制模塊。無論是從網頁中獲取信息還是從檔案庫中獲取信息,系統在獲取信息過程中獲取的信息容量比較大,所以需要內存控制模塊來高效的非配運行此系統的計算機的內存,以提高系統運行效率。由于要獲取的信息內容十分多,因此采用并行技術進行獲取信息的操作。
3.整理大模塊:整理大模塊主要有科技報告系統網頁內容整理模塊和檔案庫內容整理模塊兩大模塊。科技報告系統網頁內容整理模塊只要是對獲取到的網頁進行去重,去噪等處理,得到干凈、整齊的網頁內容。檔案內容整理模塊是對已經獲取到的檔案集合進行去重,去噪等處理,獲取格式整齊的檔案內容,以便進行后續工作。
4.分析大模塊:分析大模塊主要有科技報告系統網頁內容分析模塊和檔案內容分析模塊兩大模塊。科技報告系統網頁內容分析模塊是對前邊已經處理過的網頁信息采用分類,對比等特定分析方法對這些內容進行分析,以幫助后邊的模塊得到想要的結果。檔案內容分析模塊是針對之前通過搜索,處理得到的整齊的檔案信息內容采用特定的分類,對比等分析方法對檔案內容進行分析,得到分析的結果。
5.結論生成大模塊:結論生成大模塊主要有科技報告系統網頁生成結論模塊和檔案生成結論模塊兩大模塊。科技報告系統網頁生成結論模塊使用通過關鍵詞篩選出的網頁信息經整理、分析得出的結果采用表格,圖表等方式展現給用戶,讓用戶對結論有一個直觀的了解。檔案生成模塊使用通過關鍵詞帥選出的論文信息經過整理、分析得到的記過采用與網頁生成結論模塊基本相同的樣式,如表格、柱狀圖、餅圖等方式向用戶展示該關鍵詞搜索的內容的結果。便于用戶進行相關的決策等。
(三)系統架構設計
系統結構共包括元搜索模塊、垂直搜索模塊、URL調度器、數據存儲器、多線程控制器、源碼解析器和數據分析模塊,其中元搜素模塊主要是對科技報告系統網頁數據進行檢索;垂直搜索模塊主要是對檔案數據庫進行檢索。由于網頁數據與檔案庫的格式差異較大,故本系統開發兩個軟件分別對網頁數據和檔案數據進行處理。從系統結構上來說,除了信息采集模塊外,兩個軟件的結構基本一致,都是通過上述模塊進行相互協調控制。用戶在系統運行初始化時對相關參數進行設置,如檢索的最大頁數、檢索的時間間隔等,然后輸入關鍵詞,系統結合上述功能模塊就可以脫離人工自動對數據進行檢索和處理,最終實現無監督的信息采集工作。
系統的基本流程:在傳統網絡爬蟲的基礎上進行改進對網頁信息進行抽取,將下載下來的數據保存到內存中,與之前的一級鏈接相同,當內存中的數據超過一個閾值時,將它們輸出到本地文件中。
當全部數據抓取下來后,數據被分為網頁數據與檔案數據,由于檔案數據是標準的結構化數據,并且科技檔案技術方案的重復率并極低,也不存在大量噪聲數據,因此可以通過系統的數據分析模塊對檔案數據進行分析。
三、學術專題檔案情報快速輔助生成系統的功能實現
文章以人工智能領域為例,使用本系統進行實驗,驗證本系統的可行性和有效性。一是本系統可以實現對檔案數據庫、科技報告數據庫的中文數據采集搜索,可以自動實現對檔案、科技報告相關詞庫的搜索,對相關文獻詳細信息(包標題、摘要、完成人、完成單位、完成時間、項目名稱等)進行搜索采集,對相關文獻內高頻詞匯進行統計分析。二是系統對采集到的數據進行歸類、去噪、去重處理,篩選出較具情報價值的信息,運用文獻計量學方法對篩選完的數據進行統計分析,形成清晰的檔案文獻相關信息統計分析表格。三是系統可以用來搜索某學術領域相關機構、相關專家,還可以對機構之間的合作關系、專家之間的合作關系、專家學術研究點之間的關系進行可視化展示。
科技情報是情報學的主要學科,檔案信息、科技報告是情報采集的重要來源,學術專題檔案情報快速輔助生成系統是集檔案情報搜索工具、大數據篩選工具、基于科技主體網絡的情報工具為一體的情報工具,可以有效提高情報機構數據資源建設能力,對于打造情報機構核心競爭力具有重要促進作用。
(作者單位:北京市科學技術情報研究所)