陳 默
(機械工業信息研究院 北京100037)
科技檔案是指在自然科學研究、生產技術、基本建設等活動中形成的應當歸檔保存的圖紙、圖表、文字材料、計算材料、照片、影片、錄像、錄音帶等科技文件材料。隨著信息網絡技術的發展,云科技、大數據時代的到來,數據信息呈現出爆炸式增長。在這種情況下,再采用人工手段來檢索情報信息已經成為不可能完成的任務。
本文基于數字檔案平臺、科技報告系統等數據庫設計建立一套以人為主,數據、信息、知識和智慧綜合集成,高度智能化的人機結合智慧情報系統。從系統的物理構成來看,包括3部分(見圖1)。
文章將主要運用信息智能檢索、數據統一結構化、信息抽取、機器學習、自然語言理解等前沿數據挖掘分析技術,對各數據庫的結構化與非結構化文本進行處理,實現對海量信息的數據挖掘,完成數據的關鍵詞輸入、引文爬取、數據解析分析、統計,最終形成關于學術專題情報報告的雛形。

圖1 基于綜合集成研討廳的人機結合智慧情報系統框架示意圖Fig.1 Schematic of human-machine integration smart intelligence system framework based on HWME
本系統需要在普通搜索引擎的基礎上通過重點、互動、專業垂直搜索,完成深入的、交互式的、專業的科技情報搜索。本部分的科技情報專用搜索工具是由元搜索系統、重點搜索系統、互動搜索系統、垂直搜索系統和深網接口系統封裝在一起構成。本系統根據研究內容設定采集數據的范圍,力爭把數以十萬計的海量信息壓縮到600條以內,同時保存足夠的核心信息,并采用人機結合的工作方式,提供專家判讀的界面,為數據篩選的準確性提供保障。
本系統根據關鍵詞并行進行科技報告系統網頁爬取與數字檔案館中的科技檔案爬取,獲取有效的網頁信息與檔案信息,去重、去噪后得到需要的網頁信息與檔案信息。具體流程如圖2所示。
按照檔案情報流程節點的不同,該學術專題情報快速輔助生成系統可以細分為幾個大模塊:搜索大模塊、控制大模塊、整理大模塊、分析大模塊及結論生成大模塊。大模塊下又可細分為幾個小模塊。學術專題情報快速輔助生成系統模塊劃分如圖3所示。

圖2 系統數據流程圖Fig.2 Flowchart of system data

圖3 系統功能模塊圖Fig.3 System functional modules
系統結構共包括元搜索、多線程控制器、垂直搜索、數據存儲器、URL調度器、源碼解析器和數據分析等七大模塊。由于網頁數據與檔案庫的格式差異較大,故本系統開發兩個軟件分別對網頁數據和檔案數據進行處理。從系統結構上說,除了信息采集模塊外,兩個軟件的結構基本一致,都是通過上述模塊進行相互協調控制(見圖4)。

圖4 系統整體結構圖Fig.4 Overall system structure
系統的基本流程:在傳統網絡爬蟲的基礎上進行改進,抽取各類網頁信息,將抽取下來的各類信息存儲于內存之中,每次抽取與前一次鏈接相同,每當存儲的信息超過設定的閾值,信息存入本地文件。
抓取下的數據被分為互聯網數據與檔案庫數據,檔案庫數據一般為標準結構化數據(雙層 PDF等除外),重復率低,可直接使用系統對數據進行分析。
以人工智能領域為例,使用本系統進行實驗,驗證本系統的可行性和有效性。
①可以實現對檔案數據庫、科技報告數據庫的中文數據采集搜索,可以自動實現對檔案、科技報告相關詞庫的搜索,對相關文獻詳細信息(包標題、摘要、完成人、完成單位、完成時間、項目名稱等)進行搜索采集,對相關文獻內高頻詞匯進行統計分析。系統檢索過程見圖5~7。

圖5 搜索工具Fig.5 Search tool

圖6 詞庫內數據Fig.6 Data within the lexicon

圖7 詳細信息內數據Fig.7 Data within the detailed information
②系統對采集到的數據進行歸類、去噪、去重處理,篩選出較具情報價值的信息,運用文獻計量學方法對篩選完的數據進行統計分析,形成清晰的檔案文獻相關信息統計分析表格。
③系統可以用來搜索某學術領域相關機構、相關專家,還可以對機構之間的合作關系、專家之間的合作關系、專家學術研究點之間的關系進行可視化展示。
科技情報是情報學的主要學科,檔案信息、科技報告是情報采集的重要來源,基于科技檔案的學術專題情報快速輔助生成系統可以有效提高情報機構數據資源建設能力,對于打造情報機構核心競爭力具有重要促進作用。
[1] 鄭彥寧,宋振峰. 我國科技情報行業現狀與發展對策分析[J]. 情報學報,2007,26(5):10-15.
[2] 賀德方. 我國科技情報行業發展方向的探討[J]. 情報學報,2007,26(4):23-29.
[3] 賀德方. 我國科技情報行業發展戰略與發展路徑的思考[J]. 情報學報,2007,26(4):54-61.
[4] 成帥. 文獻增長規律的研究[J]. 科技情報開發與經濟,2005,15(22):13-20.