謝建德+莊承淮+李水平+王夢潔

摘要:文章通過對信息收集、信息處理、信息管理與分析的功能實現,介紹了動態信息跟蹤的流程,通過功能的實現建立了可視化、集成化的動態信息跟蹤系統,將來源于不同渠道的信息集成在一個管理系統中,從而對科技重大專項專題項目中的關鍵技術難點提供了解決方案。
關鍵詞:集成化;動態信息跟蹤系統;知識檢索;信息收集;信息處理;信息管理 文獻標識碼:A
中圖分類號:TP391 文章編號:1009-2374(2017)07-0031-02 DOI:10.13535/j.cnki.11-4406/n.2017.07.014
通常所建立的信息服務系統是自己建立信息資源或購買資源用賬號登錄的形式去閱讀,然而信息資源不再是幾個服務提供商就能滿足需求的。尤其是現代信息處于爆炸式的發展,更新速度非??欤畔①Y源分布很廣,因此探索建立一套適合收集互聯網上的動態信息跟蹤系統是非常必要的。本文以工業機器人的信息采集為例進行探索,建立一套信息搜索、采集、發布系統。不僅搜索現有的信息,還將跟蹤這類信息的動態,隨時更新信息。采集的數據回到本地服務器,再對數據進行去重、篩選、發布等處理。動態信息跟蹤的最終結果,是要建立集成化的信息系統,為用戶和其他系統提供有價信息。
1 關鍵技術難點需求
“海西裝備云制造關鍵技術研發與應用”是科技重大專項專題項目,其中關鍵技術難點有一項需求是“整合、集成來自不同主體、不同渠道的多種資源,保證資源屬性的集成性、完整性、一致性、通用性和訪問安全性”。這項需求中不同渠道多種資源的特性,系統中采用建立規則、多方采集的方式來實現。對應集成性、完整性、一致性、通用性和訪問安全性的需求,系統以自建信息數據庫、規則制定、人工干預等的形式以及信息管理分析和處理的方法,以達到關鍵技術的解決目標。
2 集成化動態信息跟蹤的核心
科技重大專項專題中的動態信息,其信息來源主要來自于互聯網,通過設定規則、任務和采集,將這些信息收集并有效地組織起來,再對這些信息進行加工處理,處理后將按照用戶要求的結構形成用戶最需要的信息內容。在整個過程中最核心的是信息收集、信息處理、信息管理與分析部分。信息收集部分要保證信息能夠被收集到。信息處理部分需要將各種格式的信息結構化,并保證信息的有效性、準確性、無重復以及信息的變化情況。信息管理與分析部分要對結構化的結果信息進行分析,以便用戶能夠發現海量數據中的價值,為決策提供更可靠的依據。
3 集成化動態信息跟蹤的功能實現
3.1 系統信息收集的方法與流程
3.1.1 網站整理。針對互聯網中相關網站,整理出需要收集的信息所在欄目,并匯編成《源網站匯總表》,方便信息的收集和日后信息的管理。
3.1.2 添加網站。在信息查詢管理模塊添加網站的名稱、網址、pr值、狀態、標簽、主辦單位、介紹、結果類型、分類目錄等。
3.1.3 制作規則。通過規則生成器針對不同的網站或同一網站不同類別信息顯示方式的不同,從源文件中選擇一些通用的標記來定位信息的位置,建立統一的格式,以便更系統地管理網站上的數據。根據網頁的源代碼對列表頁進行內容的截取和標記的抽取,選取所抽字段的開始和結束標記,確定采集的范圍和確定的內容,抽取標題、地址和時間,并測試是否抽取正確。根據網頁的源代碼對詳細內容頁進行內容的截取和標記的抽取,選取所抽字段的開始和結束標記,確定采集的范圍和確定的內容,抽取信息正文內容,并關聯列表頁。
3.1.4 制作任務。利用在規則生成器里制作的規則,在數據庫中存儲的一條可以采集網站列表中信息的記錄,采集程序調用這條記錄進行數據采集,一條記錄叫做一條任務。任務的添加和地址編碼、網頁編碼可以調整。對采集的信息可設置運行時間,包括手動操作或定時自動操作以及設置下次運行時間。如果網站包含外部鏈接而導致信息無法采集,通過對某些字段的過濾來增強抓取信息的準確性。還需處理設置關鍵詞的提取和去重設置,對收取的信息根據目錄進行分類。
3.1.5 信息管理。在信息查詢管理工具中,可以查詢添加網站、規則、任務所有數據,也可通過狀態、ID、名稱、結果類型(或根據提供的字段手動輸入條件)進行查詢。任務狀態包括規則制作完成、規則制作失敗、等待采集、采集中等,也可修改其狀態。
3.1.6 信息采集。采集程序從數據庫中調用任務,分別將每條任務對應下的信息以數據的形式存儲到數據庫,這樣采集程序在這個過程中就完成了單條任務到多條信息的轉換。當信息需要在頁面顯示時,從數據庫中調出該條數據即可。采集程序的主要功能主要包括五部分,分別為當前狀態、任務列表、歷史記錄、運行設置和高級設置。從當前狀態界面通過完成數和剩余數可以查看采集程序運行是否正常。任務列表包括任務ID、任務名稱和任務開始執行的時間。任務列表顯示的任務是按照開始時間升序排列。歷史記錄查看采集程序已經執行過的任務,包括任務ID、任務名稱、任務的開始時間和結束時間,可設置和查看程序的執行時間,配置數據庫等。
3.2 系統信息處理的方法與流程
去重包括基于來源地址的去重、基于標題的去重、基于結構化信息的去重、基于摘要的去重、基于全文內容的去重,并可以綜合以上方式進行綜合去重。通過篩選信息來源網站、基于鏈接地址過濾、基于標題過濾、基于內容過濾、基于發布日期過濾等方式對結果信息進行過濾。利用Html網頁分析技術和自然語言處理技術從網頁中提取出網頁主題詞。利用Html網頁分析技術和自然語言處理技術對網頁全文內容進行分析,并形成全文摘要。全文摘要的長度、比例等各項參數可以靈活定制。
3.3 系統信息管理與分析
統一的管理后臺可以對用戶、分類目錄和內容進行有效地管理??稍诤笈_添加或刪除分類目錄,還可以查看采集的信息是否有誤,并對錯誤的信息進行修改。系統可以通過信息的來源進行分類,還可以根據自動提取的文章主題詞以及權重,結合預定義類別進行分類。系統能夠對指定范圍內信息的特征關鍵詞進行統計分析,得到這些信息的熱門標簽,以便快速發現熱點內容。
4 結語
系統建立后,以工業機器人為例進行動態信息跟蹤。系統能自動將指定網站欄目信息采集到后臺,管理人員再根據發布規則對信息進行自動發布或人工發布。已經能滿足科技重大專項專題中的相關需求,給用戶最全、最新的信息,大大減少人力成本。由于信息來源于不同網站,因此有些信息是由不同部門發布的,就產生信息重復的現象。重復率約10%,目前還沒有有效的自動解決方法,而人工去重的成本較大,但不影響系統的運營使用。
參考文獻
[1] 黃永文,張智雄,吳禎新,謝靖.集成化可視化的知識檢索服務平臺建設[J].科研信息化與應用,2013,4(2).
基金項目:福建省科技重大專項專題“海西裝備云制造關鍵技術研發與應用”(2015HZ0002,2015HZ0002-1)。
作者簡介:謝建德(1964-),男,福建省云創集成科技服務有限公司工程師,EMBA,研究方向:信息系統、智能信息處理、數字資源集成等電子信息;莊承淮(1967-),男,三明市生產力促進中心副研究員,研究方向:科技咨詢及科技創新服務平臺的建設、管理與服務;李水平(1982-),男,福建省云創集成科技服務有限公司工程師,研究方向:信息系統、網站程序開發、計算機應用;王夢潔(1990-),女,供職于福建省云創集成科技服務有限公司,研究方向:信息數據處理、網站需求分析定位和功能測試等。
(責任編輯:黃銀芳)