鄧斌 王福瑞 陳坤
摘? 要:隨著社會經濟的發展和科學技術的進步,計算機已經成為了人們日常生活中的重要部分,計算機具有計算速度快、信息傳遞速度快的特點,正因為這樣的特點,使得計算機技術結合互聯網技術推動信息的快速共享和傳遞。由于互聯網中的信息數量巨大,并不具有語義性,這給相關的信息分析帶來了巨大的難度,實現網絡科技信息的結構化,能夠讓海量的網絡信息變得可分析,實現對互聯網信息的監控目標。本文主要講解了網絡信息的結構化檢測系統的框架搭建和實現的技術方法。希望通過本文的閱讀,能夠給網絡信息檢測相關領域的研究工作者提供一定的幫助和啟發。
關鍵詞:網絡科技信息;結構化監測;技術方法
前言:
互聯網信息技術給我們的生活帶來了巨大的便利,改變著人們的生活方式和生產方式。經過了多年的演變,目前的互聯網信息也具有開源、和極速(發布和獲?。﹥蓚€最大的特點,這兩個特點雖然給我們的信息發布和獲取提供了巨大的便利。但是卻也為信息的分析帶來了巨大的難度,這就給輿情監控、數據追蹤等工作帶來了一定的難度,尤其是相關科研信息的獲取。
1結構化監測的思路和技術框架
結構化監測系統主要運用在針對科研網絡中的各種信息的分析,以便抓取網頁中的重點信息,實現對科研成果的信息分析、事態分析和情報跟蹤等,幫助情報人員建立更加貼合實際的監測模型,從整體上對科研情報進行掌控。
在傳統的科研信息監控工作中,情報人員需要針對科研機構或者科研人員發布到網絡的信息進行人工閱讀、整理,提取有用情報,進行合理分析,從而掌握該領域的整體科研進展,實現對科研態勢的掌握。但是可想而知的是,這樣的方式工作效率很低,而且隨著科學技術的發展,科研機構的增多,各種各樣的科研信息充斥在了互聯網當中,如果還按照傳統的工作方式,那么對于情報人員來講,其工作就如同大海撈針,難以真正的了解科研信息的全貌,得到的情報也就失去了實際作用。而如上文所說,互聯網信息具有開源和極速的特點,非結構化的無語義的信息描述讓監測模型的建立十分困難,在這樣的情況下,需要先將采集到的網頁信息進行結構化的處理,使其變成可分析的語義信息,這樣就能根據實際信息建立合理的切合實際的檢測模型,從而達到適應網絡發展、提高工作效率、切實掌握輿情、正確預測發展勢態的目的,這也是結構化監測系統大家的基本思路,因此,結構化監測系統的框架可以分為四個層級:監測源層級、信息采集層級、信息處理和計算層級以及結論層級。
監測源層級是預先通過輸入站點、IP地址等來實現定點監測;信息采集層級是利用信息采集器對目標站點或者網頁中的HTML文件、PDF文件或者WORD文件進行抓取;信息處理和計算層級是整個系統的核心,通過結構化的語義抽取和對象關系抽取等方式,使其變成可分析的信息;結論層級是最終的結論層面,也叫服務層級,通過計算得到的結果幫助我們建立正確的監測模型,便于進行熱點追蹤、輿情監控等。
2 結構化監測關鍵技術方法實現
2.1 構建監測本體指導結構化的目標內容監測
首先我們需要清楚的是,戰略情報團隊對于某一國家的科研機構的檢測,往往不是漫無目的的,而情報團隊希望獲得的情報也是針對于某一科研領域的各種相關情報,即目標內容。通過長期的調查研究我們發現,對于情報監測人員來講,為了不錯過重要的信息內容,他們對于目標內容的關注點也非常復雜,我們通過對這些目標內容的各種屬性進行整理總結之后,發現可以通過結構化的方式來進行監測本體的構建。例如:針對監測對象的科研機構發布的各種信息而言,通過監測發布的國家、地區進行識別,也可以通過監測科研機構、負責人、研發團隊、科學家等進行監測,也能通過國家領導人的一些行為進行監測,例如提及重要科研項目的講話,科研費用的簽發,相關科研團隊的接見和表彰等。我們通過研究發現,情報人員對于網站信息中一些表示‘發表’‘宣布’‘發現’之類的動詞非常敏感,因為這些動詞之后往往是重點的科研項目,同時也會對一些表示進展程度的詞匯例如‘解決’‘成功’‘失敗’‘嘗試’等等,通過這些特定的標簽能夠指導結構化監測本體的搭建。
2.2 基于對象及對象關系抽取實現網頁內容的結構化表示
首先需要通過一些開源工具例如:GATE或者SP對名詞詞組進行分析,通過對詞性、語義等的分析,得到候選名詞詞組,而在這之前,需要先建立指示詞典。
然后,這些候選詞組的實際情況會與指示詞典或者實例詞典進行比較,進行一個初步的篩選和判斷。
這之后根據實際情況如詞組位置、上下文的語境等,進行進一步的判斷。
在得到的各種信息中,需要將具有共指性的名詞進行合并處理,例如網頁中同時出現了‘唐納德·川普’和‘川普總統’所指的是一個人,所以在對他們進行監測的時候,也應該作為同一個目標對象進行檢測和結構化分析,共指性合成能夠幫助我們減輕下一步的工作量。
在進行了上述的工作之后,就可以進行對象關系的最終抽取工作,以‘對象、對象、關系、來源和時間’的方式進行抽取,就能夠成功的實現網頁內容的結構化表達。
結束語
總之,對于情報人員來講,檢測目標科研機構的相關科學信息具有非常重要的意義,而隨著科學技術的發展,網絡信息技術得到了長足的進步,在這樣的背景之下,信息的頻繁共享和交流給情報人員提供了一定的便利的同時,更多的是工作量的指數倍的提升。在這樣的情況下,有必要開發一種新的監測系統,來增強情報人員對目標內容提取的工作效率和準確性,筆者簡要的闡述了結構化監測系統的搭建思路和技術要點,該系統對于情報人員的工作具有很大的幫助作用。
參考文獻
[1]? 鄒益民,張智雄. 基于對象計算的情報價值判斷方法[J]. 科研管理,2016,37(10):129-136.
[2]? 張智雄,劉建華,鄒益民,謝靖,錢力,王穎. 網絡科技信息自動監測服務系統的建設[J]. 科研信息化技術與應用,2013,4(02):9-17.
[3]? 張智雄,劉建華,謝靖,錢力,張敏,于改紅. 科技戰略情報監測服務云平臺的設計與實現[J]. 現代圖書情報技術,2014(06):51-61.