張祥甫 閆仲秋
(1.海裝駐連云港地區軍代室,江蘇 連云港 222061;2.中船重工第七一六研究所,江蘇 連云港 222005)
科技情報工作是把科技知識和科技成果,通過組織加工后,準確、及時地提供給使用者的傳遞工作[1]。當前,科技情報工作已經成為社會發展的重要推動力,是科研、生產、市場經營、產業發展中的關鍵一環。
隨著大數據時代的到來,依靠有限的人力進行情報搜集的工作模式,已很難適應市場和技術發展的要求。充分利用互聯網的優勢,及時、全面、低成本地搜集科技情報,再結合人工研判加以分析處理,形成具有參考價值的情報資源,幫助科技部門開展新興產業發展的戰略情報研究,有助于加強科技資源整合利用、增強科技成果保護和轉化;同時也可為行業情報咨詢服務機構、各級行業協會提供情報收集和分析輔助工具,提升其咨詢服務能力。
本文分析了科技情報研究的現狀,尤其是科技情報平臺架構及功能規劃,設計了科技情報搜集與分析系統,包括總體流程、系統功能和關鍵技術三大部分。本文的研究成果對基于科技情報搜集與分析系統的情報服務有重要的借鑒意義。
一些學者在科技情報的內涵、存在的問題、發展趨勢、服務模式等方面開展了廣泛的研究。
王鵬[2]分析了科技情報在“互聯網+”環境下的發展趨勢,提出了科技情報團隊建設方案與“云”情報團隊的概念,闡釋了“云”情報團隊的內涵與建設方向,認為情報服務必須從傳統物理層次的信息組織向認知層次的個性化知識組織轉變。
劉如[3]介紹了國內情報機構向智庫轉型的趨勢,構建了面向智庫轉型的科技情報機構知識服務體系。
周飛[4]介紹了大數據對科技情報服務的影響,分析了大數據時代科技情報工作者面臨的新時代問題,并對大數據時代背景下科技情報服務內容和服務模式進行了探討。
黃宇康[5]分析了企業科技情報服務的發展現狀,提出了改善現狀的策略,包括建立企業科技情報服務系統、加強與第三方情報服務機構的合作、建立靈活的工作機制及提高情報人員專業素質等。
王娜等人[6]分析了國防軍工科研單位科技情報工作中存在的問題,提出了此類單位科技情報工作的思路和框架,包括培育多維度的情報人才隊伍,與科研設計人員協同開展情報研究,注重戰略情報跟蹤研究和臨時性情報咨詢的均衡協調發展,以及建立系統、完善的科技情報服務體系。
周曉英等人[1]采用文獻調研、網絡調查等方法對我國科技情報事業發展的歷史事件進行了全面梳理,提出了中國科技情報事業發展的5個方面的演變規律,包括從“情報—信息—多元范式的大情報”的演變、從“機構服務”到“平臺服務”的演變、從“收集提供”到“分析挖掘”的演變、從“文獻資源”到“數字資源”再到“綜合數字資源”的演變、從“資源服務”到“方案服務”的演變。
錢虹[7]通過調查問卷與訪談研究了技術創新鏈條中各主體在不同創新階段的服務需求,構建了資源與服務一體化的科技情報服務體系,實現了情報服務與用戶需求的精準對接。
科技情報工作的有效開展離不開信息化手段的支撐,一些學者圍繞科技情報平臺的構建進行了深入的研究。
劉源[8]介紹了互聯網科技情報的采集與清洗、數據存儲與索引、數據的智能分析,闡述了自動獲取與智能分析平臺的技術實現路線。
李時玉等人[9]利用Hadoop平臺的分布式存儲和計算模型,基于Hadoop實現了科技情報大數據深度分析的實踐。
劉明月等人[10]認為基于人工智能的科技情報需求自動感知在未來會成為科技情報工作發展的潮流,提出了基于人工智能的科技情報需求自動感知研究方法,并就各個模塊提出了技術方案。
魯文帥等人[11]基于數據挖掘和人工智能技術,給出了自動化采集分析平臺的總體設計,并從數據采集、預處理、歸集、展現、匯編等方面分模塊介紹了技術實現的方法。
吳素研等人[12]結合虛擬化、云平臺、高性能和人工智能等新一代信息技術,設計了科技情報大數據業務平臺的總體架構,闡述了硬件層、虛擬層、支撐層和業務層的主要功能,搭建了基于Hadoop和HBase的大數據存儲平臺。
本文提出了科技情報搜集與分析系統的總體流程,如圖1所示。
圖1所示的流程中,科技情報系統分為情報采集、分析處理、情報處理和分類展示四大步驟。情報采集除了包含主流的文獻庫之外,各類網站、社交媒體也被納入其中,因為社交媒體已經成為碎片化知識產生與傳播的主要載體。情報處理與一般意義的文本分析處理不一樣,強調的是情報報告生成、圖表分析及預警等功能。
圖1 科技情報搜集與分析系統的總體流程
針對科技情報工作的業務特點,融合互聯網信息采集與挖掘應用技術,本文設計的情報系統的功能如表1所示。
表1 情報系統的功能
2.3.1 基于規則的情報相關性判定技術
傳統的文本與規則的相關性,根據文本中規則詞之間特定位置關系來匹配判定,大致可分為同句判定、同字段判定和同文本判定等幾種傳統的判定方式雖然考慮了規則詞之間的位置關系,但沒有考慮到規則的類型及文本的類型,尤其是微博類的短文本,更加口語化、句子劃分不夠規整,影響了情報相關性的判定精度。
針對傳統方法的不足,基于規則的情報相關性判定技術,首先判斷規則與情報標題的相關性;其次判斷規則與情報正文的相關性。該技術根據規則的核心詞、規則類型及正文類型,劃分正文文本句子,獲取最短距離句子集,判斷規則與最短距離句子集的相關性。根據規則與情報的標題及正文的相關,獲得規則與情報的相關性。
2.3.2 基于波特五力模型的企業情報采集技術
企業為保持較強的競爭力,需密切關注行業情報。波特五力分析模型聚焦于企業競爭環境中五個核心要素,包括競爭者、供應商、客戶、潛在進入者、替代性技術或商品。基于波特五力模型的企業情報采集技術,全面分析企業競爭環境影響因素,構建五力要素量化指標;將量化指標結合企業業務領域知識自動轉換為搜索規則;針對五個因素,從信息載體(新聞網、博客、論壇、微博、電子商務網站等)中采集有效信息;采用結構化的抽取方式,抽取企業及產品相關屬性;對企業及產品屬性進行分析,自動發現競爭對手及同類產品;自動跟蹤競爭對手動態事件信息,生成專報進行預警。
2.3.3 基于本體的行業知識庫構建技術
系統采用基于行業本體的知識庫構建技術,面向不同行業的構建領域知識庫,提供Web模式的知識庫半自動構建工具。通過對當前各行業科技情報規則詞的搜集整理,形成一套行業齊全、內容全面、關系邏輯清晰的核心智能體。對行業進行區分,內置多個行業的規則支持,包含各行業的相關特征詞,支持建立任意行業和子類,支持無限級劃分,子類下支持建立與、或、非關系的規則,規則數量不限。行業庫中包含企業基本信息、科技政策、產業發展、科研機構等規則庫,同時提供信息篩選功能。
2.3.4 全面的科技情報監測技術
系統聚焦于科技情報的七個方面,包括科技政策、產業發展、科技計劃、重大報告、研究機構、專利、文獻。通過智能知識庫輔助構建規則以及與中外專利數據庫、維普、知網、萬方、中國行業研究網、中國產業研究網、國務院發展研究中心資源庫等平臺合作,系統地采集與分析互聯網情報,得到的科技情報覆蓋面廣且針對性更強。
2.3.5 全網采集技術
系統支持定向采集和搜索采集相結合的情報采集方式,既可做到對企業情報信息的全面搜索,又可有針對性地對指定的論壇、博客、新聞、貼吧等媒體進行深度采集,還涵蓋新浪、騰訊等主流微博的站內垂直搜索,對特定社交媒體用戶還可定點監測,真正做到企業情報的全面采集。
2.3.6 URL規則匹配技術
系統采用URL規則與關鍵字規則相結合的方式,既可按關鍵字監測,也可按定向URL與關鍵字組合監測,使系統監測方式更為靈活多變。系統根據用戶定義的搜索規則可自動發現滿足規則的網站,將其設為系統的全局黑名單,對這些網站上的信息進行自動屏蔽,減少采集過程中的無效信息。
本文在充分地調研與科技情報相關的系統的基礎上,結合大數據、社交媒體、移動互聯網、人工智能、精準推薦等新一代信息技術,設計了面向科技情報應用場景的情報采集與分析系統。本文的研究成果對科技情報搜集與分析系統的研發,以及基于情報系統的科技情報服務有重要的借鑒意義,但如下問題還需進一步提升:(1)不同語言類型的情報融合問題;(2)個性化的情報服務推薦問題;(3)不同類型的情報分析問題,包括文本、圖片、音視頻,等等。