李雪山,郭肖肖,姚冬冬
(中國鐵道科學研究院集團有限公司 科學技術信息研究所,北京 100081)
科技信息資源是支撐科技創新、提高創新能力的重要戰略性資源。近年來,中國鐵路技術的不斷發展、中國高鐵走出去步伐不斷加快,對科技創新和產業化發展的及時性、有效性、全面性提出了更高要求,需要快捷、系統地獲取各類國內外行業科技信息,及時把握行業科技發展動向與趨勢,更好地了解市場競爭對手并洞察市場機會。
經過多年的信息化建設,圍繞鐵路科技信息資源建設工作,全路已建成數字圖書館和中國鐵路科技與經濟信息網,但隨著科技信息資源的膨脹式增長、大數據技術及網絡技術的快速發展以及人們對信息獲取利用要求的不斷提高,現有系統存在的問題也日益凸顯[1]。主要表現在:(1)資訊信息缺乏廣度和深度,用戶在查找資源時仍需逐個網站搜索、甄選有效信息;(2)缺乏對競爭對手行業動態和技術熱點等方面的信息匯聚;(3)受限于多語種,用戶無法及時了解國內外行業動態;(4)相較于到圖書館借閱文獻,用戶更傾向閱覽電子文獻;(5)因IP限制原因,用戶在外出差或在家查閱資料時不能及時獲取相關信息。
為解決上述關鍵問題,項目組以中國鐵路科技與經濟信息網改版為背景,結合競爭情報思維、專題服務運行模式,設計并實現軌道交通知識服務平臺暨數字圖書館,旨在為用戶提供更加全面、個性化、精準化的科技資源信息服務。
平臺在設計和建設過程中基于鐵路科研創新的需要,堅持需求驅動、持續發展,通過有效的資源整合、高效便捷的資源獲取、個性化信息推送按需配置情報專題等方式,使目標用戶能有效地獲取所需信息,實現以資源服務為基礎的,專業化、個性化、專題化、精準化的情報服務體系。具體目標如下:
(1)借助自動采集技術對企業內部信息、外部宏觀環境信息、外部競爭環境、外部行業動態、技術創新熱點等進行多維度監測,實現網絡信息自動采編與發布;
(2)整合內外部信息資源(自建、外購、網絡、內部系統資源等),實現多源異構資源的統一存儲和檢索展示[2];
(3)提供外文資源的在線翻譯,實現單一語種檢索詞入口的多語種資源統一檢索展示;
(4)提供情報專題定制服務,實現對行業動態、技術前沿、競爭對手等的持續動態跟蹤;
(5)實現個性化推薦、智能推送等精準化情報應用功能;
(6)培養和提升研究人員的情報利用意識和獲取能力,提高鐵路科技信息流轉和情報產出效率。
根據軌道交通知識服務平臺設計目標,系統主要由資源收集整理、翻譯加工處理、資源存儲和資源服務等4部分構成,如圖1所示。

圖1 系統整體建設方案
1.2.1 資源收集
針對不同資源采取不同的手段進行收集。
(1)對于國內外相關資訊網站,主要包括國內外軌道交通企業門戶、專業的行業資訊網站等。這些網站具有數量多、技術不一、風格多樣、多語種、采集困難的特點,在此系統綜合利用商業采集軟件[3]和基于Python技術[4]自主開發的采集工具以及人工收集的方式進行數據采集,實現軌道交通行業動態、熱點資訊的及時獲取;
(2)對于自建數據庫資源,主要包括行業內刊、圖書館館藏特色資源。這些資源大多以紙質形式存在,需要耗費較多的人力來進行資源加工,在此系統通過建立數字化資源加工系統開展紙質資源的掃描、OCR識別、元數據著錄、數據存儲發布等,實現紙質資源電子化,提高館藏資源服務廣度;
(3)對于外購商業數據庫資源,主要包括知網、萬方、維普等數據庫,系統采用元數據級整合方式實現多來源數據庫的信息融合[5]。
1.2.2 資源加工
借助計算機輔助翻譯技術、自動標引分類技術、自然語言處理技術實現信息資源的自動翻譯、分詞斷句、實體提取、分類標引、實體關聯等標準化、規范化處理,以便于數據有效管理和利用。
1.2.3 資源存儲
系統借鑒dspace機構知識庫[6]相關思想,實現專題內容自定義及各類型資源元數據非編程性動態定制、擴展功能。即系統可預先建立元數據集,對各元數據字段類型、長度、格式、是否建立索引、是否顯示等特征進行設定,在添加不同資源類型(如期刊論文、資訊、報告、專利等)時,可以從元數據集中選擇相應字段作為具體描述字段,進而實現多源異構資源的統一存儲和檢索。
1.2.4 資源服務
(1)實現資源服務系統基本的功能,如簡單檢索、高級檢索、專業檢索、單庫及全庫檢索、資源下載等;
(2)實現專題化、個性化服務,用戶可根據自身從事或關心的專業、研究方向、科研課題等,通過對知識點進行分解,配置專題,即可實現對競爭對手、熱點技術、行業動態等的自動跟蹤、精準個性化推送功能[7];
(3)基于用戶專業或行業需要實現個性化主題門戶網頁定制,提供企業級資源專題定制服務;
(4)通過開發APP、微信公眾號、訂閱號等,拓展用戶信息獲取渠道,為用戶提供更加方便快捷的情報信息服務。
系統在借鑒百度、淘寶等大型企業軟件系統結構的基礎上,結合SOA業務模型采用Hadoop云計算架構,以Webservice的方式提供接口;采用HDFS大數據分布式文件存儲系統實現海量全文數據的管理;采用Nosql的Hbase非關系型數據庫實現元數據管理;采用SOLR檢索技術[8],支持多字段的組合查詢;基于Sql庫的用戶行為記錄和MR機器學習算法,以實現精準化個性化情報服務。
采用DotNet軟件開發平臺進行了開發實現。
2.2.1 系統數據資源概況
系統資源主要分為網絡資源、商業數據庫資源、自建數據庫資源3部分,如圖2所示。網絡資源主要包括國內外軌道交通行業門戶網站資訊;商業數據庫資源主要包括知網、萬方、維普等商業數據庫的期刊、學位、會議等文獻資源;自建數據庫資源主要包括中外文文摘、中外文全文、鐵路熱點專題等。
2.2.2 主要特色
(1)實現了對軌道交通行業多來源網絡情報信息的實時獲取追蹤。
系統結合競爭情報思維,將情報規劃、信息收集、信息加工、信息分析、情報生產與傳播流程融入平臺,借助自動采集技術實現針對企業內部信息資源、外部宏觀環境信息、外部競爭環境信息、外部行業動態信息、技術創新熱點信息等多維度的監測,使用戶能及時獲知最新行業動態、技術前沿信息、市場變化等信息,輔助實現科研和管理決策[9]。

圖2 系統資源概況
(2)實現了多源異構資源元數據級整合及一站式檢索。
平臺以資源建設為基礎,在建立統一數據標準的基礎上實現了多來源各類型資源的融合,包括自建數據庫、商業數據庫、相關網絡資源等,涵蓋資訊、期刊、學位、會議、標準、成果、特色資源等多種文獻類型。平臺最終實現了上述多來源數據的統一存儲、檢索、展示,實現了同一資源的多渠道下載,從搜索范圍、搜索效率、搜索質量3方面提高了檢索結果的準確性和全面性,提高了用戶體驗。
(3)實現了多語種資源統一檢索。
針對英、日、俄、德、法等多語種帶來的統一存儲和檢索問題,平臺通過嵌入自動翻譯軟件實現對資源的自動翻譯,為用戶提供了單一語種檢索詞入口的多語種文獻檢索服務,并提供中外文對照展示。針對自動翻譯不準確、翻譯質量不高等問題,平臺提供在線編輯、校對功能,以提高多語種資源的翻譯、檢索效果。
(4)開展了鐵路情報多樣化服務模式。
平臺以信息服務為核心,重點提供面向用戶專業、研究領域、熱點前沿技術等方面的專題服務,提供面向用戶研究過程的場景化服務,以及面向專業領域的熱點和趨勢分析服務。為用戶提供諸如知識訂閱、個性化推薦、多終端智能推送、行業動態監測簡報、行業熱點趨勢監測簡報等信息服務,滿足用戶個性化信息需求。專題服務界面,如圖3所示。

圖3 專題服務
鐵路科技文獻與創新服務平臺以鐵路科技資源整合為基礎,以提供全面、專業、及時、高效的情報資源服務為核心,以提高鐵路科技創新能力和競爭力為目標[10],是轉變鐵路科技文獻服務模式的一項有益嘗試。
目前,軌道交通知識服務平臺暨數字圖書館基本功能已經實現,并已開始在鐵科院、軌道交通相關單位推廣使用。平臺提供的網絡信息動態采集監測、多源異構資源統一搜索、專題定制、信息推送等功能,可為用戶提供更加全面、專業的信息服務,為鐵路行業提供全面權威的戰略決策支撐和業務情報支持。
未來,隨著平臺資源的豐富、功能的擴展、運行模式的變革,還需研究制定符合平臺發展的運行管理機制,規范資源采購、功能使用、服務模式、收費標準,并根據平臺未來跨系統、跨單位協調資源整合和服務的需要,建立健全文獻平臺統籌協調機制[11],促進平臺健康可持續發展。