李文全,徐素萍
﹙韶關學院 信息工程學院,廣東 韶關 512005 ﹚
科技成果轉化為現實生產力的能力是衡量一個國家和地區科技發展水平的重要標志,對國家和地區經濟增長有著重要意義.由于科研與生產脫節、成果轉化體系不完善等通病的存在,導致大量的科研成果躺在檔案室,或散落在科研人員手中,轉化率同發達城市相比相對偏低[1].成果轉化工作的滯后嚴重影響了科技能力與企業盈利能力的提升.為了提高科技成果轉化率,有效串起成果轉化過程中涉及的上、中、下游各環節,建設線上與線下相結合的技術交易服務平臺,迫切需要建立完善的科技成果轉化平臺[2].解決科技成果與市場需求之間信息不對稱難題,使科技成果與市場緊密的聯系在一起,真正有效地促進科技成果的轉化,實現科技成果的產業化.
為了促進科技成果的轉化,美國、德國、日本等國家通過完善轉化體系,構建基于產學研相結合的科技成果轉化平臺,成功地促進了成果轉化;國內部分省市和學者也十分重視科技成果轉化工作,搭建了面向不同行業的科技成果轉化平臺.李正權等為有效實現成果所有方和需求方、企業與技術之間的對接和交易,構建了基于“互聯網+”的廣東省科技成果轉化平臺[3];姚寧廣等為提高農業科技成果的資源利用率,設計了一種基于面向服務體系架構的農業科技成果轉化平臺[4];尚珊等針對高校研發能力強轉化能力弱缺陷,建立了基于信息咨詢的高??萍汲晒D化平臺.但它們主要關注科技成果數據的共享與集成[5].在我國促進政府數據開放共享,推動資源整合的大數據背景下,科技成果轉化還面臨一些新的挑戰:
(1)需要動態集成多個部門的業務數據,如科技專家數據和科技成果數據分布存儲在不同科研院所、高校、企業等單位的業務數據庫中,需要動態實現集成并為其他業務平臺和決策系統提供科技成果轉化的數據服務.
(2)需要集成遺留的科技成果轉化系統的應用,相關部門已有不少科技成果轉化的應用,為了保護投資,需要集成這些遺留的業務系統中數據,使其一起協調工作.
(3)以往的檢索服務沒有語義背景,難于滿足類型復雜與形式多樣的科技成果檢索需要,迫切需要加強以科技成果內容為關鍵詞的提取,提高數據的檢索效率和迎合用戶檢索興趣.
針對新形勢下的挑戰,搭建了一個基于Web的科技成果轉化平臺,通過Web Services實現了數據的動態集成和多部門協作;通過XML技術實現異構數據的互操作;通過科技成果信息的關鍵詞提取,提高了用戶的檢索效率和優化了用戶體驗.
科技成果轉化平臺是基于Web開發,目標是在Internet/Intranet上實現分布、異構的專家和科技成果信息的互操作,并實現新的業務數據服務的動態裝配和松散耦合.平臺架構采用三層架構,由數據層、業務層和用戶層組成,見圖1.架構將業務應用和數據管理分離,便于數據的動態管理和有機集成,并保證系統具有一定的穩定性和可擴展性.

圖1 平臺架構
(1)數據層.數據層是指分布式存儲在不同業務平臺中與科技成果轉化相關的數據,主要包括科技專家數據庫、科技成果庫、成果轉化庫、企業信息庫,以及其他相關數據庫或文件.這些數據存儲在關系數據庫或文件系統中.
(2)業務層.業務層是整個架構的橋梁與紐帶.對用戶層的發出的請求進行解析,通過調用業務系統,將請求轉化成內部處理規則,并向數據層轉發數據請求;數據層響應請求后,對返回的數據進行組織,以用戶預設形式呈現給用戶.業務層由業務系統和支撐服務系統兩部分組成,其中業務系統包括科技專家子系統、企業信息子系統、科技成果子系統、交易子系統.支撐服務系統包括在線交流子系統、政策發布子系統、身份認證子系統、角色權限子系統、數據報表子系統、數據服務子系統.數據服務向外提供了標準的Web Services服務接口,支持新的業務數據動態集成和為其他系統動態提供數據服務.
(3)用戶層.用戶層是平臺的最終用戶,包括企業用戶、科技專家、科研院所、高等院校、科技管理部門.專家人才通過平臺可以進行技術和成果展示;企業用戶通過平臺可以搜尋技術和發布需求;科技管理部門依據平臺數據輔助決策,發布成果轉化政策;當科技成果與企業需求對接成功,可以通過平臺完成交易,促進科技成果的轉化.
為了保護已有投資,集成遺留業務系統中的數據,需要一種能夠滿足在異構環境下進行數據交換和傳輸的標準.XML是一種用來描述數據的中介語言,它是一種任何人都寫入和讀出的標準化語言,它為異構化的結構數據提供了標準化描述格式.通過XML不僅可以很好地集成原有業務系統中數據,而且方便為其他系統應用提供信息共享.XML作為半結構化的描述語言,將XML的文檔描述與現有數據庫表中字段一一對應,可實現科技成果數據與XML文檔的互相轉換.只要遺留的業務系統遵循XML數據規范和交換標準,就可以實現異構業務數據的互操作.基于XML的異構數據集成模型見圖2.
XML轉換服務是實現分布異構業務數據與XML數據互相轉換的關鍵服務.通過調用XML轉換服務可以輕松地將關系數據庫或文檔數據轉換成XML格式數據,也可輕松地對XML格式數據實施精準查詢和模型抽取.另外為了消除了異構系統和平臺的差異,實現異構業務數據服務的動態裝配和松散耦合,XML適配服務采用了Web Services技術實現.只要新系統或原有業務系統向外提供和發布Web Services數據接口,就可以被動態地發現和集成,從而實現對遺留業務系統數據的集成.

圖2 基于XML異構數據集成模型
傳統數據檢索服務是將前臺輸入的關鍵詞進行SQL拼接,并與數據庫表的文本標題或內容進行配對,返回所有包含關鍵詞的記錄.這種方式比較適合數據量小、類型簡單的數據檢索.然而在類型復雜、形式多樣的科技成果的檢索時,面臨兩個難題:一是成果所有者給定的關鍵詞與用戶所期望的往往存一定偏差且耗時費力,提取效果也會因為提取人的喜好導致較大差異;二是科技成果類型復雜、形式多樣,檢索時常常需要訪問多個關聯數據表,隨著科技成果的數據量的增加,檢索服務的性能將下降.克服上述問題的關鍵在于關鍵詞的提取,以科技成果為背景的關鍵詞檢索既可提高檢索效率,檢索結果也更能迎合用戶興趣.科技成果的關鍵詞可以反映成果的主題,幫助用戶快速對科技成果的內容建立畫像.
關鍵詞抽取是指從給定的科技成果描述文本中獲取有代表性的詞語,用以反映不同科技成果的技術要點、應用領域等主題的關鍵信息.TextRank 算法是一種適用于文本內容的詞匯重要性排序算法,通過由詞匯構成的網絡結構的迭代計算出詞語的重要性.算法的優點是不需要事先對文本進行相關的學習訓練,非常適用于科技成果關鍵詞的提?。?].算法的基本思路是對給定的文本進行分割,劃分為由若干詞語節點構成的圖模型.利用PageRank算法對圖模型進行迭代計算,直到節點的累加權重收斂,然后根據權重對所有節點進行排序,最后輸出關鍵詞[7].節點的權值計算公式為:


圖3 關鍵詞提取流程圖
其中In(Vi)表示指向Vi的節點集合,Out(Vj)表示Vj指向的節點集合,Wji表示節點Vj與Vi邊的權重,d為阻尼系數,一般取值為0.85,其主要作用是保證讓權重能夠穩定傳遞至收斂.為了有效提高關鍵詞提取效果,將根據關鍵詞出現的頻次與語料庫中的頻數的算術平均值來確定每個詞語的權重值,其值越大表示對主題的表現力越好.關鍵詞提取的流程見圖3.
(1)成果文本預處理.利用語句分隔符對科技成果描述信息進行切分,通過分詞器和領域詞典對切分后的信息進行分詞,通過詞表過濾停用詞、代詞、指示詞等詞語,保留與語義相關的名詞、動詞、形容詞等包含科技成果關鍵信息的詞語.
(2)構建圖模型.根據第一步得到的詞匯,構建以詞語為節點的圖模型G(V,E),V表示詞語節點集合,E表示節點間邊的集合.以參數值k滑動窗口對兩節點包含的詞匯進行標記,當兩節點之間的詞語存在共現關系時,則兩節點間將存一條邊,遍歷所有節點,得到所有的邊.
(3)計算節點權重.根據節點權重公式,迭代計算所有分詞節點的權重值,直至收斂到可接受的區間值,則停止計算,此時,節點權重值越大說明該節點攜帶越多的關鍵信息.
(4)節點排序.遍歷圖中所有節點,根據迭代收斂時的權重對節點排序.
(5)提取關鍵詞.將排序得到權重較大的前N個詞語當作對應科技成果的關鍵詞,并在原文中標注.
科技成果是對某領域的科學技術進行研究取得的具有一定學術或應用價值的成果.科技成果信息來自不同部門、不同單位,涉及政治、經濟、文化等方面的敏感信息,甚至國家機密,因此,為了防止數據篡改和非法訪問,有必要利用訪問控制策略對科技成果信息按權限受限地訪問控制[8].科技成果轉化平臺的用戶可劃分為企業用戶、專家人才、科研院所、高等院校、科技管理部門五類,因此,在用戶與權限之間引入相應的五類角色,一個用戶擁有若干角色,一個角色擁有若干權限.通過角色分配實現用戶與權限之間的關聯,通過權限授予實現權限與資源之間的關聯,從而避免了用戶與資源直接關聯,實現了按用戶角色權限受限地對系統功能進行訪問控制,訪問控制模型如圖4所示.
在上面的訪問控制過程中,通過角色實現了用戶與訪問資源的邏輯分離.一方面它有利于簡化授權過程,另一方面有利于多樣化的安全策略.

圖4 基于角色訪問控制模型
遵循資源共享、效益共贏、動態發展的原則,結合科技成果轉化的實際需求,筆者將相關技術應用于某市科技成果轉化平臺中.主要實現了通知管理(短信管理、平臺通知、政策法規、推送提醒)、成果管理(成果信息、成果展示、成果評估)、需求管理(成果需求、人才需求、評估需求)、交易管理(意向管理、在線競價、合同管理、成果成效)、數據服務(數據查詢、統計分析、數據報表、服務接口)、用戶管理(人才管理、企業管理、管理員管理、信息審核)、系統管理(數據備份、數據還原、用戶角色、角色權限、修改口令)等功能,有效地疏通了科技成果轉化的上、中、下游的各環節,解決了科技成果轉化過程中的信息不對稱問題,提高了科技成果資源的綜合利用能力,促進了科技成果的轉化.
構建科技成果轉化平臺是貫徹落實科技創新思想、實施創新驅動發展戰略的一個具體措施,是促進科技成果轉化的主要手段.文中針對實際的需求,提出了一個科技成果轉化平臺框架,通過該框架解決了異構業務數據的動態集成、用戶檢索效率低、保障數據安全等關鍵問題,并通過實例證明了它的可行性和實用性.平臺的構建將有效解決科技成果與市場需求之間信息不對稱難題,使科技成果與市場緊密的聯系在一起,真正有效地促進科技成果的轉化,實現科技成果的產業化.