許文文,徐霄驥,馬 勛,張 峰
(中國電子科技集團公司信息科學研究院 認知與智能技術重點實驗室,北京 100086)
科研機構是以社會和經濟需求為導向,有明確研究方向和任務并持續有組織地開展相關研究與開發活動的機構[1]。全面了解和掌握科研機構發展態勢,是提升創新能力、開展機構間協同創新的重要基礎。然而,隨著科學技術的迅猛發展,科研機構的科研活動范圍越來越廣泛,科研成果呈多源化、海量化的速度增長。如何將海量異構的科研數據快速、精準、高效地組織成高價值業務數據,挖掘出科研機構的特征,支撐機構發展態勢認知,成為學術界亟待解決的重點問題,具體體現在以下方面。
(1)海量異構的科研數據融合不足。受限于技術手段和人力成本開銷,目前科研機構相關分析主要基于論文或專利等單一數據進行,在認知完整性、準確性等方面存在不足,需要開展在論文、專利、項目及科研動態資訊等數據融合基礎上的綜合分析。
(2)機構科研情況認識不清。大多數研究只是針對科研機構某些屬性進行統計性分析,缺乏對科研機構的研究與開發活動屬性的綜合、全面的梳理。
(3)機構發展趨勢認知不深。現有分析主要依靠人工經驗進行概略和粗放式進行,在準確性和預見性方面存在不足。
多源信息融合、知識圖譜等技術的發展為上述問題的解決提供了可能。多源信息融合技術能夠將多種(同類或異類)信息源的數據進行綜合,獲得研究對象的較全面的描述和刻畫,使得信息系統具有更好的性能[2]。知識圖譜可對海量數據進行重新抽象、整理和組織,以更加合理、有序、直觀的方式將知識展示給用戶,使之能更加有利于人的理解和認知,從而更加有效地指導決策[3]。本文采用多源信息融合、知識圖譜構建與分析等技術,匯聚融合多個信息源的科研數據,抽取出機構、技術、專家等科技實體,通過對科技實體間關聯、組合、聚類等分析,建立科研機構畫像,開展機構科研動向分析等,為科研機構的技術布局、研發動向等認知提供輔助支撐。
本文主要貢獻在于:提出了一種數據驅動的科研機構信息感知與融合框架,支撐對數據的要素抽取、關聯融合、分析挖掘,提高科研資源的深層次挖掘利用效率;提出了一種基于圖譜的科研機構畫像技術,實現對科研機構的綜合全面梳理;提出了一種基于關聯挖掘的科研機構動向分析技術,支撐機構技術發展布局洞察,為機構行為的預測提供支持。
現階段,科研領域的數據呈現多源化、海量化的增長趨勢,極大地豐富了可利用的資源。與基于單一數據源的分析相比,基于多源信息融合的科研機構分析能夠更全面地反映科研機構的整體研究與開發活動情況,更準確地定位機構的研究重點、熱點和預測領域研究趨勢[4]。
數據融合是有效提升相關任務準確率的手段[5]。本文結合數據爬蟲、自然語言處理、數據挖掘等技術,開展以科研成果、科研項目、科研新聞動態等為主要內容的科研數據感知與處理研究,構建科研機構信息感知與融合框架,集成文本挖掘、圖譜構建等算法和模型,支撐對數據的要素抽取、關聯融合、分析挖掘,提高科研資源的深層次挖掘利用效率。科研機構信息感知與融合框架如圖1所示。

圖1 科研機構信息感知與融合框架
數據源層,覆蓋機構網站、科技成果、社交媒體網站、資訊網站等開源數據以及內部數據,獲取、收集科研機構的專利、論文、社交賬號動態及新聞資訊等信息,實現信息的匯聚,為后續數據挖掘分析等提供數據支撐。具體地,采用定源跟蹤與開放式獲取相結合的多源數據采集方法獲取數據,并且建立多源信息監測、長期跟蹤機制,實現數據的定期更新。
數據治理層,基于匯聚的科研數據資源,結合文本挖掘、機器翻譯、知識圖譜構建等技術,以及人工輔助矯正的方式,開展科研機構、專家、技術等實體識別、實體間的關聯關系抽取、實體對齊以及實體融合等處理,構建機構庫、專家庫、技術庫、項目庫及成果庫等科研資源庫,構建以科研機構為核心的異質關聯知識圖譜,實現多源信息的融合以及數據的關聯化、層次化、圖譜化,支撐科研資源的深度挖掘與利用。
數據分析層,在科研資源庫和機構關聯知識圖譜的基礎上,結合復雜網絡分析、機器學習、數據挖掘等技術,開展基于圖譜的科研機構畫像、機構科研動向分析等研究,形成針對科研機構的一套深度分析工具集,實現對機構科研產出、技術布局、研發動向等的認知。
業務應用層,支撐科研機構檢索、機構合作分析、機構發展態勢感知、科研機構推薦、新興技術發現、機構技術布局洞察等服務,為掌握最新科技動向、科學判斷、果斷決策等提供輔助支撐。
機構畫像是通過分析機構的固有屬性以及動態行為和變化,提煉出以機構為核心的各類屬性特征,實現對機構的多個維度的綜合展示和分析。科研機構畫像可以真實、全面、準確、動態地描繪科研機構的特征[6],支撐機構檢索以及對相關機構的篩選、統計或對比分析等。
科研機構除具有普通社會主體的法律特征、行為特征、經濟特征以外,在研究與開發活動中還形成了自身的科研特征,如研究領域、科研產出及科研合作等。特別地,機構合作已成為科研合作[7]的主要形式之一。對其合作結構的研究,有助于把握科研機構合作的規律和態勢[8]。按照特征類型,可以將科研機構畫像分為基本屬性畫像、業務屬性畫像及關系屬性畫像。基本屬性畫像主要通過機構成立時間、所在地址、機構類型及簡介等基本屬性標簽對機構進行刻畫。業務屬性畫像主要通過機構涉及領域、科研產出、獎項榮譽等屬性標簽對機構進行刻畫。關系屬性畫像主要通過機構科研合作關系、機構隸屬關系、科研引用關系等屬性標簽對機構進行刻畫。
基于圖譜的科研機構畫像處理流程如圖2所示。首先,獲取機構的基本屬性信息,它是科研機構開展相關研究與開發活動的基礎。機構成立時間、所在地址、機構類型、機構簡介、機構法人以及組織架構等信息可以通過機構官網、機構相關成果、機構相關新聞資訊等獲取。其次,通過對科研機構涉及的項目、發表成果、產品等進行文本分析和統計分析,識別出機構涉獵的科研領域、相關技術產出和產量,構建機構業務屬性畫像。最后,在關系屬性畫像方面,通過對機構科研成果的分析,主要是對其論文、專利、獎項等科研成果的署名信息進行解析,構建出機構間的合作關系。機構間合作的科研成果越多,它們之間的科研合作關系越緊密。可以采用社團發現、網絡重構、圖分割等技術,分析機構間關系的緊密程度,進而識別機構科研合作圈。通過對機構組織架構、主管單位屬性、機構發展歷程的分析,可構建機構的層級隸屬關系。

圖2 基于圖譜的科研機構畫像處理流程
科研機構動向分析是對一段時間內科研機構活動情況進行分析挖掘,得出其行動或技術發展的方向。科研機構動向分析能夠洞察機構的技術發展布局,為機構行為的預測提供支持。
當前,社交媒體與科研活動的聯系日益密切。社交媒體讓科研過程管理更加公開透明[9]。科研機構的社交媒體數據能夠反映機構的參與項目情況、研究進展信息、招聘需求信息等。機構新聞資訊是由機構本身或第三方反映機構活動的信息。相比論文、專利等科研成果,科研機構的社交媒體信息、資訊信息具有高時效性、內容豐富性等特征,為機構動向分析提供了有力數據支撐。
關聯分析能夠提高數據的價值和利用率。當數據內容具有時間、空間上的聯系時,關聯分析可以將相似的數據進行匯總,提取出有用的知識[10]。本文基于科研機構的社交媒體信息、資訊信息等,運用關聯分析技術進行動向事件提取,形成事件集合,從時空關聯挖掘、實體關聯挖掘等角度,挖掘事件間的時序和關聯關系,建立事件間的因果關系和發展脈絡,形成科研機構活動情況的動向信息。動向事件包含時間(發生時間、涉及時間)、地點(發生地點、涉及地點)、參與者以及內容描述等要素。
基于關聯挖掘的科研機構動向分析處理流程如圖3所示。首先采用向量空間模型(Vector Space Model,VSM)對科研機構相關的社交媒體信息、資訊信息等文檔進行向量化表示。采用改進的tf-idf(term frequency-inverse document frequency)的 詞語特征權重表示方法,將每篇文檔表示為一個向量,便于進行文本聚類和關系建模等處理。得到文檔的向量表示模型后,通過聚類將文檔集合中描述不同內容的文檔區分開來,將相似內容的相關文檔聚為一類,即每類代表一個事件。其次進行關鍵詞提取,通過文本聚類可以將文檔集中相關性強的文本聚集在一起,形成一個話題,并從聚類得出的每個事件中抽取出一些關鍵詞對事件進行描述。再次,進行關聯關系建模,通過事件之間的時序規律、關聯關系、因果規律挖掘以及關聯度的大小對事件的關聯關系進行判斷,構建出事件關聯關系模型。最后,結合專家知識預判科研機構的發展動向。

圖3 基于關聯挖掘的科研機構動向分析處理流程
科研機構態勢感知能夠提升管理工作、輔助決策。不同源的信息能夠從不同的角度反映科研機構的研究與開發活動情況。本文提出了一種數據驅動的科研機構信息感知與融合框架,實現了對官方網站、期刊論文、專利文獻、社交媒體、新聞資訊等多種渠道的信息采集,并對異構信息進行匯聚融合,形成規范統一、持續更新的科研機構數據。針對機構科研狀態的認識需求,本文提出了一種基于圖譜的科研機構畫像技術,實現綜合性、關聯性的機構科研情況分析。針對科研機構發展趨勢認知的需求,本文提出了一種基于關聯挖掘的科研機構動向分析技術,支撐機構技術發展布局洞察,為機構行為的預測提供支持。下一步將針對具體領域開展科研機構發展態勢實證分析,對方法進行優化,對分析功能進行完善。