華斌 趙三珊 陸啟宇 黃興德 張堰華
(1.國網上海市電力公司,上海 200120;2.國網上海市電力公司電力科學研究院,上海 200437;3.上海久隆企業管理咨詢有限公司,上海 200052)
電網企業涉及的技術領域廣泛、高端裝備密集,是我國科技創新的中堅力量。在能源革命和數字革命相融合的趨勢下占領電力技術與互聯網技術的融合高地,成為企業創新的重中之重。隨著大數據時代的到來,信息的規模化、實時化、碎片化趨勢不斷加劇,科技決策者識別技術前沿、熱點面臨更大挑戰,科研人員搜尋、整合、分析科技資源面臨更大難度。電網企業有必要建設數字化服務體系,為破解大數據時代的科技創新難題提供解決方案。
電網企業的信息化工作啟動較早,早在2010年左右就著手構建公共數據模型,部署各類業務信息系統。目前,科技工作管理系統服務于日常科技管理和業務開展,包含科技項目管理、實驗室管理、科研團隊管理、技術標準管理等模塊,經過長期使用,系統中沉淀了大量數據資源,包括項目建議書、可研報告、項目成果、實驗室列表、人才清單等,為數據價值的進一步挖掘奠定了基礎。此外,電網企業還高度重視科技文獻資源的數字化,通過自建或購買的方式,擁有了10余種國內外文獻數據庫,例如,中國知網期刊數據庫、中國知網學位論文數據庫、國研數據庫、超星讀秀全文數據庫等。
總的來說,電網企業以往的數字化工作集中于業務系統、科技資源建設兩方面,已經難以適應數字化時代對科技創新提出的新要求,具體體現在3個方面。
(1)文獻資源分布零散,信息查找存在不便。企業購買及在建的各個數據庫之間相互獨立,查找文獻需要以不同的登錄賬戶和密碼登錄,反復登錄不同的數據庫,文獻查找的效率較低。(2)數據關聯尚未建立,難以開展深入分析。科技創新相關的各類數據,如論文、專利、項目、人才等均孤立存在,尚未構成拓撲結構網絡。因此,難以開展數據關聯分析,難以提供深層次洞見。(3)輔助決策支撐較弱,數字智能有待挖掘。現有的信息系統側重于業務管理,然而科技創新中還存在著大量決策類工作,如技術布局、合作方優選、立項優選等。目前,這類決策主要依賴專家根據以往經驗制定,缺乏數據驅動的量化決策依據。
知識圖譜由谷歌公司于2012年提出[1],是一種用圖模型來描述知識和建模世間萬物的關聯關系的技術方法,知識圖譜由節點和邊組成,節點可以是實體或是抽象的概念,邊可以是實體的屬性或實體之間的關系[2]。知識圖譜可以很好地輔助機器進行語義的理解和語言的生成,從而在智能搜索、自動問答、智能推薦、智能決策等各個領域得到廣泛應用[3]。
在科技創新領域,一些文獻對知識圖譜的應用方向進行了探討。陳璐等基于中國知網收錄的1627篇文獻,利用Citespace繪制作者、機構、關鍵詞知識圖譜,分析我國高校科技成果研究領域的主要力量、研究熱點、研究趨勢等[4];劉磊等基于CSSCI收錄的4228篇論文,利用Citespace繪制科技成果轉化研究知識圖譜,分析我國科技成果轉化的研究熱點和前沿領域[5];劉志輝等通過構建科技創新評價指標知識圖譜,建立指標與指標、指標與數據、指標與可視化的關聯,實現指標的自適應評價計算[6];周園春等介紹了科技大數據知識圖譜在科技實體推薦、科技社區發現、科技實體評價、學科交叉及學科演化研究等方面的應用[7]。此外,還有一些文獻對科技創新知識圖譜平臺的建設進行了研究。胡吉穎等依托中國科學院文獻情報研究中心,構建基于知識圖譜的科技大數據知識發現平臺,實現論文、專利、標準、項目等10類科研實體的智能語義發現,支持語義搜索、科研綜述、主體聚合分析、學者畫像等功能[8];于升峰基于期刊論文、專利文獻、科技成果、機構人才等數據庫,構建科技智庫知識圖譜,實現專家畫像、聚類分析、趨勢分析等功能[9]。
電網企業從科技創新數字化需求出發,借鑒知識圖譜相關研究,提出了技術圖譜這一理念。技術圖譜是反映能源互聯網領域的技術領域、研究、關鍵詞、研究者、研究機構及其之間拓撲關系的網絡結構圖譜,其本質是能源互聯網技術的知識圖譜。技術圖譜中實體的關聯關系如圖1所示。

圖1 技術圖譜中實體的關聯關系
技術圖譜的核心是基于圖的數據組織方式與可視化展現形式,與傳統的數據結構及呈現形式相比,具有以下4個方面的顯著優勢:
(1)實體關系更加直觀:技術圖譜由節點和邊構成,每個節點代表一個科技創新相關實體,如關鍵詞、研究者、研究機構等,每兩個節點之間的連線構成邊,反映實體之間的關系,比如研究者和機構的隸屬關系、關鍵詞間的共現關系等。因此,技術圖譜可以全面、客觀地呈現能源互聯網技術體系以及科研生態系統。
(2)知識發現更加高效:技術圖譜以圖的方式為孤立的單點數據之間建立聯系,通過復雜網絡算法開展數據分析,可以發現隱藏信息。例如,通過開展節點中心性分析、社團分析、路徑分析等,可以有效發現技術集群、研究熱點、科研團體、學科帶頭人等,從而提高對科技創新工作的洞察力。
(3)信息匹配更加精準:搜索與推薦是互聯網時代人們獲取信息的重要方式。技術圖譜對科技創新相關的實體、屬性和關系進行描述,為搜索和推薦提供豐富的背景知識,有利于搜索引擎理解用戶意圖,實現語義搜索;有利于推薦算法深層次發現用戶興趣,提高推薦精度。
(4)決策支撐更加量化:在技術圖譜上應用知識推理技術,可以根據已知的知識推導出新知識,從而發現科技創新各類實體的特征標識。通過補全和泛化實體“標簽”,并量化“標簽”權重,自動形成科技創新實體的全方位畫像,實現智能化輔助決策,降低對經驗的依賴。
電網企業的科技創新全過程包括科技規劃、選題立項、研究開發、成果轉化、科研人才培養等工作模塊。技術圖譜可以應用于以下5類主要場景中,為科技創新工作提供有力支撐。
3.3.1 基于技術圖譜的可視化展示
技術圖譜擅長復雜關系的刻畫,科技創新工作中存在的主要關系包括,文獻與技術領域的隸屬關系、文獻之間的引用關系、研究者之間的合作關系等。因此,電網企業可以依托科技文獻數據構建各類關系網絡,實現對科技創新要素關系的可視化全景展示。
(1)技術方向共現網絡:圖中的每一個節點代表一個技術方向,節點大小代表該技術方向的文獻數量,連接節點的邊代表一篇文獻同時屬于兩個技術方向。因此,節點越大代表該技術方向的文獻越多,連線越粗代表同時屬于兩個技術方向的文獻越多。
(2)文獻共被引網絡:圖中的每一個節點代表一篇文獻,節點大小代表該文獻被引用的總次數,連接節點的邊代表兩篇文獻同時被另一篇文獻引用。因此,節點越大代表該文獻被引用得越多,連線越粗代表兩篇文獻越傾向于被共同引用。
(3)關鍵詞共現網絡:該圖譜中每一個節點代表一個關鍵詞,節點大小代表所有文獻中該關鍵詞的出現頻次,連接節點的邊代表兩個關鍵詞同時出現在一篇文獻中。因此,節點越大代表該關鍵詞越常見,連線越粗代表兩個關鍵詞越傾向于同時出現。
(4)作者合作網絡:該圖譜中的每一個節點代表一位作者,節點大小代表該作者參與的所有文獻數量,連接節點的邊代表兩位作者共同參與某一篇文獻發表。因此,節點越大代表該作者越高產,連線越粗代表兩位作者越經常合作發表文獻。
3.3.2 基于技術圖譜的圖計算
技術圖譜以圖作為數據模型表達關系,可以通過圖計算的方式尋找圖譜中節點間的隱含聯系,為科技創新工作提供深度洞察力,典型的應用場景包括路徑發現、社團發現和關鍵節點發現。
(1)路徑發現。路徑發現是探索網絡中兩個節點之間主路徑的一種算法,通過定義節點起始和終止節點,從起始節點開始遍歷關系直到到達終止節點,累計遍歷權重最大的路徑即為主路徑[10]。路徑發現可以用于梳理研究脈絡或人脈網絡。例如,在關鍵詞共現網絡中運用路徑發現,可以識別研究主題之間演變的主要脈絡和重要節點,為多個項目協同立項提供參考;在作者合作網絡中運用路徑發現,可以發現兩位研究者合作的主要人際鏈條,為聯系外部專家提供中間引薦人人選。
(2)社團發現。社團發現是探索圖上多個節點之間親疏關系的一類算法,代表性的包括Louvain和LPA算法。其中,Louvain算法基于模塊度發現社團[11],具有良好的效率和穩定性;LPA算法基于標簽傳播發現社團[12],由于其簡單易實現、執行時間短受到廣泛關注。社團發現可以用于識別技術集群或研究團隊。例如,在技術方向共現網絡中運用社團發現,可以識別關系密切的技術團體,團體內的技術應考慮協同立項和研發;在作者合作網絡中運用社團發現,可以識別經常合作的科研團隊,為組建項目團隊成員提供重要參考。社團發現的應用如圖2所示。

圖2 社團發現示意圖
(3)關鍵節點發現。關鍵節點是網絡中處于凝聚性或樞紐地位的節點,代表性算法包括節點的度[13]、接近度[13]、介數[14]等。關鍵節點發現可以用于識別重要實體。例如,關鍵詞共現網絡中的關鍵節點一般為熱點研究主題,作者合作網絡中的關鍵節點一般為高影響力的技術專家。關鍵節點發現的應用如圖3所示。

圖3 關鍵節點發現示意圖
3.3.3 基于技術圖譜的檢索
搜索引擎是互聯網基礎應用之一,傳統搜索引擎以文本分析為核心,根據網頁之間的超鏈接返回結果,往往不能滿足用戶的需求。技術圖譜支持語義搜索,能有效提高搜索結果的全面性和準確性。
(1)擴大召回范圍。例如,用戶查詢關鍵詞“上海市電力公司”時,傳統搜索引擎會返回包含關鍵字“上海市電力公司”的網頁。技術圖譜提供的語義網絡,支持按照主題而不是字符串檢索,因此,搜索引擎會進行實體的等價推理和上下位關系推理,將研究機構為“國網上海電力”“國網上海電科院”“浦東供電公司”等的科技文獻一并召回。
(2)提升對用戶搜索意圖的理解。例如,用戶查詢關鍵詞“上海電力公司”“虛擬電廠”時,傳統搜索引擎會返回包含關鍵字“上海市電力公司”“虛擬電廠”的網頁,因為搜索引擎沒有理解用戶是想知道“上海市電力公司”在“虛擬電廠”領域的科技文獻。技術圖譜作為背景知識,可以豐富對科技文獻的描述,因此,搜索引擎將根據“上海市電力公司”“虛擬電廠”兩個實體與科技文獻實體之間的鏈路關系返回搜索結果,匹配更加精準。
3.3.4 基于技術圖譜的推薦
電網企業擁有海量的科技資源,用戶在資源搜索中存在信息過載問題,推薦系統作為一種信息過濾的手段,能有效提高搜索效率和精度。傳統的推薦系統一般采用協同過濾算法,可能存在用戶和物品交互的稀疏性問題,過擬合風險較大[15]。技術圖譜是文獻、作者、機構等科技創新要素的語義網絡,可以為推薦提供豐富的輔助性信息,大大提高推薦的精準性。具體表現在以下方面:
(1)以文獻的屬性信息為輔助性信息:如果存在“研究A-屬性-屬性值A”以及“研究B-屬性-屬性值B”的三元組關系,且屬性值A=屬性值B,那么可以向對文獻A感興趣的用戶推薦文獻B。
(2)以文獻的引用關系為輔助性信息:如果存在“研究A-引用-研究 B”的三元組關系,那么可以向對文獻A感興趣的用戶推薦文獻B。
(3)以作者合作網絡為輔助性信息:如果存在“作者A-研究-作者B”的三元組關系,則作者A、作者B之間存在合作關系,那么可以向作者B推薦作者A感興趣的文獻。
3.3.5 基于技術圖譜的輔助決策
在科技創新工作中,管理者面臨著為科研項目遴選合作方、評審專家,團隊成員等問題,傳統上一般依賴管理人員的經驗決策。以技術圖譜為依托,為科研機構和人才構建畫像,得到高度精練的特征標識和量化的評價結果,可以有效提高相關決策的科學性。基于技術圖譜的輔助決策實現步驟如下:
(1)明確決策需求。決策需求來源于業務場景,以為某項目優選項目經理為例,項目和人才所屬專業領域的高匹配性,是人才優選的首要需求。因此,運用自然語言處理技術,采用分詞算法對項目建議書進行詞語切分和解析,采用TF-IDF、TextRank、主題模型等提取算法提煉出選題中的關鍵詞以及對應的權重值,作為該課題所屬的技術領域標簽。
(2)項目標簽的語義泛化。將項目的技術領域標簽與技術圖譜中的“技術領域”類實體進行匹配,從匹配到的實體出發,采用隨機游走算法,利用技術圖譜提供的實體間關聯關系,計算各實體節點被訪問到的概率,概率高的“技術領域”類實體可以作為項目的新標簽,從而實現項目標簽的泛化。例如,從初始技術類實體“可再生能源”去技術圖譜中隨機游走,很可能找到“風力發電”“水力發電”等在項目中未提及但語義相關性強的實體。
(3)人才標簽補全。以科研人員的合作網絡為依托,利用知識推理去擴充、補全人才標簽。知識推理技術旨在依據現有的知識信息推導出新知識,包括實體關系、屬性等,或者識別出錯誤關系。例如,某科研人員并未發表過某技術領域的文章,但根據該科研人員的合作網絡,大部分密切聯系人都擁有該技術的標簽,則可以推理出該科研人員也應該擁有這個標簽,從而找到科研人員的缺失標簽。
(4)生成候選清單。在技術圖譜中篩選身份信息是公司科研人員、技術領域標簽與項目標簽相匹配的人員,形成項目經理候選人列表。接著,構建推薦值計算模型,考慮“年齡”“曾承擔項目數”“曾承擔項目評審得分”“以往項目成果質量”等高度相關的因素,科學設置各指標權重,計算生成推薦得分,根據推薦值從高到低選出適合的項目經理。
以公司領導、科技管理者、科研人員、人才管理者為服務對象,構建科技創新數字化平臺,為技術圖譜各類應用場景的落地提供數字化載體。科技創新數字化平臺整體上包括3層結構:數據資源層、智能分析層和智慧應用層。如圖4所示。

圖4 企業級科技創新數字化平臺的總體構想
數據資源層集成了海量的企業內、外部數據,根據原始元數據的特點,對數據進行補足、去重、剔除異常值、分類、索引等處理,構建面向科技創新工作的數據倉庫。目前,電網企業的外部數據庫主要包括中外文論文數據庫、期刊數據庫、專利數據庫、標準數據庫、科技成果數據庫等,內部數據庫主要包括科技人員數據庫、項目立項數據庫、項目評審數據庫、項目成果數據庫、實驗室數據庫、企業標準數據庫等。以上數據庫均屬于結構化數據庫,可以利用數據收割工具直接導出元數據。
智能分析層集成了各類數據分析工具,可以對數據資源層中的元數據進行處理和運算,形成技術圖譜內核,對智慧應用層構成支撐。主要數據分析工具包括以下3類:
(1)自然語言處理工具:大部分科技數據以文本的形式存在,如論文、專利、標準等,自然語言處理工具包括分詞、詞性標注、命名實體識別、文本分類等工具,可以將人類語言轉化為計算機能夠理解的語言,從而提煉文獻的主題關鍵詞。
(2)技術圖譜構建工具:技術圖譜的構建涉及知識抽取、知識融合、知識存儲、知識加工等核心技術。在知識抽取中,利用圖映射、D2R轉換工具抽取結構化數據,利用包裝器抽取半結構化數據,利用詞典、統計機器學習工具等抽取文本數據;在知識融合中,利用空間向量模型、語義模型、社會網絡模型等算法進行實體消歧,利用Hobbs算法、C4.5決策樹算法等實現共指消解;在知識存儲中,利用Neo4j圖數據庫對實體和關系進行映射;在知識加工中,利用神經網絡模型、Path Ranking算法等開展知識推理。通過以上工具的運用,將論文、專利、標準中蘊含的技術要素信息,如技術領域、關鍵詞、作者、機構等,最終以節點和邊構成的網絡狀圖譜呈現。
(3)技術圖譜分析工具:技術圖譜是復雜網絡的一種表現形式,以圖論為基礎的各種圖算法都可以對技術圖譜進行有效分析,包括,路徑發現算法、社團發現算法、中心性算法等;此外,相關分析、回歸分析、因子分析等傳統算法也是數據分析工具的重要組成部分。
智慧應用層面向公司領導、科創管理者、科研人員和人才管理者,圍繞其工作場景設計可視化界面及應用功能,提供科技創新數字化服務的一站式解決方案。主要包括:
(1)技術圖譜可視化:構建技術圖譜可視化展示界面,形成共現網絡、共被引網絡及合作網絡,使科技創新人員能夠全面概覽能源互聯網領域的技術領域、科研機構、研究人員等。(2)基于技術圖譜的圖計算:構建圖計算分析引擎,用戶可以選擇分析類別及具體算法,開展中心性分析、社團分析、路徑分析,從技術圖譜中挖掘潛在信息。(3)科技資源檢索:構建一站式檢索入口,可根據用戶輸入的關鍵詞橫跨多個數據庫檢索,并利用技術圖譜實現語義搜索,提高檢索結果的準確性。(4)科技資源推薦:構建基于技術圖譜的推薦系統,依托豐富的語義信息,實現主動精準推薦。(5)數字化輔助決策:根據公司領導、科創管理者、人才管理者面臨的常見決策場景,設計“戰略合作方優選”“項目專家優選”“項目團隊成員優選”等輔助決策模塊,提供量化決策依據。
電網企業是我國建設創新型社會的主力軍,在大數據時代,信息的極大豐富化、復雜化對科技創新提出了新挑戰,同時,數據存儲、處理及分析技術的逐步成熟,也為科技創新數字化提供了有利條件。本文以電網企業為例,介紹了技術圖譜的內涵、特征及應用場景,并提出了基于技術圖譜的科技創新數字化服務平臺的構建方法,可以為我國企業推進科技創新數字化轉型提供參考和借鑒。