浮肖肖
(新鄉醫學院 圖書館,河南 新鄉 453003)
推進科技成果轉化是過去數十年科技體制改革的主線之一,但每年見諸報端的依然是我國科技成果轉化慢、轉化難、轉化率不高。根據國家知識產權局《2019年中國專利調查報告》顯示,我國高校專利產業化率僅為3.7%,科研單位專利產業化率僅為18.3%,遠低于國際平均水平。供需信息的準確匹配是科技成果轉化精準服務的基礎,對技術商業化價值實現與企業創新能力提升具有重要推動作用[1]。而精準識別企業的真實技術需求是精準實現科技成果轉化的第一步,是實現技術轉移供需信息精準匹配的前提。精準識別企業的真實技術需求,并為其準確匹配科技成果是技術轉移精準服務的前提和基礎。
企業的技術需求通常是行業秘密,因此企業在交易平臺所填寫的需求信息通常是籠統概括,并不能實際切中企業的真實技術需求。目前國內關于技術供需匹配多是根據企業在交易網站提交的需求文本來分析企業的技術需求。翟東升[2]通過分析技術需求文檔的文本特征和需求內容特征挖掘潛在的技術研發伙伴;何喜軍[3]通過對技術供需雙方文本詞頻特征、相關性特征和語義特征進行匹配,開展線上技術供需信息匹配;楊德林[4]采用文本表示模型和余弦相似度理論對交易網站上供需雙方的文本進行相似度計算。上述研究更多的是根據企業在交易平臺提供的需求文本信息這單一數據源為準為企業尋求相匹配的成果技術,但企業的技術需求實際上是企業的商業機密,企業在交易網站所提供的需求文本只是模糊表達企業的技術需求,并不能準確展現企業的真實技術需求。如今的大數據時代,大數據為識別用戶需求提供了新的方法,分析用戶在網站的瀏覽歷史、收藏記錄、留言信息等碎片化的行為數據收集整理分析挖掘,可直接或間接反映用戶的興趣、態度等信息,完整重構用戶的需求。通過數據挖掘企業在交易網站的行為數據,可以更精準了解企業的真實技術需求。
目前的研究更多從宏觀方面分析技術供需匹配的方法、路徑,且僅根據需求文本作為匹配標準,無法總體全面的識別企業的真實需求。筆者嘗試勾勒出面向技術需求的企業用戶畫像,綜合、立體、全方位的展示企業的真實技術需求,并根據企業的真實技術需求進行匹配,為企業推薦適合的科技成果,以提高科技成果轉移效率,創造出更多的價值。
用戶畫像是真實用戶的虛擬代表,是將用戶的真實數據通過各種數據挖掘方法繪制出的虛構角色。用戶畫像能幫助理解用戶的需求、行為和目標,能利用標簽刻畫不同面目的真實用戶,從而為精準解決其業務難題提供解決途徑。用戶畫像在電子商務、管理經濟、情報分析等領域均有廣泛應用。京東、淘寶、Amazon等購物網站根據用戶的瀏覽、收藏、下單等行為分析用戶需求并向用戶推薦商品;今日頭條、抖音等新聞社交平臺也會根據用戶的關注頻道、關注用戶、閱讀瀏覽主題等對用戶進行精準推薦;黎丹雨[5]依據用戶在電商網站中點擊停留等行為數據構建用戶畫像,根據用戶標簽和物品特征匹配度為用戶推薦合適的物品;劉海[6]等認為通過對網上消費者瀏覽、點擊、評論等行為信息能反映消費者的偏好。交易網站中用戶的技術需求其實就是用戶對成果的興趣,借鑒用戶畫像的方法識別企業的技術需求,為企業推薦合適的成果,提高技術轉移效率。
基于上述分析,筆者采用用戶畫像技術來為企業用戶推薦合適的科技成果。通過獲取企業用戶在交易網站的技術需求記錄和其在網站的信息搜索記錄和行為數據,建立企業用戶的技術需求畫像模型,識別企業真實的技術需求,根據企業用戶的技術需求標簽和科技成果的技術特征進行匹配,為企業推薦滿足其需求的科技成果,構建切合企業技術需求的精準服務模式,為精準實施技術轉移提供基礎。
用戶畫像系統有效匯總了企業在交易網站中的行為數據及其需求文本數據,通過對數據進行挖掘和統計分類,構建企業技術需求的用戶畫像模型,最后圍繞畫像模型為企業提供精準服務。
文中企業用戶畫像數據主要來源是企業在技術交易平臺填寫的技術需求和其在交易平臺的瀏覽歷史、頁面時間、信息檢索等過程中產生的各類行為數據,如用戶基本信息、需求文本數據等。圍繞上述維度提取企業用戶的需求標簽特征。由此構建多維標簽體系的企業用戶技術需求畫像模型。①用戶基本信息標簽。主要描述企業用戶的基本情況的指標,如企業名稱、所屬行業、企業規模、企業法人、企業地址等。 ②企業顯性技術需求標簽。包括企業在交易平臺填寫的需求文本數據。 ③企業隱性技術需求標簽。主要描述企業交易平臺的檢索內容、頁面瀏覽等行為數據。其中企業用戶通過關鍵詞對感興趣的內容進行檢索,該關鍵詞體現了用戶的技術需求興趣;企業用戶瀏覽網頁的時間節點、頁面停留時間長短則顯示用戶對該內容的興趣程度;閱讀內容體現用戶對技術資源的興趣主題和所屬領域;收藏是用戶對感興趣的內容進行收藏;通過分析企業用戶在交易網站的瀏覽、閱讀和收藏的科技成果,抓取這些科技成果的技術特征,可以構建出企業用戶自身的隱性技術需求標簽。
面向技術需求的企業用戶畫像標簽是對企業用戶技術需求相關抽象表象經過數理分析后形成更形象、更容易理解的信息,是多種企業所需多種技術特征的集合。通過不同維度標簽的建立,可以進一步挖掘企業用戶顯性技術需求和隱性技術需求的向量集合,為后續企業用戶成果推薦打好基礎。根據上述企業用戶技術需求標簽的形式化表示方法,構建了面向技術需求的企業用戶畫像概念模型,具體如圖1所示。

圖1 面向技術需求的企業用戶畫像概念模型
根據面向技術需求的企業用戶畫像模型,筆者設計了基于畫像模型的技術轉移精準推薦模式,如圖2所示。

圖2 基于用戶畫像的成果推薦流程
利用用戶畫像方法實施技術轉移精準服務的實現路徑為:①從交易網站中抓取技術需求文本數據并采用TextRank方法提取關鍵短語。②根據企業在交易網站的行為數據,分析其瀏覽收藏的科技成果構建企業隱性技術需求向量集合。③從成果摘要中提取技術特征短語,形成該項科技成果的特征標簽,其中每一個科技成果都是由數個技術特征構成的向量集合。④基于技術供需雙方的技術特征集合對雙方匹配度進行計算,并為企業推薦與其需求相匹配的成果。
交易網站中企業技術需求文本通常都是口語化有余而專業化不足,且其中包含大量的非結構化語言,建立語料庫進行語義相似訓練是當前的主要研究點。筆者選取國家知識產權局專利數據庫中的術語文本和百度百科文本作為原始語料庫。
4.1.1 采用TextRank提取企業顯性技術需求標簽。 利用信息采集工具或網絡爬蟲工具獲取企業在交易網站的技術需求文本數據(包括技術需求名稱、需求簡介、所屬領域等),選取國家知識產權局專利數據庫中的術語文本和百度百科文本作為原始語料庫,對供需文本的標題和內容部分進行噪音過濾、分詞、去停用詞等預處理,然后利用TextRank算法提取企業技術需求文本關鍵短語,從而得到有關企業顯性技術需求的標簽合集。TextRank提取關鍵短語的算法如下: ①將需求文本分割成數個句子,對每個句子進行預處理,保留有意義詞性的詞組,即待選關鍵詞。②構建無向無權關鍵詞圖G=(V,E),V為所有待選關鍵詞集合,E為所有鄰接關鍵詞關系集合。關鍵詞vi和vj之間連線的權重為wij,任意點vi的得分公式如下:
(1)
p∈[0,1]為特定點到其他點的概率,常規取值0.85[15]。③根據公式(1),循環迭代計算每個節點的得分,選取得分較高的作為關鍵詞。
筆者選取上述結果中的關鍵詞集合為企業顯性技術需求的技術特征詞組向量集合,即企業顯性技術需求標簽合集。
4.1.2 企業隱性技術需求標簽的挖掘。 大數據挖掘企業隱性的技術需求是解決企業具體真實技術需求的關鍵。對于企業用戶來說,企業的真實技術需求隱藏于企業的行為中。企業在交易網站通過瀏覽網站所發布的科技成果的內容來獲取信息,其動態操作信息可以有效展示企業技術需求興趣,因此分析企業用戶在交易網站的瀏覽、閱讀和收藏的科技成果,抓取這些科技成果的標簽,構建出企業用戶隱性技術需求標簽。筆者通過成果交易網站后臺獲取用戶的行為數據,利用Python、網站日志等技術爬取用戶的行為數據,對行為數據進行聚類關聯等預處理,最后根據關注的成果技術特征標簽,組建企業用戶的隱性技術需求標簽。
企業在交易網站的行為數據主要包括瀏覽、停留時長等,其各自所代表的興趣程度各不相同。用戶點擊某一科技成果但是其停留時間很短,可能是用戶誤點。對于企業隱性技術需求挖掘有用的是那些用戶點擊瀏覽且停留時間較長的成果。為了更好區分不同行為數據產生的價值,本文采用引入時間因子來進行評價。定義用戶u對成果i興趣程度的計算方法為:
(2)
其中,t為用戶對某項科技成果i的瀏覽時長,為用戶在交易網站的瀏覽總時長。W值越大,表示該用戶對成果的興趣度越高。通過計算用戶對不同科技成果的興趣程度的得分,將得分排序最高的成果的技術特征作為該企業用戶的隱性技術需求特征。
科技成果文獻是規范的結構化文本,文中描述技術功效的句子主要集中在文本摘要部分,可以此形成該項科技成果的特征標簽。從成果摘要中提取技術特征短語的流程,如圖3所示。

圖3 技術特征短語的流程
從成果摘要中抽取含有技術特征詞語或短語的句子,將句子根據標點符號(逗號、句號、頓號、分號等)分割成較短的單句。對單句進行過濾要經過兩個過程,首先通過編寫正則表達式過濾掉只含字母或數字等非目標單句,然后根據科技成果文本中對其技術領域、背景、方案等提取特征線索詞(特征線索詞不含技術特征、功能的含義),如應用、提高、良好等,通過上述兩個步驟能迅速定位成果摘要中技術特征目標句。之后選取中科院分詞系統ICTCLAS對目標句子進行中文分詞和詞性標注,過濾掉沒有意義的詞組,最終形成該科技成果的技術特征短語集合,即該科技成果的技術特征標簽合集。
供需雙方的技術特征匹配是實現技術轉移的關鍵一個環節,是為企業推薦合適科技成果的前提。通過比較供需雙方的技術特征匹配相似度的大小,可以尋求出最滿足企業技術需求的科技成果。
文中對技術供需雙方的匹配不僅要依據企業技術需求文本,還要分析企業在交易網站瀏覽收藏的技術成果的技術特征,綜合企業顯性和隱性的技術需求特征來對企業進行技術成果匹配推薦。根據面向技術需求的企業用戶畫像提供完整的企業技術需求標簽,以此和技術成果進行匹配,得到最適合企業技術需求的科技成果,將該科技成果推薦給企業。例如我們對企業用戶A實施精準推薦服務。通過企業技術需求用戶畫像提供的企業的完整技術需求標簽,找到企業真正的技術需求。筆者采用余弦相似度算法計算企業用戶技術需求與科技成果的相似度。
對企業用戶A進行科技成果推薦。技術成果數據庫中共n個科技成果,計算企業用戶A的技術需求與科技成果Q的相似度,我們使用余弦相似度算法:
假設企業用戶A的技術需求向量A={A1,A2,…,An},科技成果Q的技術特征向量Q={Q1,Q2,…Qn},計算兩個向量的夾角余弦值來表示兩者的相似度,余弦值越接近1,兩個向量的相似度越高,可求得技術需求A和科技成果Q的相似度:

(3)
sim(A,Q)代表企業A技術需求和對比科技成果Q之間的相似度,該值接近1,則此對比科技成果與企業用戶的技術需求相似度越高。計算每個企業用戶與科技成果的相似度大小,并進行從高到低的排序,則排名靠前的為與企業技術需求相似度最高的科技成果,將排名靠前的科技成果推薦給企業用戶。
技術轉移服務最本質的要求在于滿足每個用戶的切實技術需求。筆者引入“用戶畫像”的理念和技術方法,通過對企業需求文本和其企業特征等一系列相關數據通過融合分析等 手段挖掘企業用戶的技術需求的技術特征合集,繪制出基于技術需求的企業用戶畫像,并借助畫像特征計算用戶技術需求和科技成果資源的相似度,從而實現企業用戶技術需求和供給方科技成果資源的精準匹配,對企業進行有針對性和專業性的精準個性化推薦服務。在分析企業技術需求文本的基礎上,創新性的根據企業用戶在交易網站的瀏覽、停留時長等行為數據發掘企業用戶的隱性技術需求,為識別企業真實技術需求,提高技術供需匹配效率,實施精準技術轉移服務提供參考依據。
筆者為識別企業真實技術需求提供了一種新的路徑,但也有很多不足和缺陷,在供需雙方匹配識別中只考慮了企業技術需求和科技成果在技術方面的匹配,但未考慮企業是否有時是轉化該項成果的能力,本文沒有考慮企業的經濟實力和科研實力方面,而這些也都是科技成果轉化的重要一環,一定程度上會影響技術轉移實施的成功率。這些都是未來研究中需要重點解決和完善的方面。