溫志芳
(山西省信息產業技術研究院有限公司,山西 太原 030012)
在我國,科技成果應用比例較高,但成果實現產業化比例較低。提升科技成果轉化水平始終是我國科技體制改革的主攻方向,目前我國相繼出臺了《科學技術進步法》《促進科技成果轉化法》和《關于促進科技成果轉化的若干規定》等一系列政策法規,形成我國促進科技成果轉化的政策體系基本框架。但目前我國科技成果轉化交易還很不完善,尤其缺少訓練有素的既懂技術又懂經濟的專業技術經紀人和規范的技術經營機構,導致供需對接不暢通,供需雙方溝通不良,這是我國的科技成果、知識產權轉化率不高的直接原因。
同時,計算機和信息技術的迅猛發展和普及應用,人工智能技術等新一代信息技術的迅猛發展,迅速擴大的企業行業及高校的應用系統規模,使科技成果行業應用所產生的數據呈爆炸性增長,動輒達到數百TB甚至數十至數百PB規模,科技成果數據已遠遠超出了現有傳統的計算技術和信息系統的處理能力。現代信息產業在高速發展中,智能信息處理成為了炙手可熱的名詞,是一個大樣本和高維變量的數據集合,在人們的生活中扮演著越來越重要的角色。因此,尋求有效的智能信息處理技術、方法和手段,促進成果轉化率已經成為現實世界科技成果轉化的迫切需求。
隨著創新驅動發展戰略的深入推進,本文在科技成果轉化中進行新嘗試、新實踐,探討基于K-近鄰(K-NN,K-Nearest Neighbor)分類算法的供需數據智能匹配研究,將智能信息處理技術應用于成果轉化體系建設,切實研究將過去沉睡的科研成果與市場需求進行智能匹配,實現科研成果的激活與轉化,促使其成為市場創新的新動力,助推科技成果轉化體系建設。
本文利用有指導的基于K-近鄰分類算法對所選數據進行高維空間分布實驗,通過基于各類高文檔頻率的特征選擇方法、有監督K-NN分類方法,進行全封閉在高維空間中進行測試。
供給成果的成果簡介是通過適當的文字表達成果所要表達的內容,本身文本比較長,疊加了人類語言的多樣性,體現出文本表示的語言的多元化,因此導致數據的特征選擇將在很大程度上影響到文本類別判斷的最終結果。本文針對這一特性,采用各類高文檔頻率來作為特征選擇的方法展開研究。
K-NN分類算法的思想是:如果一個文本在特征空間中的k個最相似(即特征空間中最鄰近)的文本中的大多數屬于某一個類別,則該樣本也屬于這個類別。K-NN算法中,所選擇的點都是已經正確分類的對象。
K-NN方法一般選取k為奇數,跟選舉、投票一樣,避免因兩種票數相等而難以判斷其所屬類別。
數據采集是智能信息處理技術研究的基礎,在成果轉化體系建設中很好地實現供需數據智能匹配的一個重要方面就是對供給和需求信息的數據收集。隨著物聯網技術的不斷發展,成果轉化數據結構變得越來越復雜,數據類型從以結構化數據為主轉向結構化、半結構化。
本文數據的采集利用現有的山西科技成果轉化和知識產權交易服務平臺,從網站上獲取數據信息,將其存儲為統一的本地數據文件,并以結構化的方式存儲。成果轉化數據的可用性是數據采集的一個關鍵方面,一個正確的數據集合至少包含五方面性質:一致性、精確性、完整性、時效性和實體同一性。
采集回來的供給成果數據共12 519條,包括專利、平臺基地、軟件著作權、金融服務、人才信息、團隊信息、獲獎成果、鑒定成果、其他成果九大類。本次的樣本數據選用九大類的成果簡介字段,即對12 519條成果簡介數據進行智能處理。
數據預處理研究的復雜性體現在它包含豐富的策略和技術,在數據幾個處理階段中非常關鍵的第一步是對成果轉化數據來源的真實性、準確性、完整性、時效性等進行研究,只有確保成果轉化數據來源的質量,才能發揮大數據處理和分析的作用。現實世界采集回來的數據大體上都是不完整、不一致的數據,無法直接進行數據處理,或處理結果差強人意,本研究對數據進行清洗與處理,將大大提高數據模式的質量,降低實際挖掘所需要的時間。
我們將所有的成果數據按照所屬技術領域分為25類:電子信息、現代農業、煤炭、焦化、冶金、電力、化工、現代煤化工、煤層氣、新能源、新能源汽車、新材料、節能環保、裝備制造、交通運輸、新一代信息技術、航空航天、地球、空間與海洋、核應用技術、生物技術、醫藥衛生、食品加工、現代服務業、其他。
針對特定的需求數據,將該條數據的文本內容表示成數學上可以處理的形式,即表示成高維空間中的點。該點為測試樣本,訓練集則為25類的成果數據,通過K-NN分類算法,確定該樣本屬于哪個類別。我們將高維空間兩個點之間的距離定義為:
其中:x、y分別為兩個數據;T為特征集;t為一個特征;f()為點對應的特征值。
實現智能對接的模型計算步驟如下:
(1) 分別計算該需求與各成果數據的距離,同時計算每類距離的平均值。
(2) 確定平均距離最小的類,即表示該需求與該類成果最匹配。
(3) 在該成果與該類的所有距離中,計算距離最小的n條數據,即表示該條需求與這n條成果最為匹配。
高維空間的點我們是看不到的,只有通過對點的分布考察,才可以得知這些點在空間中的分布情況,進一步了解這些數據是否可匹配。
通過數據挖掘技術,對互聯網科技成果轉化的供給與需求數據的收集、清洗與融合整理,分析構建成果轉移轉化路線,建立成果與需求的關系網圖元模型,實現海量數據下成果供需雙方的智能對接。
本實驗所選的測試數據不是從UCI機器學習數據集存儲庫中選擇的數據集,而是客戶對企業回饋的科技需求數據。選用13 755條需求數據集,利用上述的基于各類高文檔頻率的特征選擇方法,以及K-NN分類算法進行實驗。
對于分類算法,我們利用文本分類系統的召回率指標對實驗結果進行系統的分析。召回率(Recall)是所有判斷的文本中正確的文本個數占應有文本數的比率,即:

其中:ai為分類器判斷為第i個類別正確的文本數;ci為第i個類別實際文本數。
計算得到的25類需求數據的召回率和總召回率見表1。

表1 25類需求數據的召回率和總召回率
由表1可知,電子信息類、煤炭類、醫藥衛生類等實驗效果較好,說明該類數據具有部分一致性;對于航空航天類、地球類、空間與海洋類等,實驗的召回率都達不到70%,甚至空間與海洋類結果召回率不超過60%,這與這幾類的本身屬性是相關的,屬于這幾個類別的文本數少,在空間的分布不均勻,類別信息不明顯,這些原因都使得這幾類的實驗結果偏低。
本文通過從山西科技成果轉化和知識產權交易服務平臺獲取成果和需求數據,并存儲為計算機可以處理的文本格式,進行了基于各類高文檔頻率的特征選擇方法的分類算法研究,利用數據挖掘的分類算法技術對轉化數據模型進行智能匹配,分析并建立供給需求數據模型,使系統擁有自學習功能,為成果轉化體系建立高效機制。通過對成果轉化數據來源的真實性、準確性、完整性、時效性等研究分析得知,在保證數據來源質量基礎上可發揮大數據處理和分析的作用,助力科技成果轉化體系建設。