摘 要:通過分析數據挖掘技術在科技查新工作中的發展現狀,也就是說在科技文獻檢索和科技信息分析中的使用等,從而探索數據挖掘技術在科技查新及文獻檢索及分析中的發展趨勢。
關鍵詞:數據挖掘;文獻檢索;科技查新
1 何為數據挖掘技術
數據挖掘(Date mining)就是從大量的、不完全的、有噪聲的、模糊的、隨機的數據中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。在科技查新工作中,數據挖掘技術就是在涵蓋了很多科技內容的數據庫以及網絡等科技信息體系中挖掘出合乎規定的與查新主題有關的信息資料,并對獲取的信息內容不斷的挖掘,進而獲取足夠的知識內容,加工成系統的科技查新相關知識點。具體科技查新工作中,涉及到的數據挖掘技術主要包括關聯分析、分類分析、聚類分析、序列模式分析、偏差檢測等,覆蓋了數據庫技術、信息獲取技術、統計學、人工智能中的機器學習和神經網絡等多個研究領域。
2 數據挖掘技術在科技查新相關工作中的應用模式
2.1 分類分析模式
分類用來描述一種類別并建造該類別的模型并通常被用于規律的概括和預測。分類概括了該種數據的概化信息并且可以使用許多方式如判定樹、公式定義、神經網絡、分類規則等來表達。分類通常利用已知的分類數據集通過人工智能學習技術和特定的算法而得到規則。在查新工作中,從海量查新數據庫中將整體數據按照相關程度分為N個大類,對于當前的查新工作可以快速將查新項目細分至所屬領域,并與領域內最近成果相比較,快速得出可靠結論等。
2.2 聚類分析模式
聚類用來發現海量數據之間的位置分布狀況、數據之間的維度關系、幫助用戶建立對于海量數據集的總體感官。它將數據分類為許多維度或空間位置相似的類別,其中被分為同一類別的數據在某些特定屬性中相互關聯并相似,異類反之。聚類可以通過對海量已有查新數據的分析,得出查新領域內的創新趨勢,創新方向,學科發展進展程度,領域內熱點等,可以幫助統計最前沿科技成果的發展動向,趨勢,和依據可信度預測為制定相關科技發展規劃提供依據。
2.3 關聯分析模式
關聯分析有以下三種類別:簡單關聯、因果關系關聯和時序關聯,它是為了尋找和探索海量數據中包含的關聯信息。置信度和支持度為最常用的2個度量標準來衡量數據中相互關聯的相關程度,其他被引用來衡量數據間關系的參數還有興趣度、關聯性等以滿足客戶對于挖掘內容的要求。關聯分析是數據中相互影響的潛在規律,通過量化的概念描述一個對象的出現對于另一個對象或另一些對象各方面屬性的影響。通過關聯分析可以幫助一線科研人員衡量所研究內容在領域內的影響力,領域內其他科研進展對于所研究內容的關聯影響等。
3 數據挖掘在科技查新中的應用現狀
3.1 描述在科技文獻信息搜索、分析中的應用
常用到的檢索系統平臺萬方、維普和中國知網,都是使用一致的記錄模式來分析其記載的內容,通過運用主題詞表來描繪主要內容,用副主題詞描述這些主題詞的其他相關信息。通過主題詞等來開展挖掘活動,此時不用對其設置語言,因此為其從信息庫中獲取相關的知識創造了非常優秀的氛圍。所以,是科技查新相關人員開展各種挖掘活動或進行知識分析等的首選數據庫。科技查新的最終成果是科技查新報告,它是查新人員使用各類檢索工具,經由很多的檢索方式得到的信息,經篩選后進而對信息與項目查新點進行比對分析。在這個檢索工程中,數據關聯、聚類分析等數據挖掘技術的應用可以擴寬相關項目查新點的檢索范圍,找準檢索方向,提高檢索效率,以保證科技查新的查全率和查準率。
3.2 預測在科研情報探索工作中的應用
目前國內很多查新機構自行開發科技查新項目信息管理系統,通過編號、項目名稱、學科類別、檢索詞、查新點、技術要點等設置出檢索字段,這就為利用數據挖掘技術進而設置經由對主題詞的分析等來明確一個具體的主題存在的各種關聯,進而明確這個行業的發展狀態,分析其發展的關鍵方向和今后的發展特征等成為可能。科技人員通過文獻計量學方法,結合各種數據挖掘技術,對各種文獻全文庫或各地區多年累計的科技項目查新資料進行統計,對很多大規模的信息庫等開展知識探索,描述某個區域、某個行業或某項技術的科技發展狀況,預測其發展趨勢及前景,這是查新活動的發展及深化。
4 數據挖掘技術在科技查新及其相關工作中的意義
4.1 數據挖掘技術可為科技查新和科研項目管理提供技術服務
科技查新最重要的任務就是為各領域科研項目提供服務。科研項目的立項、成果鑒定、成果評定所需要的客觀依據都需要科技查新的支撐,科技查新可以保證科研項目的科學性和公正性,提高科研水平。數據挖掘技術的引入為科研工作提供了目標明確、方向準確、數據可靠的保證。首先通過對各種科技文獻數據庫進行有效的挖掘,可以對某一科研單位所關注的關鍵技術、重點領域和發展方向進行分類和預測,通過建立模型、數據可視化和生成文本報告等形式,向技術人員及管理人員提供各種科技影響因素之間的內在關聯;將分類分析、聚類分析、關聯分析和孤立點挖掘等數據挖掘方法與專家咨詢動態結合,可以判斷優先發展領域和重點資助方向;并可在不同層面,通過數據挖掘技術對各個文獻數據庫進行探索和知識發現,為科技發展規劃制訂者提供客觀準確的決策支持依據。其次,可對科研項目進行管理。隨著計算機與網絡技術的普及,各級查新咨詢機構都建立了各種科技項目查新管理系統,其包含有項目基本信息、查新結論等,隱含有大量有意義的規律。雖然科研計劃管理單位在長期的科研項目立項評審工作中積累了大量的數據,相關部門已經建設了科研管理信息數據庫,可實現網上報送、網上評審等功能,但對信息的處理還基本停留在增、刪、改、查詢、統計等傳統功能上,缺乏智能化的分析功能。通過數據挖掘技術,對查新管理系統和科研管理信息數據庫的數據進行聯機分析處理,可以發現項目承擔人、承擔單位、科研儀器使用及項目內容的創新性、科學性、實用性等多種相關信息之間的內在關系,從而幫助科研管理者及時發現問題、解決問題,不斷提高科研項目管理的水平。
4.2 數據挖掘技術有助于查新咨詢機構開展信息化和個性化的服務
首先,通過科技數據挖掘供應信息化的服務。過去的檢索僅僅的是單純的提供初始信息,但是該項報告僅僅的是真實的反饋課題的獨特意義,供應的信息種類和要素很是單調,無法合乎所有的使用人對于信息的規定,同時干擾到相關機構的進步。要想處理好面對的不利現象,第一就要將服務的客體擴張,把過去的科研管控機構的單調的服務體系變革為全方位的管控體系。由于服務對象擴大到相應的整個領域的工作者,其信息需求必定大增。因此,必須在充分了解用戶需求的基礎上,為用戶定制個性化的信息。利用數據挖掘技術,對各種文獻數據庫或因特網上的信息進行關聯、聚類、分類、預測、時序模式和偏差分析等處理,找出用戶所需的各種文獻資料和相關信息,為用戶提供個性化的信息咨詢服務。這將是查新部門一個新的發展方向。第二,利用數據挖掘技術提供行業分析報告。市場競爭格局的形成與加劇,要求企業對其所掌握的企業數據進行深層次利用,重視市場預測、經營分析、客戶消費特征分析,對企業數據進行深層次加工與重新利用,從中挖掘出信息,為企業決策者提供科學、準確的決策依據。
參考文獻
[1]力曉蓉,李科,曹勤.充分利用科技查新資源開發科技查新項目管理系統[J].中國衛生事業管理,2001(5):318-319.
[2]陳娜.數據挖掘技術的研究現狀及發展方向[J].電腦與信息技術, 2006,14(1):46.