薛中玉+李春梅+楊思維
基金項目:國家科技支撐計劃課題“面向產業集群的協同創新服務平臺研究與開發”(課題編號:2012BAH25F07)階段成果之一。
作者簡介:薛中玉(1981-),男,工程師,碩士,研究方向:數據挖掘、信息檢索?!ば畔①Y源開發與利用·
〔摘要〕針對產業集群特點,面向數據檢索要求,對數據挖掘推薦系統需求進行分析,研究數據挖掘推薦系統相關技術和算法,設計系統功能模塊架構,研究分析處理流程,構建數據挖掘推薦系統,實現產業集群信息的智能化挖掘推薦服務。產業集群數據挖掘推薦系統具有用戶需求信息挖掘推薦、相關服務信息挖掘、潛在協作伙伴挖掘推薦及科技成果動態感知等功能,能為用戶推送更多有價值的信息,便于用戶發現協作伙伴和潛在客戶,促進產業集群和集群企業的協同創新發展。
〔關鍵詞〕產業集群;協同創新服務平臺;數據挖掘;推薦系統
DOI:10.3969/j.issn.1008-0821.2014.04.012
〔中圖分類號〕TP31〔文獻標識碼〕A〔文章編號〕1008-0821(2014)04-0058-04
Research and Design of Data Mining Recommending
System for the Industrial ClusterXue Zhongyu1Li Chunmei2Yang Siwei1
(1.Anhui Jingnuo Technology & Development Co.,Ltd,Bengbu 233010,China;
2.Beijing Zhongjikehai Technology & Development Co.,Ltd,Beijing 100048,China)
〔Abstract〕According to the characteristics of industry cluster and the platform of data retrieval,this paper analyzed data mining recommended system requirements,studied related recommendations technology and relative algorithm of data mining,designed system function module architecture,researched and analyzed process,constructed data mining recommending system,and realized intelligent information recommendation service of industry cluster.The system contains four main functional modules:user demand information mining and recommending,related service information mining,potential partnership mining and recommending and dynamic perception of scientific literature.This system can push more valuable information and find partners and potential customers easily for users,and promotes the innovation development of industrial clusters and enterprises.
〔Keywords〕industrial clusters;collaborative innovation service platform;data mining;recommended system
產業集群是將區域集中的特定產業、具有分工合作關系和不同規模等級的眾多企業與其發展有關的各種機構組織等主體,緊密聯系在一起的空間積聚體,是經濟發展過程中形成的一種新形態。產業集群形成特點表現在:圍繞特定產業;采購本地化;中小企業占多數;市場滲透力強;自發形成;學習效應強。在產業集群形成的過程中,為了不斷提高集群自身和企業的競爭力,構建了眾多的服務平臺,這些平臺為產業集群和企業提供信息、知識、技術成果等資源協作共享服務,加強了產業集群間協同,推進了我國產業集群信息化的快速發展。
但是,隨著平臺服務信息的累積,用戶無法在海量數據中快速、準確地獲取想要的信息。簡單的信息積累和低效的數據檢索缺乏生命力,不利于平臺長遠發展。應面向產業集群平臺,建立專門的數據挖掘推薦系統,利用有效信息實現平臺高效的知識管理,主動提供用戶關心和有潛在價值的信息服務,加強用戶間、用戶與平臺間的聯動,從而形成良性發展趨勢。
本文是“十二五”國家科技支撐計劃課題“面向產業集群的協同創新服務平臺研究與開發”的研究成果。針對產業集群特點和檢索需求,基于數據挖掘技術,建立了面向產業集群的數據挖掘推薦系統,實現產業集群信息智能推薦功能。系統可根據用戶的基本信息、需求信息、業務信息等研究用戶的興趣偏好,進行個性化挖掘,由系統發現用戶的興趣點,將用戶感興趣的信息、產品和服務等推薦給用戶,為產業集群用戶提供高效的平臺服務,促進產業集群的發展。
1數據挖掘推薦系統需求分析
數據挖掘是從存儲于數據庫、數據倉庫或者其他非結構化的信息倉庫的大量數據中挖掘出有用知識的過程,是數據處理的高級階段。面向產業集群的數據挖掘推薦系統根據產業集群平臺不同類型用戶關注點推送對其有潛在價值的信息,主要包括用戶需求信息挖掘推薦、服務信息相關關系挖掘、潛在協作伙伴挖掘推薦及科技文獻動態感知幾方面需求。
11用戶需求信息挖掘推薦
產業集群企業用戶需求可為每個用戶提供豐富的外部規模經濟,又可形成集群內部或外部規模性、專業化的生產,對用戶需求的正確把握具有重要作用。通過數據挖掘分析,基于用戶發布的相關信息、用戶的專業和研究方向,分析用戶服務需求,挖掘平臺服務庫中相關信息,向用戶推薦符合的需求信息。
12服務信息相關關系挖掘
產業集群與服務信息之間存在著相互促進的自增強關系,在新經濟時代,產業布局不再像工業經濟時代各行各業簡單地聚集在一起,而是相互關聯、高度專業化的產業有規律地聚集在一個區域,形成各具特色的產業集群。產業集群平臺所提供的服務信息之間具有極強的關聯特性,基于對每條服務信息內容的挖掘分析,尋找與之相關的服務信息,通過對服務信息的相關性分析總結,獲取潛在的信息價值。
13潛在協作伙伴挖掘推薦
產業集群企業間的分工協作關系是決定集群效應和本質的主要特征,對潛在協作伙伴的發掘可帶來巨大的市場效益。系統提供潛在協作伙伴推薦功能,自動將地域相近、業務相關、供應鏈上下游關系、通訊平臺聯系的用戶或具有協作需求互補的用戶彼此添加為潛在合作伙伴。
endprint
14科技文獻動態感知
產業集群不但有生產性的企業,還有大量為生產提供輔助性科技成果的服務機構,如大學、研發機構、咨詢公司等緊密地聯系在一起,形成利益共同體,互相促進,協同發展。整合各類科技成果服務機構信息,利用互聯網信息整合技術,根據設定的主題對常用的科技成果網站進行自動監測,當網站數據庫中出現與主題相關的新科技成果時,立即通知,及時了解相關主題科技成果變化情況。
2數據挖掘推薦系統模型及關鍵技術
21系統模型
面向產業集群的數據挖掘推薦系統基本模型如圖1所示,包括3個重要組成要素:集群用戶、推薦對象、推薦方法。集群用戶可以向推薦系統主動提供個人偏好信息或推薦請求,系統也可主動采集用戶偏好信息需求,將采集到的數據分析得到的推薦結果返回給用戶。
圖1面向產業集群的數據挖掘推薦系統基本模型
22系統關鍵技術
221基于內容的推薦技術
基于內容的推薦技術是信息過濾技術的延續和發展,它在內容信息上做出推薦,不需要依據用戶評價意見,而是用機器學習的方法從關于內容的特征描述的事例中得到用戶的興趣資料。系統建立用戶偏好資料庫并進行學習,了解用戶興趣方向。如通過用戶發布的歷史信息、最常瀏覽的信息、近期關注的信息等,找出用戶可能感興趣的內容,為用戶推送相關信息。
222協同過濾的推薦技術
協同過濾技術采用最近鄰技術,利用用戶的歷史喜好,計算用戶之間的距離,然后利用目標用戶的最近鄰居用戶,來預測目標用戶對特定信息的喜好程度,根據這一喜好程度對目標用戶進行推薦。與基于內容的推薦技術不同,協同過濾推薦技術關注的是用戶之間的聯系,具有相似興趣的用戶關注的信息也相類似。如產業集群內的兩家汽車配件制造商,在使用平臺過程中,一方的關注點也可能是另一方感興趣的,通過協同過濾推薦技術可以起到事半功倍的效果。
以上兩種推薦技術既有區別又有聯系,前者利用信息資源與用戶興趣的相似性來過濾信息,后者利用用戶之間興趣的相似性來過濾信息,將二者結合起來,可以提高推薦系統的可靠性和實用性。
3數據挖掘推薦系統架構及功能
31系統架構
面向產業集群的數據挖掘推薦系統包括集群用戶界面、集群用戶信息庫、數據挖掘分析、數據管理、內部資源庫及外部數據的檢索與獲取等,系統架構如圖2所示。
圖2面向產業集群的數據挖掘推薦系統架構
32系統功能模塊
321發布、獲取信息
(1)發布信息
集群用戶登錄平臺發布信息,信息可由信息名稱、一級欄目、二級欄目、關鍵字、信息內容等組成,這樣的結構有利于數據庫管理與數據挖掘推薦。
(2)獲取信息
用戶在平臺中瀏覽各類信息,每條信息提供相關信息,方便用戶快速查看。用戶瀏覽系統自動生成的推薦資源,包括相關信息推薦、相關集群用戶推薦等。相關信息為符合用戶需求的信息,用戶可查看信息內容并留言;相關集群用戶是與用戶可能有合作價值的其他用戶,用戶可以采用留言或郵件溝通方式進一步了解合作意向;相關信息是系統根據用戶專業領域在外部科技網站搜尋的相關科技動態、科技成果等信息。
322集群用戶信息庫
集群用戶信息庫是有關用戶個性化特征的信息。如用戶姓名、單位、單位地址、專業、研究方向和職業等;用戶歷次請求任務如分類、主題詞、查詢范圍等;IP地址、標題、瀏覽時間、關鍵詞頻率等;請求時間、被請求信息URL等一系列特征信息。
323數據挖掘分析
數據挖掘分析包括用戶需求分析和智能推薦。系統要為不同集群用戶推薦不同對象,需要直接或間接得到用戶的需求信,用戶需求分析模塊的流程是:通過用戶主動描述,獲取用戶需求;嵌入智能代理Agent或BP神經網絡,主動跟蹤搜集用戶平時感興趣的信息,從中分析用戶的偏好特點和背景知識,建立用戶個性化需求模式;智能推薦是系統中信息流控制的中心,采用內容過濾技術,提取信息內容特征,過濾出與用戶興趣相關的信息,推薦給用戶;采用協同過濾技術,建立用戶分類和推薦機制,根據用戶之間的相似性或相關性進行信息推薦。
324數據管理
數據管理模塊完成對知識的數據分類、抽取和規則生成,是數據挖掘的起始端。主要功能是運用關聯分析、序列模式分析、分類分析、聚類分析以及OLAP等知識發現算法,對信息源進行智能處理和管理。
325系統資源庫
系統資源庫包含信息資源庫和查詢記錄信息庫。信息資源是平臺供所有集群用戶公開使用的數據,是平臺的內容主體。用戶使用平臺搜索功能,實現對平臺數據庫資源的檢索,查詢記錄信息庫主要存儲系統查詢信息,這些信息有可能成為用戶需求的數據。
326外部信息的檢索與獲取
主要功能是獲取與推薦集群用戶所需信息,根據設定的主題,對相關網站進行自動監測,當網站數據庫中出現與主題相關的新科技成果時,推薦給平臺相關用戶,及時獲取相關領域科技信息。
33系統處理流程
數據挖掘推薦系統處理流程如圖3~圖6所示。
集群用戶需求信息挖掘、相關服務信息挖掘、潛在協作伙伴挖掘3個功能模塊主要針對內部數據庫進行數據挖掘推薦,工作核心是分析集群用戶在使用平臺的過程中發布的需求、服務和協作等信息,從而發現平臺用戶之間以及用戶信息之間的關聯關系,完成相應的信息推送,為用戶提供主動服務,避免用戶在大量的數據中進行低效率查圖3用戶需求挖掘推薦流程圖
圖4相關服務信息挖掘流程圖
圖5潛在合作伙伴挖掘推薦流程圖
找。科技文獻動態感知模塊架設了平臺內部與外部數據源聯系的橋梁,外部數據源根據平臺需要而定,可根據設定的主題對常用的科技成果網站進行自動監測。當網站數據庫中出現與主題相關的新科技成果時,立即通知,及時了解相關主題科技成果發展情況。圖6科技文獻動態感知流程圖
4結束語
本文針對產業集群特點和平臺數據檢索要求,提出面向產業集群的數據挖掘推薦系統需求,研究面向產業集群的數據挖掘推薦系統相關技術和算法,設計系統功能模塊架構,研究分析處理流程,構建數據挖掘推薦系統,實現產業集群信息的智能化挖掘推薦服務。產業集群挖掘推薦系統能為集群用戶推送更多有價值的信息,便于用戶發現協作伙伴和潛在客戶,為平臺使用者和管理者提供決策支持,加強提高用戶協作的力度和效率,更大限度地發揮平臺智能化信息服務作用,形成良性可持續化發展的趨勢,促進產業集群和集群企業的協同創新發展,研究成果對其他服務平臺和數據挖掘等相關研究可提供參考。參考文獻
[1]孫仙閣.數據挖掘技術在圖書情報領域的應用與影響[J].情報檢索,2009,(8):85-87.
[2]Thomas ARunkler.data Mining:Methoden und Algorithmen intelligenter Datenanalyse[M].Germany:Vieweg+Teubner Verlag,2009:1-3.
[3]吳恒亮.Web挖掘在電子商務推薦系統中的應用研究[J].中國商貿,2010,(4):48.
[4]許海玲.互聯網推薦系統比較研究[J].軟件學報,2009,20(2):350-362.
[5]丁雪.基于數據挖掘的圖書智能推薦系統研究[J].情報理論與實踐,2010,33(5):107-110.
[6]古麗拜天·卡米爾,賀愷,鄧曉衡.個性化推薦系統中Web使用挖掘技術的研究[J].企業技術開發,2010,29(2):1-2.
(本文責任編輯:孫國雷)
endprint