林園園,戰(zhàn)洪飛,余軍合,張桂海
LIN Yuanyuan,ZHAN Hongfei,YU Junhe,ZHANG Guihai
寧波大學(xué) 機械工程與力學(xué)學(xué)院,浙江 寧波 315211
Faculty of Mechanical Engineering and Mechanics,Ningbo University,Ningbo,Zhejiang 315211,China
隨著市場上企業(yè)之間競爭的日益加劇,以及消費者的個性化需求日益強烈,企業(yè)要想在激烈的競爭中取得優(yōu)勢,就必須能夠?qū)⑾M者個性化需求融入到產(chǎn)品的設(shè)計過程中,以最快的速度、最低的成本提供質(zhì)量最好的產(chǎn)品。又因為在產(chǎn)品的設(shè)計過程中,概念設(shè)計是產(chǎn)品設(shè)計的重要階段,它直接影響產(chǎn)品功能的創(chuàng)造、功能的分解以及功能和子功能的結(jié)構(gòu)設(shè)計等環(huán)節(jié)。因此,提高概念設(shè)計階段的設(shè)計效率和創(chuàng)新水平對提高整個設(shè)計過程的效率和價值有重要的意義。
在產(chǎn)品的創(chuàng)新設(shè)計及面向產(chǎn)品的個性化需求方面,已有學(xué)者進(jìn)行了大量的研究工作。孫厚朝等[1]對模塊化配置設(shè)計問題進(jìn)行了詳細(xì)研究,并表示模塊化設(shè)計對提高產(chǎn)品的設(shè)計效率有很大的幫助,在未來的應(yīng)用中將會起到重要的作用。延鵬等[2]針對客戶需求分析的產(chǎn)品配置問題,結(jié)合質(zhì)量功能配置方法和基于規(guī)則推理的方法,提出了一種客戶需求映射方法。鄧鵬等[3]針對多類型客戶需求下的模塊化產(chǎn)品配置設(shè)計,給出了產(chǎn)品配置設(shè)計系統(tǒng)的框架結(jié)構(gòu)。韓煜東等[4]為了在產(chǎn)品配置中滿足客戶感性需求的目標(biāo),提出了在感性需求和功能需求雙重驅(qū)動下的產(chǎn)品模塊化配置方法。Wang等[5]在分析客戶需求的基礎(chǔ)上,基于需求聚類方法來識別客戶的價值需求,建立了產(chǎn)品服務(wù)的模塊化體系,提出了基于本體建模的產(chǎn)品服務(wù)配置方法。楊艷華等[6]為了準(zhǔn)確獲得滿足需求的結(jié)構(gòu)方案,提出了需求/結(jié)構(gòu)映射的灰關(guān)聯(lián)相似性匹配與求解方案。楊波等[7]在功能描述方法分析的基礎(chǔ)上,提出了一種對功能進(jìn)行擴展建模的方法,該方法避免了功構(gòu)映射過程中功能關(guān)聯(lián)圖出現(xiàn)組合爆炸,同時也避免了在概念化設(shè)計階段使用常規(guī)機構(gòu)而過早地限制產(chǎn)品結(jié)構(gòu)形式的缺陷。郭鋼等[8]為了解決傳統(tǒng)功能模型由于缺乏形式語義,進(jìn)而很難利用計算機在功能空間中進(jìn)行有效的推理,將基于描述邏輯的形式語義及其推理模型引入產(chǎn)品功能模型。金熙哲等[9]基于功能-行為-結(jié)構(gòu)映射的機構(gòu)系統(tǒng)概念設(shè)計模型,建立了整個工藝動作過程的動作方案,集中尋求最優(yōu)化有效工作時段動作方案的評價規(guī)則、數(shù)學(xué)模型和求解方案,同時給出了實例驗證。陳正水等[10]基于機械系統(tǒng)“輸入-輸出流”轉(zhuǎn)換的功能表達(dá)方法提出了機械執(zhí)行系統(tǒng)功能知識擴展方法,把機械執(zhí)行系統(tǒng)的抽象功能轉(zhuǎn)化為可操作的具體形式。朱煒[11]為能夠設(shè)計出符合用戶需求的產(chǎn)品,提高設(shè)計的效率并縮短開發(fā)周期,提出了一種應(yīng)用案例知識進(jìn)行產(chǎn)品創(chuàng)新設(shè)計的方法。從國內(nèi)外學(xué)者的研究看,大部分學(xué)者都只是從模塊化配置方法角度和概念設(shè)計過程中模型優(yōu)化角度進(jìn)行相關(guān)的理論研究,并沒有從創(chuàng)新設(shè)計的源頭——概念設(shè)計開展深入工作。然而近幾年隨著互聯(lián)網(wǎng)等大量數(shù)據(jù)的囤積,從數(shù)據(jù)挖掘角度和創(chuàng)新設(shè)計角度出發(fā),為產(chǎn)品的概念設(shè)計提供知識服務(wù)支撐已經(jīng)成為可能,經(jīng)查閱文獻(xiàn),景旭文等[12-13]提出在產(chǎn)品的概念設(shè)計過程中引入數(shù)據(jù)挖掘技術(shù)與方法,基于數(shù)據(jù)資源為機械產(chǎn)品方案創(chuàng)新設(shè)計過程提供支持,但最近幾年研究的相關(guān)文獻(xiàn)較少。因此本文在前人研究的基礎(chǔ)上,構(gòu)建了數(shù)據(jù)驅(qū)動的概念設(shè)計創(chuàng)新知識服務(wù)模型,運用文本挖掘和聚類算法等技術(shù),輔助設(shè)計人員快速地形成概念化設(shè)計的創(chuàng)新解決方案,進(jìn)而加快產(chǎn)品的設(shè)計效率,同時提高企業(yè)的創(chuàng)新能力。
隨著電子商務(wù)的興起,越來越多的消費者在互聯(lián)網(wǎng)上購買商品,用戶開始在網(wǎng)站、論壇、微博等平臺來發(fā)表他們對某產(chǎn)品的功能、性能和服務(wù)等方面的態(tài)度和意見,在這些用戶評論中蘊含著企業(yè)的需求信息。同時專利是產(chǎn)品設(shè)計知識的重要來源,專利知識反映了新技術(shù)、新產(chǎn)品和新工藝方面涉及眾多學(xué)科領(lǐng)域的最新研究成果,具有很強的實用性和創(chuàng)新性,有目的地重用產(chǎn)品專利中的設(shè)計知識,有助于縮短新產(chǎn)品的開發(fā)周期,減少新產(chǎn)品的開發(fā)風(fēng)險。同時專利數(shù)據(jù)和論文之間存在著內(nèi)在的關(guān)系,基于專利可以找出相關(guān)的論文,為產(chǎn)品開發(fā)設(shè)計提供相關(guān)的技術(shù)支持。還有其他相關(guān)網(wǎng)上數(shù)據(jù)資源,比如技術(shù)博客等,都可以為產(chǎn)品設(shè)計提供相應(yīng)的知識服務(wù)。因此,本文基于產(chǎn)品評論數(shù)據(jù)、專利數(shù)據(jù)等其他數(shù)據(jù),結(jié)合相關(guān)研究算法,同時構(gòu)建相關(guān)分析模型,為產(chǎn)品的設(shè)計者提供相應(yīng)的知識服務(wù),模型如圖1所示。
該知識服務(wù)模型主要包括算法庫、模型庫、數(shù)據(jù)庫和概念化設(shè)計的映射過程,主要基于需求—功能—原理—結(jié)構(gòu)的映射過程,同時結(jié)合相關(guān)數(shù)據(jù)資源和算法,構(gòu)建相關(guān)模型,為產(chǎn)品的設(shè)計者提供相應(yīng)的知識服務(wù)。
數(shù)據(jù)驅(qū)動的知識服務(wù)模型中最重要的就是基于數(shù)據(jù)資源構(gòu)建需求—功能—原理—結(jié)構(gòu)的映射模型,它是整個知識服務(wù)模型中的核心部分,因此本文構(gòu)建了如圖2所示的映射模型。

圖1 數(shù)據(jù)驅(qū)動的產(chǎn)品概念設(shè)計創(chuàng)新知識服務(wù)模型

圖2 數(shù)據(jù)驅(qū)動的需求—功能—原理—結(jié)構(gòu)的映射模型
該模型基于產(chǎn)品評論數(shù)據(jù)和專利數(shù)據(jù)等其他數(shù)據(jù),展示了需求—功能—原理—結(jié)構(gòu)的映射結(jié)構(gòu)過程。首先基于消費者的評論信息,通過文本挖掘技術(shù)和情感分析技術(shù)構(gòu)建了消費者的需求模型;然后構(gòu)建功能模塊,該模塊主要分析了消費者的需求到底有哪些功能可以實現(xiàn);接下來構(gòu)建原理模塊,該模塊主要分析了這些功能的實現(xiàn)原理是什么,又因為在專利數(shù)據(jù)和相關(guān)的論文數(shù)據(jù)中包含著新原理和方法,這些原理和方法可以很好地幫助設(shè)計者進(jìn)行相關(guān)的產(chǎn)品設(shè)計,進(jìn)而本文基于專利數(shù)據(jù)和相關(guān)的論文數(shù)據(jù),通過文本挖掘算法和聚類算法得到實現(xiàn)這個原理的結(jié)構(gòu);最后把相關(guān)的知識推薦給產(chǎn)品的設(shè)計者。
3.2.1 消費者需求樹模型的構(gòu)建
該部分的主要內(nèi)容是基于產(chǎn)品的評論數(shù)據(jù)構(gòu)建消費的需求樹模型,網(wǎng)絡(luò)上消費者對產(chǎn)品的評論數(shù)據(jù)真實反映了消費者使用該產(chǎn)品后內(nèi)心的一些真實想法,最能體現(xiàn)出消費者對產(chǎn)品的哪些功能持滿意態(tài)度或者不滿意,因此本文通過文本挖掘技術(shù)和情感分析技術(shù)對產(chǎn)品評論數(shù)據(jù)進(jìn)行分析,構(gòu)建了消費者需求信息模型,如圖3所示。
首先運用網(wǎng)絡(luò)爬蟲爬取產(chǎn)品的評論信息,產(chǎn)品的評論信息包括評論的時間和評論的內(nèi)容,把產(chǎn)品評論信息存放于excel表格中并且按時間順序進(jìn)行排列,然后用R語言編寫程序?qū)@些評論信息進(jìn)行數(shù)據(jù)清理、分詞、詞性標(biāo)注和停用詞的刪除。其次主要是對產(chǎn)品特征詞的提取、極性詞的提取、產(chǎn)品評價庫的構(gòu)造、情感詞典的構(gòu)造、產(chǎn)品特征極性強度的計算和整條評論信息的極性計算。最后對整個時間段內(nèi)消費者對產(chǎn)品的情感波動情況進(jìn)行了分析,并分析了產(chǎn)生波動的主要因素,同時基于社會網(wǎng)絡(luò)對波動因素的哪些方面評價進(jìn)行了分析,得到了消費者的需求信息[14]。
一般消費者對產(chǎn)品的評論數(shù)據(jù)呈現(xiàn)出一種不確定性和動態(tài)性的特點,其中不確定性就是指模糊性,因為消費者的評論數(shù)據(jù)主要是從使用功能去理解,同時對需求的準(zhǔn)確程度不能把握,從而使實際需求變得很模糊。消費者的需求心理一方面是經(jīng)常性變化,另一方面是客戶對各種需求之間沒有唯一的重點和次要點,也呈現(xiàn)出實時變化性。為此,本文采用客戶需求分類樹的方法建立面向客戶需求分類,客戶需求分類樹是規(guī)范客戶需求信息的依據(jù),對客戶的各種需求從不同的方面加以分類整理,使之規(guī)范化,把由客戶表達(dá)的需求信息轉(zhuǎn)化為企業(yè)可以識別的需求信息,從而更有利于企業(yè)與客戶之間的數(shù)據(jù)交換。消費者需求樹模型如圖4所示。
本文根據(jù)其他學(xué)者的研究及對產(chǎn)品評論的用詞,將客戶的需求分為7大類:工業(yè)美術(shù)性需求、維修性需求、可靠性需求、經(jīng)濟性需求、結(jié)構(gòu)需求、功能需求、性能需求。工業(yè)美術(shù)性需求是對產(chǎn)品的造型、顏色等方面提出需求;維修性需求包括產(chǎn)品的維修是否方便等;可靠性需求是指產(chǎn)品是否安全可靠;經(jīng)濟需求包括產(chǎn)品的價格等;結(jié)構(gòu)需求包括產(chǎn)品的外形尺寸、密封性等;功能需求是指客戶對產(chǎn)品的功能方面所提出的需求,如產(chǎn)品的傳動力、承載能力等;性能需求是指產(chǎn)品的物理性能、使用性等,如產(chǎn)品的質(zhì)量、重量等。
3.2.2 需求—功能映射過程的構(gòu)建

圖3 基于產(chǎn)品評論的消費者需求分析模型

圖4 消費者需求樹模型
該部分主要是構(gòu)建客戶需求與功能之間的映射關(guān)系,以及這種表達(dá)方式如何使消費者和工程師都能夠更好地理解,既能使客戶從需求表達(dá)中定制自己的產(chǎn)品,同時又能使工程師根據(jù)客戶的需求表達(dá)對產(chǎn)品進(jìn)行合理的規(guī)劃和設(shè)計。用戶的需求與產(chǎn)品設(shè)計的具體操作對象并不相同,需要合理地轉(zhuǎn)化,同時消費者的需求信息往往是從自身角度出發(fā),對產(chǎn)品各方面的綜合要求,具有隱藏性、模糊性和動態(tài)性的特點。設(shè)計人員需要對這些需求進(jìn)行理解,轉(zhuǎn)化為設(shè)計語言,將結(jié)果輸入到下一階段,因此在這一部分產(chǎn)品設(shè)計師首先需要自己建立消費者需求到功能結(jié)構(gòu)的映射庫。首先消費者的需求可能由不同的功能來完成,它是一個一對多的關(guān)系,本文基于以前的歷史數(shù)據(jù),運用關(guān)聯(lián)規(guī)則算法來挖掘客戶需求和功能之間的映射關(guān)系。
定義1BD為歷史的數(shù)據(jù)交易庫,BD=<N,A>,其中N代表需求信息庫,A代表功能信息庫,需求到功能的映射關(guān)系用關(guān)聯(lián)規(guī)則蘊含式Nij?Akf來表示,那么有Nij?I,Akf?I而且Nij∩Akf=φ,表示項集Nij在某一次交易中出現(xiàn),則導(dǎo)致Akf以某一概率也會出現(xiàn)。設(shè)I={i1,i2,…,in}是交易數(shù)據(jù)庫BD中的r個不同項目的組合,每一個交易T都是I中的一組項目集合,全體交易構(gòu)成了交易數(shù)據(jù)庫等于D交易的個數(shù)。
定義2規(guī)則Nij?Akf在交易數(shù)據(jù)庫BD中的支持度Support指BD中包含Nij和Akf的交易數(shù)與BD中包含的交易總數(shù)之比,如式(1)所示:

定義3規(guī)則Nij?Akf在交易數(shù)據(jù)庫BD中的可信度Confidence是指BD中包含Nij和Akf的交易數(shù)據(jù)與BD中包含Nij的交易數(shù)據(jù)之比,如式(2)所示:

定義4設(shè)定關(guān)聯(lián)規(guī)則的最小支持度supmin和最小可信度confmin,尋找支持度和可信度均不小于supmin和confmin的強關(guān)聯(lián)規(guī)則Nij?Akf。
最后將客戶和功能集合之間的關(guān)聯(lián)規(guī)則如圖5進(jìn)行描述。在矩陣中的r值可以通過兩者有無關(guān)聯(lián)規(guī)則來確定,如式(3)所示:


圖5 需求—功能的映射過程模型
其中i=1,2,…,m;j=1,2,…,n;k=1,2,…,n;f=1,2,…,n。
3.2.3 功能—原理映射過程的構(gòu)建
該模塊的構(gòu)建主要是分析實現(xiàn)該功能的主要原理,以及完成該功能所需要的技術(shù)方法與手段。該模塊主要是在功能模塊和結(jié)構(gòu)模塊之間建立一個映射橋梁,充分解釋最終結(jié)構(gòu)是如何完成該功能的。由于功能與原理之間的關(guān)系是一個較為復(fù)雜的問題,它們之間的關(guān)系是多對多的映射關(guān)系,即一種功能可能對應(yīng)多種原理來實現(xiàn),而一種原理又可能滿足多種功能,因此功能和原理之間的關(guān)系本質(zhì)上是模糊的[15]。本文構(gòu)建了功能—原理的映射過程。
定義5功能集合Q是產(chǎn)品功能進(jìn)行分解得到的最小功能單元的有限集合,Q={q1,q2,…,qn}。
定義6原理集合S是實現(xiàn)特定領(lǐng)域某些器械功能的原理集合,S={s1,s2,…,sn}。
定義7A是功能集合Q的一個子集,A={a1,a2,…,an},為原象集。B是原理集合S的一個子集,B={b1,b2,…,bn},為象集。A和B之間存在著一定的映射關(guān)系A(chǔ)?B。
定義8模糊關(guān)系矩陣R。模糊關(guān)系R一般有兩種類型:(1)其元素隸屬度以函數(shù)形式給出;(2)其隸屬度不能用統(tǒng)一的函數(shù)描述,R以矩陣的形式給出,稱為離散表示。若定義域內(nèi)元素和值域內(nèi)元素之間的模糊對應(yīng)關(guān)系有一定規(guī)律可循,則R以函數(shù)形式給出,否則通過離散的方式表示。本文討論的功能到原理的映射難以用函數(shù)的形式給出模糊關(guān)系,因此采用矩陣的形式。R表示功能到原理的映射關(guān)系,是一個n×m維的矩陣,rnm為A?B的隸屬程度。

其中,rnm∈[ ]
0,1。rnm一般由相關(guān)領(lǐng)域?qū)<襾泶_定,確定方法如下:通過相關(guān)的專家進(jìn)行打分處理,專家A打分F1,專家B打分F2,專家C打分Fn,F(xiàn)n∈[0,1],然后取這幾個專家打分的平均數(shù),首先根據(jù)工件的輸入信息進(jìn)行功能分析,確定功能集,其中A={a1,a2,…,an},R=Rn×m,B=A*R={b1,b2,…,bn},根據(jù)功能與原理的模糊矩陣R和集合A的合成運算生成集合B,最后得到原理映射結(jié)果集合B。其中滿足一個功能的原理會有很多,可以對rnm設(shè)定一個閾值。rnm根據(jù)不同的情況設(shè)定為不同的值,本文確定rnm的閾值為0.5,對于得到的結(jié)果大于或者等于0.5的確定為得到的映射結(jié)果。因為rnm采用專家打分的方法,設(shè)置0.5這個值,說明專家對這個功能所涉及的原理的相信度已經(jīng)達(dá)到了50%,當(dāng)然這個閾值可以設(shè)置高一點,不同的情況可能采用不同的閾值,最后得到原理集合。
3.2.4 原理—結(jié)構(gòu)映射過程的構(gòu)建
一些機械產(chǎn)品實現(xiàn)最終的功能往往是由一些若干個子功能組合實現(xiàn)的,這樣通過組合的方法得到總體功能的實現(xiàn)叫作方案的組合,形態(tài)學(xué)結(jié)構(gòu)矩陣是實現(xiàn)方案組合的常用方法之一。首先要把解決的問解分解為若干個子問題,然后對每個子問題進(jìn)行單獨的求解,找出所有可能的技術(shù),然后將每個子問題的各種技術(shù)進(jìn)行組合求解,進(jìn)而得到多種解決方案,最終選擇最優(yōu)的方案。本文基于形態(tài)學(xué)結(jié)構(gòu)矩陣構(gòu)建從原理到結(jié)構(gòu)模塊的映射關(guān)系,同時運用專利數(shù)據(jù)得到最終方案的集合。專利中蘊含的知識遠(yuǎn)多于設(shè)計者已知的知識和自身的經(jīng)驗,這些大量的專利知識又往往蘊藏于海量的專利中,因此需要采用技術(shù)手段合理地提取專利中的知識,將有利于專利知識在后續(xù)創(chuàng)新設(shè)計過程中的應(yīng)用。形態(tài)結(jié)構(gòu)矩陣如圖6所示。

圖6 形態(tài)結(jié)構(gòu)矩陣
在形態(tài)學(xué)結(jié)構(gòu)矩陣中,每個子功能可能有N個解決方案,該形態(tài)學(xué)結(jié)構(gòu)矩陣就可能有nm個解決方案,這樣解決方案就是指數(shù)級的增長,最后人工對解決方案的評估將會變得非常困難,因此采用0-1整數(shù)的規(guī)劃方法對評估模型進(jìn)行優(yōu)化。對一個功能,假如該專利可以滿足其功能就賦值1,如果不能滿足就賦值0(若符合一個子功能的專利數(shù)沒有n個,則其他的賦值0)。
形態(tài)結(jié)構(gòu)矩陣是為了實現(xiàn)功能到結(jié)構(gòu)的映射過程,在眾多的專利中,能實現(xiàn)某種功能的專利會有很多,因此需要采用技術(shù)手段來識別這些相似的專利。本文采用聚類的方法把一些相似的專利聚成一類。
3.2.4.1 專利文本聚類分析模型構(gòu)建
聚類分析是一種無監(jiān)督的學(xué)習(xí)方式,能夠從潛在的數(shù)據(jù)中發(fā)現(xiàn)有用的信息,通過聚類將數(shù)據(jù)分成若干類,使不同類內(nèi)的數(shù)據(jù)相似度盡可能小,同一類的數(shù)據(jù)相似度盡可能大。對專利文本進(jìn)行聚類,主要是對專利的標(biāo)題、摘要和說明書這些文本信息進(jìn)行聚類處理。本文構(gòu)建了專利文檔聚類模型,如圖7所示。
3.2.4.2 專利文本聚類分析技術(shù)與方法
(1)文檔預(yù)處理
①分詞
原始的文本必須經(jīng)過預(yù)處理,才能形成便于計算機處理的結(jié)構(gòu)化形式,同時可以提高分析的效率和質(zhì)量。
②停用詞過濾
在原始文檔中有一些對文檔內(nèi)容識別意義不大但出現(xiàn)頻率卻很高的詞,稱之為停用詞。這些詞在計算相似度時會引入很大的誤差,可以看作是一種噪聲。
③詞性標(biāo)注
詞性標(biāo)注的目的是給句子中的所有詞確定一種詞性分類,詞性類別包括形容詞、動詞、名詞等,對句子進(jìn)行詞性的標(biāo)注對信息特征的抽取起著關(guān)鍵的作用。
(2)文檔建模
①特征選擇
對專利文檔進(jìn)行預(yù)處理后首先需要進(jìn)行特征提取,特征提取是根據(jù)一些準(zhǔn)則從原始的特征中選取一些子集,這個選中的子集必須保持原有的物理意義,并且使用數(shù)據(jù)和學(xué)習(xí)過程更容易理解。目前特征選擇的常用方法主要有互信息(MI)、信息增益(IG)、詞頻(DF)等,這些方法通常是構(gòu)造一個評價函數(shù),對每個特征進(jìn)行獨立的評估,然后按照特征評估出來的結(jié)果進(jìn)行排序,選擇評估結(jié)果更為優(yōu)秀的作為特征。在對特征進(jìn)行提取后需要對特征相應(yīng)地賦權(quán)重,目前TF-IDF算法是最經(jīng)典的權(quán)重算法,其中TF(Term Frequency)代表詞頻,IDF(Inverse Document Frequnency)代表反文檔頻數(shù),其計算公式如下:

其中,tft(d)代表單詞t在文檔d中出現(xiàn)的次數(shù);maxTF(t)代表單詞t在文檔數(shù)據(jù)集各個文檔中最大的出現(xiàn)次數(shù);N代表整個文檔數(shù)據(jù)集的文檔數(shù);DF(t)代表單詞t的文檔頻數(shù)(Document Frequnency,DF)。
②構(gòu)造特征空間
最后需要把文本信息轉(zhuǎn)變?yōu)橛嬎銠C能夠理解和處理的問題,這就需要用數(shù)學(xué)模型來表示文本。常見的文本表示模型有向量空間模型(Vector Space Model,VSM)、布爾模型(Boolean Model,BM)、概率檢索模型(Probabilistic Model,PM)以及后綴模型等。本文使用向量空間模型。
③構(gòu)造相似矩陣

圖7 專利文檔聚類模型
聚類是按照樣本之間的親疏遠(yuǎn)近程度進(jìn)行聚類的,為了得到較好的聚類結(jié)果,需要對樣本之間的相似程度進(jìn)行描述,本文基于Cosine距離函數(shù)刻畫樣本之間的相似性。
(3)聚類處理
在經(jīng)過文檔預(yù)處理和文檔建模后,基于構(gòu)造的空間特征向量模型對文檔進(jìn)行聚類分析,本文采用系統(tǒng)聚類的方法,系統(tǒng)聚類也叫多層次聚類,分類的單位由高到低成樹形結(jié)構(gòu),且所處的位置越低,其所包含的對象就越少,但這些對象間的共同特征越多。其基本思想是:先將各樣品看成一類,然后規(guī)定類與類之間的距離,選擇距離最小的一對合并成新的一類,計算新類與其他類之間的距離,再將距離最近的兩類合并,這樣每次減少一類,直至所有的樣品合為一類為止。對于兩點之間的距離有多種定義方式,常用的計算方法有絕對值距離、歐氏距離、切比雪夫距離、閔可夫斯基距離、蘭氏距離。在R語言中可以用dist()函數(shù)完成對上述距離的計算,最常用的是基于歐氏距離。歐氏距離衡量的是空間各點的絕對距離,跟各個點所在的位置坐標(biāo)直接相關(guān),體現(xiàn)個體數(shù)值特征的絕對差異,更多地用于需要從維度的數(shù)值大小中體現(xiàn)差異的分析,因此本文采用該方法用于衡量專利樣本之間的相似度。用距離衡量樣本之間的相似程度之后,下一步是將接近的點合并為一類。在R語言中提供了以下幾種方法來衡量類與類之間的距離:離差平方和、最短距離法、最長距離法、中間距離法、重心法。兩類間的距離定義為兩類重心之間的距離,對樣品分類而言,每一類中心就是屬于該類樣品的均值。本文采用離差平方和的方法,該方法基于方差的思想,同類樣品間離差平方和較小,類與類間離差平方和較大,其在實際應(yīng)用中效果較好。最短距離法是首先合并相近的兩項,其缺點是樣品之間有鏈接聚合的趨勢。最長距離法用兩類之間最遠(yuǎn)點的距離代表兩類之間的距離。中間距離法衡量類間距離是取最長距離和最短距離之間的距離。重心法定義兩類間的距離為兩類重心之間的距離,對樣品分類而言,每一類中心就是屬于該樣品的均值,但該方法隨著聚類不斷地縮小,譜系樹狀圖很難跟蹤,且符號改變頻繁,計算較麻煩。
通過對數(shù)據(jù)驅(qū)動的產(chǎn)品概念設(shè)計創(chuàng)新知識服務(wù)模型相關(guān)理論進(jìn)行相關(guān)分析后,本文通過相關(guān)的實例驗證該模型的可行性。首先構(gòu)建網(wǎng)絡(luò)爬蟲爬取網(wǎng)絡(luò)上對某款手機的評論信息進(jìn)行相關(guān)的情感分析,然后得到消費者對手機某些特征的情感傾向圖,如圖8所示。
通過以上情感分析后,可以發(fā)現(xiàn)消費者對手機的電池、屏幕和游戲這三方面表現(xiàn)出負(fù)面情感,尤其是對電池表現(xiàn)出的負(fù)面情感占的比重很大。為了進(jìn)一步分析消費者對這三方面哪些維度的不滿,本文通過構(gòu)建共現(xiàn)矩陣,運用社會網(wǎng)絡(luò)分析法對共現(xiàn)矩陣進(jìn)行可視化分析,如圖9所示。
通過以上分析可知,消費者對手機電池的發(fā)熱、屏幕失靈和游戲的性能等方面表現(xiàn)出不滿意,這也是消費者需求的方面;然后構(gòu)建消費者的需求樹進(jìn)一步明確消費者對這幾方面的需求都是在性能需求方面。接著構(gòu)建消費者需求—功能—原理—結(jié)構(gòu)的映射過程。首先基于消費者的需求信息構(gòu)建需求—功能的映射過程。該過程基于以前的歷史交易數(shù)據(jù),運用關(guān)聯(lián)規(guī)則算法得到需求—功能的映射過程。編寫代碼得到如下關(guān)聯(lián)規(guī)則,由于大小原因,本文只展示其中一部分,如圖10所示。
如圖10所示,在歷史數(shù)據(jù)庫中,手機a需求選擇b功能和c功能的概率都是71.42857%,那么就可以知道b功能和c功能可以完成a需求。因此基于歷史數(shù)據(jù),運用關(guān)聯(lián)規(guī)則算法構(gòu)建了需求—功能的映射過程,如表1所示。
進(jìn)而基于模糊矩陣構(gòu)建功能—原理的映射過程,得到滿足該功能的基本原理,本文挑選了滿足需求的一種功能進(jìn)行了驗證,如表2所示。
滿足一個功能的原理有很多,本文選擇滿足功能的權(quán)值最大的原理。然后爬取相關(guān)的專利信息經(jīng)過文本挖掘后進(jìn)行聚類分析得到文本的聚類圖,為了表達(dá)方便,本文把專利數(shù)據(jù)進(jìn)行了如圖11的展示。
然后通過形態(tài)學(xué)結(jié)構(gòu)矩陣得到最終的方案集合,因為矩陣大小的原因只展示其中的一部分,如表3所示。
最后通過組合得到方案的集合,如表4所示。表4中不同方案里面的數(shù)字編號代表不同的專利方案的組合信息,把這些方案組合信息推薦給產(chǎn)品的設(shè)計者,輔助設(shè)計師在設(shè)計過程中做出決策。

圖8 手機特征情感傾向圖

圖9 共現(xiàn)矩陣可視化分析

表1 需求—功能的映射過程

表2 功能—原理的映射過程

表3 形態(tài)結(jié)構(gòu)矩陣

圖11 專利文本聚類圖

表4 方案集合
本文基于產(chǎn)品評論數(shù)據(jù)、專利數(shù)據(jù)等其他數(shù)據(jù)構(gòu)建了數(shù)據(jù)驅(qū)動的產(chǎn)品概念設(shè)計創(chuàng)新知識服務(wù)模型。首先基于產(chǎn)品的評論數(shù)據(jù)構(gòu)建了消費者的需求模型,然后構(gòu)建了需求—功能的映射過程、功能—原理的映射過程和原理—結(jié)構(gòu)的映射過程,最后得到相關(guān)的解決方案推薦給產(chǎn)品的設(shè)計者,進(jìn)而提高產(chǎn)品設(shè)計的效率和企業(yè)的創(chuàng)新能力。