鄧慧君 ,宋 君 ,朱 琳
(1.寧波大學 信息科學與工程學院,浙江 寧波 315211;2.寧波大學 機械工程與力學學院,浙江 寧波 315211)
隨著數字經濟的發展,網絡數據信息越來越豐富,數據驅動的業務崗位賦能的研究越來越受到產業和學者的重視,大數據分析的技術與方法成為科學研究與技術應用的熱點。同時,基于互聯大數據的社會新生態系統也正在逐步形成。國內外學者已經進行了較多的研究工作。Tony H(2009)[1]博士提出人類科學研究的“第四種范式”,即“數據探索”,用以指導和更新科學領域的研究。Boying Li等(2016)[2]便運用大數據技術對Amazon 網站的數據進行相關性分析,建立產品的評論數量、增長比率和產品銷售量的相關關系。Gema Bello-Orgza 等(2016)[3]針對社會媒體大數據的快速增長,提出從數據融合和數據可視化兩個方面來對其進行分析。Max Nathan 等(2015)[4]通過觀測和模擬變量的組合,開發出了一種新型的文本挖掘技術。Hye-Chung Kum 等(2015)[5]引入了數據庫知識發現和數據挖掘過程的概念,提出新型的知識發現和數據挖掘體系結構。Mohamed Abouelela 等(2015)[6]提出了迭代調度算法和K-short 路徑算法,處理在數據密集型應用中出現的大型數據傳輸延遲現象。顧復等(2018)[7]針對產品生命周期評價難的問題,提出了透明公平的產品生命周期評價方法。張衛等(2019)[8]對制造服務的研究分析,提出了一種智能服務的模塊化設計方法。任杉等(2018)[9]針對復雜產品生命周期數據呈現的大數據特性,提出一種生命周期大數據驅動的復雜產品智能制造服務新模式。李浩等(2018)[10]提出面向MC 的產品服務系統模塊化設計框架,實現用戶需求獲取的規模化、快捷化及低成本。陶飛和戚慶林(2018)[11]提出在新一代信息技術與制造融合的環境下,面向服務的智能制造的實施框架。陳美(2012)[12]利用大數據技術實現交通數據的采集和處理,構建了城市公共交通管理體系。王雅瓊等(2015)[13]學者提出將大數據技術應用到智慧化交通服務中,從而利用智能化交通為人們提供優質的出行服務。黃曉斌和鐘輝新(2013)[14]建立了由核心功能層、支撐功能層以及表現功能層組成的企業競爭情報系統模型。唐曉波等(2018)[15]提出了基于大數據智能的競爭情報系統模型。
從學者們的研究也可以看出,由于數據源的廣泛性及數據生產方式的多樣性,未來數據的規模將越來越大,而且數據結構也越來越趨于復雜。因此,不同領域下大數據技術的應用將越來越能體現出它的優勢與價值。另一方面,企業轉型升級的壓力使企業家也越來越垂涎基于大數據的企業問題解決方案,迫切需要有實踐意義的大數據應用的技術與方法。
本文提出數據驅動的產品綜合評價的構思,從企業內外環境中獲取產品相關的數據,應用大數據分析處理技術與方法,挖掘數據背后隱藏的信息,并融入到產品綜合評價過程中,建立數據驅動的產品綜合評價模型,對企業產品進行綜合性的量化評價。本文的研究,有助于發揮數據資源在企業業務執行中的賦能作用,提高企業產品評價的準確性與科學性,為企業轉型升級及績效提升提供參考,推動企業大數據應用的實踐。
所謂數據驅動的產品綜合評價主要是指在產品與外界相互作用過程中產生一些可以表現產品與外界關聯特征的數據,通過對這些數據進行挖掘,發現其中的事物關聯性和隱藏模式,對產品的市場表現、市場潛力等進行量化評價,用以輔助產品優化與創新等業務活動[16-17]。
通過對收集的產品相關數據的分析研究,本文將產品綜合評價分為兩大維度:一是產品市場表現力的評價,二是產品技術潛力的評價,該維度是從技術角度作為前一維度的補充。綜合兩個維度的產品表現,可以分析和預測產品在當下及未來可能的發展走向,為企業業務決策提供參考。本文提出的數據驅動的產品綜合評價服務模型如圖1 所示,包括數據驅動層、數據處理與分析層、企業業務應用層、知識服務層。
數據資源是提供產品綜合評價的基礎。不僅企業的管理信息系統、產品結構數據平臺系統中包括著大量的有價值的數據,大數據技術的應用使電子商務平臺、專利期刊文獻數據、網絡論壇社區的短文都成為對企業業務有支撐作用的重要資源。本文通過網絡爬蟲等信息技術,將不同來源的數據信息匯聚,成為本研究框架的數據資源池,為產品綜合評價提供數據基礎。這些數據是動態的,按照系統規則的定義,系統可自主地進行數據的積累,以便實施基于時間維度的歷史性趨勢分析等。
該層主要面向企業的業務應用,從數據資源層提取相關數據并進行分析處理。因為底層的數據資源是多源、多樣、無序和大量的。因而需進行常規的數據采集、數據清洗、數據的結構化和有序化處理,同時根據業務需要進行數據的集成及數據規則的構建。
本文從產品的市場表現及產品的技術潛力兩大維度分別展開產品的評價。首先市場表現力的維度分析,需要從用戶評價的語料庫中,通過大數據解析分析、主題模型研究等方法,提煉構成評價的特征維度,這個維度會隨著時間及群體的變化而動態波動。特征維度建立后,需要計算統計特征維度的評價結果,之后建立各特征維度在總體評價中的權重系數,各特征維度加權求和即可獲得產品的綜合評價參數。研究的關鍵點在于權重系數的確定,本文通過特征維度所屬的評價語料的總體占比的方法,確定特征維度的權重,相對于人為裁定的方法會更為科學。
產品技術潛力的評價主要是基于產品相關的技術專利及科研文獻數據,探討當前已有技術的儲備水平,形成對產品更新與優化的輔助決策參考。主要是通過技術熱點與空白點等專題的解析,利用技術功效矩陣方法,對產品相關的創新技術水平及產品發展潛力進行量化度量,輔助于產品綜合評價。
本文提出的產品綜合評價服務的初衷是利用開放的數據資源及企業的產品數據信息,通過一套方法體系實現計算機系統的自動化處理,通過內置服務的方法,由軟件平臺系統直接為產品設計人員等提供產品優化及技術創新的輔助參考。因而需要將企業業務應用層的產品綜合評價方法,通過聚合封裝或功能細分,轉化為平臺系統的功能服務,包括產品專利保護的建議服務、產品優化與技術創新決策服務、知識體系維護與監控服務、知識推送與技術風險預警服務等。
本文提出的產品綜合評價模型,首先是對產品市場表現力的評價。產品價值最終是由市場來檢驗的,因而用戶的評論數據在一定程度上反映了產品在市場上的生存能力。本文提出的數據驅動的產品市場表現力評價服務模型,如圖2 所示。

圖2 數據驅動的產品市場表現力的評價的服務模型
產品市場表現力評價的數據資源基礎主要是包含用戶評價信息的數據源,如電子商務平臺、網絡論壇社區系統等。當研究某類產品在市場上的總體表現時,篩選的是該類別產品的評論數據,可以通過設置篩選規則來確定,比如價格區間,或性能參數指標等。如果研究的是某一產品的市場表現時,那只需要選擇與該產品相關的評論數據即可,之后的統計計量方法是一致的。數據資源準備完成后進入數據的處理階段,包括評論數據的解詞、詞頻統計與特征詞的提取等。
核心之一是進行LDA 的主題分析,并通過與產品結構數據等信息的結合,形成用戶評價語料與產品功能特征的映射關系,利用專利信息及期刊論文中包含的功能特征與描述語料的映射規則,提取建立這種映射關系,建立本研究的產品評價維度模型。該評價維度模型可以根據需要分解為兩個層面,一是頂層評價特征維度,通常包括產品外觀相關的特征維度、價格或性價比相關的特征維度等。頂層特征維度通常又從操作的角度細化為二層次評價特征維度,即評價特征要素集,通常語料信息中評價的都是二層次評價特征維度要素。
該部分研究的另一項核心工作,需要對語料的情感特性進行統計分析,并量化評價的結果。首先是進行評價語料的情感極性的判斷,正面評價得分為正,負面評價得分為負,中性評價得分為零。本文引入了“知網情感分析用詞語集”開展評價詞性的判斷。然而,具體評價的得分還與評語極性的強弱有關,同時還與評價人的用詞習慣及評價人的權威性相關。這是本文的難點之一。
在現行的電子商務系統中,用戶對產品的評價通常采用“五分制”的方式來表達的。本文通過對特定評價人的所有的評價數據進行專項統計(不僅限于某類產品),統計其評價的用詞習慣、用詞與評價級別的相關性,構建評價人私有的五分制“評語用詞賦分表”。賦分表可由計算機系統進行自動的跟蹤分析,進行不斷地豐富完善。在產品評價過程中,分析評價人的評價分值( Pi)時,首先依據該評價人的“評語用詞賦分表”確定,如果配對失敗,從其他人的“評語用詞賦分表”中進行參考,如果也沒有相對應的詞條,那么可作為無效評價處理。
不同的評價人的意見對產品的市場表現力的展示作用是不同的,比如常客的意見可能更準確。因而,本文提出對評價人的評價準確性,用權威性修正系數( ai)來表征。
首先,統計所有評價人采購的同類產品的數量,并按從多到少進行排序,依排序情況,按五段制形式,依次確定修正系數,即采購數量最多的前20%的人,ai=1,采購數量在前20%~40%之間的,ai=0.8,依次類推。權重系數按從大到小的次序確定。
綜上的分析,某一產品特征要素的得分( Skj,k為頂層特征維度序號,j 為細分特征要素集的序號)表示為公式1 所示。

式(1)中m 為評價條目的數量,akji為第i 條評論的評價人權威性修正系數,Pkji為該評價的賦分。
依據以上的數據分析處理即可量化產品各評價維度上的評價結果。然后,如何綜合確定產品最終的市場表現能力,需要對多維度特征要素的評價結果進行綜合。常規的解決方案是各維度加權求和的方法。然而,權重系統的確定是科學性的關鍵,本文提出基于各維度統計占比的方法來解決這一問題,計算方法如公式(2)所示。

式(2)中wkj為特征要素的綜合評價權重系數,vkji為特征要素的評價結果,m 為對特征要素的評價總數,n 為該產品或該類產品的所有特征要素評價的總條目數。
對各特征要素維度進行加權求和,即可獲得該產品或該類產品的綜合評價量化參數p,如公式(3)所示。

式(3)中r 為一級特征維度總數,t 為特征維度下的二級特征要素的總數。
通過計算不同產品的綜合評價參數,即可了解不同產品的市場表現,也可進行不同產品間的橫向比較,為企業決策提供參考。
從產品的技術創新角度來講,市場是推動技術進步的重要力量。同時,產品技術的潛力也是影響產品生命周期的重要因素。據學者研究,專利記載80%以上的技術知識[18]。而期刊論文的文獻資源與專利知識間形成一種互補,因而本文基于專利及期刊文獻數據,將功效圖的技術方法引入到產品的技術潛力的評價過程,旨在用于發現當前產品相關的技術的熱點及空白點,指導企業技術研發,并輔助決策[19-20]。本文提出的數據驅動的產品技術潛力評價的業務流程如圖3 所示。

圖3 數據驅動的產品技術潛力評價的業務流程
驅動技術潛力評價的數據源,主要是公開的專利數據及科研文獻數據,同時企業管理信息系統中記載的產品結構、功能等數據也是進行技術潛力評價不可缺少的。另外,前面提及的用詞評價語料數據庫也是該部分研究的重要基礎。除企業管理信息系統的數據外,其他數據資源都可以通過網絡爬蟲等較成熟的數據獲取技術來完成。
為構建技術功效矩陣,首先需要明確矩陣的行與列的維度。
本文以用戶評論數據的產品評價分析作為基礎,將評價的特征維度,按功能、成本、質量、價格、體驗等不同類型進行歸并、排序。也就是確定產品相關的功效表述有哪些。這里提及的功效表述,并不是從設計人員的角度,而是從用戶的角度來闡釋的,即從用戶角度來說,他們更關注什么樣的功效需求。這一任務采用類似前面產品特征要素提取的方法,將特征要素映射為產品的功效表達。為便于分析,功效表達按前述產品市場評價的結果為依據,進行降序排列,作為功效矩陣的列。
因為科技文獻及專利數據等資源中,對于產品技術相關的表述通常體現為原理、技術、工藝、方法、工具、材料、結構等,本文將技術的表述字段,按企業擅長的次序排列,作為矩陣的行,并根據文獻與專利的分析可進一步細化為二層次技術的表達。
明確了舉證的行與列,采用類似前述的數據處理方法,進行語料分析、LDA 主題模型分析、聚類分析等,確定某產品相關的技術主題及功效主題,并提取技術詞語料及功效詞語料信息。所謂技術詞語料信息表現為原理、結構、材料、理論、方法等,功效詞語料信息是指技術實施后可能達到的效果。這在信息科研文獻及專利數據中有比較規范的表述,因而語料信息較容易提取,可基于語義規則的方法,由計算機自動完成。根據相對應的語料坐標,可以把相關的科技文獻與專利統計到矩陣的相關節點,節點的數據即為累積的科技文獻及專利資源的數量。如果以各節點的累計數據的大小作半徑作圓,即可得到圖4 所示的老板說功效矩陣。

圖4 基于科技文獻與專利數據的技術功效矩陣
在這個矩陣中展示了各功效需求方面的技術儲備情況,展示當前該類產品的技術領域的先進性與不足,也可以較容易地發現技術研發的熱點(半徑大的單元節點)及研究的空白點(半徑小或沒有圓點的節點)。
如前所述的分析,已經可心獲得行業全貌的技術能力矩陣圖,利用類似的做法也可以獲得企業當前的技術功效的分布情況,與前述基于科技文獻與專利分析的不同在于各節點的數據如果是企業當前正采用的相關技術、原理、方法等則當前的節點數據并保留,沒有采用的節點為空白。
通過全局技術功效矩陣與企業當前技術功效矩陣的對比,可以幫助企業選擇創新的機會與方向。在理論、技術、方法、工藝等不同層面所具有的先進性可以用企業當前技術水平的總體與行業總體情況的比值來評估(技術進行性指標t),即:

式(4)中tij表示企業現行技術在技術功效矩陣第i 行第j 列的技術功效方面的先進性指標,dij為第i 行第j 列的單元值(企業當前在使用技術的水平),m 與n 分別為矩陣的行數與列數。
如果企業在用戶關切的功能需求上,有較豐富的技術儲備,則企業對產品市場表現的預期必將得到提升,評價結果的可信度將會增強。因而,本文從技術儲備的角度,企業擁有的技術的先進性指標(t)作為產品市場表現力評價的修正,得出產品的綜合評價參數(P),如公式5 所示。

本文提出了數據驅動的產品綜合評價的技術與方法,試圖從產品的市場表現及技術能力等多個層面進行產品的綜合評價,進行了量化參數的設計和原型系統的設計開發。本研究有益于企業對產品的市場表現、技術布局等情況進行分析和判斷,為產品優化更新提供重要的參考。另外,通過量化參數的方法,支持企業的快速、科學決策。同時本研究也有助于推動大數據技術方法發揮大數據的企業賦能作用。