李橋興 陳克杰



摘 要:大數(shù)據(jù)作為新的管理思維和技術(shù)手段,給大健康產(chǎn)業(yè)發(fā)展和灰色關(guān)聯(lián)分析建模帶來了新的機遇及挑戰(zhàn)。為此,本文基于大數(shù)據(jù)“海量、多源、異構(gòu)、低密度價值”的基本特征,探討大健康產(chǎn)業(yè)的大數(shù)據(jù)表現(xiàn)形式及灰色關(guān)聯(lián)分析的大數(shù)據(jù)建模思路,為拓展灰色關(guān)聯(lián)分析的應(yīng)用研究提供新的思路。
關(guān)鍵詞:灰色關(guān)聯(lián)分析;大數(shù)據(jù)建模;大健康產(chǎn)業(yè)
中圖分類號:F26/TP311
文獻標(biāo)識碼:A
文章編號:1000-5099(2018)02-0057-06
Abstract:As a new management thinking and technology means, the big data brings new opportunities and challenges to develop the big health industry and establish gray relational model. On the basis of the basic characteristics of big data, i.e., mass, multiplied sources, heterogeneity and low density value, weve explored the representation method of big data for the big health industries and the modeling ideas of gray relational analysis by using big data, thus to provide a new idea to explore the application research of the gray relational analysis.
Key words:gray relational analysis; modeling with big data; big health industry
互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、云計算和電子商務(wù)等科學(xué)技術(shù)的快速發(fā)展催生了經(jīng)濟社會各領(lǐng)域的半結(jié)構(gòu)化和非結(jié)構(gòu)化海量數(shù)據(jù),促使現(xiàn)代管理決策的思維方式和決策模式發(fā)生了巨大的挑戰(zhàn)和新的機遇,同時分析和挖掘大數(shù)據(jù)的潛在價值也成為現(xiàn)代管理決策的重要特征。另一方面,隨著我國經(jīng)濟社會的不斷進步和人民生活水平的持續(xù)提高,大健康產(chǎn)業(yè)的發(fā)展被各級黨委和政府部門提到了戰(zhàn)略層面的重要位置。產(chǎn)業(yè)發(fā)展中不斷引入的新技術(shù)使大健康產(chǎn)業(yè)數(shù)據(jù)逐步具備了大數(shù)據(jù)的“海量、多源、異構(gòu)和低密度價值”等特征。
灰色關(guān)聯(lián)分析是灰色系統(tǒng)理論的重要內(nèi)容,在各研究領(lǐng)域被學(xué)者們廣泛引用,如區(qū)域戰(zhàn)略性新興產(chǎn)業(yè)的選擇[1]、高技術(shù)產(chǎn)業(yè)的創(chuàng)新效率分析[2]、電力系統(tǒng)黑啟動方案的優(yōu)選[3] 等。然而,灰色關(guān)聯(lián)分析方法的應(yīng)用對象是少數(shù)據(jù)貧信息不確定性問題,其適用領(lǐng)域是“部分信息已知,部分信息未知的小樣本數(shù)據(jù)”建模[4]。另一方面,大數(shù)據(jù)時代極大地提高了被研究領(lǐng)域的全部數(shù)據(jù)或信息的可獲取性,也引發(fā)了灰色關(guān)聯(lián)分析方法的應(yīng)用危機。文獻[5]認(rèn)為,灰色系統(tǒng)理論的研究對象應(yīng)該只涉及貧信息而與少數(shù)據(jù)無關(guān),即數(shù)據(jù)量與貧信息不存在充分必要的關(guān)系,從而為灰色關(guān)聯(lián)分析的大數(shù)據(jù)建模提供了理論依據(jù)。部分學(xué)者初步探討了大數(shù)據(jù)時代灰色關(guān)聯(lián)分析的應(yīng)用研究,如徐蕾基于灰色關(guān)聯(lián)分析改進模型,研究了大數(shù)據(jù)時代高效財務(wù)預(yù)算績效評價 [6];李剛等根據(jù)熵權(quán)和灰色關(guān)聯(lián)模型并采用電力大數(shù)據(jù)對用電質(zhì)量進行了綜合評估 [7]等。雖然文獻[6-7]的研究內(nèi)容涉及了大數(shù)據(jù)的有關(guān)方面,但并未深入探討灰色關(guān)聯(lián)分析的大數(shù)據(jù)建模,其涉及的類型也是結(jié)構(gòu)化數(shù)據(jù)而缺乏對半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的建模探討等。鑒于灰色關(guān)聯(lián)分析方法在研究產(chǎn)業(yè)發(fā)展的相關(guān)因素(包括影響因素、關(guān)聯(lián)因素和控制因素等)等方面具有獨特的優(yōu)勢和作用,本文將以大健康產(chǎn)業(yè)為例,探討灰色關(guān)聯(lián)分析的大數(shù)據(jù)建模模式,對進一步發(fā)展完善灰色系統(tǒng)理論等具有積極的促進作用。
一、大健康產(chǎn)業(yè)的大數(shù)據(jù)特征
大健康產(chǎn)業(yè)是指以維護、改善、促進與管理健康,預(yù)防疾病為目的,提供產(chǎn)學(xué)研產(chǎn)品與相關(guān)健康服務(wù)的行業(yè)總稱[8]。大數(shù)據(jù)具有4V特征,即海量(Volume)、多源異構(gòu)(Variety)、低密度價值(Value)和處理速度快(Velocity)等[9]。隨著互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、云計算和電子商務(wù)等科學(xué)技術(shù)的發(fā)展,大健康產(chǎn)業(yè)的數(shù)據(jù)逐漸具備了大數(shù)據(jù)的4個基本特征。
1. 大健康產(chǎn)業(yè)數(shù)據(jù)的海量特征
大健康產(chǎn)業(yè)數(shù)據(jù)的海量特征主要表現(xiàn)為數(shù)據(jù)量多,增長速度快。例如,隨著互聯(lián)網(wǎng)和物聯(lián)網(wǎng)的快速發(fā)展以及條形碼技術(shù)的普遍使用,大健康產(chǎn)品的產(chǎn)量和銷售量等數(shù)據(jù)不斷被生廠商、中間商、物流商和銷售商等存儲使用,促使數(shù)據(jù)量快速增長;又如,遠(yuǎn)程醫(yī)療和可穿戴設(shè)備等技術(shù)使得醫(yī)院和衛(wèi)生管理部門實現(xiàn)了病人體征等數(shù)據(jù)信息的網(wǎng)絡(luò)化采集與使用,促使數(shù)據(jù)量急劇增加。鑒于此,我們總結(jié)出大健康產(chǎn)業(yè)的大數(shù)據(jù)海量特征主要表現(xiàn)在以下幾個方面:
首先,目標(biāo)對象的長時間監(jiān)測可獲得海量數(shù)據(jù)。例如,健康種植業(yè)如茶葉和中藥材等實現(xiàn)了產(chǎn)業(yè)化和現(xiàn)代化,即大規(guī)模種植后采用物聯(lián)網(wǎng)觀測其生長環(huán)境的溫度、濕度、雨量、蟲害和風(fēng)向等指標(biāo)并進行數(shù)據(jù)收集,以及通過現(xiàn)代物流技術(shù)收集到相關(guān)產(chǎn)品在銷售渠道中產(chǎn)生的各項成本、銷售利潤、銷售價格和銷售量等數(shù)據(jù)。又如,醫(yī)院和醫(yī)療衛(wèi)生機構(gòu)等通過醫(yī)療設(shè)備記錄和可穿戴設(shè)備實時監(jiān)控等方式得到的人體健康數(shù)據(jù);健康種植業(yè)和健康制造業(yè)等在降低成本和規(guī)?;?jīng)營等企業(yè)活動中,其科學(xué)管理和生產(chǎn)模式必然涉及數(shù)據(jù)分析,等等。這些數(shù)據(jù)經(jīng)過人們長時間的監(jiān)測和收集整理后,其數(shù)據(jù)量將會變得異常龐大。
其次,目標(biāo)群體巨大產(chǎn)生的海量數(shù)據(jù)。健康管理、醫(yī)療康復(fù)、養(yǎng)老護理和養(yǎng)生健身等健康產(chǎn)業(yè)主要面向大眾服務(wù),必然涉及龐大的人群規(guī)模。例如,我國60歲以上的老齡人口在2016年已經(jīng)超過2.3億人[10],選擇養(yǎng)老機構(gòu)養(yǎng)老和智慧居家養(yǎng)老等模式的人群體量龐大,由此產(chǎn)生了老年健康海量數(shù)據(jù);又如,當(dāng)前關(guān)注健康養(yǎng)生的人群越來越龐大且有年輕化趨勢,僅通過互聯(lián)網(wǎng)關(guān)注健康養(yǎng)生的人群月度活躍用戶超過1 000萬人[11],每天也產(chǎn)生了龐大的用戶數(shù)據(jù)量。此外,國家食品藥品監(jiān)督管理局的最新數(shù)據(jù)顯示,我國保健食品數(shù)目已達19 670種[12]。這些保健食品在生產(chǎn)、儲存、運輸、銷售等過程中將產(chǎn)生大量數(shù)據(jù),等等。這些由目標(biāo)群體巨大引起的數(shù)據(jù)量存儲需要現(xiàn)象,其產(chǎn)生的數(shù)據(jù)量必然十分龐大。
再次,研究對象的指標(biāo)屬性多而衍生海量數(shù)據(jù)。例如,監(jiān)測人體健康狀況涉及了多項指標(biāo),如身高、體重、血壓、工作量、舒適度等,其數(shù)目可達十幾個、幾十個甚至成百上千個。這些多重屬性特征也會產(chǎn)生海量數(shù)據(jù)。又如,在健康種植業(yè)領(lǐng)域,需要監(jiān)測的對象不僅僅包括種植作物等有機生物的信息如生長速度、營養(yǎng)物質(zhì)輸送狀態(tài)等,也包括耕種地塊等無機物的信息,如地塊的歷史耕種信息、播種信息、育苗信息、農(nóng)膜信息、農(nóng)藥化肥信息、灌溉信息、良種信息、農(nóng)機信息、農(nóng)情信息等[13]。另外,健康綠色產(chǎn)品的生產(chǎn)銷售也需要我們遵循“從土地到餐桌”的全過程質(zhì)量控制,包括產(chǎn)地環(huán)境質(zhì)量、投入品使用、標(biāo)準(zhǔn)化生產(chǎn)、產(chǎn)品質(zhì)檢、包裝儲運等信息[14]。由于研究對象自身的復(fù)雜性以及指標(biāo)的多樣性等因素,也必然會有海量數(shù)據(jù)產(chǎn)生。
以上事實說明,大健康產(chǎn)業(yè)的海量數(shù)據(jù)將成為今后產(chǎn)業(yè)管理和決策等活動的首要特征。有資料顯示,大健康產(chǎn)業(yè)預(yù)計在未來10年內(nèi)將會以每年15%~20%的速度增長,其產(chǎn)生的數(shù)據(jù)將迅猛增長[15]。
2.大健康產(chǎn)業(yè)數(shù)據(jù)的多源異構(gòu)特征
大數(shù)據(jù)來源十分廣泛,其構(gòu)成也多種多樣。大健康產(chǎn)業(yè)數(shù)據(jù)的來源包括:醫(yī)療智能傳感器和治療設(shè)備等采集到的醫(yī)療對象在生理、心理、病理與治療等多方面的數(shù)據(jù)信息,智能可穿戴設(shè)備采集到的穿戴對象在溫度、血壓和心跳等多方面的體征數(shù)據(jù)信息,健康種植業(yè)在溫度、濕度、風(fēng)向和蟲害等方面的數(shù)據(jù)信息以及健康產(chǎn)品在媒體、市場、文件和公告等多種媒介中反映的多方面的數(shù)據(jù)信息等。大健康產(chǎn)業(yè)數(shù)據(jù)的異構(gòu)性表現(xiàn)在:健康產(chǎn)品在形態(tài)、質(zhì)量、價格和地理位置等方面的信息數(shù)據(jù)可以文本、圖像、視頻、網(wǎng)站等多種不同形式保存;健康服務(wù)業(yè)除了服務(wù)價格、服務(wù)體驗、肢體語言和質(zhì)量滿意感等即時信息外,還有消費信譽度和受眾美譽度等后期信息。顯然,大健康產(chǎn)業(yè)的數(shù)據(jù)來源多樣和存儲方式異構(gòu)等特征導(dǎo)致數(shù)據(jù)的處理面臨很大困難。
3.大健康產(chǎn)業(yè)數(shù)據(jù)的低密度價值特征
數(shù)據(jù)的價值含量與數(shù)據(jù)總量之間不存在正比例關(guān)系,表現(xiàn)為在海量數(shù)據(jù)中只有少數(shù)數(shù)據(jù)能夠為管理者決策提供真正價值。由于海量數(shù)據(jù)中除了相對少量的有價值信息外,還包含了偏差信息、錯誤信息和不相關(guān)信息等,導(dǎo)致管理者獲取有價值信息的難度增大和有價值信息量被稀釋,因此,海量數(shù)據(jù)具有明顯的低價值密度特征。以健康醫(yī)療領(lǐng)域為例,每個CT圖像含有150 MB數(shù)據(jù),每個標(biāo)準(zhǔn)病理圖包含近5 GB數(shù)據(jù),2014年全國診療人次達761億人次,產(chǎn)生的診療數(shù)據(jù)高達25 467 TB,但幾百兆的數(shù)據(jù)信息中有用的信息可能僅幾個片段,對特定管理決策需求而言,無用數(shù)據(jù)信息是巨大的,造成了數(shù)據(jù)冗余。此外,對傳染病監(jiān)測得到的大量數(shù)據(jù)中敏感信息少,需要動態(tài)連續(xù)監(jiān)測才能捕獲異常信息或發(fā)現(xiàn)其流行規(guī)律[16],如此龐大的數(shù)據(jù)在采集、存儲、復(fù)制等管理過程中,不可避免地會出現(xiàn)數(shù)據(jù)偏差及發(fā)生數(shù)據(jù)錯誤等。因此,大健康產(chǎn)業(yè)所獲取目標(biāo)對象的大量日常信息,必然會產(chǎn)生數(shù)據(jù)偏差和數(shù)據(jù)冗余等,從而不可避免地稀釋那些少量的有價值信息。
二、灰色關(guān)聯(lián)分析的大數(shù)據(jù)建模思路
隨著大數(shù)據(jù)日益滲透到現(xiàn)代經(jīng)濟系統(tǒng)中的多數(shù)行業(yè)和現(xiàn)代管理活動中的大多數(shù)業(yè)務(wù)職能領(lǐng)域,大數(shù)據(jù)已然成為現(xiàn)代生產(chǎn)和管理活動中的重要生產(chǎn)因素和決策依據(jù)[17],并給灰色關(guān)聯(lián)分析的應(yīng)用研究帶來了危機[18]。大數(shù)據(jù)建模與傳統(tǒng)數(shù)據(jù)建模的不同之處在于其“海量、多源、異構(gòu)、低密度價值”等特征,為灰色關(guān)聯(lián)分析模型在數(shù)值采用和計算精度等方面帶來了重大挑戰(zhàn)。在采用灰色關(guān)聯(lián)分析研究中,其主要工作是建立灰色關(guān)聯(lián)度算法,并且算法模型主要基于以下視角:反映兩序列間發(fā)展過程或量級的相近性,或反映兩序列發(fā)展趨勢或曲線形狀的相似性, 或同時考慮兩序列曲線的相近性和相似性等[19]。顯然,灰色關(guān)聯(lián)系數(shù)及灰色關(guān)聯(lián)度建模在采用海量數(shù)據(jù)后,其參考序列和比較序列之間的相似性或相近性特征在綜合或合并過程中容易被“稀釋”或“抵消”,因此,在大數(shù)據(jù)環(huán)境下,于研究各序列間或序列內(nèi)部間的模型構(gòu)建過程中,要特別注重其與傳統(tǒng)數(shù)據(jù)序列的區(qū)別。
大健康產(chǎn)業(yè)中每一個具體產(chǎn)業(yè)的大數(shù)據(jù)序列全體均可構(gòu)成一個研究對象系統(tǒng),如在醫(yī)療產(chǎn)業(yè)中的數(shù)據(jù),目前大致可以分為4類:患者就醫(yī)過程中產(chǎn)生的數(shù)據(jù),檢驗中心的數(shù)據(jù),藥企、基因測序數(shù)據(jù),智能可穿戴設(shè)備產(chǎn)生的數(shù)據(jù)等[20]。各類數(shù)據(jù)可能在數(shù)據(jù)類型或數(shù)據(jù)數(shù)量上具有差異,各類數(shù)據(jù)所構(gòu)成的數(shù)據(jù)序列也會有一定差異。為了后續(xù)研究方便,我們建立醫(yī)療產(chǎn)業(yè)的標(biāo)準(zhǔn)大數(shù)據(jù)序列形式如下:
相應(yīng)地,對于數(shù)據(jù)序列被處理成同類型結(jié)構(gòu)的非數(shù)值型數(shù)據(jù)序列,或者只需對數(shù)據(jù)元素位置進行調(diào)整,變成具有在相同位置有相同類型結(jié)構(gòu)的大數(shù)據(jù)序列,則可參照前面小節(jié)的思路進行處理。
(3)無限條數(shù)據(jù)序列類型
若研究對象的數(shù)據(jù)屬性在某種條件下由于其組成對象太多而難以被一一列舉,則可能會得到無限條大數(shù)據(jù)序列。例如,在健康養(yǎng)生養(yǎng)老領(lǐng)域,若對人體基于細(xì)胞層次開展研究,可以將一個細(xì)胞所包含的全部信息作為一條大數(shù)據(jù)序列,這樣就會得到無限條大數(shù)據(jù)序列,并且參考序列和比較序列的數(shù)目也可能是無限條。在處理無限條數(shù)據(jù)序列時,決策者可以參考統(tǒng)計學(xué)的抽樣調(diào)查法、重點調(diào)查法或典型調(diào)查法等手段來處理無限條大數(shù)據(jù)序列,并基于給定的接受水平,將無限條大數(shù)據(jù)序列處理成有限條大數(shù)據(jù)序列。隨后可按照上述有限條大數(shù)據(jù)序列的處理方法來進行數(shù)據(jù)處理,并構(gòu)建灰色關(guān)聯(lián)度模型。
目前已部分實現(xiàn)了對異構(gòu)大數(shù)據(jù)的集成、管理和分析[22],但鑒于目前大數(shù)據(jù)處理在計算機技術(shù)方面還沒有完全解決,因此,大數(shù)據(jù)的灰色關(guān)聯(lián)建模還僅僅處于探討的初期階段。值得關(guān)注的是,隨著計算機特別是超導(dǎo)計算機、納米計算機、DNA計算機甚至量子計算機等研究得到突破,其數(shù)據(jù)運算能力將會得到極大提高,因此,由“海量、多源、異構(gòu)、低密度價值”的大數(shù)據(jù)處理所帶來的難題也將會得到有效解決。屆時灰色關(guān)聯(lián)模型的研究也將獲得重要進展,并有助于大健康產(chǎn)業(yè)研究的長足發(fā)展。
三、結(jié)論
本文以健康產(chǎn)業(yè)大數(shù)據(jù)為例探討了灰色關(guān)聯(lián)分析的大數(shù)據(jù)建模問題,給出了大數(shù)據(jù)建模的預(yù)處理方法和灰色關(guān)聯(lián)建模思路。但相關(guān)成果還只是初步的,灰色關(guān)聯(lián)分析模型的具體構(gòu)造方法還有待于計算機相關(guān)技術(shù)領(lǐng)域的突破。
參考文獻:
[1]李橋興,徐思慧,宋山梅.基于生態(tài)和發(fā)展底線的貴州省戰(zhàn)略性新興產(chǎn)業(yè)選擇[J].貴州社會科學(xué),2017(12):163-168.
[2]張華平.高技術(shù)產(chǎn)業(yè)創(chuàng)新投入與產(chǎn)出灰關(guān)聯(lián)分析[J].中央財經(jīng)大學(xué)學(xué)報,2013(3):61-65.
[3]李如琦,唐林權(quán),凌武能,等.基于前景理論和灰關(guān)聯(lián)分析法的黑啟動方案優(yōu)選[J].電力系統(tǒng)保護與控制,2013(5):103-107.
[4]鄧聚龍.灰理論基礎(chǔ)[M].武漢: 華中科技大學(xué)出版社,2002.
[5]李橋興.灰色運算基礎(chǔ)與灰色投入產(chǎn)出分析[M]. 北京:科學(xué)出版社,2017.
[6]徐蕾.大數(shù)據(jù)時代高校財務(wù)預(yù)算績效評價研究與應(yīng)用——基于灰色關(guān)聯(lián)分析改進模型[J].中國管理信息化,2017,20(9):33-36.
[7]李剛,焦亞菲,劉福炎,等.聯(lián)合采用熵權(quán)和灰色系統(tǒng)理論的電力大數(shù)據(jù)質(zhì)量綜合評估[J].電力建設(shè),2016,37(12):24-31.
[8]王秀華.發(fā)展大健康產(chǎn)業(yè) 培育新的經(jīng)濟增長點[J].法制與經(jīng)濟,2015(10):120-122.
[9]周健.大數(shù)據(jù)的特征、管理與挖掘[J].中國市場,2015(45):105-106.
[10]李倩,梁立君.智慧居家養(yǎng)老破解養(yǎng)老難題[J].人民論壇,2017(26):80-81.
[11]我國健康養(yǎng)生市場規(guī)模已超萬億元[EB/OL]. (2016-04-18)[2018-02-10].http://www.39yst.com/xinwen/400442.shtml.
[12]國家食品藥品監(jiān)督管理局.[EB/OL].(2018-02-10)[2018-02-15].http://app2.sfda.gov.cn/datasearchp/gzcxSearch.do?formRender=gjcx&optionType=V4.
[13]聶海,李琳英,石宇,等.大數(shù)據(jù)與現(xiàn)代農(nóng)業(yè)[J].農(nóng)業(yè)開發(fā)與裝備,2017(10):16.
[14]唐偉,張志華.“互聯(lián)網(wǎng)+”綠色食品產(chǎn)業(yè)發(fā)展路徑探討[J].農(nóng)產(chǎn)品質(zhì)量與安全,2015(6):7-10.
[15]大健康產(chǎn)業(yè)未來十年年增速將達20%[EB/OL]. (2015-06-10)[2018-02-10].http://health.cnr.cn/jkgdxw/20150610/t20150610_518806754.shtml.
[16]健康醫(yī)療大數(shù)據(jù)產(chǎn)業(yè)分析與前景展望[EB/OL]. (2017-08-08)[2018-02-19].https://www.cn-healthcare.com/articlewm/20170807/content-1016587.html.
[17]MANYIKA J, CHUI M, BROWN B, et al. Big data: The next frontier for innovation, competition,and productivity[EB/OL]. (2017-05-27)[2018-02-10].
http://www.mckinsey.com/business ̄funcrions/digitol ̄mckinsey/Our ̄insights/big ̄data ̄the ̄next ̄frontier ̄for ̄innovation.
[18]李橋興,徐思慧,宋山梅.基于生態(tài)和發(fā)展底線的貴州省戰(zhàn)略性新興產(chǎn)業(yè)選擇[J].貴州社會科學(xué),2017(12):163-168.
[19]田民,劉思峰,卜志坤.灰色關(guān)聯(lián)度算法模型的研究綜述[J].統(tǒng)計與決策,2008(1):24-27.
[20]健康醫(yī)療大數(shù)據(jù)產(chǎn)業(yè)淺析[EB/OL]. (2017-11-04)[2018-02-10]. https://baijiahao.baidu.com/s?id=1583094234901924230&wfr=spider&for=pc.
[21]袁景凌,鐘珞,楊光,等.綠色數(shù)據(jù)中心不完備能耗大數(shù)據(jù)填補及分類算法研究[J].計算機學(xué)報,2015,38(12):2499-2516.
[22]東北大學(xué)破解大數(shù)據(jù)分析難題[EB/OL]. (2017-03-16)[2018-02-10].http://scitech.people.com.cn/n1/2017/0316/c1007-29148142.html.
(責(zé)任編輯:鐘昭會)