李晉宏++戴海濤
摘要:隨著可穿戴設備的迅速發展與廣泛普及,由各式各樣的穿戴設備產生的運動監測數據、睡眠記錄數據、血氧血壓血糖等個人健康數據量也越來越大。而數據挖掘及可視化技術的發展,也為可穿戴設備的進一步發展提供了良好的基礎,可穿戴設備也只有結合著數據挖掘,才能為用戶提供更多有價值的信息,進而增加用戶的粘性。如何充分利用這些數據以便于從中挖掘出有價值的信息,如何將這些數據結合著可視化技術予以展現,引起越來越多研究人員的關注。本文通過對可穿戴設備及可視化數據挖掘技術發展現狀的分析,來展望可穿戴設備與可視化數據挖掘可能結合的領域或方向。
關鍵詞:可穿戴設備;數據挖掘;可視化技術
中圖分類號:TP182
文獻標識碼:A
DOI:10.3969/j.issn.1003-6970.2015.12.016
本文著錄格式:李晉宏,戴海濤.可穿戴設備數據挖掘及可視化技術的研究[J]軟件,2015,36(12):69-71
1 引言
智能化是科技發展的必然趨勢,人們的生活也將隨著智能科技的發展而改變。近幾年來,智能手機、智能電視行業迅速發展壯大,漸漸成為人們生活中不可缺少的產品。不僅僅是手機與電視,自從谷歌推出第一代GoogleGlass開始,智能可穿戴設備市場就已開始萌芽。
顧名思義,可穿戴設備即可以直接穿在身上,或是整合到用戶的衣服及配件中的便攜式設備??纱┐髟O備不僅僅是一種硬件設備,更是可以通過軟件支持以及云端數據交互,來實現更加強大的功能。近年來,隨著可穿戴設備的迅猛發展,這些設備傳感器產生的大量數據也越發引人關注,這些數據是不是可以被充分地利用,進而從中發現潛在的有價值的信息呢?
答案是肯定的,尤其是隨著數據挖掘技術及可視化技術的發展,更是為充分利用可穿戴設備數據奠定了良好的技術基礎。通過數據可視化技術,我們可以將這些數據以二維或三維的形式直觀地呈現出來,從而使得數據更容易被解釋,同時借助數據挖掘技術,我們可以從這些數據當中挖掘出真正有價值的信息,并將這些信息提供給相關決策人員,進而使得這些數據被充分的利用起來,使這些數據活起來。
2 可穿戴設備
2.1 可穿戴設備分類
目前市場上的可穿戴設備按照功能不同主要可分為以下幾類:
2.1.1運動健身類
運動健身類是目前最為熱門的產品,其中的代表性產品包括Jawbone Up、Misfit Shine三星GearFit等。這些產品最主要的功能就是記錄人體運動、睡眠、飲食等各種與健康相關的數據,通過配套的應用軟件,幫助消費者調整作息規律、督促加強訓練,從而實現健康的生活方式。這些產品大都帶有陀螺儀、加速計等傳感器,從而測出佩戴者的運動量、卡路里消耗等數據,并將數據傳輸到智能手機,進而再傳輸至云端。
2.1.2 信息資訊類
信息資訊類可穿戴設備是綜合性比較高的可穿戴產品,其中以谷歌眼鏡及Apple Watch為代表。這類產品一般都在其中搭載智能手機操作系統,進而極大地豐富了產品的功能。例如,谷歌眼鏡讓用戶通過語音實現搜索,并在屏幕上實時顯示包括導航/生活等各種信息,而Apple Watch基本可以稱之為迷你版的iPhone,這足以說明其功能的豐富。
2.1.3 醫療保健類
醫療保健類可穿戴設備,是目前市場上相對低調但卻是最有可能在未來獨占半壁江山的可穿戴產品。這類產品關心用戶真正的需求,并能解決用戶真正關心的問題,用戶為之付費的意愿也更高。此類產品以血糖儀、血壓儀為代表,同時也在不斷地涌現出新的富有代表性的產品,諸如“快樂媽咪”胎語儀、“發燒總監”智能體溫計、“蓋睿”多功能生命體征采集儀等,這些產品專注于某一類人群,更懂得該類人群所真正關注的問題,因而也更能將產品做的細致入微,吸引更多的消費者。
2.2 可穿戴設備數據
種類繁多的可穿戴設備,產生了大量的種類繁多的數據。這些數據是大量的、高速的、多樣性的、富有價值的,而這些恰恰是大數據的特性。因而,可穿戴設備注定是與大數據分不開了,而且可穿戴設備如果想進一步發展,也必須充分利用大數據處理及可視化技術來為其提供新的吸引力、進一步增強用戶的粘性。那么市場上種類繁多的可穿戴設備,能產生哪些種類的數據呢?這些數據是如何被采集并被高效地存儲起來的呢?
運動健身類可穿戴設備通過陀螺儀、加速計來監測用戶的健康數據,這些數據包含了運動、睡眠、卡路里消耗等數據;信息資訊類產品通過對用戶的搜索記錄、使用習慣等行為進行分析,進而記錄一些非結構化的數據;醫療健康類可穿戴設備所產生的數據種類更為繁多,這些數據其實都可以歸結為人體體征數據,包括但不局限于血糖、血氧、血壓、體溫、呼吸率、心率、心電圖等,這些數據與人體健康息息相關,為分析預測某一類疾病提供了豐富的第一手數據。
可穿戴設備數據,一般都會通過傳感器進行采集,而后暫存于穿戴設備中,在網絡連接的情況下,這些數據最終會被傳遞到云端。一般情況下這些數據是不完整的、包含噪聲的甚至是不一致的,這就需要對數據進行清理、集成、規約甚至于數據變換,經過預處理后的數據,最終被存儲至數據倉庫。
3 可視化數據挖掘
可視化數據挖掘技術是數據挖掘技術和數據可視化的結合,通過計算機圖形學和圖像處理技術將數據挖掘源的數據、數據挖掘過程和數據挖掘的結果直觀的表現出來,并進行交互處理。
3.1 數據挖掘技術
數據挖掘是指從大量、模糊、隨機的實際應用數據中,提取隱藏在其中,人們原先不知曉的、卻潛在有用的信息和知識的過程。
數據挖掘的任務是發現隱藏在數據中的模式。其模式分為兩大類:描述性模式和預測性模式。描述性模式是對當前數據中存在的事實做規范描述,刻畫當前數據的一般特性。預測性模式則是以時間為主要關鍵參數,對于時間序列型數據,根據其歷史和當前的值去預測其未來的值。常用的數據挖掘算法有:
3.1.1 聚類分析
聚類是將數據劃分成群組的過程,根據數量本身的自然分布性質,數據變量之間存在的程度不同的相似性(親疏關系),按照一定的準則將最相似的數據聚集成簇。主要包括劃分聚類算法,層次聚類算法和密度聚類算法等。經典算法有K-Means、K-Medoids。
3.1.2 特性選擇
特性選擇是指為特定的應用在不失去數據原有價值的基礎上選擇最小的屬性子集,去除不相關和冗余的屬性。特性選擇用于在建立分類模型前,或者預測模型之前,對原始數據庫進行預處理。常用的算法有最小描述長度法。
3.1.3 特征抽取
特征抽取式數據挖掘技術的常用方法,是一個屬性降維的過程,實際為變換屬性,經變換了的屬性或者特性,是原來屬性集的線性合并,出現更小更精的一組屬性。常用算法如主成分分析法、因子分析法和非負矩陣因子法等。
3.1.4 關聯規則
關聯規則挖掘是數據挖掘領域中研究最為廣泛和和活躍的方法之一。最初的研究動機是針對購物籃分析問題提出的,目的是為了解決發現交易數據庫中不同商品之間的聯系規則。關聯規則是指大量數據中項集之間的有趣關聯或相關關系。常用的算法有Apriori算法。
3.1.5 分類和預測
分類是應用已知的一些屬性數據去推測一個未知的離散型的屬性數據,而這個被推測的屬性數據的可取值是預先定義的。要很好的實現推測,需要事先定義一個分類模型??捎糜诜诸惖乃惴ㄓ袥Q策樹、樸素貝葉斯分類、神經網絡、logistic回歸和支持向量機等。
3.2 可視化技術
“可視化”其實質是利用計算機的圖形圖像處理技術,把各種數據信息轉換成合適的圖形圖像在屏幕上展示出來。這一過程涉及到圖形學、幾何學、輔助設計和人機交互等領域知識。通常情況下,人們習慣將可視化分為以下四類:科學計算可視化、數據可視化、信息可視化和知識可視化。
科學計算可視化主要用于處理科研領域實驗產生和收集的海量數據,力求真實的反應數據原貌,利于模擬實驗的進行;數據可視化較為籠統,一般用于處理數據庫和數據倉庫中儲存的數據,目的在于以可視化的方式呈現數據,利于使用者觀察;信息可視化抽象層次較高,其目的主要在于讓使用者方便地發現數據內部隱藏的規律;知識可視化則主要表現領域知識,使已有的知識能夠更加迅速有效的在人群中傳播。
設計科學的可視化數據挖掘技術可以從數據源的可視化、數據挖掘過程和數據挖掘結果的可視化人手。
3.2.1 數據源的可視化
數據源的可視化應該在數據挖掘過程算法之前進行,主要作用是展示數據源是如何分布的。如可以用三維立方體或者曲線來表示其中數據分布的情況,用可視化技術來描述數據倉庫和數據庫中不同的抽象級別和粒度。
3.2.2 數據挖掘預處理階段的可視化
數據預處理階段是數據挖掘工作的一個重要階段,對選定的數據集進行抽取、集成、清晰、轉換和規約。在數據的預處理過程中會涉及大量復雜的數據操作,這就需要可視化技術進行處理。預處理階段的可視化技術可以結合傳統的可視化圖表形勢和界面操作的形式進行。
3.2.3 數據挖掘算法的可視化
數據挖掘過程中的交互式可視化使用可視化的形式來描述挖掘的過程,在整個挖掘過程中,設計合適的數據挖掘算法是極為關鍵的步驟,也是數據挖掘的難點。算法可視化利用計算機圖形學的方法。將算法程序執行和數據演變以動態圖形的方式表示出來。
3.2.4 數據挖掘結果模型的可視化
數據挖掘結果模型的可視化主要為了幫助用戶能更好地理解所挖掘出來的數據結果,并且需要進行有效的評估和反饋。數據挖掘的結果模型各不相同,也較為繁雜,因而不同的數據挖掘模型,要通過不同的可視化方法來展示。比如曲線圖、網絡圖、柱狀圖、餅狀圖等等。
4 結束語
本文對可穿戴設備、數據挖掘及可視化技術作了較為詳細的敘述,旨在通過這些技術,來對可穿戴設備數據的價值加以利用,從而更好的服務于用戶,增強用戶對可穿戴設備的使用粘度。同時,也對可視化技術與數據挖掘技術的結合點進行了分析,為以后的研究指明了方向。
可穿戴設備數據的可視化挖掘是一個新的研究方向,其中涉及到可穿戴設備數據的采集、預處理、數據挖掘及可視化。如何根據已有的數據去預測疾病可能的發展趨勢可能需要使用時間序列分析技術進行分析,如何根據用戶的生活信息,去判斷某些疾病的產生原因或誘發因素,可能需要我們使用關聯規則去進行分析??傊绾胃鶕煌臄祿诰蛐枨螅x擇合適的數據挖掘及可視化算法,仍需進一步的研究。