網絡搜索的結果、社交媒體內容和服務器日志,再加上來自供應鏈、工業、環境和監視等傳感器的數據,這一切都使企業數據日益龐雜。目前,很多企業都淹沒在海量數據中不知所措,他們不了解這些數據的真正價值也沒有掌握管理、分析數據的IT手段。
圍繞數據分析工作,市面上出現了眾多相關技術,幫助企業管理和分析多種多樣的龐大數據集。在這個高級分析技術的領域,由于IT服務產品的價格持續下降,用戶可以用更少的IT預算來獲取完善的服務、進行更多的信息分析,解決更復雜的問題。
隨著分析技術的飛速發展和商業智能手段的日益高明,CIO現在完全可以做到大規模、低成本地分析業務數據。這也意味著,企業可以充分利用一切可利用的機會,獲取更高的商業價值。
勇于接受海量數據
大數據是指龐大的數據集,尤其是那些未經組織、管理以適合傳統數據倉庫的數據集。雖然不是每一家公司都需要掌握處理龐大非結構化數據集的手段,但Verisk Analytics公司的CIO Perry Rotella認為,所有CIO都應該關注大數據分析工具。Verisk公司幫助金融公司評估風險,也幫助保險公司從理賠數據中識破欺詐,它在2010年的營收超過了10億美元。Verisk公司的業務是“從你事先未知的數據中找到一定的模式和關聯。”Rotella表示,企業的IT負責人應持數據越多越好的態度,并勇于接受海量數據。
HMS公司專門幫助客戶實施醫療保險和醫療補助計劃,同時也為企業控制醫療保健成本,其業務覆蓋美國40多個州的衛生和福利計劃以及130多個醫療補助管理型醫療保健計劃。在2010年,通過避免錯誤支付,HMS幫助客戶追回了18億美元的成本,省下了數十億美元的開銷。該公司的CIO Cynthia Nustad認為,大數據呈“爆炸式發展”的趨勢,“我們在努力獲取、跟蹤、分析大量資料,包括結構化數據和非結構化數據,盡管有時你可能都不知道自己在數據中到底要尋找什么?!?/p>
Hadoop是被談論最多的大數據技術之一,作為一個開源的分布式數據處理平臺,Hadoop最初被用來處理海量網頁搜索之類的任務。最近它與另外幾種所謂的“NoSQL”技術(包括CouchDB和mONGOdb)大行其道,正以新穎的方式管理大數據。
Hadoop能夠處理PB級數據,具體步驟是把海量數據的子集分配給上千臺服務器,然后由主調度器核對和整理每一臺服務器返回的處理結果。Hadoop既可以用來準備好數據以便分析,本身也可以作為一款分析工具來使用。如果企業沒有成千上萬臺備用服務器,可以向亞馬遜等云服務提供商購買服務,根據具體需要訪問Hadoop。
Nustad認為Hadoop有助于企業通過分析數據來識破欺詐和浪費現象,或許還可以用于分析多種格式的病人門診記錄。她表示,HMS確實在探究NoSQL技術的用途,但并非用于其龐大的醫療保險和醫療補助理賠數據庫,因為這些數據庫含有結構化數據,可以用傳統的數據倉庫技術來處理,而且為了大數據而棄用傳統的關系數據庫管理方法也不明智。
作為一家比較購物網站,Shopzilla每天積累的數據多達數TB。其CIO Mulkey說:“我們用Hadoop來處理過去用數據倉庫來處理的任務,更重要的是,它能讓我們做一些以前無法實現的、真正能滿足需求的分析工作?!币郧?,Shopzilla要為數據取樣和分類——處理這么多數據,工作量非常大?,F在借助Hadoop,Shopzilla就能分析原始數據,跳過中間步驟。
像Rotella和Mulkey這種有Hadoop實踐經驗的CIO,他們所在的公司甚至會將數據分析服務當做一項業務來出售。
提速
從IT架構改革開始
“分析速度提升將是一個更大的趨勢,而大數據技術只是這個趨勢當中的一部分。”肯塔基大學的CIO Vince Kellen認為,“我們需要用更高級的技術來分析海量數據,因為我們希望迅速地獲得分析結果。所以數據多少不重要,重要的是分析數據的效率?!?/p>
雖然幾十年來,數據庫一直通過緩存那些頻繁訪問的數據來提高性能,由于從磁盤獲取數據在一定程度上是個機械過程,所以速度要比在內存中處理慢很多?,F在看來,把龐雜數據全部裝入到一臺服務器或者多臺服務器的內存中要更切實可行,磁盤只用來作備份。
Rotella表示:“現在我可在幾秒鐘內執行分析任務,而五年前我們需要花整整一個晚上?!彼麄儗嫶髷祿M行預測性分析,通常需要經歷啟動查詢、尋找模式、進行調整等環節,然后再啟動下一個查詢,查詢的執行時間對于分析速度影響很大?!霸瓉?,我們運行模型比建立模型費時間,而現在建立模型比運行模型更費時間。”
列式數據庫服務器把數據庫傳統的組織方式顛倒過來。查詢只訪問相關的列,因而為評估幾個關鍵列的應用程序提升了性能。為了提高分析性能,硬件同樣很重要。保險和金融服務巨頭John Hancock的CIO Allan Hackney已經開始嘗試GPU加速的系統。他說:“可視化方面的運算與統計分析方面的運算非常相似,而GPU執行的運算速度比傳統的PC和服務器處理器快幾百倍。”
開源技術壓低成本
從某種程度上說,計算能力的增加得益于內存和存儲設備價格的不斷下跌,此外有了付費產品之外的選擇以及開源軟件也迫使廠商降低價格。
Ternent在加入Island One之前是Pentaho開源商業智能公司的技術副總裁,他積極倡導開源技術,“在我看來,開源為公平競爭創造了條件?!?/p>
Ternent表示,開源工具一度只適用于基本的報告,而現在,它們提供了最先進的預測分析功能?!艾F在幾乎所有領域都有開源廠商,這意味著誰有膽量用,誰就可以隨意使用開源工具?!?/p>
HMS的Nustad發現,不斷變化的經濟因素也在改變著IT架構方面的一些基本選擇。比如說,構建數據倉庫的一個傳統原因是在擁有計算功能的服務器上把數據整合起來。以前計算功能比較稀缺時,CIO會把分析任務從操作系統卸載下來,以免拖累日常任務的性能,現在就沒必要這么做了。由于省略了移動數據、格式化以及把數據裝入數據倉庫的步驟,CIO直接在操作應用上進行分析能更快地獲得結果。
不過Hackney表示,雖然現在的趨勢正朝著有利于降低管理成本的方向發展,但節省的成本經常被增加的存儲容量需求抵消?!斑@就像在原地跑步。雖然2011年John Hancock的存儲成本下降了2%到3%,但存儲使用量卻增長了20%。”
為員工設計終端界面
對Nustad而言,移動商務是必須的。因為即使出門在外也要查看各種報告,了解公司是否履行了服務級別協議。她還希望讓公司的客戶可以通過移動設備訪問自己數據,幫助他們監控和管理醫療保健開支?!斑@是一項客戶非常喜歡的功能。五年前,客戶不會要求提供這項功能,但現在他們對此非常關注。”
對于CIO來說,應對這個趨勢的關鍵不是提供復雜的分析功能,而在于為智能手機、平板電腦和觸摸屏設計用戶界面。Kellen覺得這問題很容易解決。
但Rotella并不這么認為?!耙苿佑嬎阌绊懼總€人。使用iPad和其他移動設備辦公的人越來越多,這個趨勢會讓員工使用企業計算資源的方式加速改變。”Rotella說,例如,Verisk開發了一種產品,可以讓理賠員在現場訪問分析結果,如此一來他們就能估算重置成本。這種方式可以充分利用分析結果,滿足那些有需要的人。
技術在迅速變化,這是讓CIO最感頭疼的事情。Rotella認為,“兩年前,我們沒有iPad;現在,大家出去都帶著iPad。由于移動設備操作系統有很多種,我們要努力了解如何才能最有效地利用自己的開發資源,避免進行重復的開發工作?!?/p>
Island One的Ternent表示,由于手機和平板電腦中瀏覽器的功能越來越強大,為每個移動平臺開發原生應用程序的呼聲也隨之減弱,“如果我只需針對移動設備為基于Web的應用程序更換皮膚,就不一定非要開發定制的應用程序了”。
分析混合型的
社交媒體
隨著Facebook、推特等社交媒體遍地開花,越來越多的公司想要分析這些網站的數據。現在,市場上已經出現了新的分析應用軟件,包含語言處理、情感分析和網絡分析等統計方法,它們已不再屬于典型的智能商務“工具包”。
許多社交媒體的分析工具很新穎,常以服務的形式出售。一個突出例子是Radian6,該軟件最近被Salesforce.com收入囊中。Radian6提供了一個儀表板,根據推特消息、Facebook公共帖子以及博客和討論板會話上的帖子和留言,可以列出了提到品牌的各種評價。營銷部門和客戶服務部門買來這類工具后,基本上不需要麻煩IT部門。
不過,肯塔基州大學的Kellen表示,對于這類工具,他還在觀望。他說:“我的任務是,確定這些技術中哪一種適合自己,然后再對相應的人員進行培訓?!?/p>
與企業一樣,肯塔基州大學也對監控其品牌評價很有興趣。Kellen表示,他也有興趣開發特定的應用程序,解決學校關注的具體問題,如學生流失等。例如,監控學生在社交媒體上發布的帖子可以幫助教職員工及早了解學生是否在學習上遇到了麻煩。戴爾公司的支持部門也會經常關注推特,以便及早發現是否有消費者發消息稱自己的戴爾筆記本電腦壞掉的情況。Kellen表示,IT開發人員應想方設法,把社交媒體分析工具生成的報警機制融入到企業系統中,以便迅速應對那些事件。
Hackney說:“我們缺少挖掘分析社交媒體上大量帖子的工具。一旦你擁有數據,就需要獲得相關事件的足夠信息,那樣才能把它們關聯起來?!?Hancock已經在這方面剛開始邁出步伐,把社交分析服務提供的數據與企業數據關聯起來。例如,如果數據顯示中西部用戶對公司的評論以負面為主,他就要看看公司是不是改變了在該地區的價格或政策,從而導致這個狀況發生。
Hackney表示,找出這種關聯有利于說服公司領導相信分析社交媒體數據具有很高的投資回報率。