隨著信息技術(shù)特別是互聯(lián)網(wǎng)技術(shù)的迅猛發(fā)展,社交網(wǎng)絡(luò)、移動(dòng)互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、云計(jì)算等相繼進(jìn)入人們的日常工作和生活中,用戶、企業(yè)和政府等個(gè)人和組織都在產(chǎn)生大量的數(shù)據(jù),數(shù)據(jù)信息量正呈指數(shù)式爆炸增長(zhǎng)。為了更好地理解用戶需求,提高服務(wù)質(zhì)量,以及洞悉用戶的潛在價(jià)值,研究AI技術(shù)在運(yùn)營(yíng)數(shù)據(jù)低代碼分析方面的應(yīng)用,對(duì)幫助業(yè)務(wù)進(jìn)行深入的數(shù)據(jù)挖掘和解決方案顯得格外重要。
機(jī)器學(xué)習(xí)算法的應(yīng)用日益廣泛,相關(guān)的開(kāi)源平臺(tái)和工具也如雨后春筍般涌現(xiàn),其中不乏一些非常優(yōu)秀的產(chǎn)品,如Powerbi、Stata、Orange3等,在實(shí)踐處理業(yè)務(wù)需求時(shí)所面臨的關(guān)鍵痛點(diǎn)有:
數(shù)據(jù)的多樣性與復(fù)雜性:隨著數(shù)據(jù)類(lèi)型的多樣性增加和算法復(fù)雜性的提升,開(kāi)源的算法在計(jì)算性能、穩(wěn)定性和可擴(kuò)展性方面面臨著巨大挑戰(zhàn)。特別是在運(yùn)營(yíng)領(lǐng)域,對(duì)于復(fù)雜多變的業(yè)務(wù)環(huán)境,需要更靈活、高效的解決方案。
安全與隱私的重要性:在實(shí)際業(yè)務(wù)場(chǎng)景中,數(shù)據(jù)分析涉及大量敏感數(shù)據(jù)。因此,確保數(shù)據(jù)操作的安全性和隱私性顯得尤為重要,尤其是在運(yùn)營(yíng)領(lǐng)域,對(duì)于客戶隱私的保護(hù)至關(guān)重要。
研發(fā)效率與專(zhuān)業(yè)門(mén)檻:傳統(tǒng)的編譯代碼建模開(kāi)發(fā)周期較長(zhǎng),對(duì)于人才的專(zhuān)業(yè)技術(shù)要求也較高。一些數(shù)據(jù)分析產(chǎn)品在擴(kuò)展能力上存在不足,無(wú)法快速擴(kuò)展算子并共享使用。同時(shí),缺乏統(tǒng)一的模型管理和模型服務(wù)平臺(tái),導(dǎo)致業(yè)務(wù)部門(mén)在應(yīng)用模型服務(wù)時(shí)時(shí)效性不佳。在運(yùn)營(yíng)中,迅速響應(yīng)變化、快速優(yōu)化模型以適應(yīng)新的業(yè)務(wù)場(chǎng)景是至關(guān)重要的。
瞄準(zhǔn)上述痛點(diǎn),研究專(zhuān)業(yè)易用、深度定制的機(jī)器學(xué)習(xí)開(kāi)放平臺(tái),以快捷低代碼方式幫助業(yè)務(wù)進(jìn)行深入的數(shù)據(jù)挖掘和解決方案顯得格外重要。
(一) 平臺(tái)特點(diǎn)
低代碼數(shù)據(jù)分析平臺(tái),其獨(dú)特之處在于提供了全生命周期、自助式的大數(shù)據(jù)挖掘平臺(tái),為用戶提供了高度靈活和易用的數(shù)據(jù)分析工具。通過(guò)低代碼數(shù)據(jù)分析平臺(tái),用戶能夠在整個(gè)數(shù)據(jù)處理生命周期中進(jìn)行自助式操作,從數(shù)據(jù)的收集和清洗,到模型的構(gòu)建和結(jié)果的可視化,實(shí)現(xiàn)了一體化的數(shù)據(jù)分析體驗(yàn)。
1.海量數(shù)據(jù)處理
低代碼數(shù)據(jù)分析平臺(tái)構(gòu)建于分布式計(jì)算的基礎(chǔ)之上,匯集分布式算法和數(shù)據(jù)分析方法,包括數(shù)據(jù)預(yù)處理、特征工程、機(jī)器學(xué)習(xí)算法等,可高效的完成海量、高維度數(shù)據(jù)的復(fù)雜計(jì)算,滿足企業(yè)級(jí)數(shù)據(jù)挖掘需求,幫助客戶從海量數(shù)據(jù)中挖掘出業(yè)務(wù)價(jià)值。
2.自動(dòng)化模型構(gòu)建
(1)自助機(jī)器學(xué)習(xí),支持將與特征、模型、優(yōu)化、評(píng)價(jià)有關(guān)的重要步驟進(jìn)行自動(dòng)化地學(xué)習(xí),使得機(jī)器學(xué)習(xí)模型無(wú)需人工干預(yù)即可被應(yīng)用。(2)模型自動(dòng)學(xué)習(xí),支持對(duì)已保存的模型,自動(dòng)根據(jù)最新的數(shù)據(jù)進(jìn)行訓(xùn)練,并能自動(dòng)將符合一定要求的模型發(fā)布或者部署到生產(chǎn)中。(3)模型自動(dòng)調(diào)參,支持對(duì)模型參數(shù)進(jìn)行自動(dòng)搜索,選擇最優(yōu)的模型參數(shù)。
3.完善的生態(tài)體系
工具支持從數(shù)據(jù)上傳、數(shù)據(jù)預(yù)處理、特征工程、模型訓(xùn)練、模型評(píng)估到模型發(fā)布、模型和服務(wù)管理的機(jī)器學(xué)習(xí)全流程。并且擁有銀行級(jí)別的數(shù)據(jù)安全權(quán)限管理。
4.拖拽式可視化建模
封裝經(jīng)典的機(jī)器學(xué)習(xí)算法, (1)支持在WEB 界面,通過(guò)拖、拉、拽等方式即可完成復(fù)雜數(shù)據(jù)挖掘流程。(2)支持使用內(nèi)置的自助機(jī)器學(xué)習(xí)功能進(jìn)行自動(dòng)建模,實(shí)現(xiàn)模型自動(dòng)選擇、參數(shù)自動(dòng)探索、模型效果自動(dòng)評(píng)估、模型自動(dòng)向下傳導(dǎo)及模型自動(dòng)優(yōu)化。
5.可視化的無(wú)縫集成
能夠與BI工具的可視化功能無(wú)縫集成,將挖掘結(jié)果通過(guò)多樣豐富的BI報(bào)表可視化手段進(jìn)行分析展現(xiàn)。
6.一鍵式模型部署服務(wù)
將挖掘流程以服務(wù)的方式進(jìn)行發(fā)布,用戶直接調(diào)用服務(wù)鏈接訪問(wèn),實(shí)現(xiàn)模型到業(yè)務(wù)的無(wú)縫銜接,支持Restful API數(shù)據(jù)接入到實(shí)驗(yàn)中,支持WEB服務(wù)。
(二)技術(shù)架構(gòu)
低代碼數(shù)據(jù)分析平臺(tái)的總體可分為五層:
數(shù)據(jù)源層:包括關(guān)系型數(shù)據(jù)庫(kù),HDFS、流式數(shù)據(jù)kafka、MPP數(shù)據(jù)庫(kù)以及本地文件CSV、TXT等。
調(diào)度技術(shù)框架層:大數(shù)據(jù)計(jì)算平臺(tái)Spark集群、高可用平臺(tái)ZooKeeper、擴(kuò)展開(kāi)發(fā)平臺(tái)Anaconda(Python)、DAG調(diào)度引擎集群、服務(wù)引擎集群。
分布式算法模型庫(kù):分類(lèi)、聚類(lèi)、回歸、推薦、特征工程、統(tǒng)計(jì)、文本挖掘等。
數(shù)據(jù)分析管理層:DAG操作框架、實(shí)驗(yàn)管理、服務(wù)管理、數(shù)據(jù)可視化、資源監(jiān)控、自定義管理。
應(yīng)用層:流失預(yù)警、客戶細(xì)分、異常值檢測(cè)、價(jià)值分析、產(chǎn)品推薦、流量分析等。
其中,作為低代碼數(shù)據(jù)分析平臺(tái)的核心智能驅(qū)動(dòng)內(nèi)核,其計(jì)算引擎構(gòu)件主要包含實(shí)驗(yàn)引擎、服務(wù)引擎、Python計(jì)算代理、Spark圖計(jì)算代理等。其中,實(shí)驗(yàn)引擎負(fù)責(zé)接收實(shí)驗(yàn)執(zhí)行請(qǐng)求,通過(guò)解析實(shí)驗(yàn)定義,生成Spark計(jì)算任務(wù)或Python計(jì)算任務(wù),并分別發(fā)送給代理到相對(duì)應(yīng)的計(jì)算集群。
服務(wù)引擎可以將訓(xùn)練好的模型發(fā)布成Restful接口,便于提供模型預(yù)測(cè)服務(wù)給第三方系統(tǒng)調(diào)用。平臺(tái)特有的大部分組件則由Spark分布式計(jì)算代理完成,承擔(dān)著平臺(tái)的核心計(jì)算任務(wù)。而對(duì)于Python計(jì)算任務(wù),則發(fā)送到Python計(jì)算代理中完成,主要彌補(bǔ)平臺(tái)組件的不足,增加擴(kuò)展算法的能力。
(三) 技術(shù)應(yīng)用場(chǎng)景
在數(shù)據(jù)分析低代碼平臺(tái)中,常見(jiàn)的技術(shù)場(chǎng)景是相對(duì)有限的,如分類(lèi)、回歸、聚類(lèi)、異常檢測(cè)等,但落實(shí)到實(shí)際項(xiàng)目的業(yè)務(wù)層出現(xiàn)的場(chǎng)景卻各一。例如,分類(lèi)這個(gè)技術(shù)場(chǎng)景,在電力行業(yè)是竊漏電檢測(cè),在工業(yè)設(shè)備檢測(cè)為是否故障,在客戶運(yùn)營(yíng)方面則為流失用戶預(yù)測(cè)。因此,掌握常見(jiàn)的技術(shù)場(chǎng)景,是進(jìn)行下一步業(yè)務(wù)場(chǎng)景建模的核心關(guān)鍵。
在金融領(lǐng)域,通過(guò)對(duì)海量的交易數(shù)據(jù)進(jìn)行分析,實(shí)現(xiàn)更精準(zhǔn)的風(fēng)險(xiǎn)評(píng)估和預(yù)測(cè),同時(shí)利用其強(qiáng)大的可視化功能,更直觀地了解業(yè)務(wù)狀況,做出更明智的決策。在電力行業(yè),通過(guò)對(duì)能源生產(chǎn)和消耗數(shù)據(jù)的深度挖掘,幫助企業(yè)實(shí)現(xiàn)對(duì)電力系統(tǒng)的全面監(jiān)控與管理。從發(fā)電設(shè)備的狀態(tài)監(jiān)測(cè)到電網(wǎng)運(yùn)行的實(shí)時(shí)分析,為電力企業(yè)提供了全方位的數(shù)據(jù)支持,優(yōu)化能源利用效率,提升系統(tǒng)的可靠性。在制造業(yè)方面,通過(guò)對(duì)生產(chǎn)數(shù)據(jù)的實(shí)時(shí)監(jiān)控和分析,制造企業(yè)能夠?qū)崿F(xiàn)生產(chǎn)過(guò)程的精細(xì)化管理,提高生產(chǎn)效率,減少資源浪費(fèi),并優(yōu)化供應(yīng)鏈的運(yùn)作。在政府行業(yè),可以對(duì)各種社會(huì)經(jīng)濟(jì)數(shù)據(jù)的整合和分析,更好地了解社會(huì)發(fā)展趨勢(shì),為政策制定提供科學(xué)依據(jù),推動(dòng)社會(huì)治理的智能化升級(jí)。
1.聚類(lèi)分群
“物以類(lèi)聚,人以群分”即充分解釋了特征分群,它是指將具有相似特征的群體或者對(duì)象聚合在一起成為一個(gè)類(lèi),在該類(lèi)中的對(duì)象都是彼此相似的。因此,可根據(jù)不同群體的特征利用數(shù)據(jù)挖掘給客戶、地區(qū)、品種等進(jìn)行特征分群,然后依據(jù)不同分群的特點(diǎn)制定相應(yīng)的策略。例如:對(duì)客戶進(jìn)行科學(xué)的分群,可為客戶提供適配的產(chǎn)品、制定針對(duì)性的營(yíng)銷(xiāo)活動(dòng)和管理用戶,最終提升產(chǎn)品的客戶滿意度,實(shí)現(xiàn)商業(yè)價(jià)值。
聚類(lèi)算法常用于無(wú)監(jiān)督學(xué)習(xí)問(wèn)題,對(duì)大量未知標(biāo)注的數(shù)據(jù)集,按數(shù)據(jù)的內(nèi)在聯(lián)系將數(shù)據(jù)集劃分為多個(gè)類(lèi)別,使類(lèi)別內(nèi)的數(shù)據(jù)相似度較大,而類(lèi)別間的數(shù)據(jù)相似度較小。常見(jiàn)算法:K均值、高斯混合模型。
應(yīng)用場(chǎng)景:對(duì)客戶進(jìn)行分層營(yíng)銷(xiāo)、學(xué)生消費(fèi)水平分群、電網(wǎng)用戶增加畫(huà)像維度、航空公司客戶價(jià)值分析。
2.分類(lèi)預(yù)測(cè)
類(lèi)別預(yù)測(cè)指的是根據(jù)對(duì)象已知的類(lèi)別及特征進(jìn)行建模訓(xùn)練,再使用模型對(duì)其它未知的對(duì)象進(jìn)行類(lèi)別劃分預(yù)測(cè)。例如:根據(jù)客戶本身屬性和歷史行為特征等(年齡、性別、工作類(lèi)型、婚姻狀況、文化程度、個(gè)人貸款、收入情況)結(jié)合歷史劃分的類(lèi)別進(jìn)行建模,預(yù)測(cè)其他或?qū)?lái)的客戶是否愿意辦理相關(guān)業(yè)務(wù),也可預(yù)測(cè)辦理業(yè)務(wù)的意愿程度。
分類(lèi)算法是根據(jù)已經(jīng)分好類(lèi)的一些數(shù)據(jù),分析每一類(lèi)的潛在特征并建立分類(lèi)模型,用于識(shí)別未知數(shù)據(jù)的類(lèi)別。常見(jiàn)算法:邏輯回歸、樸素貝葉斯、決策樹(shù)、隨機(jī)森林、支持向量機(jī)、梯度提升決策樹(shù)、多層感知機(jī)。
應(yīng)用場(chǎng)景:銀行客戶流失預(yù)測(cè)、個(gè)人貸款違約預(yù)測(cè)、銀行理財(cái)產(chǎn)品預(yù)定預(yù)測(cè)、用戶竊漏電預(yù)測(cè),山體滑坡預(yù)測(cè)等。
3.回歸預(yù)測(cè)
7RB1F2tf+eIvIYg360JS5w==回歸預(yù)測(cè)指的是根據(jù)某事件以往的歷史數(shù)據(jù)記錄(營(yíng)銷(xiāo)數(shù)據(jù)、交易數(shù)據(jù)、市場(chǎng)供需等),對(duì)未來(lái)該事件的目標(biāo)走勢(shì)(如價(jià)格等指標(biāo))進(jìn)行預(yù)測(cè),從而指導(dǎo)相關(guān)單位提前做出應(yīng)對(duì)方案(規(guī)劃資源調(diào)度或者價(jià)格調(diào)整等)。例如:根據(jù)某個(gè)區(qū)域以往的電力或供水系統(tǒng)的負(fù)荷消耗能源的情況,對(duì)未來(lái)一段時(shí)間某個(gè)區(qū)域的電力或供水系統(tǒng)的負(fù)荷消耗能源總量做預(yù)測(cè)。以此指導(dǎo)相關(guān)單位提前規(guī)劃產(chǎn)能投入和相關(guān)基礎(chǔ)設(shè)施建設(shè),從而降低企業(yè)運(yùn)營(yíng)成本提高客戶滿意度。常見(jiàn)算法:線性回歸、梯度提升回歸樹(shù)。
應(yīng)用場(chǎng)景:服裝門(mén)店銷(xiāo)售額預(yù)測(cè)、用電需求預(yù)測(cè)、二手車(chē)交易價(jià)格預(yù)測(cè)、房子價(jià)格預(yù)測(cè)、超市商品銷(xiāo)量預(yù)測(cè)。
4.關(guān)聯(lián)推薦
關(guān)聯(lián)規(guī)則是反映一個(gè)事物與其他事物之間的相互依存性和關(guān)聯(lián)性,用于從大量數(shù)據(jù)中挖掘出有價(jià)值的數(shù)據(jù)項(xiàng)之間的相關(guān)關(guān)系,可從數(shù)據(jù)中關(guān)聯(lián)分析出“由于某些事件的發(fā)生而引起另外一些事件的發(fā)生”之類(lèi)的規(guī)則。如平時(shí)在超市購(gòu)買(mǎi)洗發(fā)水大多數(shù)也會(huì)購(gòu)買(mǎi)沐浴露的情況,關(guān)聯(lián)規(guī)則常用于做推薦問(wèn)題分析。常見(jiàn)算法:FP-Growth。
應(yīng)用場(chǎng)景:商品零售購(gòu)物籃關(guān)聯(lián)分析、客戶理財(cái)產(chǎn)品關(guān)聯(lián)分析、客戶書(shū)籍喜好關(guān)聯(lián)分析。
本文先是介紹了企業(yè)級(jí)數(shù)據(jù)分析低代碼平臺(tái)的特點(diǎn)和技術(shù)架構(gòu),以此作為介紹逐步引入機(jī)器學(xué)習(xí)技術(shù)在低代碼數(shù)據(jù)分析中的體現(xiàn)。而后,針對(duì)一些行業(yè)的典型應(yīng)用場(chǎng)景展開(kāi)舉例,試圖通過(guò)一些簡(jiǎn)單的案例介紹,能讓讀者對(duì)技術(shù)在工程上的應(yīng)用有個(gè)清晰的認(rèn)識(shí)。最后,結(jié)合我所情況做了一些探索性的分析介紹。隨著增強(qiáng)分析與AI技術(shù)不斷的更替,未來(lái)必然能引領(lǐng)數(shù)據(jù)分析走向智能化的道路,幫助我所提升各方面的能力,響應(yīng)國(guó)家數(shù)字化改革的號(hào)召。
作者單位: 南京電子技術(shù)研究所