999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

(2020年度“華蘇杯”獲獎論文二等獎)基于Smart-DI和Smart-AutoML的電信行業挖掘平臺研究及應用

2022-01-19 06:30:32
江蘇通信 2021年6期
關鍵詞:智能模型

劉 亮 張 晟 顧 驤 顧 強 蔣 強

中國移動通信集團江蘇有限公司

0 引言

當前,電信運營商市場競爭日漸加劇,在“提速降費”等行業宏觀趨勢的影響下,電信行業面臨著較大成本壓力,傳統“廣撒網,以量取勝”的營銷方式無法對目標客戶進行細分挖掘,活動信息并未觸達高意向的客戶。通用做法是利用智能算法進行建模,預測各類業務目標客戶,而組建專業數據挖掘團隊進行人工機器學習建模的方式耗時長,無法適應變化迅速、需求激增的市場形勢。

隨著人工智能和大數據技術的廣泛使用,生產一線亟需數智手段來提升效率,而較高的技術門檻是阻礙這一進程的首要原因。解決這一矛盾的一種有效方案就是提供“低門檻、高效率”的數據智能工具。本文提出了構建智能挖掘分析平臺的設計方案,并論述了落地實現效果。針對數據智能應用如何滿足深層次的數據價值挖掘,智能挖掘分析平臺給出了一個較為成功的實踐案例,解決了長期以來數據智能工具因僅限少數專業人員掌握所帶來的效率問題。

1 研究背景

長期以來,電信行業利用各種數據挖掘工具對海量數據進行分析和挖掘利用。隨著市場需求激增,成本和效率的問題逐漸凸顯出來,其核心原因在于現有的數據挖掘建模方式存在以下顯著的痛點和問題:

(1)市場形勢靈活多變,人工挖掘潛在客戶耗時耗力。市場環境要求開展營銷活動需靈活多變、快速響應,而構建一個完整的挖掘模型通常需要經過取數、數據清洗、字段數據分析、構建模型、效果評估,整個流程時間長且工作量大。

(2)數據挖掘AI工具與業務平臺分離,需大量線下人工介入,操作繁瑣。人工挖掘建模需要數據運維團隊協助提供數據寬表、衍生指標、業務標簽等數據準備工作。

(3)AI技術種類廣、發展快,潛客挖掘對專業性要求較高。各類業務潛在客戶挖掘模型的構建需要熟練掌握AI專業技術,非專業技術人員不能勝任。

如何構建一個平民化的挖掘分析工具,為不具備專業挖掘技術的一線業務人員提供“一站式、低門檻”的挖掘建模體驗,具有極大的研究價值和實戰意義。

2 電信行業智能挖掘分析平臺建設

2.1 平臺設計思路

智能挖掘分析平臺基于智能數據編排技術(Smart-DI,Data Integration)和智能自動建模技術(Smart-AutoML,Auto Machine Learning)構建。平臺在“工程-流程-組件”三級框架下,將數據處理流程、模型訓練流程和推理應用流程串聯起來。前端對操作者屏蔽掉所有專業的處理細節,真正做到零代碼、低門檻;后臺則通過智能數據編排技術實現對數據的靈活加工處理,基于TPOT機器自學習框架開發完整的模型訓練和應用流程,封裝各類專業化處理的算法和算子,在流程的驅動下自動完成挖掘建模的全過程。

2.2 平臺技術架構

平臺總體的建設架構如圖1所示,通過數據底座接入多源數據,對數據進行各種預處理,通過Smart-DI使數據形成個人、家庭、集團等主題的數據視圖,再利用Smart-AutoML流程實現挖掘模型的選擇、訓練、調優和生成。通過對模型的監控、管理,最終為用戶提供一個具有豐富數據挖掘模型的模型超市和“零門檻”的智能挖掘建模分析平臺。

圖1 電信行業智能挖掘分析平臺技術架構圖

2.2.1 數據底座

構建基于Spark分布式架構的高性能數據處理底座,封裝高性能數據預處理、算法等實現對海量數據的高效處理,為

大數據下的場景化挖掘提供高效、快速的處理能力。整個數據預處理流程如圖2所示。

圖2 數據底座數據預處理流程

2.2.2 Smart-DI

在傳統數據挖掘過程中,單數據準備環節往往需要占用70%以上的時間。Smart-DI(智能數據編排,Data Integration)技術將數據加工場景抽象成業務對象/視角、業務過程、業務限定、統計周期四類元素,在系統中定義成相應的對象,在使用中對數據對象進行聚合、拼裝,不僅提升了數據準備的效率,還保障了統計指標標準、無二義地生成,實現挖掘數據的“智能聚合、靈活編排、沉淀復用”。

Smart-DI元素描述如下:

(1)原子指標:明確統計口徑,即計算邏輯;

(2)業務限定:統計的業務范圍,篩選出符合業務規則的記錄;業務限定即在業務過程表及其關聯的對象/視角表上定義生成的限制或過濾條件;

(3)統計周期:統計的時間范圍,比如最近一天,最近30天等;

(4)統計粒度:統計分析的對象或視角,定義數據需要匯總的程度,可理解為聚合運算時的分組條件(即SQL中的group by)。

其邏輯關系如圖3所示。

圖3 業務元素拆解示意圖

數據融合編排的實現邏輯如圖4所示。

圖4 數據編排實現原理

數據編排的實現從數據的關聯性(如數據都來自同一業務系統)、數據接入時間一致性(如數據的生成時間都差不多)等方面進行充分的考慮,得出最優的寬表設計方案。例如,將相同統計粒度(比如都是基于用戶的)、相同來源(比如都是來源于訂單的)的指標歸到同一個基礎匯總寬表里面,將腳本合并執行,從而提高效率。

2.2.3 Smart-AutoML

Smart-AutoML(智能自動建模技術)主要包括自動建模訓練、模型應用、自動參數調參優化、模型監控等過程。前端由用戶配置訓練所需的數據源寬表,用于訓練和應用的數據寬表通過智能數據編排完成。系統提供給用戶靈活選擇數據賬期的界面,可以指定用于訓練的賬期數據和用于推理的賬期數據。此外,用戶還參與指定模型評估的優先錄用原則,即,優先考慮查準率或查全率。這是因為我們在后臺封裝的模型訓練中采用了多算法并行訓練的機制,即,同時采用同類型算法進行并行建模訓練,并對模型進行自動評估,按照用戶基于業務場景需要定義的優先評估指標,輸出最優的模型方案。

自動建模實現專業的挖掘模型構建,主要在于后臺封裝的開放式算法庫、無需客戶干預的特征預處理、模型參數調優等機制,下面重點闡述自動化的參數調優。

參數調優是模型訓練的一個重要過程,也是專業化程度很高的技術手段。智能挖掘分析平臺需要將此過程做到人工建模一樣靈活、完備,又避免人工干預,完全自動化。

構建自動化參數調優的思路是,基于遺傳算法的超參數自動調優算法,結合分片式計算引擎進行貝葉斯自動調參。使用遺傳算法作為貝葉斯調參算法采集函數,避免先驗函數陷入局部最優,實現每次任務執行時都能逼近全局最優,提高調參效率。具體實現方法描述如下:

(1)基于遺傳算法的超參數自動調優算法

①建立目標函數{y = Trans_Func(x1,x2…xn)}和隨機初始化的x值集合D={x1,x2,x3...xn};

②用先驗函數的初始化值計算出若干參數E={(x1,y1),(x2,y2)…(xn,yn)},然后利用這些參數作用在概率模型上,進行計算,得出每個值在概率模型上的后驗概率p(y|x)。本文設置遺傳算法為采集函數,相對于傳統方法最大程度地避免了局部最優解的情況,然后再將每個得出的概率模型應用到設置的采集函數上,找出表現最佳的超參數XEI值;

③將找到的最佳超參數應用于真正的目標函數

YEI=Trans_Func(XEI);

④更新包含新結果的代理模型Surrogate_Model(EI);

⑤將(XEI,YEI)加入到集合E中,并且更新概率模型;

⑥重復上述步驟②-⑤,直到算法運行達到最大迭代次數或時間。

(2)基于遺傳算法的超參數自動調優算法

利用貝葉斯優化實現的超參數自動調優,通常需要大量的超參數組合代理模型,而且本文采用的遺傳算法在搜索超參數的過程中需要遍歷大量的樣本數據,如果采用單個模型串行計算的方法評估超參數組合的優劣,將會影響探索超參數最佳組合的效率。

為了提升貝葉斯優化探索超參數組合的效率,減少時間成本,構建了一套分片式計算引擎,通過這套引擎結合場景化AI能力管理,根據任務的大小和場景給任務動態分配資源,相比于傳統利用固定大小的資源進行任務分片,可以有效提升貝葉斯自動調參算法的探索效率,具體實現步驟如下:

①AI模型訓練任務在Master(Web前端)提交后,分片式計算引擎會給該任務創建一個Driver服務和一個或多個Calculate Node服務。

②Driver通過調度算法,先將每個任務放入Caculate Node服務上,隨機設置每個任務的運行狀態(0或1),對每個貝葉斯調參的任務大小和運行狀態計算要提供的資源和空間或是否提供資源和空間,若運行狀態為0,則資源大小默認為0,留在以后某個時間段重新激活;若為1,則根據任務大小分配資源空間。根據這些標準為每個任務進行相應的分片,并協同各Calculate Node執行任務分片。

③Calculate Node服務接收來自Driver分發的任務分片并執行,返回各分片任務結果模型,如果要激活運行狀態為0的任務,則激活這些任務,先提交給Master已經運行好的結果模型,然后利用Drive釋放分配的資源,根據激活的任務重新分配,重復②-③,反之直接進入下一步。

④收集Calculate Node上傳的任務分片結果模型,對結果進行比對評估并返回最優模型。

3 主要創新點

智能挖掘分析平臺的設計體現了以下創新:

(1)業務創新點:將挖掘建模前的數據準備加工過程無縫融合到建模流程中,通過業務流程的創新打破傳統建模模式數據與建模流程的割裂,極大地提升了效率。

(2)技術創新點:以自研的“工程-流程-組件”框架為基礎,前端以業務的視角構建無技術門檻的交互感知,后臺將特征優選、數據預處理、超參調優等專業操作封裝成組件,固化到系統的建模流程中被調用,實現了低門檻和專業化兼具的使用特性。

4 平臺應用效果

平臺已在中國移動全網推廣使用,不具備專業技術的業務人員能夠基于平臺輕松獲取、組裝數據,并開展數據挖掘。平臺在5G套餐、家寬拓展、權益會員等多個領域開展基于挖掘模型的營銷,經AB組對照效果驗證,基于平臺的營銷接觸轉化率較人工方式提高2-5倍。除營銷領域外,平臺在反電信網絡詐騙、用戶滿意度預測等方面也廣泛應用,基于平臺挖掘并關停潛在涉詐用戶,其復通率僅為29%,較對照組的復通率51%提升效果顯著,有效提升社會感知。

通過對比傳統方式和智能挖掘平臺的工作投入時間,智能挖掘平臺顯著提升了挖掘營銷效率,大大降低了人力投入和人工成本。

5 結束語

智能挖掘分析平臺將前端以業務視角進行平民化設計與后臺專業化封裝相結合,破解了數據智能工具需要普及使用和技術門檻高這一對矛盾體,在電信行業得到了實踐檢驗,促成了數據智能工具在業務一線普及使用,在數據價值發掘的最后一公里,以便捷、高效的方式完成了對業務的賦能。同時,智能挖掘分析平臺開放式組件架構為平臺后續不斷拓展其專業能力創造了條件,更優的模型、更好的算法、更強大的參數調優和特征工程深化處理等能力都將是平臺不斷演進的方向。

猜你喜歡
智能模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
智能制造 反思與期望
智能前沿
文苑(2018年23期)2018-12-14 01:06:06
智能前沿
文苑(2018年19期)2018-11-09 01:30:14
智能前沿
文苑(2018年17期)2018-11-09 01:29:26
智能前沿
文苑(2018年21期)2018-11-09 01:22:32
智能制造·AI未來
商周刊(2018年18期)2018-09-21 09:14:46
3D打印中的模型分割與打包
主站蜘蛛池模板: 老熟妇喷水一区二区三区| 婷婷午夜影院| 999在线免费视频| 久久伊人久久亚洲综合| 青草视频免费在线观看| 思思99思思久久最新精品| 亚洲综合经典在线一区二区| 天堂网国产| 77777亚洲午夜久久多人| 亚洲69视频| 免费A∨中文乱码专区| 她的性爱视频| 天天色天天综合网| 日韩成人免费网站| 97超碰精品成人国产| 亚洲欧美日韩另类在线一| 国产一区二区色淫影院| 国产精品无码影视久久久久久久| 久久成人18免费| 日韩在线2020专区| 亚洲资源站av无码网址| 国产欧美日韩在线一区| 一级毛片基地| 欧美一区二区啪啪| 99国产精品免费观看视频| 中国特黄美女一级视频| 精品自窥自偷在线看| 亚洲天堂网视频| 九九视频在线免费观看| 国产一区二区人大臿蕉香蕉| 国产激情无码一区二区APP| a级毛片免费网站| 亚洲av综合网| 天堂成人在线视频| 超级碰免费视频91| 欧美国产日产一区二区| 国产第一页免费浮力影院| 精品国产欧美精品v| 亚洲欧美一区二区三区蜜芽| 日本黄网在线观看| 国产精品久久久久久久久kt| 成人国产一区二区三区| 中文字幕在线看视频一区二区三区| 欧美不卡视频在线观看| 真实国产精品vr专区| 中文字幕人成人乱码亚洲电影| 国产女人在线观看| 毛片卡一卡二| 国产免费福利网站| 国产男人的天堂| 亚洲第一极品精品无码| 中文字幕无码电影| 日韩欧美色综合| 亚洲永久精品ww47国产| AV在线麻免费观看网站 | 熟妇丰满人妻| 国产门事件在线| 精品少妇三级亚洲| 99在线观看视频免费| 国产免费人成视频网| 亚洲最新在线| 国产va在线观看| 亚洲欧美精品日韩欧美| 看看一级毛片| 亚洲色图在线观看| 欧美午夜网站| 亚洲无码视频喷水| 美女免费黄网站| 午夜在线不卡| 啪啪啪亚洲无码| 精品福利一区二区免费视频| 一区二区理伦视频| 色亚洲成人| 久久无码高潮喷水| 热久久这里是精品6免费观看| 国产一级毛片在线| 久久激情影院| 国产精品一老牛影视频| 天天综合色网| 蜜臀av性久久久久蜜臀aⅴ麻豆| 伊人欧美在线| 色国产视频|