

摘 要: 本論文實(shí)現(xiàn)了一種基于TeleTransformer的AI時間序列動態(tài)預(yù)測方法和系統(tǒng),以Transformer模型為基礎(chǔ),自研復(fù)現(xiàn)NLP論文注意力算法模塊,降低時間復(fù)雜度, 具有更強(qiáng)的長期依賴建模能力,將研究成果應(yīng)用于通信運(yùn)營商話務(wù)量等數(shù)據(jù)的AI時序預(yù)測。
關(guān)鍵詞:Transformer;Attention;Encoder;Decoder;Time Series Prediction
1 背景
本文的研究成果應(yīng)用于通信運(yùn)營商話務(wù)量、接通率、接通次數(shù)時序預(yù)測,采用時間序列法對未來的話務(wù)量狀況進(jìn)行預(yù)測,客觀地反映話務(wù)量的動態(tài)變化趨勢,從而對話務(wù)量網(wǎng)絡(luò)運(yùn)行價(jià)值進(jìn)行預(yù)測,并對管理者的智能運(yùn)維決策起到指導(dǎo)作用,對實(shí)現(xiàn)正確決策具有十分重要的意義。
2 標(biāo)準(zhǔn)Transformer算法
標(biāo)準(zhǔn)Transformer算法是Google團(tuán)隊(duì)2017年在論文《Attention is All You Need》中提出的,Transformer算法近年來在NLP自然語言處理、計(jì)算機(jī)視覺領(lǐng)域取得了巨大的成功,在智能對話機(jī)器人領(lǐng)域具有廣泛的應(yīng)用前景,基于Transformer算法的對話系統(tǒng)的輕量級語言理解(Lightweight Language Understanding for Dialogue Systems)是意圖識別和實(shí)體信息抽取的統(tǒng)一框架、Dialogue Transformers面向多輪業(yè)務(wù)對話信息處理引入了Transformer Embedding Dialogue架構(gòu)的對話策略。Transformer算法由編碼器堆棧及解碼器堆棧組成,其構(gòu)建了多頭注意力模塊(Multi-Head Self Attention, MHA), 多頭注意力使Transformer模型可以關(guān)注來自不同位置子空間的不同表征的信息。
3 TeleTransformer框架建設(shè)
自研TeleTransformer框架實(shí)現(xiàn)了編碼器及解碼器架構(gòu),編碼器包括輸入嵌入層模塊,位置編碼層模塊、多頭注意力層模塊、正則化層模塊、前饋神經(jīng)網(wǎng)絡(luò)模塊;解碼器包括輸出嵌入層模塊,位置編碼層模塊、多頭注意力層(掩碼)模塊、正則化層模塊、前饋神經(jīng)網(wǎng)絡(luò)模塊、線性轉(zhuǎn)換模塊、Softmax層模塊。
3.1 自研位置編碼層
標(biāo)準(zhǔn)Transformer使用位置編碼(Position Encode/Embedding,PE),絕對位置編碼為序列中每個位置映射一個固定的位置向量,然后將嵌入詞向量和位置向量相加得到每個時序最終的輸入向量,作為編碼器和解碼器堆棧底部的輸入。自研TeleTransformer框架復(fù)現(xiàn)構(gòu)建了位置編碼模塊(Sinusoidal Position Encoding),采用三角函數(shù)式位置編碼 ,位置編碼的每個維度對應(yīng)一個正弦曲線,形成一個從2π到10000?2π的幾何級數(shù),使用正余弦函數(shù)實(shí)現(xiàn)位置編碼,在偶數(shù)位使用正弦編碼,在奇數(shù)位使用余弦編碼,獲取絕對位置信息和相對位置信息的表達(dá)能力,在輸入序列中注入序列的相對或絕對位置信息。
3.2 自研注意力層
自研AI時間序列預(yù)測框架對Transformer模型注意力機(jī)制進(jìn)行改進(jìn),提升算法運(yùn)行效率。標(biāo)準(zhǔn)Transformer模型在處理長序列數(shù)據(jù)時,受到自注意力模塊時間復(fù)雜度和內(nèi)存空間復(fù)雜度的限制,TeleTransformer對標(biāo)準(zhǔn)Transformer模型進(jìn)行改進(jìn),復(fù)現(xiàn)了輕量級注意力模塊(線性映射注意力模塊、稀疏注意力模塊、Nystr?m注意力模塊、Residual注意力模塊等)。
4 TeleTransformer模型改進(jìn)實(shí)驗(yàn)
基于TeleTransformer的AI時間序列動態(tài)預(yù)測方法和系統(tǒng)實(shí)施例的模型改進(jìn)實(shí)驗(yàn)。對標(biāo)準(zhǔn)Transformer的改進(jìn),涉及位置編碼、多頭注意力層、正則化層、前饋神經(jīng)網(wǎng)絡(luò)及編碼器、解碼器架構(gòu)的改進(jìn),主要涉及自注意力部分的改進(jìn),降低自注意力部分計(jì)算的復(fù)雜度,學(xué)習(xí)到更長序列的依賴關(guān)系。從實(shí)驗(yàn)中可以看出:自相關(guān)注意力取得較好的效果,降低時間復(fù)雜度至O(N), 能夠捕獲時間序列輸入輸出之間的長依賴關(guān)系,TeleTransformer模型對激活函數(shù)較敏感,可以選擇Gelu等激活函數(shù)。
5 結(jié)論及展望
自從Google在2017發(fā)布Transformer論文以來,以Transformer為核心的新一代NLP技術(shù)在短短的2年左右的時間就徹底革新了整個NLP領(lǐng)域,尤其是2018年的BERT極大的加速了這一革新進(jìn)程,無論是學(xué)術(shù)界還是工業(yè)界(Google、Amazon、Facebook、Alibaba、Tencent、ByteDance等)的近幾年NLP工作均是圍繞Transformer這個新一代的NLP架構(gòu)系統(tǒng)而展開。人工智能領(lǐng)域具有全球廣泛影響力的科學(xué)家Andrew Ng在2021年回顧AI的最新進(jìn)展中甚至說 “Originally developed for natural language processing, transformers are becoming the Swiss Army Knife of deep learning.” 其明確表示就最新AI發(fā)展進(jìn)展表明Transformer已經(jīng)逐步實(shí)現(xiàn)了“One Architecture to Do Them All”的人工智能大一統(tǒng)趨勢。
Transformer實(shí)現(xiàn)一種架構(gòu),統(tǒng)治一切,研究人員正將其發(fā)展至更廣闊的新領(lǐng)域,在智能對話機(jī)器人領(lǐng)域,Rasa是Conversational AI在智能業(yè)務(wù)對話領(lǐng)域工程落地全球最為成功對話機(jī)器人系統(tǒng),基于Transformer架構(gòu)實(shí)現(xiàn)了全球使用最廣泛的智能業(yè)務(wù)對話機(jī)器人框架。
參考文獻(xiàn)
[1] 《企業(yè)級AI技術(shù)內(nèi)幕:深度學(xué)習(xí)框架開發(fā)+機(jī)器學(xué)習(xí)案例+Alluxio解密》 清華大學(xué)出版社 王家林、段智華
[2]《Spark大數(shù)據(jù)商業(yè)實(shí)戰(zhàn)三部曲》第二版:清華大學(xué)出版社 王家林、段智華