高曉梅,張永紅
(西安航空職業(yè)技術(shù)學(xué)院,陜西西安 710089)
畢業(yè)生的就業(yè)質(zhì)量受到諸多因素的影響,但傳統(tǒng)的問卷方法無法分析眾多變量間的復(fù)雜關(guān)系[1-3],且嚴(yán)重依賴人工,進(jìn)而造成了額外成本。因此利用集成深度學(xué)習(xí)算法(Integrated Deep Learning,IDL)來構(gòu)建畢業(yè)生就業(yè)質(zhì)量預(yù)測模型[4],研究一種可自動分析文本,并高效、準(zhǔn)確地提取到文本評價(jià)內(nèi)所包含的方面項(xiàng)與情感極性的學(xué)習(xí)算法,不僅能節(jié)約因手動理解、統(tǒng)計(jì)文本內(nèi)容而帶來的人力成本,還對高校教育的改革優(yōu)化、提高人才培養(yǎng)質(zhì)量具有重要意義。
該文基于集成深度學(xué)習(xí)中的方面詞抽取(Aspect Term Extraction,ATE)及情感極性分類(Affective Polarity Classification,APC)聯(lián)合學(xué)習(xí)模型LCFATEPC,針對文本信息展開了多方面話題的情感分析(Sentiment Analysis)。在以往的情感問題研究中,主要關(guān)注提升的是情感極性分類子任務(wù)的精度,而忽略了對于文本方面項(xiàng)提取的研究。LCF-ATEPC克服了上述問題,并在模型內(nèi)部集成了面向文本情感分析的局部上下文聚焦與BERT(Bidirectional Encoder Representation from Transformers)機(jī)制。通過對少量的評價(jià)方面項(xiàng)及其極性的標(biāo)注數(shù)據(jù)進(jìn)行訓(xùn)練,最終實(shí)現(xiàn)了在大規(guī)模數(shù)據(jù)集中的自動提取并預(yù)測情感極性。
就業(yè)質(zhì)量預(yù)測研究框架如圖1 所示。

圖1 就業(yè)質(zhì)量預(yù)測研究框架
該文在上述研究框架的基礎(chǔ)上進(jìn)行以下工作:
1)數(shù)據(jù)爬取。針對研究主題的對象,對多源頭媒體文本信息進(jìn)行廣泛收集。盡可能爬取到各媒體源下的不同立場、狀態(tài)與人群的評論文本,從而使本模型內(nèi)的方面項(xiàng)提取任務(wù)所得到的結(jié)果更加充分、全面。除了對文本數(shù)據(jù)的采集外,同時(shí)還挖掘研究主題的相關(guān)數(shù)值型數(shù)據(jù),以確保輸入的特征更加豐富,并使預(yù)測結(jié)果更為準(zhǔn)確。
2)數(shù)據(jù)預(yù)處理。預(yù)處理工作主要聚焦于對評論文本進(jìn)行多方面的話題情感分析,其主要依賴于LCF-ATEPC 模型進(jìn)行處理。
3)模型訓(xùn)練與評估。通過建立深度學(xué)習(xí)模型,基于數(shù)據(jù)集進(jìn)行大量的訓(xùn)練操作,并不斷修改模型參數(shù),從而適配此次所要評估的內(nèi)容。最終的評估指標(biāo),可輔助進(jìn)行不同模型的效果評價(jià)。
該研究主要有兩個(gè)支撐模型:
1)采集文本數(shù)據(jù)的LCF-ATEPC 多方面情感分析模型。在情感分析過程中,基于網(wǎng)絡(luò)上爬取得到的多數(shù)據(jù)源文本數(shù)據(jù),對文本內(nèi)包含的不同方面項(xiàng)進(jìn)行挖掘。進(jìn)而為后續(xù)情感極性分類提供人工理解的粒度,且打破模型輸出結(jié)果的黑盒效應(yīng)。
2)最終的目標(biāo)預(yù)測模型。LCF-ATEPC 負(fù)責(zé)挖掘評論文本中所包含的方面項(xiàng)與情感分?jǐn)?shù)。第二個(gè)預(yù)測模型將LCF-ATEPC 產(chǎn)出的方面項(xiàng)及情感分?jǐn)?shù)作為部分特征,與數(shù)據(jù)采集階段得到的數(shù)字化數(shù)據(jù)共同作為特征,輸入模型便可得到最終就業(yè)質(zhì)量的預(yù)測結(jié)果。
情感分析是指通過處理帶有主觀性的文本或觀點(diǎn),挖掘出包含態(tài)度、情感的一種計(jì)算研究[5]。文本的情感分析并非是僅基于正負(fù)性質(zhì),也可在其他維度或是多維度上進(jìn)行[6]。文檔級、語句級和方面級是研究者進(jìn)行情感分析研究的三個(gè)主要粒度級別[7]。其中,方面級的情感分析在對文本的挖掘與處理上更為細(xì)膩,其任務(wù)主要是由實(shí)體提取、方面項(xiàng)提取及方面項(xiàng)情感分類這三個(gè)子任務(wù)組成的[8]。
由于長短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)算法在處理上下文語義關(guān)系方面的表現(xiàn)較為優(yōu)秀,近年來諸多學(xué)者提出了基于LSTM 變體的深度學(xué)習(xí)網(wǎng)絡(luò)[9-13]。但由于對同一目標(biāo)特征,不同句子、不同語境詞會給token 的情感帶來截然不同的影響,所以方面級的情感分析始終具備難度。為了提高模型的分析效果,文中搭建了一個(gè)擁有兩個(gè)獨(dú)立BERT層的多目標(biāo)學(xué)習(xí)模型[14],同時(shí)完成方面級情感分析的方面項(xiàng)提取與情感極性分類兩個(gè)子任務(wù)。在模型訓(xùn)練的過程中,通過兩個(gè)子任務(wù)的交互,使得模型整體在方面項(xiàng)抽取及情感極性分類上表現(xiàn)更加優(yōu)異。
方面級情感分類主要采用神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,ANN)算法解決。基于注意力的深度學(xué)習(xí)系統(tǒng),已被證明是一種較為理想且可用于方面級情緒分析的方法論[15-16]。LCF-ATEPC 模型在處理文本分析任務(wù)中,將ATE 與APC 兩個(gè)子任務(wù)相結(jié)合。再針對文本內(nèi)全局與局部上下文,采用兩個(gè)獨(dú)立的BERT 層,即BERT-BASE 和BERT-SPC 分別進(jìn)行訓(xùn)練。LCF-ATEPC 的算法結(jié)構(gòu)如圖2 所示。

圖2 LCF-ATEPC的算法結(jié)構(gòu)
在模型內(nèi),輸入序列中的每個(gè)詞匯均被標(biāo)記為兩個(gè)不同標(biāo)簽:1)是否為方面詞;2)標(biāo)記方面詞的情感極性。圖2 左側(cè)的LCF 結(jié)構(gòu)通過CDM/CDW 及一個(gè)MHSA(Multi-Head Self-Attention)提取局部上下文特征。右側(cè)的ATEPC 結(jié)構(gòu)負(fù)責(zé)學(xué)習(xí)全局上下文特征。特征交互學(xué)習(xí)層則結(jié)合局部與全局上下文特征之間的交互學(xué)習(xí)來預(yù)測情感極性,并基于全局上下文特征提取方面項(xiàng)。
圖3-4 是兩個(gè)上下文焦點(diǎn)機(jī)制的實(shí)現(xiàn),分別是特征動態(tài)掩碼層及動態(tài)加權(quán)層。圖的底部是每個(gè)token 的特征輸入,頂部則是token 的輸出位置。箭頭表示在自我注意力機(jī)制下token 對箭頭位置的貢獻(xiàn)。其中,圖3的箭頭指向位置特征會被掩蓋;而圖4指向的特征將會加權(quán)衰減。

圖3 特征動態(tài)掩碼層

圖4 特征動態(tài)加權(quán)層

圖5 數(shù)據(jù)特征實(shí)驗(yàn)設(shè)計(jì)流程圖
在情感極性分類時(shí),ATE 模型首先對token 進(jìn)行分類,假設(shè)Ti是T對應(yīng)位置上的特征,則有:
其中,N是token 的類別數(shù)量,Yterm表示模型推論的token 所屬情感類別。
在APC 過程中,模型對抽取到的上下文特征進(jìn)行POOL 池化。池化提取輸入文本序列首個(gè)token 相應(yīng)位置的隱藏狀態(tài),然后進(jìn)行Softmax 運(yùn)算,預(yù)測token 所歸為的情感極性。
實(shí)驗(yàn)過程中的數(shù)據(jù)特征處理步驟,如5 所示。
在完成數(shù)據(jù)清洗后,對爬取的文本數(shù)據(jù)進(jìn)行去停用詞等預(yù)處理,并按發(fā)布時(shí)間戳進(jìn)行分組。在模型訓(xùn)練階段,選用方面項(xiàng)及情感值預(yù)達(dá)標(biāo)的評論數(shù)據(jù)集訓(xùn)練LCF-ATEPC 模型。保存好最優(yōu)模型后,將已按時(shí)間戳分組好的文本數(shù)據(jù)輸入至預(yù)訓(xùn)練的最優(yōu)模型,并輸出提取后的方面項(xiàng)及情感極性。文中在梳理影響畢業(yè)生就業(yè)質(zhì)量的相關(guān)文獻(xiàn)后,將方面項(xiàng)納入預(yù)先已進(jìn)行人工分類的主體維度中,進(jìn)而得到主體維度下方面項(xiàng)的情感極性,再進(jìn)行標(biāo)準(zhǔn)化處理以得到情感得分。
數(shù)據(jù)采集階段所獲取的數(shù)值型數(shù)據(jù),在ATE任務(wù)得到的主體維度下分別進(jìn)行聚合處理[17-18]。將情感得分與數(shù)值型數(shù)據(jù)輸入至機(jī)器學(xué)習(xí)模型中進(jìn)行滿意度預(yù)測訓(xùn)練,并根據(jù)評價(jià)標(biāo)準(zhǔn)比較模型的預(yù)測誤差,從而確定最優(yōu)模型。同時(shí)將不同情感分析深度學(xué)習(xí)的最優(yōu)模型輸入特征按特點(diǎn)加以分組,且分批次輸入。最終考慮不同算法與不同特征集對模型預(yù)測結(jié)果的作用,進(jìn)而證明LCFATEPC 算法的有效性與將媒體文本納入預(yù)測的可行性、重要性。
在LCF-ATEPC 算法識別到多方面情感后,得到了方面項(xiàng)及與其對應(yīng)的情感極性。從刻畫就業(yè)質(zhì)量的因素出發(fā),為多方面情感分析得到的方面項(xiàng)找到了對應(yīng)的主體。對于數(shù)值型特征數(shù)據(jù),則在主體維度下進(jìn)行統(tǒng)計(jì)學(xué)求和及最大-最小標(biāo)準(zhǔn)化處理。最終把不同主體維度下情感傾向得分、對口度與落實(shí)率等數(shù)值特征分別加入不同機(jī)器學(xué)習(xí)模型中進(jìn)行訓(xùn)練。
在預(yù)測模型中,選取了線性回歸(Linear Regression,LR)、支持向量機(jī)(Support Vector Machine,SVM)、隨機(jī)森林(Random Forest,RF)及XGBoost(eXtreme Gradient Boosting)等較為有效的機(jī)器學(xué)習(xí)算法進(jìn)行訓(xùn)練。
為了對各個(gè)模型準(zhǔn)確度做出有效評價(jià),采用了預(yù)測誤差對模型效果進(jìn)行量化。其中,均方根誤差(Root Mean Squared Error,RMSE)是對真實(shí)值與估計(jì)值差的平方的數(shù)學(xué)期望計(jì)算其算術(shù)平方根。若N為樣本個(gè)數(shù),則其計(jì)算方式為:
決定系數(shù)R2 是指可相互以直線關(guān)系來說明的部分所占的比重,計(jì)算公式如下:
其中,SESS為回歸平方和,SRSS為殘差平方和,STSS為總體平方和。
XGBoost 是一種改進(jìn)的梯度提升算法,在Gradient Boosting 框架下提供并行樹且進(jìn)行分布式運(yùn)算優(yōu)化。由輸入數(shù)據(jù)的性質(zhì),進(jìn)一步將模型輸入特征按數(shù)值型數(shù)據(jù)與媒體信息分為不同特征集,再分別傳輸至XGBoost 中,進(jìn)而研究不同特征集的影響程度。將提取到的特征輸入至不同模型內(nèi),由表1可知,輸入不同特征,LCF-ATEPC 的多方面情感分析效果為最優(yōu);在輸入相同特征的情況下,XGBoost模型的預(yù)測效果最佳。

表1 不同機(jī)器學(xué)習(xí)算法預(yù)測效果
根據(jù)結(jié)果可知,數(shù)值型特征數(shù)據(jù)與社交媒體文本數(shù)據(jù)均具有提升預(yù)測準(zhǔn)確度的作用。通過表1 可以發(fā)現(xiàn),基于梯度提升的XGBoost 算法的預(yù)測效果R2 指標(biāo)值達(dá)到了0.927。因此,該文選擇將提取到的特征數(shù)據(jù)輸入到XGBoost 機(jī)器學(xué)習(xí)模型中,再進(jìn)行后續(xù)針對不同特征集的預(yù)測,所得結(jié)果如表2 所示。

表2 不同特征集預(yù)測效果對比
由表2 可知,在納入LCF-ATEPC 算法提取到的社交媒體數(shù)據(jù)后,該文算法預(yù)測結(jié)果較傳統(tǒng)方法提升了3.58%,故預(yù)測更為準(zhǔn)確。由此說明了LCFATEPC 算法的有效性,更凸顯了將媒體文本納入預(yù)測的可行性與重要性。
高校就業(yè)質(zhì)量是現(xiàn)今社會關(guān)注的重點(diǎn)問題,但傳統(tǒng)的問卷方法無法分析諸多變量間的復(fù)雜關(guān)系。為此,該文建立了一種聯(lián)合學(xué)習(xí)模型LCF-ATEPC,由于該模型集成了局部上下文聚焦與BERT 機(jī)制,通過子任務(wù)交互的方法,使得模型整體在方面項(xiàng)抽取及情感極性分類上的表現(xiàn)更為理想。在實(shí)驗(yàn)過程中,通過對社交媒體上文本數(shù)據(jù)的多方面情感分析,拓寬了特征提取的角度。從建模實(shí)驗(yàn)的結(jié)果來看,加入LCF-ATEPC 算法的特征后,模型的表現(xiàn)與結(jié)果均有了進(jìn)一步提升,因此可以將其應(yīng)用于實(shí)際工程中。