胡 琴
(上海郵電設計咨詢研究院有限公司,上海 200092)
大數據背景下,企業管理決策的環境越來越復雜,存在決策滯后的風險。雖然企業可以通過問卷調查、購買以及采集等各種方式獲取多種多樣的海量數據,制定基于數據驅動的管理決策方案,但是大數據的數據信息在不斷更新,會加大企業篩選具有價值信息的難度,使企業決策環境更復雜[1]。低效率的管理決策程序會降低決策的效果,影響企業的發展,因此企業應簡化決策程序,以提高決策價值[1]。
BI 工具流程簡便,可以實現數據自動更新,只需要簡單的幾個操作就可完成。BI 工具不僅可以通過自嵌的智能算法進行趨勢預測,而且還可以通過嵌入Python、R 編程語言的算法包進行數據挖掘。BI 工具不僅能提高企業中高層的決策水平和效率,而且還能使企業的每個員工都成為決策者。如何進一步加快大數據分析技術應用,構建適應管理決策研究特點規律的定性與定量相結合、數據分析與專家知識相互滲透的數據驅動技術工具和模型,提高基于數據的管理決策分析質量和能力,是未來該領域研究的重點方向之一[2]。
在數字化轉型的浪潮下出現了各種數據分析工具,性能較好的數據分析工具見表1。

表1 數據分析工具統計表
數字化時代,大多數企業都會擁有自己的信息系統,其中積累了大量的數據。信息系統中的原始數據價值很小,只有通過智能化的數據分析方法抽取其中的精華,才能轉變為信息“金礦”,為人類造福[3]。數據的智能化分析是通過建立數據模型實現重復操作的模塊化。一般智能數據分析會通過各種數據統計、數據分析、數據挖掘以及數據可視化等工具來實現。
Tableau 是企業比較常用的一款BI 數據分析工具,其擁有非常強大的數據可視化功能。為了在已有功能的基礎上進一步擴展編程語言的功能,Tableau 在2016 年發布了一個可以在Tableau 工作簿中運行Python 代碼的新API——TabPy。并且從第八個版本開始,Tableau 增加了R 語言的接口,R 腳本也可以在Tableau 中運行,自此R 強大的數據統計、挖掘功能也能在Tableau 中實現了。科學合理的決策源于數據,借助世界一流的BI 分析工具能讓企業做出更明智的管理決策。
編程語言隨著信息技術的發展已逐步進入BI 數據分析工具,例如通過內嵌Python、R 編程語言的算法包(jieba 中文分詞、K-Means 聚類等),可以實現對BI 數據分析工具中的數據進行挖掘分析的功能。
該文在Tableau 中嵌入Python 編程語言的中文分詞工具——jieba 庫,實現了對調查問卷中文本的關鍵詞進行提取的功能。通過在Tableau 中嵌入R 編程語言的K-Means 聚類算法,實現了根據客戶評分對31 省的評分進行聚類分析的目標。
在某運營商人工客服體驗項目中,當對體驗問卷中的文本進行分析時,會遇到需要利用工具來對文本中的關鍵詞進行提取的問題。為了解決該問題,該文采用嵌入Tableau 中的Python。Python 編程語言一直都是最受歡迎的編程語言之一。該文采用Python 中的jieba 庫,jieba 庫中的jieba.analyse.extract_tags 函數可以從字符串中提取關鍵的地名、名詞、動名詞和動詞。文獻[4]、文獻[5]利用 Python 對中文文本進行分析研究。
提取關鍵詞后,需要借助工具對關鍵詞進行詞云呈現,該文采用最受歡迎的BI 工具之一——Tableau。
3.2.1 在Tableau 中安裝Python 環境
找到tabpy_server 的安裝目錄,該文的目錄在D:Pycharm ProjectsPythonProject Libsite-packages abpy_server。具體參考安裝目錄,如果是Windows 系統,就運行startup.bat;如果是Linux 或MAC 系統,就運行startup.sh。也可以在tabpy_server 的安裝目錄下運行CMD,然后在彈出的窗口中輸入“Python tabpy.py”和“startup.bat”。
該文使用的是Windows 系統,并把tabpy 部署在本機。顯示“Web service listening on port 9004”這個信息代表服務器啟動成功,開始監聽9004 端口。
3.2.2 在Tableau 中連接tabpy 服務器
打開Tableau,在“幫助”欄單擊“設置和性能”,再單擊“管理外部服務連接”,在彈出的窗口中的“服務器”框選擇“localhost”,“端口”框輸入“9004”。單擊“測試連接”,彈出“成功連接到TabPy 服務”的窗口,說明已成功連接,單擊“確定”,就成功設置了客戶端連接服務器。
3.2.3 導入體驗問卷數據,提取文本中的關鍵詞
某運營商的人工客服體驗問卷“建議”字段中的文本數據(部分)內容如圖1 所示。

圖1 人工客服體驗問卷“建議”字段中的文本數據(部分)
在該案例中總共收到了來自31 省的1 108 條建議數據,將其導入Tableau 中,單擊“建議”字段右上角的“▼”按鈕,下拉菜單選擇“創建計算字段”。
在彈出的窗口中,將字段命名為:標簽,鍵入函數如下。
SCRIPT_STR(“
# 導入jieba 中文分詞庫
import jieba.analyse
# 導入re 正則表達式
import re
#使用正則表達式過濾掉不可見的字符,如換行等,以避免報錯
ctn = [re.sub(‘s’,’’, str) for str in _arg1]
#使用jieba 從內容提取關鍵詞,只提取權重最高的1 個名詞
tags = [jieba.analyse.extract_tags(c, topK=1, allowPOS=(‘n’)) for c in ctn]
#將提取結果的格式處理成字符串,以返回給Tableau
result = [‘,’.join(r) for r in tags]
return result”,
attr([建議]))
在工作表中將字段“序號”“建議”拖放至行,“標簽”拖放至文本。關鍵詞就從文本中提取出來了,Tableau 中的界面如圖2 所示。

圖2 “從”建議“中提取出權重最高的1 個名詞
如果對體驗問卷中的“建議”文本數據進行了變更,只需要在對應連接路徑的Excel 表格中進行更改,然后在Tableau數據源中單擊“刷新數據源”就能一鍵實現數據的智能化更新功能。
對“標簽”中提取出來的詞進行頻數統計,在Tableau中將“標簽”拖放到顏色、文本,“計數”拖放到大小。詞云呈現結果如圖3 所示。

圖3 Tableau 對關鍵詞進行詞云呈現
在某運營商人工客服體驗項目中,當對體驗問卷中的31省根據評分進行聚類分析時,會遇到需要利用工具來進行聚類分析的問題。為了解決該問題,該文采用嵌入Tableau 中的R。R 語言是完全免費且開放源代碼的,其標準的安裝文件自身就帶有許多模塊和內嵌統計函數,安裝好后可以直接實現許多常用的統計功能,大多數最新的統計方法和技術都可以在R 中直接得到。該文使用R 語言中的K-Means 聚類算法,K-Means 算法是聚類算法中的經典算法,其原理簡單、實現快速,當簇與簇之間有明顯區別時,其聚類效果會比較好。但是,K-Means 算法需要事先給出需要生成簇的個數,不適用于簇差別很大的情況。
在對省份進行聚類分析后,最好能對31 省的評分進行可視化呈現,這里用到的是Tableau。
先下載并安裝R,然后打開R,在其中運行以下腳本。
install.packages(“Rserve”)
library(Rserve)
Rserve()
打開Tableau,在“幫助”欄單擊“設置和性能”,再進去“管理外部服務連接”,在彈出的窗口中的“服務器”框選擇“localhost”,“端口”框輸入“6311”,單擊“測試連接”,彈出成功窗口。連接成功后,單擊“確定”,就可以成功設置客戶端連接R 服務器。
某運營商的人工客服體驗問卷31 省評分數據(部分)如圖4 所示。

圖4 人工客服體驗問卷31 省評分數據(部分)
將其導入Tableau 中,在Tableau“分析”欄下單擊“創建計算字段”,在彈出的窗口中,將字段命名為:簇,鍵入函數如下。
SCRIPT_REAL('
fit <- K-Means(data.frame(.arg1,.arg2,.arg3,.arg4,.arg5),centers=5);
fit$cluster',
SUM([回復內容清晰易懂]),SUM([業務熟練度]),SUM([服務態度]),SUM([客服響應及時性]),SUM([整體服務評價]))
在工作表中,將“體驗省份”拖入列,計算字段“簇”拖入行、顏色和文本,最終呈現結果如圖5 所示。

圖5 將31 省根據評分聚類為5 大類
在Tableau 中,將評分表中的“體驗省份”拖入列,將“回復內容清晰易懂”、“業務熟練度”、“服務態度”、“客服響應及時性”以及“整體服務評價”拖放到行,并將標記類型設置為“區域”,添加平均值參考線后可視化呈現結果如圖6 所示。

圖6 對31 省評分數據進行可視化呈現
在數字化生活背景下,傳統的管理變成或正在變成數據的管理,傳統的決策變成或正在變成基于數據分析的決策。企業在開展決策管理工作的過程中,可立足于數據挖掘技術對各類數據進行篩選和提煉。也就是說,通過問卷調查、購買數據以及網絡爬蟲等方式對數據進行采集,獲取的數據經系統清洗后進行分類,分類后的數據存儲在數據倉庫中。然后可以通過ETL 等工具對已有的數據進行提取、轉換以及加載等預處理,再使用聚類、決策樹以及預測等相關大數據分析方法進行數據挖掘,從而采取可視化、商業智能(BI)等技術為企業數字化管理決策提供幫助。