李偉男
(中央廣播電視總臺,北京 100020)
問卷調查指的是借助結構化問卷,從一定數量的個體樣本或人口單位中回收信息的方法。借助問卷這一工具,調研人員能夠對社會活動過程進行系統(tǒng)、具體的測量,并運用統(tǒng)計手段對結果進行量化描述和分析。[1]傳統(tǒng)的問卷調查往往存在著數據采集方式比較單一,調查范圍相對有限,數據采集上報及時性不夠,數據質量核驗工作繁瑣容易出錯、結果展示不夠及時等問題。
然而,隨著大數據、互聯(lián)網等技術的發(fā)展,亟需通過改變傳統(tǒng)的業(yè)務流程,采用智能化的數據入庫方式、多種形式的可視化展現方式對分析結果進行展現,并為多類型的用戶提供服務。[2]基于互聯(lián)網技術的媒體占據重要市場,是立足于歷史、聚焦于技術革新的發(fā)展成果,這種變化的突出表現在于傳媒企業(yè)建設全面靠近互聯(lián)網。[3]
通過對收集的數據進行多方位的分析,一方面可以服務于每年一次的大調查工作;另一方面還可以服務于各節(jié)目部門的相關調查需求。建設在線調查服務平臺,實現調查問卷精細化設計、調查問卷自動化收集、調查數據可視化高效展現、調查數據權威精準發(fā)布的在線調查全流程管控。
數據采集。提供對發(fā)布的調研問卷的數據采集管理,包括用戶ID識別認證、掃描方式多樣化、防作弊機制、地理位置采集、終端信息采集等。
問卷管理。對調查問卷進行配置,能夠生成不同類型、不同樣式的調研問卷;提供對調研問卷列表的基礎管理、發(fā)布等;對當前執(zhí)行的調研問卷提供進度統(tǒng)計、問卷分析等。
數據分析。面向不同的用戶提供問題分析、受訪人分析、關聯(lián)分析、時序分析、指數曲線、地區(qū)排名等數據分析應用服務。
數據發(fā)布。提供將分析應用結果實時推動至Web端、可視化大屏(PC端)、微信公眾號、其他網絡新媒體的服務。
會員管理。針對調查對象進行分析,將注冊的用戶納入央視大調查的會員管理體系,提供會員信息的查看、消息發(fā)布、社區(qū)互動、維護管理等。
數據治理。數據治理包括數據標準體系(指標體系、口徑標準、標簽分類等)、分析指標體系(受訪者對象分析、調查主題分析、檢索模式等)和數據庫建設(主題數據庫和專題)三方面的工作。
運維管理包括服務器管理、應用管理、安全管理等。
數據分析包括基于建模數據的主題分析、數據建模能力、多維度分析能力、數據可視化能力和數據分析管理能力。[4]
需要支持問題分析、受訪人分析、歷史分析(時序)、地區(qū)排名、指數曲線等適應大調查特點的數據分析。支持分析指標模型及邏輯的可視化定制。
數據建模在本系統(tǒng)中的主要是數據挖掘的方法來實現。數據挖掘是按既定目標,對大量數據進行探索和分析,揭示隱藏的、未知的或驗證已知的規(guī)律性,并進一步將其模型化。[5]數據建模需支持Oracle、MySQL、SQL Server、PostgreSQL等常見的關系型數據庫的數據源。支持Excel、CSV文件數據源。支持不同數據源的跨Schema表關聯(lián)查詢。支持圖形化拖拽方式進行數據關聯(lián)建模,并支持建模數據實時預覽。支持自定義字段,可創(chuàng)建新的數據字段。支持字段名更改,并能夠自定義字段排序規(guī)則。創(chuàng)建的數據集模型支持導出為Excel文件。支持手寫SQL方式創(chuàng)建數據集。
OLAP技術中比較典型的應用是對多維數據的切片和切塊、鉆取、旋轉等,它便于使用者從不同角度提取有關數據。[6]通過拖拽形式創(chuàng)建維度層次,要能夠調整維度層次中不同層次順序及命名。支持求和、最大值、最小值、平均值、計數、不重復計數等聚合方式,并支持同環(huán)比計算。同時要支持按照升序、降序、自定義規(guī)則進行排序,并支持主次排序維度。支持時間類型字段的自動拆分,要能夠拆分為年、季度、月、周、日不同粒度。支持過濾篩選,時間類型字段能夠設置時間篩選粒度及時間范圍,并且字符類型字段要具備通配符匹配功能。支持聯(lián)動鉆取分析,可以根據設置的維度層次進行上卷、下鉆、查看明細功能。
數據可視化技術可以快速的表達繁多的數據和信息進行圖像化,從而降低數據的認知難度,幫助人們理解數據。[7]通過對數據分析挖掘形成的趨勢規(guī)律,是數據價值的體現。通過數據可視化手段將這些價值呈現出來也是數據實踐的重要一環(huán)。[8]大屏所有展示內容都通過工具配置,不需要編寫代碼,能夠做到快速構建,快速變更,維護方便。支持設置分辨率大小或自適應,固定分辨率下,支持按照原始大小或縮放長邊鋪滿展現。支持故事板播放運行,需支持兩種播放效果,一是一屏展現所有內容,二是多屏翻頁展現。
數據管理模塊支持URL分享,并支持公開、密碼私密分享兩種方式。支持對組織結構、用戶、角色進行統(tǒng)一的管理,支持與其他系統(tǒng)進行對接實現單點登錄等功能。
如圖1所示,建立基于問題分析、受訪人分析、歷史分析(時序)、地區(qū)排名、指數曲線等適應大調查特點的數據分析接口。

圖1 基于主題的數據分析界面
此外,還設計了支持分析指標模型及邏輯的可視化定制頁面,如圖2所示。

圖2 數據分析列表
針對數據分析模型需要支持多種不同的數據源,設計如圖3所示的多數據源類型的數據接入或存儲方案。該設計方案支持可視化快速創(chuàng)建數據集,用戶可拖拽數據源中多個數據表搭建數據關聯(lián)關系,數據表間通過連接線清晰展現數據關聯(lián)關系。如果兩個表之間存在主外鍵關聯(lián),會自動建立關聯(lián)關系,如果沒有會根據相同的字段名稱建立關聯(lián),支持關聯(lián)關系的修改。支持自定義字段功能,支持以下五大類:時間計算、數字計算、字符計算、關系計算和邏輯計算。支持通過數據可視化窗口實時查看勾選的字段以及自定義字段的數據內容及格式。

圖3 數據源類型
針對高級需求還支持可以手寫SQL方式,實現數據建模過程,如圖4所示。創(chuàng)建的數據集模型支持導出為Excel文件。支持手寫SQL方式創(chuàng)建數據集。

圖4 數據建模
如圖5所示,設計支持多種數據聚合方式并支持同環(huán)比計算的數據多維度分析模塊。用戶可以隨時獲得數據不同維度的分析結果。

圖5 數據聚合方式設計
此外,支持多種排序方式,排序方式主要包括排序順序、Top數據、排序依據、排序提示幾個模塊,并支持多字段排序疊加。
升序:升序為當前排序的正常升序排序。當對度量字段進行排序時,為當前度量的數字升序;當對維度字段進行排序時,為當前維度排序依據的升序。
降序:降序為當前排序的正常降序排序。當對度量字段進行排序時,為當前度量的數字降序;當對維度字段進行排序時,為當前維度排序依據的降序。
Top數據:Top數據功能只對度量有效,支持兩種選擇方式,當選擇排序順序為升序時,UI變?yōu)椤扒癬_個”,當選擇排序順序為降序時,UI變?yōu)椤昂骭_個”。
默認排序:即為數據查詢的原始順序,配合排序順序選擇是升序(正序)或降序(逆序)。
字母/拼音順序:按照當前字段的字母/拼音順序進行排序。
其他字段排序:選擇其他的字段來排序選擇的字段,并支持聚合,如圖6所示,當選擇字段后,需要同時選擇該字段的聚合方式,并配合排序順序,以聚合后的結果作為依據來排選擇的字段。

圖6 字符類型過濾條件
手動排序:手動排序即支持用戶手動調整排序規(guī)則,系統(tǒng)默認讀取選擇排序字段的distinct值,用戶可以自行拖拽、添加、刪除字段來調整先后順序,然后形成排序規(guī)則,并按照此規(guī)則排圖表數據。
該模塊提供多維度探索分析功能,用戶可根據數據分析需求自由拖拽數據集中的維度和度量完成數據綁定,并自動生成對應可視化圖表。在數據分析階段還支持對字段的二次加工,公式種類分為六大類:時間計算、數字計算、字符計算、關系計算、邏輯計算、聚合計算。對于分組數據,還支持拖拽維度改變分組層次,并進行組合分析。支持數據上卷、下鉆、鉆透、切片、切塊,可以完成從粗粒度數據到明細數據的逐層探查,并自動生成對應可視化圖表,幫助用戶發(fā)現業(yè)務根本問題,如圖7所示。

圖7 數據鉆取
可視化展示離不開圖表,提供數10種具有動態(tài)交互性可拓展的圖表,如圖8所示。

圖8 可視化圖表
支持基于GIS地圖的數據可視化方法,包括軌跡圖、熱力圖、標記點地圖,GIS地圖支持在線的高德地圖、必應地圖、谷歌地圖等,也可支持基于WMS、WMTS標準的非在線地圖產品,GIS地圖底圖可隨意切換。
支持網格式布局,將上述元素拖拽到上、下、左、右、中等位置,并支持通過拖拽的方式改變某一區(qū)域的大小;支持使用自由塊完成圖冊的無網格約束的自由布局。支持設置圖表間聯(lián)動交互,并且支持跨數據源聯(lián)動,幫助用戶動態(tài)分析數據、深入探索數據間復雜關系,如圖9所示。

圖9 聯(lián)動展示
內置多種主題風格樣式,支持一鍵快速切換各種主題,針對于圖冊主題有更為特殊的要求,還支持主題的自定義功能,通過圖形界面的方式增加自定義主題。針對于一個圖冊中的多個圖表分別使用不同主題的需求,提供在圖冊中圖表保留本身主題的功能,即圖表可以不使用圖冊的主題,如圖10所示。

圖10 圖冊主題
通過建設在線調查平臺的數據多維度分析模塊,可以提供數據分析結果應用,以及分析結果并未公布。一方面可以適應多種不同數據源,建立相應的數據集,另一方面,可以提供豐富的可視化界面,用戶可以從不同的維度了解數據分析的結果。
在未來的工作中,基于在線調查服務平臺,擴展數據分析結果的應用,融合最新的指數分析指標算法。同時,可以接入移動端、微信微博等社交媒體,將數據分析結果直接發(fā)布。