陳楠 陳東輝 鄧莉
(國家氣象信息中心,北京 100081)
為滿足現代氣象業務現代化和集約化發展需要,預報司提出并制定了氣象業務內網系統建設任務(氣預函〔2012〕94號)。國家氣象業務內網于2012年7月啟動建設,目前WEB2.5版運行使用。國家氣象業務內網結合業務場景,對觀測業務、天氣業務、氣候業務、衛星業務、人工影響天氣以及氣象信息業務建立六大業務專欄,方便用戶有針對性的獲取業務信息。同時,國家氣象業務內網基于CIMISS統一數據環境,提供基礎數據和產品共24大類近600種數據定制下載、FTP下載、接口訪問等服務。
分析用戶使用網站的行為,可以了解網站的使用情況,挖掘用戶的潛在需求,提升用戶體驗,對網站建設具有重要意義。國家級氣象業務內網欄目眾多、功能龐大、用戶覆蓋全國四萬多氣象行業工作人員。目前該網站每天有約1.9萬條約800 MB大小的訪問日志需要實時處理和展示。因此,國家氣象業務內網的日志分析系統需要有處理海量數據的搜索、分析能力。基于這些需求,國家氣象業務內網建設使用ELK實時日志分析系統。本文主要研究基于ELK(Elasticsearch日志檢索+Logstash日志收集+Kibana查詢展示)搭建的網站日志分析系統進行用戶行為分析。使用該系統分析日志總結規律性特征,讓網站開發人員更詳細清楚地了解用戶行為習慣,發現問題并指導和服務于氣象類網站的開發和經營策略,進一步提高氣象網站的服務質量,努力打造更加優質的氣象行業內部業務服務平臺。
隨著互聯網和移動互聯網的普及和發展,用戶利用網絡獲取信息的行為也越來越復雜。1948年的(英國)皇家社會科學信息會議標志這現代用戶信息行為研究的開端。網站分析(Web Analytics)的定義很多,谷歌數字營銷專家艾韋納什·卡??硕x為:“通過分析來自網站及競爭對手的定性與定量數據,驅動用戶及潛在用戶在線體驗的持續提升,并最終轉化為你期望的結果”。這里可以看出宏觀上的網站分析實際上分為兩大類:一類被稱為網站內的網站分析(On-site Web Analytics,或稱基于網站自身的分析),用以衡量用戶的訪問行為;另一類被稱為網站外的網站分析(Off-site Web Analytics),指在整個互聯網的環境中,對競爭對手網站的分析,以及對互聯網傳播和營銷效果的衡量和分析。本文研究的重點是基于網站內用戶行為的分析,總結規律與氣象網站和移動應用的經營策略相結合,進一步提高氣象網站的服務質量,不斷優化用戶體驗[1]。
用戶行為分析是網絡信息檢索技術得以前進的重要基石[2]。用戶行為是指用戶在使用網絡資源時所呈現的規律性。用戶行為可以分為信息查詢行為、溝通交流行為、休閑娛樂行為、電子服務行為和電子商務服務行為等許多方面。用戶行為分析[3],是指在獲得網站訪問量基本數據的情況下,對有關數據進行統計、分析,從中發現用戶訪問網站的規律,并將這些規律與網絡營銷策略等相結合,指導網站建設、運營和營銷。
用戶訪問網站的行為一般都是圍繞著某種需求而主動進行。雖然每天有數以億計的用戶在網絡上留下特殊足跡,包括檢索信息、網頁瀏覽、社交網站的互動等都具有很多的差異性,但經過數據挖掘和分析,都可以體現出對信息需求和服務的普遍規律。分析的重要指標有:用戶的來源地區、域名和頁面;用戶在網站的停留時間、跳出率、回訪者、新訪問者、回訪次數、回訪相隔天數;注冊用戶和非注冊用戶,分析兩者之間的瀏覽習慣。
網絡用戶行為分析的過程相當于是對海量大數據獲得有價值信息的一個數據挖掘的過程。按照建模的思路,用戶行為分析整個過程包含:需求提出、數據采集、數據分析和結果評估。用戶行為分析有用戶特征分析、關聯分析[3]、分類與預測、異常分析、TopN分析等幾種分析方法。網站分析工具幫助管理者收集、預估和分析網站的訪問記錄,對網站優化和市場開拓都有重要作用。比如屏幕錄制工具Clictale,頁面熱區圖工具Crazyegg,點擊流工具SkyGlue等[4],商業級網站分析工具如Webtrekk Q3,通過在網站上面嵌入一段代碼,這些工具就可以分析用戶最常點擊的地方、最少點擊的地方、鼠標移動的區域等相關數據。另外,Google Analytics和百度統計都是網站常用的網站流量分析工具,它們不只記錄點擊流數據,更注重點擊流的分析與測量,并盡量將這些結果向Web分析和網絡營銷引導,致力于提升網站質量。
現有的第三方網站分析工具需要經過互聯網傳參數,而內網具有內部保密性,因而需要自行搭建整個分析系統,使用現有分析工具的技術思路,在此基礎上進行國家氣象業務內網的日志分析系統的建設。這對得到應用在內部網站符合氣象行業特殊用戶群體的網站分析報告具有重大意義[5]。
網絡日志含有網站最重要的基本信息,它包括業務操作行為、服務器運行和故障、用戶訪問情況等。網絡日志由Web服務器產生,可能是Nginx, IIS, Apache,Tomcat等。通過日志分析,可以獲得網站訪問量、網頁訪問排行、網頁停留時長、訪問網站的用戶分布、用戶肖像等。當前基于網站日志管理系統有多種搭建技術和方案,如結合Flume+Kafka+Storm+HDFS系統,或Elasticsearch日志檢索+Logstash日志收集+Kibana查詢展示系統進行網站用戶行為分析。綜合考慮硬件成本不斷降低、實時在線分析的需求加大、開發過程追求簡單化等多種因素,國家氣象業務內網建設使用ELK實時日志分析系統。
ELK是由三個開源組建構成的一個實時日志分析平臺,包括Elasticsearch(日志檢索)、Logstash(日志收集、過濾、格式化)和Kibana(統計查詢、可視化展示)。Elasticsearch是一個基于Lucene的全文搜索服務器。它提供了一個基于Restful web接口分布式多用戶能力的全文搜索引擎。Elasticsearch是用Java開發的Apache許可條款下的開放源碼發布,是當前流行的企業級搜索引擎[6],具有對海量數據進行快速的實時搜索、穩定、可靠、且安裝使用方便等特點。Logstash是一個用于管理日志和事件的工具,用于收集、轉換、解析日志并將數據提供給其他模塊調用,例如搜索、存儲等。Kibana用來進行前端日志展示,它從ElasticSearch中讀取數據,用圖表等形式進行數據可視化展示,并支持各種查詢。國家氣象業務內網從建設初期就著手網絡日志分析和用戶行為的統計,基于現有的服務器使用ELK實時日志分析系統的解決方案進行日志的統計和分析,經過不斷的優化升級,當前使用的系統架構如圖1所示,基本完成了每日用戶的訪問行為統計、氣象數據下載情況統計、服務器運維狀態情況統計等。

圖1 國家氣象業務內網ELK實時日志分析系統的架構圖Fig. 1 Architecture diagram of the ELK real time log analysis system for the National Meteorological Inner Service Centre
國家氣象業務內網的日志統計分析系統的搭建經過不斷優化升級。在建設初期,當用戶訪問內網的統計分析頁面時,前端點擊頁面系統實時去日志服務器抓取,后臺程序統計分析日志,進而前端頁面提供給用戶的是查詢統計結果。這種解決方法雖然實現了業務需求,但大量日志傳輸占用寬帶,且實時計算消耗時間,頁面展示速度變慢,用戶體驗較差。為了提高整體性能,系統架構上在Logstash的shipper和indexer之間增加Redis代理緩存機制。Redis是一個開源Key/Value數據庫,用于在索引前隊列化日志。為了減少消耗時間,在統計程序上使用了中間表和Filter過濾器插件。通過啟動定時任務程序將日志統計查詢結果存入中間表數據庫中,前端展示從該數據庫比較快速的獲取數據展示給用戶。考慮到增加統計維度會造成中間表結構重新修改和數據重新錄入等工作,進而改進使用Filter過濾器過濾海量日志,對其正則解析,并將結構化的日志傳遞給Elasticsearch存儲和查詢,這樣查詢速度增快且具有較強的可擴展性。該系統目前基本滿足國家氣象業務內網的統計查詢,但是日志數的海量增長,Filter正則解析日志占用內存消耗CPU資源增大等問題都是后期需要考慮的問題。如果日志量更大,可以考慮使用hangout來代替logstash,或用kafka來替代redis,從而獲得更大的日志吞吐量。
國家氣象業務內網經過四年多的建設,目前已經建成了滿足國省兩級用戶需求的業務服務支撐平臺,其數據服務版塊、視頻會商版塊、資料傳輸考核等頁面成為網站亮點。借助ELK實時日志分析系統,對網絡日志進行收集、處理和分析統計,網站整個運行情況都較好的保留和可視化展示。作為氣象行業內部網站,國家氣象業務內網目前每日的訪問量為十萬級別,每天處理約1.9萬條日志。我們將日志統計結果存儲在數據庫里,使用訪問量PV、IP來源、訪問時長、數據下載量等指標進行頁面展示。用戶通過統計分析欄目查看網站訪問情況,從地域維度劃分國家用戶和省級用戶;從時間維度分時段研究網站訪問情況等;從數據使用維度查看數據下載量排行和氣象數據產品之間的相關性。網站管理人員通過后臺管理系統定位具體時間段、IP屬性、欄目等多維度相結合查看網站使用情況,結合多種指標進行用戶畫像描繪、相似用戶擴展Lookalike評測和推薦。
國家氣象業務內網的用戶多為信息獲取類,通過瀏覽網頁進行信息的獲取,一般表現為點擊相關超鏈接、閱讀和瀏覽網頁、對網站提供的信息進行保存、收藏、復制和下載等行為。
國家氣象業務內網的建設是在各單位內網建設功能參差不齊,資源雜亂的局面下提出的,它是基于CIMISS統一數據環境的業務產品共享平臺系統,建立集約化的數據環境,面向氣象內部用戶,支持國、省、地、縣級四級用戶訪問的氣象產品展示與服務、業務管理的信息共享平臺。網站用戶群面向氣象業務科研和管理人員,業務欄目覆蓋了氣象中心、氣候中心、衛星中心、信息中心、探測中心、氣科院等國家級業務單位,匯聚數據服務產品種類超過2000種的綜合性大型網站。
國家氣象業務內網對用戶群體進行特征分類,用戶群體主要是氣象部門內部用戶,包括中國氣象局職能管理人員,探測、天氣、氣候、信息、公共服務等業務人員,以及科研人員。從用戶對網站的使用率考慮,主要考察網站的點擊率、訪問量、訪問率、點擊量、頁面停留時間等。從用戶使用產品的時間考慮,主要包括用戶什么時候使用,這個研究對系統升級、故障處理、并發量統計等有重要的作用。
總體來說,國家氣象業務內網是針對專業用戶群體的集科研和業務管理多功能的氣象內部網站平臺。用戶根據需求點擊與自身科研和業務相關的某一個欄目頁面,且使用時間沒有一致性,但與氣象業務、工作時間、突發天氣現象、汛期等有緊密的關聯。
用戶行為的數據搜集和獲取主要分為兩大類。主動獲取包括用戶登錄網站瀏覽,從日志獲得數據,模擬用戶的操作。被動獲取包括使用外部調研的方式得到用戶對網站使用情況的反饋。數據的收集從網站訪問者輸入URL向網站服務器發出http請求開始,借助于ELK實時日志分析系統進行用戶行為記錄分析。網站服務器接收到請求后會在自己的Log文件中追加一條記錄,記錄內容包括:遠程主機名(或者是IP地址)、登錄名、登錄全名、發請求的日期、發請求的時間、請求的詳細(包括請求的方法、地址、協議)、請求返回的狀態、請求文檔的大小。隨后網站服務器將頁面返回到訪問者的瀏覽器內得以展現[7]。對包含用戶IP地址、訪問的URL、訪問日期時間、訪問方法和請求的數據大小等進行數據挖掘和分析。另外通過用戶調研來查看用戶對網站訪問的總體滿意度,方法有很多,比如電話回訪、郵寄問卷、網上問卷、專家咨詢等。調研的核心應該是如何設計一份有針對性和引導性題目的調研問卷。
分析過程主要從需求出發,對用戶的數據進行挖掘,包括日志數據過濾、數據預處理、數據發現、數據綜合分析等過程,最終以直觀準確的方式展示。
國家氣象業務內網查看每日用戶訪問量和IP數量、訪問時長,對歷史數據進行曲線圖分析得到用戶訪問時間規律。過去一年內網年訪問量約為830萬次,其中國家級用戶訪問約為158萬次;省級用戶訪問分布如圖2所示。結合實際網站建設工作,得出國家氣象業務內網還處在用戶從少到多的建設發展和用戶積累階段,每月訪問量有緩慢增長的趨勢。由于各省份業務工作側重點的差異,與內網業務結合度高的省份對內網的訪問量較高。國家級業務單位中信息中心、氣象中心和氣候中心對網站的使用率較高(圖3),體現出國家氣象業務內網的業務支撐和服務平臺的建設思路,但真實用戶覆蓋面還不夠不廣泛。挖掘潛在用戶、提升網站使用率仍是后期建設的重點工作目標。
另外,網站訪問量在時間上的分布進行檢測,連續處理三個月每天約80 M的日志數據量。通過對大量IP每天每小時訪問的數據流進行聚合可以得出,內網的使用與業務工作的發生成正相關,工作日成駝峰式分布。而某些監控和傳輸類頁面的訪問按照時間均勻分布。

圖2 2016年國家氣象業務內網省級用戶訪問情況統計圖Fig. 2 Statistical diagram of provincial user logs into the National Meteorological Inner Service Centre in 2016

圖3 2016年國家氣象業務內網國家級用戶訪問量分布圖Fig. 3 Proportion of user logs into the National Meteorological Inner Service Centre in 2016
國家氣象業務內網現有150多個欄目,分別提供業務文檔查閱、業務填報、氣象產品展示、數據下載等功能。平均頁面訪問時長是網站分析的重要指標之一,體現了用戶與網站的黏性和網頁的吸引力。使用ELK日志分析系統對日志進行清洗,對行為軌跡建立點擊流模型[8],對當天同一個IP的所有操作行為合并處理獲得訪問時長。從表1可以看出,用戶用于在線閱讀類頁面的訪問時長較多?;诖隧椧幝桑瑸樘嵘脩羰褂皿w驗,在2017年初對網站原有的在線瀏覽流程進行了優化,使用web of fice空間使文檔加載速度加快,展示更加流暢,后臺管理便捷。

表1 國家氣象業務內網的欄目平均訪問時長排行Table 1 Averaged visiting time of logs into the National Meteorological Inner Service Centre
數據服務欄目是國家氣象業務內網的重要版塊。國家氣象信息中心作為中國氣象國家級數據中心,負責承擔全國和全球范圍的氣象數據及其產品的收集、處理、存儲、檢索和服務。結合內網統計分析平臺,可以查閱國家級和省級業務單位用戶某個時間端內數據下載量、下載次數等情況(圖4)。對下載和搜索信息關鍵字提取,相似性去重和加權[9],可以得出不同用戶對各類氣象數據產品的關注度不同,不同時期用戶對數據集的需求也不同(圖5)。跟蹤分析可知,隨著全國汛期的到來,數據服務欄目的訪問量和數據集的下載量增長明顯,用戶對降水產品的需求和關注度增加。特別是CMPAS中國區域地面-衛星-雷達三源融合降水分析產品(CMPAS-V2.1)產品自2017年3月上線以來訂單量逐月增長且已經進入TOP5。暴雨數據集從4月開始下載量伴隨汛期到來有增長趨勢。

圖4 2016年數據下載服務訂單量總體分布圖Fig. 4 Proportion of order quantity of data downloaded in 2016

圖5 2017年3月氣象數據和產品搜索熱點圖Fig. 5 Search hot spots on meteorological data products in March 2017
不同業務對日志數據的關注點不同,只有從業務角度進行日志數據分析,才能獲得精準可靠的分析結果。針對國家氣象業務內網的用戶,可以通過IP判斷用戶所屬單位,再將訪問頻次、頁面停留時長進行關聯分析獲取不同用戶使用內網的興趣愛好。按照聚類分析的思路和模型,對用戶進行歸類和相似人群擴展,這對數據下載服務欄目、首頁快捷功能的建設有指導性意義。由于氣象業務與突發天氣、災害預警等天氣變化息息相關,通過網站日志分析可以看到諸如視頻會商、實況展示、會議在線等頁面的訪問量與某個時間段有較強的相關性,這對網站做到“好用”具有重大意義。
當前,許多氣象類網站的建設受到多種條件制約,制度建設還不夠完善。網站缺乏靈活性,不能給用戶提供更加精細靈活的服務。另外,網站建設人員普遍缺乏主動提供服務的意識,后期開發維護技術人員匱乏。這些問題使得網站用戶體驗度低、使用過程不流暢。本課題的研究成果用來提升和改善網站使用體驗:基于用戶訪問習慣和時間的關系對國家氣象業務內網網站的首頁重點業務產品欄目和臺風、高溫等天氣現象結合聯動發布;基于用戶對氣象業務關注度將觀測產品和預報產品、預警等信息結合地理信息展示使用,了解用戶操作提升網站展示方式;基于對用戶訪問時間分布的研究,對系統升級、欄目更新等做了細致安排,確保最小程度影響用戶對網站和移動APP使用。
轉變思路,變被動為主動才能改變現狀,在后期網站建設和維護中不斷提升自己的品牌價值。抓住用戶需求,了解用戶普遍行為規律,有助于建設更貼近用戶和行業的氣象服務類網站,不斷推動氣象事業的發展。
[1]左軍. 基于大數據的網絡用戶行為分析. 軟件工程師, 2014,17(10): 5-6.
[2]余慧佳, 劉奕群, 張敏, 等. 基于大規模日志分析的搜索引擎用戶行為分析. 中文信息學報, 2007, 21(1): 109-114.
[3]?;劬? 單洪, 滿毅. 基于分段、聚類和時序關聯分析的用戶行為分析. 計算機應用研究, 2014, 31(2): 526-531.
[4]王彥平. 人人都是網站分析師:從分析師的視角理解網站和解讀數據. 北京: 機械工業出版社, 2015.
[5]鄭偉才, 馬琰鋼, 李建, 等. 基于氣象網站訪問統計系統設計與應用分析. 電子技術與軟件工程, 2014(22):56-57.
[6]宣明. 企業級海量數據搜索引擎核心技術實現與優化. 廣州: 中山大學博士學位論文, 2015.
[7]張興科. 數據挖掘在Web日志分析中的應用. 微處理機, 2009,30(3): 80-83.
[8]易明, 操玉杰, 毛進. 基于點擊流的個性化信息檢索研究. 情報科學, 2011(4): 619-623.
[9]陳墨, 程剛, 王小娟. 基于互聯網海量數據的熱點分析系統研究.互聯網天地, 2015(9): 30-35.
Advances in Meteorological Science and Technology2018年1期