張雨芊,孟祥莊
(東北林業大學,黑龍江 哈爾濱 150006)
當今互聯網應用快速發展,網絡隨時都在產生龐大的數據量。而這些海量的數據只有經分析與抽取,才能體現出真正的價值。大數據具有規模性(volume)、多樣性(variety)、高速性(velocity)和有價值(value)等特點[1]。在互聯網數據中,文本數據是其主要的數據形式,眾多的計算機文本處理技術已在多種科學研究及商業領域得到應用。面對時代發展,越來越多的影響因素正在對風景園林學提出新的挑戰。大數據的真正價值不在于大,而在于全,空間維度上的多角度、多層次信息的交叉復現;時間維度上的與人或社會有機體的活動相關聯的信息的持續呈現[2]。在研究方法逐漸產生變革的今天,需要進一步推動多學科交叉融合,利用多樣的海量數據解決風景園林學科設計問題。而在風景園林學領域,大數據分析相關方法的應用仍然較為局限。
目前景觀規劃設計領域的大數據應用,主要有移動通信設備數據、定位導航數據、環境感知數據、社交網絡數據、數值模擬、景觀照片分析等方面。網絡數據挖掘目前主要通過設計檢索和獲取數據的網絡爬蟲實現。有關居民時空行為數據的采集與分析,經歷了GIS軟件[3](CHASE-GIS)向多種信息設備相結合[4]的方法。目前相關研究通過獲取手機通話數據[5,6]、出租車[7]、公交車刷卡數據[8]、社交媒體[9]等互聯網數據記錄簽到數據、實時人流量、人群熱度、點擊率、掃碼率、搜索詞條排序等數據,都已經成為大量可靠的數據來源,并提升了公園綠地評價的普遍性與準確性。風景園林領域在社交媒體數據應用方面,通常通過具有公開定位服務的社交媒體獲取位置數據[10]。國內學者常利用簽到大數據進行簽到密度和熱點地區的分析,得到公園的使用狀況和時空特征等。有關社交媒體網絡數據的挖掘與應用,國外學者多運用Twitter數據獲取游客的地理坐標、文本數據,以分析關鍵詞特征和居民活動行為[11]等。國內社交媒體文本分析應用于風景園林領域的研究仍處于萌芽狀態,目前有通過微博API[12]研究游客情感的時空變化特征,基于社交媒體數據文本分析對公園進行對比分析[13]等。
本研究運用大數據文本分析法,通過關鍵詞爬取方法進行數據獲取,對使用者在新浪微博中對各公園的評論和感想進行文本分析,得到游客的情感數據與偏好話題特征,進而分析哈爾濱市游客的情感特征,及其與使用者話題偏好特征之間的關系。
研究地哈爾濱市屬中溫帶大陸性季風氣候。全年平均氣溫5.6 ℃,冬長夏短,有“冰城”之稱。參考哈爾濱市政府開放數據平臺《哈爾濱城市公園名錄》記錄的公園綠地信息,在哈爾濱市53個城市公園中,本文將第二輪數據爬取后2018~2020年相關微博數量在100條以上的16個公園作為研究范圍。供詳細分析的16個公園基本呈現3種類別:公園綠地中,綜合性公園包括:兆麟公園、文化公園、斯大林公園、音樂公園、群力丁香公園、中國亭園、湘江公園、外灘濕地公園;社區公園包括:雨陽公園、中東鐵路公園、紅博中央公園;專類公園包括:東北虎林園、兒童公園、體育公園。此外,太陽島公園屬于風景名勝區范圍。
在數據獲取方面,以新浪微博為代表的眾多網絡媒體多會為研發人員提供部分數據的開放訪問接口,而其實際公開數據集規模較小,且在實際使用中常常容易受到諸多限制,難以快速且精準地獲取到相關微博內容;而基于Python的微博爬蟲則可以有效精準地獲取微博數據,提高數據分析效率。因此本文使用Python純爬蟲的方式為數據獲取提供支持。網絡爬蟲(Web Crawler) 是一種能夠基于既定規則對Web網頁中應用程序或腳本進行自動提取的技術。微博爬蟲常通過模擬網頁端的登錄等操作等方式,以獲取相關數據,并將獲取到的數據寫入本地存儲。本文爬蟲可連續獲取一個或多個微博關鍵詞搜索結果,并將結果寫入文件、數據庫等,同時可以指定搜索的時間范圍。其獲取的每條數據均包括用戶id、昵稱、微博正文、發布位置、話題、轉發數、評論數、點贊數、發布時間等信息。部分數據結構見表1。

表1 獲取微博數據結構
使用新浪微博數據爬蟲抓取2014年1月1日至2021年6月30日以“哈爾濱”“公園”作為關鍵詞的微博數據,其中包括同時出現兩個關鍵詞的微博,也包含定位于哈爾濱市,包含“公園”關鍵詞的微博。刪除數據中重復、空白等無效數據后,最終得到19196條微博數據,其中2018~2020年數據9951條。由于時間較為久遠的微博數量較少,保存不完整,而近期微博文本數據較為豐富,占據了大部分且更具時效性,在時間趨勢分析中,本文就近3年(2018年1月1日0時至2020年12月31日24時)微博數據進行文本分析。
在獲取到以“哈爾濱”“公園”作為關鍵詞的微博數據后,需要對處理后數據進行詞頻分析與新詞發現處理,并在新詞發現的結果中,人工篩選出出現頻率較高的公園名稱。針對話題度較高的公園,進行第二輪數據獲取,得到各高頻公園的文本數據,為隨后的公園間公平性對比分析、話題差異對比分析提供支撐。去除無關、重復數據,第二輪獲取到的微博文本數據總計47271條。其中:太陽島公園相關微博29297條;東北虎林園相關微博5247條;兆麟公園相關微博3162條;斯大林公園相關微博1821條;中國亭園相關微博1069條;文化公園相關微博1065條;兒童公園微博1083條;紅博中央公園相關微博977條;丁香公園相關微博865條;湘江公園相關微博544條;中東鐵路公園相關微博511條;雨陽公園相關微博484條;音樂公園相關微博478條;外灘濕地公園相關微博420條;勞動公園相關微博163條;體育公園相關微博130條。此部分公園3年內微博數據均在100條以上。
本文使用張華平博士開發的NLPIR-Parser大數據語義智能分析平臺[14]結合百度AI開放平臺進行文本分析。詞頻分析能夠對文本的關鍵詞出現的頻次進行統計。當某個關鍵詞在該文本中反復出現時,該詞就能反映這條文本的偏向話題。本文中詞頻分析可用于發現高頻話題詞匯。新詞發現是在關鍵詞提取的基礎上,識別網絡新詞等特定詞匯,在本文可用于發現文本中關注度較高的公園名稱。統計所得數據有詞語(word)、詞性(Part-Of-Speech)、權重(Weight)、頻率(Frequency)。
情感分析是一種對文本中隱含情感的傾向性進行提取的過程。百度情感傾向分析可對包含主觀觀點信息的文本進行情感極性類別(積極、消極、中性)的判斷,并給出相應的置信度。數據結果包含4種類型,其中sentiment表示情感極性分類結果(0:負向,1:中性,2:正向),confidence表示分類的置信度,positiveprob表示屬于積極類別的概率,negativeprob表示屬于消極類別的概率。在后文的分析中,置信度在后文中作為情感概率的權重進行計算。通過python平臺實現對微博數據的逐條讀取,接入百度SDK接口,進行情感傾向分析后逐條寫入數據庫。通過每組微博的積極情感概率和消極情感概率,計算各公園的平均加權情感極性類別概率,用于后文衡量游客的情感離散程度。另外,對比分析各公園情感值差異特征,以及情感值隨時間變化的特征。
3.1.1 游客情感時間變化趨勢
本文的情感分析主要分析與“哈爾濱”“公園”關鍵詞相關微博的加權情感概率和各類情感傾向占比。情感傾向占比體現了各類微博占比的數量趨勢,便于分析游客情感隨時間的變化特征。情感概率分為積極概率和消極概率,可以較為準確地體現綜合置信度與積極消極概率的情感值。其不僅能夠表示其微博情感類別,也能較為準確地將逐條微博情感傾向量化。以置信度作為權重計算得出每月全部微博的加權情感概率均值,作為游客情感值主要的衡量指標。其公式為:
(1)
式(1)中,E代表每月的加權情感概率均值(%);Ei代表第i條微博文本數據的情感概率(%);Ci代表第i條微博文本數據的情感概率置信度,作為權重計算;n代表全部的微博數據數量。在分析范圍內,每月與哈爾濱市公園相關的微博話題文本中,情感分析所得詳細數據如表2。

表2 情感分析結果(每月)
總體趨勢如圖1所示。在微博數量方面:總體上每月相關微博數量在200~300條左右波動;在變化趨勢上,每年4~9月份微博數量最多,基本穩定在200條以上;10月至次年1月數量其次;2~3月份微博數量較少。在各類情感傾向占比方面:總體趨勢在2018年間,6月份負向情感微博數量占比明顯增加;2019年各類微博占比較為穩定;2020年情感傾向較為波動,4月份、8月份負向微博數量均高于多數月份。在加權情感概率方面:2018年6月份、2020年4~5月份、2020年8月份負面情感出現了明顯的峰值;而3年間總體上在11月份至次年2月份期間,情感值較為良好。

圖1 微博情感時間變化特征
3.1.2 公園游客情感差異特征
對哈爾濱市被提及頻率最高的16個公園相關共47271條微博文本進行了情感分析。得到統計數據后,將每條微博文本置信度作為權重計算情感傾向概率,并統計各類情感傾向的微博數量并計算其占比。統計顯示如表3。

表3 公園游客情感分析結果
在公園情感分析結果差異上,微博數量方面:各公園微博總數差異大,太陽島公園相關微博總數29297條最多,其次是東北虎林園和兆麟公園。各類情感傾向占比方面:對比分析了加權情感概率與情感傾向占比高低排序,得知情感傾向百分比與情感概率總體趨勢相似,排序不完全相同。加權情感概率方面:對比分析了加權積極情感概率與消極情感概率高低排序,消極情感概率與積極情感概率總體趨勢相似,但不完全相關。
分析對比情感傾向占比與加權情感概率之間關系可知,總體趨勢相似;部分公園正向微博數量占比不高,但整體積極概率較高;其正向微博情感傾向較為明顯:如太陽島公園、紅博中央公園、文化公園。部分公園正向微博數量占比較低,但整體積極概率處于中等水平:如斯大林公園、勞動公園、兒童公園。而在負向微博數量占比與消極情感概率的對比方面,無較大差異。對比各公園加權積極情感概率與消極情感概率趨勢,通常積極概率較高的公園,消極概率較低;而太陽島公園、紅博中央公園、文化公園的積極情感概率與消極情感概率同樣較高,情感傾向波動大;而兒童公園、勞動公園的積極情感概率與消極情感概率均處于較低水平。
3.2.1 總體話題分析
關鍵詞詞頻統計體現了微博用戶對哈爾濱公園相關話題關注程度。通過人工篩選去除無效、不相關結果(如“一個”“進行”“可以”等無意義數詞、量詞),綜合權重與頻率進行排序,得到話題關注度排序。在與日常使用者密切相關的詞匯中,按話題熱門程度排序依次為:旅游、生活、冰雪、冰城、工作、文化、免費、服務、體驗、開放、大學、冰雕、附近、孩子、小區、丁香、疫情、旅行等。關注度最高的“旅游”話題,權重為223.79,頻率為2188。部分具體數據如表4。

表4 總體詞頻分析數據結構
分析詞頻統計完整結果可以得知以下結果:①游客較為關心的哈爾濱市本地特色文化話題中,加權頻率由高至低依次有:松花江、冰雪、冰城、冰雕、馬迭爾冰棍、冰雪大世界、雪人等詞匯:②在與公園相關可供參考的話題中,加權頻率由高至低依次有:旅游、松花江、濕地、建筑、文化、免費、服務、體驗、開放、交通、附近、丁香、疫情、鴛鴦、旅行、天氣、運動、自然、生態、廣場等:③與游客生活、活動相關的話題中,加權頻率由高至低依次有:旅游、活動、生活、工作、發現、體驗、旅行、感受、感覺、運動、參加、朋友、美食、廣場舞、休閑、拍攝、攝影、比賽等:④將結果中詞性為動詞的詞匯進行篩選(其中也包括動名詞、形容動詞等),去除無意義、參考價值較低的詞匯,可以看到加權頻率由高至低依次有:旅游、活動、建設、生活、工作、設計、發現、免費、服務、看到、體驗、開放、喜歡、旅行、管理、保護、感受、運動、提供、參加、施工、推薦、出行、舉辦、希望、休閑、拍攝、攝影、比賽、恢復、滑雪、游覽、看看、展示、拍照、健身等。
在話題隨時間變化特征上,2019年冰雪、太陽島公園、生活、喜歡、丁香、免費、環境、鴛鴦、冰雕、廣場舞、陽光、老人等話題均有上升,其中丁香、鴛鴦、冰雕、廣場舞等詞匯頻率上升幅度較大;服務、美食、自然、景點等話題略有下降。
3.2.2 消極情感話題分析
在與哈爾濱市公園相關微博中,負向情感微博占比約為9.7%,將此類微博進行篩選后進行詞頻分析。去除無關詞匯后,得到詞頻分析和新詞發現的分析結果。可以發現的重要高頻話題有:發現(43.66,240)(前為置信度,后為詞匯出現頻率)、老人(40.68,346)、廣場舞、工作人員、男子、小區、市民、孩子、跳廣場舞、江邊、城市、居民、項目、建設、大學、記者、遛狗、管理、問題、城管執法人員(26.21,15)等。其中新詞發現得到的相關話題有:廣場舞(39.01,91)、跳廣場舞(32.92,23)、遛狗、城管執法人員、客服、疫情防控、旅游攻略、禁養犬、公示板、大型游樂設施、投訴舉報(20.41,10)、撞樹、排爆等。詞頻分析與新詞發現可視化如圖2和圖3。

圖2 負向微博詞頻分析結果

圖3 負向微博新詞發現結果
3.2.2 各公園游客情感與話題相關特征
由前文情感分析可知,外灘公園、丁香公園、音樂公園的加權情感概率與正向微博百分比均在較高水平。同時,情感概率離散程度也較小。其中外灘公園較為高頻的話題為:文化(51.99,198)、銀川、旅游、生態、濕地保護、冬季旅游護照、保護、游客、鳥類、濱江、文旅、生活、塞外雪鄉、環境、觀鳥、自然、體驗、健身、開放(22.05,48)等。丁香公園較為高頻的話題為:丁香花(64.70,273)、施工、建設、天池丁香公園、哈爾濱丁香節、地鐵、線路、冰城、疫情防控、臨時調整、河鼓街、文化(28.08,55)等。音樂公園較為高頻的話題為:音樂主題公園(46.59,29)、陽明灘大橋、噴泉、廣場、金河公園、音樂谷、文化、塑膠跑道、冰城、防洪紀念塔、江邊、景觀、江畔、馬迭爾、表演、廣場舞、冰雪迷你馬拉松(18.72,5)等。
可見哈爾濱市游客情感概率較高的公園,其話題主要具有如下特點:①文化特色。在外灘濕地公園的相關微博文本中,與生態、濕地、鳥類等詞匯最為高頻;在音樂公園話題中,音樂谷、文化、冰城、表演等為高頻詞匯;②自然環境。如生態、濱江、自然、江邊等;③節日活動。如表演、馬拉松等話題;④免費開放。如生活、健身、開放、廣場舞等。詞頻分析可視化結果如圖4。

圖4 詞頻分析結果(情感值較高公園)
加權情感概率與正向微博百分比綜合較低的公園為體育公園、斯大林公園、勞動公園、兒童公園。體育公園高頻話題有:航海模型(17.12,12)、哈爾濱地鐵、高爾夫球場、運動、比賽、冰雪、活動、冰雪季、園廁、滑冰(9.21,14)等。斯大林公園高頻話題有:松花江(135.49,1024)、馬迭爾冰棍、江畔餐廳、鍋包肉、冰城、冰雪、江邊、雪人、文化、江畔餐廳、鍋包肉、廣場舞、旅游攻略(40.42,205)等。勞動公園高頻話題有:松江生態園(42.79,21)、社區樂跑賽、排爆人員、哈爾濱工運、游園活動、萬達商圈、雪雕、冰城、運動、建筑面積、歷史(9.89,35)等。兒童公園高頻話題有:兒童鐵路(60.98,313)、兒鐵記憶館、升級改造、孩子、工作人員、游樂設施、鐵路、服務、免費、升級改造過程、六一兒童節、設施(21.90,63)等。總體詞頻分析可視化結果如圖5。

圖5 詞頻分析結果(情感值較低公園)
3.2.3 情感影響因素
根據前文分析數據,人工對比分析詞頻分析結果與情感分析結果的相關性,可見影響哈爾濱市公園游客情感的因素主要如下。
(1)文化與公園特色。在居民日常活動的開放性公園中,公平性較強,且獲得更高評價的音樂公園、外灘濕地公園、丁香公園的共性是具有明顯文化特色。在此部分公園的高頻詞匯中,均體現了游客對公園特色的偏好,如銀川、丁香節、冰城、音樂谷等,處于關注的重點;在其他無明顯特色的日常性公園中,話題仍由具哈爾濱市文化的詞匯主導,如冰雪、松花江、馬迭爾冰棍、紅腸、雪雕、冰城等。這意味著挖掘公園的特殊性對于影響游客情緒占重要地位。
(2)自然風景與景觀環境質量。各公園偏向積極的微博文本中,與自然風景、景觀質量相關的詞匯均具有重要分量,是公平性重要的積極影響因素。如外灘濕地公園相關微博中,游客對于觀鳥、鳥類、濱江、自然等話題顯示較大興趣;丁香公園的丁香花也是其情感概率較高的重要積極影響因素;在音樂公園中,陽明灘大橋、噴泉、廣場、塑膠跑道、江邊等詞匯也體現了自然與景觀對游客情感的影響。而在情感值相對較低的部分公園中,此類詞匯占比較少。
(3)公園管理質量、安全問題。在情感值相對較低的部分公園中,其高頻詞匯反映了游客對其管理等問題的負面評價;如“廣場舞”“噪音擾民”話題,在多個公園的高頻詞匯中出現;免費、服務、開放等話題也較受游客關注。在篩選分析中性與負向微博的結果中,疫情防控、城管、閉園、安全隱患等管理問題也是微博話題中關注的重點。
(4)其他影響公平性的因素包括生活工作、餐飲、人際交往、節日活動、其他熱點事件等。這些主觀因素詞匯出現頻率不高,且不穩定,與公園本身關聯性較低。在此類詞匯中,較具參考價值的有:表演、冰雪迷你馬拉松、比賽、滑冰、游園活動、雪雕等特色活動相關話題,江畔餐廳、鍋包肉、紅腸等飲食相關話題。
本文使用文本分析方法對相關微博數據進行了分析。通過詞頻分析、文本聚類、情感分析方法,對哈爾濱市公園相關話題趨勢、游客情感特征,以及通過對比其相關關系,對影響游客情感的因素進行了總結。主要有:文化與公園特色;自然風景與景觀環境質量;公園管理質量、安全問題;以及其他影響公平性的因素等。
針對研究結果,對公園建設提出以下幾點建議:在公園建設方面,注重噪音管理,優先考慮動靜分區;避免交通堵塞;根據游客需求營造特色空間;關注公園維護水平;突出游客偏好的自然風景。在公園管理方面,疫情期間需要采取科學有序的應對方式,既不能疏于管理,也不應過度防范;并管理噪音擾民問題,防范安全隱患;管理人員應提高服務意識,園方需滿足游客相應需求。
本文對于哈爾濱城市公園相關微博通過關鍵詞進行抓取的方法,相比于通過新浪微博開放API位置坐標定位獲取的微博數據,具有針對性較強、范圍更廣的特點,不局限于有精確定位的微博,能夠得到對于公園本身的、更加具有針對性的評價。其缺點是較獲取地點定位微博數據的方法相比,部分獲取到的微博內容日常性較低,含有較多宣傳內容。未來的研究可對大量的既存網絡數據進行探索分析,并對本文存在的不足之處進行完善。