齊 君,白釗成,孫永科,戈夢霄,唐雪瓊
(1.西南林業大學地理與生態旅游學院,云南昆明 650224;2.西南林業大學園林園藝學院,云南昆明 650224;3.西南林業大學大數據與智能工程學院,云南昆明 650224)
從19世紀中葉世界第一臺銀版照相機的發明、第一部攝影相冊《自然的畫筆》的出版,再到21世紀初期相機與手機的融合與普及、網絡自媒體對照片和視頻的共享,圖像的生產從行業運用發展至大眾休閑,攝影也漸成生活與旅行的日常。由于照片傳遞著游客的行為心理、情感態度等信息,被學者視為考察游憩的時空特征、目的地旅游形象、游客與東道主關系等內容的重要材料。自旅游凝視理論誕生以來,照片即被視為串聯旅游形象產生、投射、感知、呈現、延續的解釋學循環的導線,引發了通過旅游攝影討論游客視覺、行為、意向的研究范式。學者通過雇傭拍照、照片誘導等方法探討旅游景觀及旅游體驗,肯定了照片的敘事價值及其實證意義。而在Web 2.0 時代,越來越多的游客選擇將照片上傳至網絡,基于用戶生成圖像的大數據運用將為旅游發展決策提供更加精準的支撐。通過馬蜂窩、攜程、新浪微博、TripAdvisor、Instagram、Flickr、Panoramio等旅游及社交網站,學者可以抓取公眾在旅行過程中的拍攝對象、照片數量、數字足跡,為行為預測、產品設計、形象管理等相關研究及決策提供證據。這一趨勢使得網絡照片分析逐漸成為當下旅游研究的熱點之一。
攝影從專業向大眾的推廣并非意味著其在行業運用的衰微。從20 世紀70 年代以來,圖像就一直扮演著景觀的代言者,成為旅游地景觀質量評估的主要媒介。學者通過特定方法采集旅游地圖像,通過對內容的解構與分類歸納旅游資源的視覺景觀特征;或者邀請公眾對照片展開量表式的評價,依照評分的統計學特征來定義其反饋的景觀美學質量。如美國一系列環境資源保護法案催生的森林視覺管理系統、視覺資源管理、風景資源管理等,利用專家或公眾對景觀照片的評價實現資源質量的測評。21 世紀后,伴隨著衛星遙感和無人機遙感技術的發展、全景拍攝與街景數據的涌現,照片拍攝的角度、方法、形式也變得更為多元,為基于專業圖像的旅游資源評價提供了更加全面的支撐。即便在近年來數字三維模型和虛擬現實技術的沖擊下,照片仍然以其便利、靈活、普適等優勢在景觀評價中占據著不可取代的地位。
雖然照片附帶的地理信息或文字標簽同樣蘊含著富有價值的信息,但相較之下,直觀的圖像內容才是照片敘事的主體,是旅游者關注的重點。無論是用戶生成或者專業拍攝,內容分析均是旅游圖像研究的一大主流方法。然而結合以往研究來看,該方法的進展存在兩大瓶頸:一是分析過程依賴手動編碼,限制了分析數據的總量。利用質性分析軟件NVivo對用戶生成圖像進行編碼是照片內容分析的常用方法,研究者通過手動勾勒、模糊判斷單張旅游照片的拍攝對象來析出初始節點,在所有照片編碼結束后厘清各節點之間的樹狀關系,并依據節點的統計學特征得出結論。然而由于編碼過程需要耗費大量精力,樣本數量往往受到限制,弱化了網絡照片大數據分析的價值意義。二是分析內容局限于拍攝對象的分類,造成了可用信息的浪費。通常的照片內容分析往往只提取拍攝對象(如天空、森林、建筑等)所出現的頻率。然而作為視覺景觀的表征,照片內容所攜帶的信息遠遠不止對象,還包括各景觀要素的比例、空間、輪廓、色彩等內容。于公眾發布的網絡照片而言,這些內容是不同游客旅游凝視形成的動因;于專業的圖像采集而言,這些內容則是深入測度旅游資源景觀質量的依據。
針對上述瓶頸,近來在計算機視覺領域快速發展的圖像分割技術也許是實現突破的一個途徑。該技術使計算機可以根據圖像的真實語義對照片進行分割,實現對視覺媒體的精準計算,進而深化照片內容分析的量化水平,提升圖像大數據分析的可行性。本文梳理了圖像分割技術的運用原理和操作方法,并通過兩個實證研究討論該技術在旅游領域的運用前景,嘗試為旅游圖像的內容分析提供新型智能工具,支撐旅游地景觀與形象的智慧化管理。
圖像分割是目標識別的基礎,其概念自提出以來就成為計算機視覺研究的熱點話題。20 世紀60年代以來,圖像分割開始被運用于肺部疾病檢查、白細胞分類、癌細胞檢測、染色體核型分析等,在生物醫學領域表現出了突出的應用價值,因而受到了較為廣泛的關注,并誕生了各種各樣針對不同應用途徑的分割算法。發展至今,圖像分割的不同算法數以千計,其運用也早已突破醫學影像分析,在遙感影像分析、氣象觀測、人臉識別、自動駕駛等多個領域表現出了廣闊的前景,帶領當代科技逐步邁入人工智能時代,同時也為智慧旅游提供了技術保障。
在概念定義上,圖像分割即按照一定相似性原則將數字圖像劃分為若干互不重疊的區域,使每個區域內部表現出同質性特征的圖像處理過程。其數學定義為:集合表示完整圖像區域,利用算法將分割為個不相交的、相互連通的非空子集,,…,R,()· 為判斷分割區域之間同質性的邏輯謂詞(即分割算法),則

在技術發展初期,圖像分割的算法主要包括閾值法、邊緣檢測法、區域法等,這些方法多基于圖像灰度信息對同類像素進行分組,進而實現圖像的分割。此類方法原理較為直觀,并在20世紀末計算機性能普遍不高的背景下取得了較好的成效。然而隨著圖像分割運用領域的拓展,所處理的圖像場景更加復雜,對分割精度的要求也更加嚴格,促使分割算法的開發在21世紀時取得了一些突破性的進展。2003年,Ren和Malik提出“超像素”概念,開啟了圖像處理超像素分割的新里程。超像素指具有相似特征的相鄰像素所組成的圖像塊。傳統圖像分割的基本單元是像素,其本質為計算機讀取信息的數字矩陣,并非是真實世界的存在,而超像素則通過相似相鄰像素的整合來生成“人眼興趣尺度”(scale of interest)的區域,反映人體視覺系統下的真實對象。因而,基于超像素的圖像分割相比基于像素的圖像分割而言,更能夠產出更加符合人類感知的結果,也使得通過圖像分割解譯旅游照片成為可能。此后,學者基于圖論或聚類思想,進一步開發出了Normalized Cuts、Superpixel Lattice、Mean Shift、SLIC 等算法,利用超像素分割執行遙感地物信息提取、人體姿勢估計、目標識別與追蹤等各類計算機視覺任務。最近10余年來,人工神經網絡的發展則為圖像分割的進步提供了更多支撐。從深度學習的提出,到卷積神經網絡(convolutional neural networks,CNN)和全卷積神經網絡(fully convolutional networks,FCN)的運用,圖像的語義分割由此獲得了階段性的進展。語義分割指在像素級別上實現圖像的分割與分類,使每一個像素獲得一個對應的語義標簽,進而區別出圖像中的各個像素是屬于建筑、樹木或人等自然對象。基于深度學習網絡,計算機可以自動學習、分析具有相同語義圖像的像素特征,進而獲取更高精度的判斷,甚至可以實現實例分割、全景分割、三維分割等更加復雜的運算。
于旅游研究而言,當代的圖像分割技術為照片內容分析提供了新的支持,使其可以突破傳統分析手段所面臨的瓶頸。一方面,大量簡單、重復的分析過程可以交由計算機完成,使照片內容分析走向大數據時代。旅游照片表達了真實而復雜的圖像場景,一張照片中包含了不同對象的類型、尺度或透視,然而當代的圖像分割技術已經可以實現在無監督或弱監督情況下對照片內容進行解構,使照片中的所有信息都能被納入分析的范圍之中,在解放人工投入的同時,又實現研究資料的最大化利用。另一方面,圖像分割的運用可以從照片中提取更多的量化信息,拓展了實證研究的深度。傳統的照片內容分析雖可通過人眼輕松識別圖像中的對象類別,但卻難以通過數字化標準精確捕捉對象的色彩、輪廓、面積等特征,而這些特征則是考察游客凝視對象、旅游地天際線、旅游色彩感知、旅游景觀質量的數據來源,對基于用戶生成圖像的旅游者研究,或者基于專業圖像采集的旅游景觀評價而言,均表現出了突出的資料價值。
除了引領照片內容分析走出瓶頸外,圖像分割技術的運用將會是旅游大數據分析邁向全新階段的標志。近10年來,大數據分析的興起使旅游照片研究發生了相應的轉變,照片“元數據”分析,即利用照片附帶的4 類信息——用戶信息(照片或用戶ID)、時間信息(拍攝時間及上傳時間)、地理信息(拍攝地點與上傳地點)和文本信息(標題、描述、標簽)開展的研究,為游客感知與行為研究提供了新思路。相較圖像內容,元數據分析更關注照片背后客觀的時空信息及主觀的文字評論。而在最近3年內新型圖像處理技術逐步投入使用的背景下,旅游照片大數據分析也開始出現了由元數據信息向圖像內容發展的萌芽。例如鄧寧等利用基于CNN開發的“DeepSentiBank”實現圖像內容的情感分析,討論了旅游者對北京目的地形象的感知差異;范夢余等在考察內蒙古視覺旅游形象時也使用了類似的方法;張坤等則利用深度學習模型對照片進行了場景統計,結合元數據分析討論了北京入境游客的感知與行為。上述研究顯示,深度學習與計算機視覺在旅游大數據分析中逐漸開始扮演著重要的角色。在旅游圖像分析中,真實對象的成分數據將成為照片元數據以外的另一大重要內容。而圖像分割作為提取對象成分的重要途徑,有望成為未來圖像內容分析的主流智能工具。對此,本文歸納了兩種旅游圖像的分割方法,并結合兩個實證案例討論其具體的運用途徑。技術框架如圖1所示。

圖1 基于圖像分割的旅游圖像內容分析技術框架Fig.1 Technical framework of image segmentation-based method for tourist image content analysis
雖然當前計算機視覺領域普遍將基于深度學習的圖像分割稱作語義分割,但嚴格地講,超像素分割也是基于圖像語義的分割,它與深度學習的語義分割的區別在于,超像素分割依托圖像的中級語義,語義分割則依托高級語義。由于深度學習技術的出現,圖像的語義被劃分為低級、中級與高級。其中,低級指像素的灰度信息,中級指像素塊的緊湊度、對比度、粗糙度、形狀因子等,高級指真實對象的類別。雖然超像素分割不能像語義分割那樣直接反饋對象的類型,但其分割結果已經能夠將圖像中的不同對象區別開來。相較于語義分割,超像素分割的優勢在于不需要讓計算機事前學習真實對象的像素特征,通過靈活調整中級語義參數獲取理想的分割結果,適用于不同尺度和視角的圖像,操作程序相對簡單;缺點是每張圖片的分析需要少量的人工干預,不能完全實現智能化的分析流程。
Achanta等提出的“簡單線性迭代聚類”(simple linear iterative clustering,SLIC)是目前性能較為優越的超像素分割算法,該算法可對生成的超像素數量進行控制,且相比其他算法而言,在處理時間、邊緣召回率、欠分割錯誤率上都有著較好的表現。2013 年,Kovesi 提出利用SLIC 生成超像素,在通過基于密度的聚類算法DBSCAN 實現對超像素的聚類,以此更加簡潔、快速地獲取分割結果;與此同時,Kovesi還于其個人網站給出了算法的MATLAB代碼,研究者可利用MATLAB 直接實現照片的超像素分割,僅需要設置如下幾個參數:超像素數量(名義上的生成數量,若參數過小,實際生成數量將略大于設定值)、色彩-空間差異權重(參數越大,超像素的邊緣將越規整和平滑)、分割半徑(形態上小于參數設置的像素將被合并)、色彩中心計算方式(根據超像素色彩均值或中值計算)等,經過幾輪調整確定理想的參數值,即可直接生成基于真實對象的分割結果,作為照片內容分析的依據。然而,由于SLIC 的超像素分割并沒有針對大眾用戶進行開發,其結果的反饋和調整均需要借助一定的計算機語言知識,因而在一定程度上阻礙了其在旅游圖像內容分析方面的運用。相較而言,同樣可以生成超像素分割結果的商業化軟件易康(eCognition)則對一般用戶表現出了較好的操作性。
易康是德國Trimble 公司旗下的遙感數據分析軟件,該軟件以面向對象的影像分析實現對真實的物的分類,在旅游照片的分割上也有著出色的表現。易康為不具備編程知識的用戶提供了友好的操作界面,使用者可利用軟件對照片進行多尺度分割,以異質性最小的區域合并算法,自下而上地對像素進行聚類,最終生成真實對象的超像素。主要步驟如下:(1)建立算法,導入待分析照片,于進程樹中新建多尺度分割算法,于執行領域中選擇像素級;(2)參數初設,對尺度參數(控制所生成超像素的大小,需根據照片分辨率和真實對象的大小設置)、形狀參數(色彩與形狀之間的權重參數,控制生成結果對色彩或形狀的參考度)、緊湊度(緊湊度與平滑度之間的權重參數,控制生成超像素邊緣的緊湊或平滑程度)、圖層權重(R/G/B 3 個通道的權重參數,控制生成結果對各通道的依賴度)進行設置;(3)參數調整,利用初設參數執行運算,并根據結果對參數進行調整,必要時也可通過手動操作對相同語義的超像素進行合并;(4)結果反饋,于圖像對象信息中選擇需要展示的超像素屬性,以提取分割后對象的面積、形狀、色彩等特征。
超像素的分割結果展示了照片中不同對象的邊界,再通過人工識別各對象所指代的現實含義后,即可實現對旅游圖像內容的量化分析。事實上,在生成超像素分割結果后,研究人員可通過機器學習的途徑,基于同類對象的圖像特征建立算法,進一步實現對超像素的分類,最終實現對圖像高級語義的提取。然而在現實情況下,即便同一類型的對象(如建筑),其形狀、色彩、紋理等圖像特征也各不相同,加之游客拍照時的角度、方位、光線等因素也存在差異,為算法建立的復雜性和分割結果的準確性帶來了巨大挑戰。而自深度學習提出后,研究人員僅需提供大量相應語義標簽的訓練樣本,計算機即可自動學習該類圖像的像素特征,生成涵蓋不同語義標簽的數據集,最終實現基于高級語義的圖像分割與識別。
正所謂“無數據不AI,無人工不智能”,利用深度學習的語義分割對圖像內容進行分析,其最大的阻礙在于需要大量訓練樣本,且樣本的處理需要耗費大量人工。幸而歷經最近幾年的發展,來自世界各地的企業、研究機構已經開發出了一些成熟的端到端開源深度學習平臺,集深度學習核心訓練框架、基礎模型庫、開源數據集于一體,比如谷歌的TensorFlow、亞馬遜的MXNet、百度的飛漿等,這些生態完備的平臺使開發者能夠輕松地構建和部署深度學習任務。對圖像語義分割而言,自2014年FCN網絡將端到端、像素級的預測效果推廣到語義分割以來,語義分割模型在采樣方式和架構上不斷優化,SegNet 模型的反池化采樣(unpooling)設計、DeepLab v1 模型的空洞卷積(dilated convolutions)操作,使圖像分割的結果愈發接近于人的視覺判斷。目前該系列最先進的DeepLab v3+模型于2018年發布,更為精細的分割效果為旅游圖像的量化分析提供了支撐。研究可借助模型對數據集進行擬合、訓練、驗證,以達到理想的數據分割效果,使用不同的數據集即可完成不同領域內的分割任務。目前,常用的數據集包括PASCAL VOC、Cityscapes、ADE20K、KITTI等,其中,部分數據集的使用場景與旅游環境具有較好的耦合關系,可直接運用于旅游圖像的內容分析。
語義分割的操作需要一些基礎的計算機語言知識。以深度學習平臺MxNet為例,研究者可直接調用數據集和預訓練模型來實現旅游照片的語義分割,主要步驟如下:(1)環境搭建,編寫Python 代碼,安裝GluonCV Toolkit 視覺庫,導入PIL 圖像處理模塊和numpy數值計數模塊,為圖像分割與數值化處理做準備;(2)模型調用與圖像導入,在模型庫中選擇分割精度與運算效率適宜的模型,以及標簽類別足夠覆蓋研究對象的數據集,調節參數后導入待分析圖像;(3)標簽預測,將不同景觀要素的類型視為不同標簽,根據調用參數建立預測算法,利用PIL模塊對語義分割預測結果生成區分不同標簽類型的彩色分割圖;(4)結果反饋,利用PIL 模塊可以對圖像原本的色彩進行提取,Numpy模塊遍歷各個標簽像素的大小,即可完成圖像內容的數值化分析,提取標簽的數量、尺度、面積、形狀等信息。
本節以云南沙溪為例,利用超像素分割考察公眾旅游審美的生成。沙溪古鎮位于云南省大理州劍川縣,具有世界建筑遺產、國家級歷史文化名鎮、國家4A級旅游景區、云南旅游名鎮等多項頭銜,是以傳統聚落景觀為代表性資源的旅游地。沙溪古鎮的網絡照片不僅記錄著當地的旅游形象,照片的生產過程更暗含著旅游學驅動下傳統聚落景觀的審美規律。研究利用Python 爬取馬蜂窩網站中游客上傳的關于沙溪古鎮的照片,將重復及拍攝地點不在案例地范圍的剔除,最終獲取有效照片3316張。根據上文介紹的方法,利用易康Developer 9.0對網絡照片進行超像素分割(圖2)。

圖2 超像素分割的操作過程Fig.2 Procudures of superpixel segmentation
利用超像素分割,研究者不僅可以實現游客景觀偏好類型的內容分析,更可進一步結合指標體系的建構,討論旅游審美的生成機制。每一張照片的拍攝均意味著一次旅游凝視的獨立完成,而照片中各對象所占據的比例則表明其于凝視形成的重要性。因此,研究者可據對象反饋出的旅游學屬性及其重要性特征實現對照片內容的深層分析。由于旅游審美是對復雜對象的綜合性判斷,不同因素對審美選擇的影響往往難以解構。因此在沙溪古鎮的案例中,筆者按照旅游資源(客體)、旅游業(介體)、旅游者(主體)的邏輯關系建立了“資源依附、商品價值、服務對象”的三維指標,以照片中各對象所占據的圖幅比例為權重(若照片為特寫,則其對象權重視為1),考察沙溪旅游審美的生成機理,依托數據結果分別析出資源、商品和服務對游客審美選擇的影響力(圖3)。

圖3 基于超像素分割的旅游審美分析示例Fig.3 Example of tourist aesthetic analysis based on superpixel segmentation
據圖4 的分割結果,沙溪旅游照片中記錄的對象包括建筑物、院落空間、室內環境、裝飾物、街巷、廣場、橋梁、標識物、功能設施、植物、動物、山脈、天空、水體、農田、食物、工藝品、人文活動、游客、居民共20 個類型。建筑物、天空、植物在單張照片中出現的比率為35.11%、15.72%、13.95%,構成了沙溪旅游意象的主體,其中,建筑物則是沙溪旅游景觀最突出的核心。據評價結果,案例地單張旅游照片的總評分為1.47(滿分6分),說明總體而言,照片中景觀的旅游學屬性并不突出。通過考察各指標的數據特征發現,有65.00%的拍攝對象與當地旅游資源直接相關,服務設施與旅游商品僅有21.62%和13.38%的可能性吸引游客的關注。研究還發現,雖然評分數據分布并未呈現出嚴格的正態特征,但評分在1 至2 分區間的個案數量最多(1417 張),左右兩側數量呈遞減趨勢。該結果反映出,相較于完全原真(分值較低)或過度開發(分值較高)的旅游景觀而言,具有適當旅游屬性的景觀才是多數人的審美選擇。以上數據說明,基本的資源宣傳、設施服務和商品銷售仍然在一定范圍內對旅游形象的塑造產生積極作用。為實現開發與原真之間的平衡,管理者可以通過搜集不同時期游客上傳的照片,結合超像素分割技術,開展對游客景觀感知的定期監測,以實現旅游地形象的動態管理。

圖4 案例地旅游審美的結構特征Fig.4 The composition of tourist aesthetics in the case study
本節以云南怒江為例,利用語義分割考察旅游風景道的視覺景觀質量。怒江美麗公路(國道G219丙中洛至六庫),是全國“旅游+交通”新型融合發展舉措的實踐探索,也是《云南省美麗公路旅游線規劃》及“大滇西旅游環線”的重要組成。該風景道全長約280 km,穿越了橫斷山脈南部V形深切峽谷及傈僳族、怒族、獨龍族等少數民族聚居地。過往研究中,學者通過等距離專家組目視的方法來完成風景道景觀質量的測評,其結果無法避免地受到評價者的主觀影響。而借助語義分割、全景拍攝及雙眼視覺學理論,風景道景觀質量的測度方法將更為科學、客觀,其結果對風景道線路布局與定位、景觀資源開發和保育等更具指導意義。
為采集風景道休閑駕駛過程中人眼的視覺景觀信息,研究利用全景相機對案例線路進行等距離(1 km)拍攝,并通過Adobe Photoshop對照片進行畸變校正,隨后根據相機視場角(field of view,FOV)和雙眼視域范圍對照片數據進行裁切,生成雙眼視域下的風景道景觀照片。按上文介紹的語義分割方法,在模型調用步驟選擇適合道路場景、具有較好精度的ADE20K 數據集和DeepLab V3+ResNeSt-269預訓練模型,對采集、合成的風景道視域圖像進行分析(圖5)。為實現對風景道景觀質量的進一步解譯,研究基于遍歷視域圖像后獲取的各景觀要素面積比率,構建非量表式的語義差異指標,從“自然-人工”(naturalness-artificiality,NA)、“多樣-統一”(diversity-coherence,DC)、“開闊-幽深”(opennessdeepness,OD)3組語義差異概念解讀案例地的視覺景觀質量。

圖5 語義分割的操作過程Fig.5 Procedures of semantic segmentation
語義分割結果表明(圖6),休閑駕駛過程中,怒江美麗公路的視覺景觀要素包含喬木、草本、灌木、建筑、水體、天空、道路、裸土地面、山體、圍欄、標識、墻體、汽車共13個類型。全路段平均來看,道路所占視域面積最大,為38.26%,除此之外,天空、山體、喬木分別占比23.65%、19.94%以及10.09%,構成了視覺景觀的主要成分。在此數值基礎上,進一步對建構的3組指標進行計算,以1和0分別代表語義差異概念的兩個極值、0.5 為兩個概念的臨界點,得出案例地NA 值0.8922、DC 值0.2731、OD 值0.6192,說明其視覺景觀表現出“高度自然、較為統一、略微開闊”的總體特征。若按行駛路徑將圖像數據串聯起來進行整體研究,可以發現案例地NA值相對穩定,而DC和OD 則頻繁變化(圖7)。上述結果為怒江美麗公路的管理帶來一些啟示。一方面,作為穿越峽谷的風景道,案例地“略微開闊”的評價結果尚未較好地展現出峽谷資源的幽深特征。結合景觀要素的占比數據可發現,道路兩側的山體比重并不低,但由于道路改造工程,路側喬木比重略少,導致了道路景觀向開闊特征發展。因此在后續維護中,管理方應當注重路側喬木的保育,突出峽谷道路的幽深特征。另一方面,景觀質量的變化不僅可以豐富休閑駕駛的體驗,而且更有助于緩解駕駛者的視覺疲勞。而如圖6 所示,案例地雖然穿越了貢山、福貢、瀘水3 個區域,但各路段景觀質量未能體現出規律性的變化,缺乏相應的主題性。因此,各路段的管理方應當注重路段特色的挖掘,賦予怒江美麗公路律動變化的視覺體驗。

圖6 基于語義分割的景觀質量評價示例Fig.6 Example of landscape quality evaluation based on semantic segmentation

圖7 案例地景觀質量的動態變化Fig.7 The trajectory of landscape quality in the case study
本文介紹了圖像分割技術的原理,以及兩種具體的分割方法——超像素分割和語義分割,并通過兩個實證案例來討論不同分割技術的適用范圍,具體結論如下(圖8)。

圖8 兩種分割方式的技術路徑對比Fig.8 Technical path comparison of two segmentation methods
(1)超像素分割根據圖像紋理、色彩、形狀、緊湊度等指標構建同質性原則,并根據原則對鄰近像素進行分類與合并,將中級語義上升至高級,實現真實對象的分割。其分割結果并不能確定各對象的類別名義,需要人工參與判斷,因而較難實現圖像的批量處理。但由于人工參與鑒別時可根據實際情況對分割結果及其同質性原則進行調整,故適用于任意景類和視角的圖像,是網絡旅游照片分析的重要工具。
(2)語義分割基于人工神經網絡,通過對訓練樣本的深度學習,進而直接根據圖像的高級語義實現像素級別的分割,最終呈現的結果包含真實對象的輪廓與類別。由于不需要人工介入,因而可實現批量處理,更加符合大數據分析的需求。然而,語義分割的運用依賴深度學習的數據集,因而其適用范圍受既有數據集的限制。雖然研究者可以根據實際需要自定義添加訓練類別,但需要花費大量精力制作訓練樣本。因而,語義分割更適合于場景或視點相對固定的專業圖像分析。
結合當前技術發展的現實情況來看,雖然語義分割為照片內容分析帶來了更多便利,但在不考慮自主訓練、僅利用既有開源數據集的情況下,該方法尚不能勝任滿目琳瑯的旅游視覺分析。因而,語義分割與超像素分割相結合的方法構成了一個相對理想的選擇。研究者先利用語義分割對照片數據進行批量處理,隨后針對超出數據集適用范圍或分割效果不理想的個案進行超像素分割,最終實現基于圖像分割的照片內容分析。然而,由于深度學習的語義分割在算法上直接模擬人類大腦對視覺信息的處理,更加符合由旅游圖像還原人腦視覺思維的分析初衷,其運用更具前景。
網絡視覺媒體的流行以及行業應用的拓展創造了一個圖像數據爆炸的時代。在這一時期,基于標簽、足跡的旅游大數據將旅游行為視為字符串、點坐標,弱化了主體感知與決策的真實情境,為旅游數據分析帶來了潛在的危機。作為回應,研究的方法論需要實現由數據量積累向數據深度挖掘的轉向。相較于旅游照片的元數據分析,基于圖像分割的內容分析特點在于緊扣照片所敘述的視覺世界,從對象的類別、屬性、組合等方面考察旅游者對景觀的凝視。當代圖像分割技術可以實現對真實對象的分割,并以像素單位計算對象的圖形特征,為圖像內容分析的深化提供了可能。研究者可從數量關系上解構人對旅游地視覺感知的具體組分,首先開展基礎信息提取,包括視覺對象的類型、輪廓、色彩特征,及其在旅游凝視中出現的頻率與視域占比。隨后開展內容分析的進階演算,例如依托用戶生成的網絡照片,根據視覺對象在旅游資源、商品價值、服務對象等方面的表現判斷旅游開發對目的地形象的影響;或利用專業采集的影像資料,根據自然、多樣、開闊等視覺體驗對旅游地景觀質量進行評判。借助該技術,旅游圖像的內容分析不再停留于圖像單元,而是深入至分割后的具體視覺對象,為分析過程提供具體的數據支撐,解決以往旅游形象感知及景觀評價方法的主觀性與深入性問題。該技術的引入使旅游地管理機構可通過不同時期旅游圖像的搜集采集,實現旅游形象與景觀質量的監測監管,通過視覺數據推動旅游地的智慧化管理。長遠而言,隨著人工智能的發展,圖像數據集的適用范圍將不斷拓展至生活的各個方面,最終覆蓋旅游照片中的不同對象,而諸如全景分割、實例分割等本文暫未涉及的前沿方法也將逐漸體現出其強大的應用價值。屆時,圖像分割有望成為分析旅游圖像數據的重要智能工具,借助數據決策賦能未來旅游事業的發展。