從數(shù)據(jù)科學的角度出發(fā),信息化時代不存在嚴格意義的數(shù)據(jù)治理,信息化時代的主要特征是數(shù)字化,即將現(xiàn)實世界進行數(shù)字化的描述,采用人工錄入或者傳感器感知的方式對現(xiàn)實世界進行參數(shù)化記錄。記錄下來的各類參數(shù),利用管理人員的各類現(xiàn)有經(jīng)驗,整理出數(shù)據(jù)處理的邏輯,進行程序編寫,完成對信息的處理。
數(shù)據(jù)治理和傳統(tǒng)信息處理模式的根本區(qū)別
傳統(tǒng)信息處理模式幾乎完全依賴人類的現(xiàn)有經(jīng)驗進行信息處理,對于人類經(jīng)驗并沒有覆蓋的領域,就只能利用窮舉的方法來進行處理。而窮舉的方法,只適用于條件簡單的小范圍領域,例如下象棋,棋盤很小,棋子的可選落點很有限,因此能夠使用窮舉來完成。而對于圍棋這種19X19的自由落點,其走法的窮舉將超越整個宇宙的質子總數(shù)。因此,傳統(tǒng)的信息處理無法應對這種應用,直到機器學習成熟,才能夠實現(xiàn)擊敗人類冠軍的AlphaGo而機器學習,則是數(shù)據(jù)治理中的一個重要環(huán)節(jié),機器擊敗了人類冠軍,其實是數(shù)據(jù)治理對于依賴人類經(jīng)驗的信息處理模式的超越和替代。因此,我們可以明顯的看出,數(shù)據(jù)治理和傳統(tǒng)信息處理模式的根本區(qū)別:
傳統(tǒng)信息處理:依賴人類現(xiàn)有經(jīng)驗并進行有限演化,形成信息處理邏輯并通過編程實現(xiàn)輸入和輸出。
數(shù)據(jù)治理:僅僅依賴數(shù)據(jù)本身,通過數(shù)據(jù)本身的特征,自適應的演化處理邏輯,自適應的實現(xiàn)輸入和輸出(輸入輸出也是數(shù)據(jù)處理邏輯之一)。
這兩種模式的直接結果就是:傳統(tǒng)信息處理只能在人現(xiàn)有的經(jīng)驗基礎上做得更快更準確;數(shù)據(jù)治理則可以向人提供全新的“經(jīng)驗”。
旅游領域中的人工智能探索
在旅游領域,存在著海量的數(shù)據(jù),這些數(shù)據(jù)多數(shù)是人工錄入,處理邏輯多數(shù)是統(tǒng)計和簡單分析,這種級別的信息處理僅僅能應對簡單事件。而游客、管理人員、從業(yè)人員的近乎開放型的咨詢和事務辦理,則是一種可能性遠遠超過圍棋數(shù)量的大自由維度信息處理。因此,旅游行業(yè)的咨詢、非常規(guī)事務辦理始終無法脫離人的主觀處理。而人主觀處理的最大問題就是,因為責任心不同、經(jīng)驗不同、工作態(tài)度不同,其處理結果天差地別。
基于上述考量,浙江省旅游信息中心有限公司對浙江省旅游數(shù)據(jù)的綜合管理和應用制定了高起點高標準的要求,從建立之初就要求是在真正的數(shù)據(jù)治理體系之上,以便人工智能應用能夠快速落地,服務全省旅游管理者、從業(yè)者和游客。在考察了國內眾多人工智能領域公司之后,選擇了廈門杜若科技公司的研發(fā)團隊對浙江省旅游度假區(qū)信息的數(shù)據(jù)治理進行試點。廈門杜若的研發(fā)總監(jiān)唐娜博士(曾是大數(shù)據(jù)和人工智能領域公認的世界級公司的首席技術經(jīng)理)和她的團隊已經(jīng)初步形成并發(fā)展了完全自主知識產權的基于人工智能的數(shù)據(jù)治理產品線,覆蓋了數(shù)據(jù)治理全生命周期的所有必要環(huán)節(jié)。該公司目前已經(jīng)申請數(shù)據(jù)治理體系相關發(fā)明專利58項,已獲得授權24項,實審中26項,申請實用新型專利37項,獲得授權26項。浙江省旅游信息中心對浙江省旅游數(shù)據(jù)治理的試點首先從《浙江省旅游度假區(qū)信息管理系統(tǒng)》入手,將系統(tǒng)中結構化的數(shù)據(jù),以無障礙大數(shù)據(jù)采集的技術實現(xiàn)解構,形成自由格式的大數(shù)據(jù),在這些數(shù)據(jù)基礎上,通過開放式的訓練,完成初步數(shù)據(jù)治理。
治理的初步結果可實現(xiàn):形成基于自然語言的數(shù)據(jù)管理,對于《浙江省旅游度假區(qū)信息管理系統(tǒng)》中有記錄的所有數(shù)據(jù),各級管理人員均可以自然語言對話的方式進行任意查詢(界面類似微信的一問一答),數(shù)據(jù)治理系統(tǒng)會根據(jù)各級人員的權限和身份,以及過往查詢的歷史和習慣進行針對性的回答。簡單地說,就讓人工智能系統(tǒng)認識你,并且記住你的各種習慣和特點,針對和你交流的全部經(jīng)歷來回答你的提問,并且會將它與所有人交流的經(jīng)驗也作為數(shù)據(jù)進行治理,從而,使用它的人群越大、人群種類越復雜,它就越聰明,就像人的閱歷越豐富,交流的時候溝通越暢通。
同時,逐步形成自學習的數(shù)據(jù)治理模式,對于《浙江省旅游度假區(qū)信息管理系統(tǒng)》中的所有數(shù)據(jù),任何人除了查詢之外的應用模式,可以用文字以自然語言對話的方式“教會”人工智能系統(tǒng),例如對哪幾個指標進行怎樣的加工處理和比對,某些指標達到多少時應當做什么樣的事情來主動應對等等。隨著系統(tǒng)學習的應用模式越來越多,系統(tǒng)將可以逐步區(qū)分《浙江省旅游度假區(qū)信息管理系統(tǒng)》中記錄的哪些數(shù)據(jù)存在不合理(例如假數(shù)據(jù)),哪些景區(qū)或者度假區(qū)有多大的概率出現(xiàn)什么樣的事件等等。
隨著浙江省旅游信息數(shù)據(jù)治理的逐步推進,浙江省旅游信息中心會將更多系統(tǒng)的數(shù)據(jù)納入人工智能系統(tǒng),通過更多用戶從更多維度向系統(tǒng)提供更多的規(guī)則數(shù)據(jù)(教會系統(tǒng)應用模式就是在向系統(tǒng)提供規(guī)則數(shù)據(jù))在達到一定基礎量的時候,系統(tǒng)將能夠從互聯(lián)網(wǎng)、專業(yè)文獻庫中自動檢索數(shù)據(jù),并根據(jù)數(shù)據(jù)質量主動納入大數(shù)據(jù)庫,從而實現(xiàn)更高級別的數(shù)據(jù)治理。浙江旅游信息中心攜手廈門杜若科技探索的目標是:在旅游領域,培訓出具有旅游行為綜合分析能力超越人類極限的的人工智能系統(tǒng),協(xié)助做好管理旅游的同時,做到以游客為本、唯服務至上,為所有來浙江的游客提供最適合個體需求的旅游新體驗。
(作者單位: 浙江旅游信息中心有限公司)