林艷芳
(中國移動通信集團設計院有限公司重慶分公司,重慶 401121)
物聯網物(Internet of Things,IoT)理實體的數據搜索服務通常根據設備和用戶在任何時間及地點的需求而進行設計。數據質量、搜索延遲、可信任性、可訪問性、可靠性與連續性是影響物聯網實體數據和服務的高效搜索與訪問的關鍵。然而,物聯網的當前數據和服務搜索、發現以及訪問方法與解決方案更適合于小批量、靜態的數據和服務資源。BI Intelligence的數據表明,2015年,物聯網感知設備的數量已超過智能手機、個人電腦,到2020年,其數量將突破240億。IDC預計,到2020年全球物聯網感知設備數量將達到250億。隨著物聯網感知資源的大規模部署,我們將面臨異構性、復雜性以及數據量方面不同的物聯網生態系統。從各種感知資源中有效地發現、排序、選擇、訪問、融合以及對數據和服務產生理解,需要網絡、數據/服務提供商的搜索引擎在適當的時間選擇適當的感知資源。物聯網環境的分布式、規模化、異構性、多樣性、動態性意味著傳統的互聯網文本搜索模式將遠遠不適用于大規模物聯網物理實體信息的搜索。本文闡述了研究強大而全面的物聯網搜索解決方案的一些要求和挑戰。
互聯網早期的信息訪問和檢索主要依靠簡單的功能和方法。早期的搜索引擎基于Unix下的文字查詢功能,但并無排序的機制。其中一些早期的搜索引擎甚至用縮小搜索框的大小以阻止用戶添加更多關鍵字,以便在高峰時間減少服務器的負載(顯然,輸入更多的關鍵字增加了搜索復雜性)。互聯網在過去二十年中取得了長足的進步,盡管目前信息搜索的能力不斷發展,但是一些復雜的方法和解決方案提供了對大量信息進行索引、排序、搜索的能力。新一代的Web搜索引擎專注于信息抽取和個性化定制知識的抽取技術。盡管使用大量背景知識(即知識圖譜)的語義搜索,如瀏覽個性化的廣告第一次可以追溯到2000年,但這種方法也僅僅在過去幾年成為主流。一些由結構化數據和知識圖譜驅動的搜索服務成為互聯網搜索服務商的主營業務。
物聯網演進的下一步是從物理世界中更好地收集并發布多模、多源物理實體信息。這要求機器以對話方式反映用戶的信息需求,或基于情境信息(例如時間,位置和類型),而不是用戶在搜索框中簡單地鍵入關鍵字。原始數據通常也需要從不同的來源集成,并進一步分析以提取信息與知識(而不是呈現原始觀察和測量結果)。圖1展示了物聯網數據發現場景。在圖1中,數據需要在索引/發現服務器上索引并發布,搜索與發現機制應能夠基于情境信息發現物理實體相關數據。
過去,網絡搜索引擎被用于處理和索引網頁信息。現在,搜索引擎可能還需處理海量的物聯網設備產生的數據。在查詢時,描述感知設備提供的數據信息將使搜索引擎能夠找到數據的來源。這樣的數據無法預測,但數據的參數和上下文可以被注冊和索引。例如,索引服務器可以包含有關數據源及其提供者的信息。最近,Schema.org的研究表明:若內容開發人員能夠描述數據的信息,則有助于搜索引擎表征數據并快速匹配用戶查詢。對于物聯網而言,需要研究一個類似的解決方案,除了描述內容(數據)之外,還需要描述數據源的信息(即設備和網絡信息)。使用基于語義Web方法的Linked Open Data可以很好地解決這個問題。W3C的語義傳感器網絡孵化器組及其后續的W3C Web空間數據工作組(www.w3.org/2015/spatial)也在數據的描述方面取得了一些研究成果。

圖1 物聯網數據發現框架
物聯網在感知設備、通信協議以及物理世界實體對象與當前互聯網Web架構的集成方面取得了越來越大的進步。在不久的將來,物聯網將真正成為互聯網的內在延伸。通過使用底層網絡和通信技術,用戶將可以通過互聯網與物理世界實體進行交互。圖2顯示了一個物聯網框架,其中包含各種傳感器設備以及可通過社交媒體和其他應用程序發布的用戶和群智感知信息。數據可以由各種設備(圖中的無線傳感器網絡)以及其他智能設備(圖中的網絡使能設備),應用程序和社交媒體流提供。數據可以由網關和其他中間件組件直接發布或中繼。索引和發現服務將能夠讀取數據提供者的參數和屬性,并創建高效、分布式、可擴展的解決方案,以查找、發現和訪問數據。查詢可由用戶、應用程序和其他需要根據不同標準(如位置、時間)獲取數據的設備發起。
然而,目前的物聯網信息訪問和檢索方法仍處于20世紀90年代后期互聯網文本搜索階段。大規模物聯網的信息檢索基于這樣一種假設:設備和消費者知道信息的來源,以便查找其他相關資源并與之交互。例如,Google的Physical Web項目(http://google.github.io/physical-web)也是基于此假設而設計。Physical Web在自動駕駛、車輛與基礎設施通信等場景中具有極大的應用前景。然而,物聯網系統還需要在環境監測、智慧城市和災難應急等場景中搜索和發現大型分布式網絡中的資源。
最近,研究人員為IoT設備、服務及其數據的(語義)注釋和描述提供了解決方案。然而,大多數這些方法依賴于集中式解決方案和復雜的查詢機制,這些機制阻礙了復雜的物聯網系統的可擴展性及大規模部署與應用的潛力。Shodan(www.shodan.io)和Thingful(http://thingful.net)等一些正在進行中的研究項目為物聯網搜索提供了解決方案。但是,它們主要依賴于集中索引和用戶手動提供數據的元數據信息,這些元數據的描述能力非常有限(如傳感器的位置描述無法依據位置變化而改變)。目前的方法無法解決用戶諸如搜索“北京市的交通傳感器”等搜索問題,并且在搜索語義化方面還有很長的路要走。