施 爍
(北京中電普華信息技術有限公司,北京 100089)
物聯網利用激光掃描器、GPRS 定位系統、紅外線感應器、射頻識別等設備,通過互聯網和實體連接起來交換信息和通訊,最終實現智能識別、定位、監管、跟蹤和管理。物聯網技術被廣泛應用于人們的生產生活中,各行各業都離不開物聯網,不同類型的數據可通過傳感器節點進行交流和通訊。隨著物聯網技術的不斷發展,產生的數據也越來越多,這些數據里蘊藏著巨大的、有用的價值,挖掘與分析這些有用的價值對人類社會的發展進步有重大意義。
物聯網存在的意義是使得人們的生產生活更加智能化,而數據背后的價值可被挖掘出來并得以有效分析是智能化應用的基礎,也是衡量物聯網是否智能化的標準之一。物聯網數據的特點主要有以下幾點:
(1)異構性和海量性。物聯網中的各類傳感器和數據均被存儲于不同的數據庫中,物聯網的誕生方式也決定了它的異構性,而且這些數據不僅包含了二維結構化數據,也包含了圖像、視頻、文檔等非結構化數據,該類數據不能通過二維方式表達出來。物聯網中包含了海量數據節點和傳感器,每天產生的數據量龐大。
(2)分布式存儲特性。要進行數據挖掘,首先要存儲數據,由于物聯網的異構性,決定了數據的分布式存儲。與以往的數據存儲方式不同,分布式存儲將數據分散的存儲于不同的網絡節點形成虛擬的存儲器。分布式存儲使得不同地域、網絡間的數據交換和共享成為可能。
數字圖書館的框架由感知層、數據層、數據挖掘層和應用層組成。
(1)感知層。感知層中大量的傳感器節點用于數據采集,還有大量的虛擬化資源。
(2)傳輸層。傳輸層為了實現圖書館中人和人、人和物、物和物之間的全面聯系、交流互通,而將移動網絡、局域網絡、物聯網、無線網之間進行融合,構建安全、暢通、可靠的傳輸通道。
(3)數據層和數據挖掘層。數據層利用數據轉換模塊將非結構數據和異構數據轉換并進行分布式存儲,既解決了異構數據,又保證數據存儲的完整性。物聯網數據不僅具有一般數據的特性,在此基礎上在有時間性、復雜性、空間性等性質,可將現實的空間時間反應出來。數據挖掘層是圖書館的核心框架之一,可提供數據挖掘的云計算服務和數據并行化技術等,可進行數據的轉換和清洗等工作。數據挖據層還可實現數據的關系、分類、聚集同類數據、發現異常等。
(4)應用層。該功能實現人機交互,如用戶注冊、識別、展示服務結果等。
以物聯網為基礎的數字圖書館讓文獻與人、文獻與文獻之間相互聯系。大量用戶信息蘊藏在圖書館的系統之中,比如用戶的借閱記錄、個人信息等,通過對這些數據進行挖掘并分析,可得出該用戶的個性信息。數據挖掘在數字圖書館中的應用體現在針對個人的個性化服務、優化館藏信息和分類布局等。
(1)優化館藏信息與分類。通過挖掘用戶的借閱記錄,將借閱圖書的頻率、目錄、種類總結出來,可得出用戶的借閱習慣和偏好。進而為圖書館的下一步采購和圖書布局分類提供指導,使得館藏資源的布局達到最優,更好的服務于人們。
(2)個性化服務。根據用戶的瀏覽歷史記錄和興趣可定制個性化服務與推介,通過向用戶的手機APP 或者其他交流平臺推送相關內容,這樣可以保證用戶以最快的速度獲取最新的、最相關的第一手資料。實現個性化服務技術的關鍵:①以用戶特征為基礎建立模型。既然是個性化,就要以用戶自身的需求為出發點,就如同去裁縫店量體裁衣一樣,而和量體裁衣不一樣的是裁縫店的布料是固定的,只能根據顧客的體型做相應的改動。此處的個性化服務首先分析了用戶的興趣愛好、知識背景、工作環境、社會關系、社交層面等,而且它們是動態的,隨時可能變化的,以此為基礎建立模型;②個性化推介。以往在圖書館輸入同一個詞語進行檢索,得出的結果都一樣,由于數據資源太多巨大,找到自己需要的資源非常困難。而挖掘技術的引進,個性化推介引擎的問世,可幫助用戶從大量的數據資源中找到自己想要的內容,信息過載問題迎刃而解。