王春源 曹民和
?
創新驅動大數據檢索系統的智慧發展
王春源 曹民和
東莞理工學院粵臺產業科技學院
在大數據時代,物聯網、云計算、人工智能等信息新技術不斷進步,這些新技術的連結目標與信息撿索方向大致相同,但產生了信息太多、系統太復雜、成本相對太高、一般人不易切入等問題,因此設計一個新的信息網絡傳播架構來解決這些問題,成為一個重要課題。本研究在互聯網上,以文檔文件為信息主體,并以個人化智能代理人為實施方式,提出一個全自動的信息目錄處理系統,對內是一個可不斷優化的信息檢索智慧工具,對外連結時是一個可與其他系統兼容的可大可小分布式大數據檢索智慧平臺,依靠創新方法來解決大數據時代的信息撿索。
大數據 物聯網 智慧代理人 分布式信息檢索系統
綜觀大數據與信息檢索發展歷史,可說是洋洋大觀。對于信息檢索技術,傳統上有基于XML的搜索引擎,XML以卷標方式處理網頁HTML文件的數據,以卷標當作檢索目標,大幅度縮小了檢索范圍,提高查詢效率[1]。基于CBR(Content-Based Retrieval)處理MPEG-7的多重與分層多媒體的檢索技術,可直接對多媒體內容進行剖析,并采用多種檢索手段,除了對多媒體內容特征進行檢索外,還提供了樣本圖樣進行相似性檢索[2]。基于自然語言檢索(Natural Language Search)技術,以知識庫、信息庫、語義分析、知識管理、知識檢索等工具形成智能搜索方法,為每一搜索提供具人性化特征的準確結果[3-4]。
基于智慧代理人的信息檢索技術[5],智慧代理人具有智能性、代理性、移動性、主動性、協作性等特點,具體表現在:
(1)智慧代理人能在任何時候、任何機器上,代理或引導用戶搜索信息。
(2)智慧代理人能進行機械學習,具有從經驗中不斷學習的能力,適當進行自我調節,提高處理問題能力。
(3)可以根據用戶的行為,了解和掌握用戶的興趣與需求,借由豐富的知識與推理能力,對用戶的需求進行分析,因此可處理復雜、高難度的檢索任務。
(4)理解用戶用自然語言表達出的對信息的需求,在一定程度上消除用戶在輸入檢索關鍵詞的障礙,因此能縮小并精準接近用戶檢索需求。
(5)智慧代理人能在復雜的檢索環境中獨立規劃信息檢索步驟,建立自己的檢索模型,在用戶不參與或不在線的情況下,能獨立、有效、有針對性地發現與檢索用戶需要的信息資源。
(6)可以靈活使用網上各種資源與服務,可與其他智慧代理人合作,或“變身”到其他系統中去“工作”,進行收集數據的任務。
(7)將搜索來的信息整理或包裝成用戶的檔案或服務器中,轉化成可視化資源,讓用戶可以隨時使用這些信息。
(8)可用郵件、網頁或其他方法將整理過的信息推送出去,或提供出來給其他系統,形成一個“數聯網”信息供應點。
隨著大數據的迅速發展,基于Hadoop的分布式海量信息處理模式逐漸形成[6],Hadoop提供一個分布式儲存和計算的軟件框架,具有開源共享、高效率、彈性可擴張的特點,非常適合于海量數據環境。圍繞著Hadoop架構發展出來的知名技術有:Hadoop Common提供Hadoop最底層模塊。HDFS(Hadoop Distributed File System)是Hadoop的基石,提供高吞吐、高容錯、適合在廉價機器上運作的文件系統。YARN是Hadoop的資源協調器,解決資源利用效率低與不能兼容異構等多種問題。MapReduce實現了Hadoop的編程模型,用戶可以通過Java、C++、Python、PHP等多種語言進行編程。Spark對迭代計算很有優勢,改善了MapReduce框架的計算性能。Hbase源于谷歌的Bigtable論文,善于大規模數據的隨機實時讀寫訪問。Zoopkeeper的分布式服務框架解決了系統中數據一致性的問題。Hive將簡單的SQL查詢功能與MapReduce整合,大大降低學習成本與使用門檻。Pig與Hive類似,不同的是提供了查詢用的高層的領域抽象語言,Pig Latin也可將其查詢轉變為MapReduce的作業。Impala自建一個異于MapReduce之框架,定位是OLAP的實時查詢。Mahout是一個機械學習數據挖掘庫,利用MapReduce編程實現了K-means、Native Bayes、Collaborative Filtering等經典機械學系算法。
本研究提出的分布式大數據檢索架構,不同于但設法兼容于現有的Hadoop大數據工具及其他信息檢索技術,有以下幾個特點:
(1)以文本文件目錄為主,基本上不移動信息儲藏位置。
(2)對信息封裝,擁有獨一的流水號,將信息生成時間與其預期生命周期當作信息數據的一部分。
(3)大量使用人工智能處理信息,個人部分在計算機內部進行,系統平臺部分在服務器端處理。
(4)它是一個類似Hadoop的分散系統,不同之處有:①系統處理信息以目錄為主;②以文字形成的目錄為主,形成一個可大可小的分布式系統;③提倡開源精神,使外部信息系統與個人桌上信息系統結合,形成一個動態連鎖搜尋系統。
(5)強調信息時效的使用與供需對接的實現。
(6)與其他系統自動結合。
這些特點或多或少結合了先前人工智能檢索與Hadoop的一些理論與做法,但不同的是,本研究強調開源與簡單處理原則,使大量一般人能參與;強調可大可小原則,不必形成一個網網相通的總系統;強調供需配對原則,加強系統的實用性;強調所有信息在時間與生命周期下有效運作原則;強調智能代理人自動處理原則,尤其包括個人的有效信息整理服務;強調社群服務原則,對一個社群形成自動協作服務的效能。
本研究分別討論分布式大數據檢索程序、檢索文件格式設計、檢索目錄分散處理方式、使用智能代理人配對,最后是結論。
如圖1所示,本研究架構的撿索實施程序,是以個人智能代理人為核心,個人智能代理人對五類主要系統做雙向信息交流,分別是個人桌上電腦、個人手機電腦、個人網頁、個人數據庫、小社群數聯網系統、其他大數據系統。在這個系統,更強調個人有效信息的整理與小社群數聯網系統的架設與使用。小社群數聯網系統形成之后,當然可以與其他小社群數連網整合為較大的數聯網系統,對于同一規范下的系統整合較容易,對于規范不同或版本不同的整合就需要做一轉換,由于整個信息系統是以一種封裝式的方式包裹信息,這種轉換相對容易,由小社群數聯網系統來負責處理,當然也可以由個人智慧代理人處理。圖1中其他大數據系統部分,由于包羅甚廣,包含了許多的物聯網系統,這些系統信息轉換之中會產生許多一致性的問題或其他種種問題,來YARN是Hadoop的資源協調器,解決Hadoop資源利用效率低與不能兼容異構的問題,但是與其他大數據系統不同的是,本研究的信息架構以目錄為主,所有信息產生一獨立代碼,使用信息內處理方式,且能由智慧代理人不斷自動處理,預期可以相當程度地解決這些難題,因此資料檢索文件格式是本研究的重點,下一節對本研究資料檢索文件格式做一較詳細之說明。

圖1 分布式大數據檢索程序
本文研究的資料檢索文件格式有下列特點:
(1)信息分為配對信息與知識信息。配對信息是為協助完成智慧代理人找到最佳合作伙伴設計的,知識信息則不斷提供有時效的信息知識。
(2)信息也分原生信息與整理后信息,原生信息必須注明信息有效時間,或稱之為生命周期,整理后信息需對信息原始來源與時效做一還原處理。
(3)所有信息以目錄為主,因此必須有連結網址,Metadata字段則可適當放入延伸信息。
(4)一筆信息數據根據其原始數據內容的生命周期,產生了自己的生命周期,已過了生命周期的數據,基本上由配對信息轉入知識信息的歷史信息,或加以刪除。
表1為一個檢索文件格式范例。如表1所示,信息目錄儲存是以文字型態儲存,最后面的Metadata信息,基本上放入與連結或搜尋無關,但與該筆資料有關的信息,內容不拘。表中第1筆與第2筆信息為原創信息,第3筆數據為非原創信息,包裹有其他原創信息,可以使用不斷遞迭展開方式取得全部為原創信息的檢索檔,也可不展開但配合其Metadata自行形成一筆有價值的數據。文本文件的儲存型態隨使用語言的不同可以做修改,比如Python語言就可用字典(Dictionary)的型態儲存。有了檢索文件格式之后,下一節就是如何去使用這種格式的目錄文件了。

表1 檢索文檔格式設計表列(1)

表2 檢索文檔格式設計表列(2)
由上一節的數據格式可以看出,本研究主要是通過一個網頁目錄的處理,來完成對大數據信息的處理。由圖1可以看出,信息處理可以分為三部分:個人智慧代理人目錄處理、小社群數聯網系統目錄整合、其他大數據系統聯機目錄轉換,下面分別對這三種處理方式做一說明:
4.1 個人智慧代理人目錄處理
個人智慧代理人的主要任務是從小社群數聯網系統取回目錄數據,自動根據用戶需求整理數據,并且發布。對于連接到的網站,進入其中找出其內容來整理,也是個人智慧代理人的重要工作之一。
4.2 小社群數聯網系統目錄整合
個人智慧代理人原創的信息在這里登綠,小社群數聯網一方面負責將各原創目錄分類整理成一大目錄,同時也負責與其他小社群數聯網做交換,不斷構建更完整的目錄體系。其他對過期數據的處理與對Metadata以及其他如信息安全過濾也都在這里進行。
4.3 其他大數據系統聯機目錄轉換
與其他大數據系統聯機并轉換數據的工作主要是對原始數據的取得,并轉換為本系統的信息格式,這部分工作可由其他大數據系統協助完成,也可由智慧代理人完成,完成之后自動將源目錄上傳到小社群數聯網系統。
本研究最大的價值就是完成一個網上信息的分類目錄,有了目錄等于知道信息資源存放的位置,于是才可進一步對連結的內容進行分析整理,其中之一就是配對的進行,下一節對這個目錄本身的配對字段做一應用上的處理。
本研究的另一個特點是使用智慧代理人完成需求配對,配對是一個針對資源進行整合的動作,具備實用價值,有下面三個重點:
5.1 根據用戶需求進行搜尋
智慧代理人在前一節中主要的目標,是形成一個有效精準的分類目錄,這個目錄預期將相當龐大,這是圖1中小社群數聯網系統要做的工作。但是對用戶而言,關心的只是自己可能會用到的信息,因此可能只會用到總目錄其中千分之一或更少的部分,因此這是客戶端智慧代理人工作,就是如何調整搜尋方式,使用戶可以接觸到要用的目錄,或進一步爬出內容來整理。
5.2 在時效范圍內進行配對信息整理
善用表1和表2信息的有效時間、需求與提供關鍵詞,客戶端智慧代理人能夠不斷整理出依據不同有效時間條件下,用戶能夠對接的資源。
5.3 將配對信息以適當的方式通知用戶
在表2中,每筆原生數據都有數據原創人聯絡方式,在整理出可配對信息后,可以依據事先設定的方式,通知用戶。
配對的實用價值可能是能夠推動大量資源,用來開發智慧代理人的重要推動力量。本研究的架構是一個開源廉價的架構,因此適合大眾加入從事大數據的開發與使用。
總的來說,物聯網、云計算、大數據的技術與架構已逐漸趨于成熟。本研究將這些現有技術放到一個更簡單的架構中,讓大量的人可以參與。本研究也提出配對的作業,使整個運作更有實用價值。未來的重點研發工作是使智慧代理人進一步自動化與智慧化,更方便地在使用智慧代理人過程中教育和訓練智慧代理人,使之成為用戶專屬對外溝通的信息工具。
[1] 孔令波, 唐世渭, 楊冬青, 等. XML數據索引技術[J].軟件學報, 2005,16(12): 2063-2079.
[2] 鄭烇,肖碧宇.基于MPEG-7的視頻檢索系統的設計與實現[J].計算機系統應用,2010,19(10): 1-6.
[3] 錢兵,王永成,高凱.面向搜索引擎的自然語言理解的設計與實現[J].計算機應用研究,2006, 23(12): 260-262.
[4] 陳俊嵋.自然語言識別在WWW搜索引擎中的應用[J].現代圖書情報技術, 2004(s1): 37-39.
[5] 朱永海. 信息檢索新技術解析[J].現代教育技術,2007, 17(4): 80-82.
[6] 范東來. Hadoop海量數據處理:技術詳解與項目實戰[M]. 北京: 人民郵電出版社, 2016.