李時玉 孫沫卿 郭建偉
摘 要:科技情報大數據運用行業人工智能分析技術,基于及時、海量、跨領域、高縱深的互聯網大數據,為政府和企事業單位打造可定向抓取、語義分析、深度學習、完善知識圖譜的人工智能科技情報解決方案。還可以滿足地區競爭力、企業發展、競對狀況、行業/技術跟蹤等方面的科技情報挖掘需求。IDC估計,到2020年,33%的數據將包含有價值的信息。Hadoop的目的在于基于一種新的方法來存儲和處理復雜的數據。通過把數據均衡分布到集群上,復制副本以確保數據的可靠性和容錯性。存儲和計算都分布到多個機器上,以充分體現數據的本地性,且當前很多數據庫也支持數據分片技術。Hadoop分布式系統已成為大數據挖掘系統的重要組成部分。文中在Hadoop分布式平臺上完成了科技情報數據深度分析的一次實踐。
關鍵詞:Hadoop;數據挖掘;科技情報;大數據
中圖分類號:TP309 文獻標識碼:A 文章編號:2095-1302(2018)01-00-03
0 引 言
大數據擁有數據量巨大;數據類型多樣;數據中富含價值;在盡可能短的時間內挖掘出數據的真實性等典型特征[1]。
數據挖掘技術[2](Data Mining)可在大型數據庫中自動發現有用信息,具有聚類分析,預測建模,關聯分析,異常檢測等功能,既可以獨立運行,也可以聯合操作。聚類分析實用的技術包括K均值、凝聚層次聚類、dbscan、簇評估等,主要目的在于通過基于原型、密度、圖像等的聚類,發現其間關系。預測建模更多的是一種可視化角度分析方法,利用分類、回歸等方法建立模型以解決問題。數據挖掘技術分為統計方法、機器學習方法、神經網絡方法和數據庫方法。
計算機機器人專業博士鄧侃[3]表示,大數據不是忽悠,關鍵要能夠發現其中的價值,而數據挖掘的算法、云計算和并行計算就是發現數據價值的工具。
科技情報服務平臺維護的公益類科技服務平臺,是為順應情報系統的網絡化、智能化、集成化和決策化的未來發展要求而構建的自動化情報收集與服務體系,可從每日涌現在互聯網上的海量信息中快速、準確地獲取有用信息,并完成對情報資料的自動篩選、分類、分析工作,為政府部門、科研人員和企業提供具有前瞻性、時效性和專業化的情報服務。它采用知識管理的理念和技術對科技信息資源進行深度挖掘和戰略優化,通過強化科技信息的智能采集和深度加工、發布和共享機制,構建科技情報創新服務體系。
1 數據挖掘簡介
數據挖掘的主要任務是關聯分析、聚類分析、分類、預測、時序模式和偏差分析等[4]。
(1)關聯分析(Association Analysis)。關聯規則由Rakesh Apwal等人率先提出。兩個或兩個以上變量取值之間存在的規律稱為關聯,使得所挖掘的規則更符合需求。
(2)聚類分析(Clustering)。聚類是把數據按照相似性歸納成若干類別,同一類中的數據彼此相似,不同類中的數據相異。
(3)分類(Classification)。分類即找出一個類別的概念描述,它代表了這類數據的整體信息,即該類的內涵描述,并用這種描述來構造模型,一般用規則或決策樹模式表示。
(4)預測(Predication)。預測是利用歷史數據找出變化規律,建立模型,并由此模型預測未來數據的種類及特征。
(5)時序模式(Time-Series Pattern)。時序模式是指通過時間序列搜索出重復發生概率較高的模式。
(6)偏差分析(Deviation)。在偏差中包括很多有價值的知識,數據庫中的數據存在諸多異常情況,而發現數據庫中數據存在的異常情況非常重要。
2 科技信息采集與存儲系統
使用垂直搜索技術在互聯網擴大信息搜集途徑,實現了科技信息的采集與存儲[5]。智能情報加工系統運用信息抽取、機器學習、自然語言理解、信息檢索等技術對文本進行處理,實現對海量信息的數據挖掘,完成數據的自動分類、聚類、去除重復信息、發現關聯規則、自動文摘的生成等。科技信息發布與共享平臺通過將門戶型科技信息發布平臺作為情報發布、信息共享、交流互動的窗口與載體,可提供情報簡報的自動生成、定題服務等功能。
該平臺是集情報收集、存儲、處理和分析于一體的新一代綜合性信息系統。其主要功能是協助情報人員制定情報計劃,系統地收集信息,并對收集到的信息進行分析和加工,生成情報產品并提交給用戶,為用戶提供公益情報服務。
3 科技信息采集與存儲體系
科技信息采集與存儲體系的主要功能在于可完成情報信息分類體系規劃與情報信息源規劃。采用垂直網站抓取技術,通過設置關鍵詞、數據源、重要程度等抓取策略,自動發現互聯網相關內容,并對頁面進行抓取。通過索引技術對抓取到的文檔進行全文索引,為用戶提供全局文檔信息搜索結果;搜索結果以知識樹的方式展現,并實現對抓取內容的管理。
抓取器由URL 搜索引擎、頁面抓取引擎[6](頁面抓取器)組成,用以實現URL發現。抓取器需要對頁面中的目錄頁面、列表頁面等非描述性內容頁面進行剔除。URL搜索引擎首先對全互聯網相關內容的URL進行搜索,并執行去重檢測,以保證相同頁面只被抓取一次。
頁面抓取引擎抓取頁面后,對其內容進行分析,剔除其中的非正文內容頁面。抓取器內含定時抓取策略,可按一定時間周期和抓取策略進行循環抓取,以確保我們能夠及時獲取互聯網更新的內容。
4 數據聚類算法
聚類,即一些給定的元素或者對象分散存儲在數據庫中,根據我們感興趣的對象屬性對其進行聚集,同類對象之間相似度高,不同類之間差異較大。其最大的特點是事先不確定類別。這其中最經典的算法非KMeans算法[7]莫屬,而這也是最常用的聚類算法。在給定K值和K個初始類簇中心點的情況下,把每個點(亦即數據記錄)分到離其最近的類簇中心點所代表的類簇中,待所有點分配完畢后,根據類簇內的所有點重新計算該類簇的中心點(取平均值),然后迭代進行分配點和更新類簇中心點的步驟,直至類簇中心點變化微小,或達到指定的迭代次數為止。KMeans算法雖然思想比較簡單,但合理確定K值和K個初始類簇的中心點對于聚類效果而言有很大影響。
5 信息抓取管理平臺
“信息抓取管理平臺”是控制抓取的后臺工具,分為“關鍵詞抓取”和“深度抓取”。
“關鍵詞抓取”[8]是指在互聯網上抓取具有特定關鍵詞的網頁,每24小時抓取一次,于夜晚進行,以保證抓取網頁與互聯網上的信息同步更新。
“深度抓取”[9]是指一次性獲取某個網站的全部信息,以快速積累初始數據。深度抓取是一次性的抓取,不會更新。
5.1 關鍵內容抓取
根據“北京科技信息網”的需求,確定數據搜索內容包括 “科技政策”“科技動態”等頻道內容。抓取器通過設定依內容抓取的策略,對全網內容進行抓取。并通過后端的內容聚合進行內容的后處理,以便實現關鍵內容的抓取。如圖1所示,當標簽位置為“普通抓取”時,可實現對關鍵內容的抓取。
5.2 深度抓取
“北京市科技信息網”對一些特定網站設定了全站內容抓取,對全站內容進行一次性內容獲取,并實時對其更新的內容進行監控,同步抓取。如圖2所示,當標簽位置為“深度抓取”時,可以實現對全站內容的抓取。
5.3 工作狀況的實時監控與回溯查詢
實時監控終端對引擎運行的各項指標進行實時監控,以隨時掌握引擎的運行狀態。“回溯查詢平臺”可查看已抓取的網頁和網頁去噪情況。回溯查詢平臺界面如圖3所示。
6 分詞功能介紹
分詞程序主要包含4大模塊,分別為數據輸入模塊、基本前向后向分詞、數量詞識別以及歧義消解模塊。
7 去重功能介紹
該模塊可對網頁進行去重操作[10]。
8 分類功能介紹
實現中文信息自動分門別類[11]是一項及其復雜的工作。本系統根據中文智能分詞技術[12]實現了分類功能,即根據文本內容的特點分別歸類。通過人工對其進行簡單的“訓練”后,可對文本進行高速智能的自動分類。分類可實現多層的樹狀結構,允許一篇文檔同時屬于多個分類。分類過程主要包括文本預處理,抽取特征項,分類算法等。
9 結 語
系統擁有的網絡化情報自動采集、智能加工、發布共享體系架構等功能使得該體系能夠利用先進的科技信息采集工具,實現異構信息資源的采集、轉變、整理、合成,以統一的模版格式實現科技情報信息資源服務,去除科技信息資源種類、架構等無關信息,實現用戶的透明操作;采用統一的信息采集、加工處理、管理平臺,實現采集、加工處理過程的個性化流程個性化定制;實現了科技情報信息資源面向不同種類用戶和不同種類應用的科技信息發布服務;基于網絡的自動化情報收集、加工與發布體系是公益性情報服務平臺的發展趨勢。
參考文獻
[1]涂子沛.大數據:正在到來的數據革命[M].桂林:廣西師范大學出版社,2015.
[2] J Han,M Kamber.Data Mining: Concepts and Techniques, Second Edition, second ed[Z].San Francisco: Morgan Kaufmann,2006.
[3] Jeremy Chow.Redpoll:A machine learning library based on hadoop[D].CS Dept. Jinan University, Guangzhou,2010.
[4]鄒志文,朱金偉.數據挖掘算法研究與綜述[J].計算機工程與設計,2005,26(9):2304-2307.
[5]王元祥.高速數據采集系統的設計實現及存儲瓶頸問題的解決[D].武漢:華中科技大學,2007.
[6]翁巖青.網頁抓取策略研究[D].哈爾濱:哈爾濱工程大學,2010.
[7]賴玉霞,劉建平.K-means算法的初始聚類中心的優化[J].計算機工程與應用,2008,44(10):147-149.
[8]戴玉剛,楊南,李佩,等.基于藏文網絡信息的關鍵詞抓取算法改進[J].中文信息,2014(11):1-2.
[9]陳劍.某電商網站數據抓取策略的設計與實現[D].北京:北京大學,2014.
[10]高凱,王永成,肖君,等.網頁去重策略[J].上海交通大學學報,2006,40(5):775-777,782.
[11]岑杰.面向情報領域的文本自動分類系統的設計與實現[D].西安:西安電子科技大學,2008.
[12]曹羽中,曹勇剛,金茂忠,等.支持智能中文分詞的互聯網搜索引擎的構建[J].計算機工程與設計,2006,27(23):4395-4398,4407.