楊達賢
(廈門云之端信息科技有限公司, 漳州 361000)
微博作為一種互動的信息平臺,在社交中的地位越來越重要。此外,微博還可以通過用戶的關注形成一個龐大的人際互動網(wǎng)絡。然而,很多人只是使用了微博的少數(shù)功能。為了促進微博的應用和提高微博的可用性和樂趣,搜狐微博推出"想你知道”功能。人工智能推理引擎系統(tǒng)根據(jù)用戶輸入的詞語,自動進行歸納推理,并將推理結(jié)果反饋給用戶[1]。
現(xiàn)有的搜索引擎資源獲取方式是盲目的。依靠現(xiàn)有的算法,往往會得到大量的不相關信息,導致效率和搜索精確度下降。該系統(tǒng)基于人工智能(包括增益和衰減),自動調(diào)整推理機系統(tǒng),不僅大大降低了后臺人員的維護成本,而且提高了用戶體驗,使微博用戶獲得更好、更準確的服務[2]。
搜索引擎是指通過網(wǎng)絡爬蟲程序獲取網(wǎng)頁數(shù)據(jù),并建立數(shù)據(jù)庫提供查詢系統(tǒng)。根據(jù)工作原理,引擎分為兩類:一類是分類搜索目錄;另一類是全文搜索目錄[ 3 ]。
全文搜索引擎的數(shù)據(jù)庫是基于一個名為“網(wǎng)絡爬蟲”的軟件。它通過web上的各種鏈接自動獲取大量的Web信息內(nèi)容,并根據(jù)既定規(guī)則進行分析和排序。分類法是收集和收集Web數(shù)據(jù)以手動形成數(shù)據(jù)庫的[4]。
全文搜索引擎是一種網(wǎng)絡軟件,它穿越網(wǎng)絡空間,可以掃描網(wǎng)站的某個地址范圍,并沿著網(wǎng)絡從一個頁面鏈接到另一個頁面,從一個站點到另一個網(wǎng)頁數(shù)據(jù)采集網(wǎng)絡。其工作原理,如圖1所示。

圖1 網(wǎng)絡爬蟲工作原理
將人工智能應用于網(wǎng)絡爬蟲程序,將使搜索引擎在獲取信息資源方面取得更大的成功。
采用啟發(fā)式算法,網(wǎng)絡爬蟲可以消除無關鏈接,訪問和瀏覽。在整個頁面中合格頁面的比例相當大。網(wǎng)絡爬蟲收集信息資源的準確性也提高了[5]。
微博信息豐富,數(shù)據(jù)量巨大,所以微博數(shù)據(jù)的研究中,應選擇合理的數(shù)據(jù)采集方法,為本文的研究提供了方便,數(shù)據(jù)采集分為以下3種類型:官方API采集,通過網(wǎng)絡爬蟲抓取網(wǎng)頁和直接使用開放的數(shù)據(jù)集[6]。
(1) 基于官方API開發(fā)的系統(tǒng)。
為了使微博提供的服務和嵌入的小應用更加多樣化和更加具有吸引力,開發(fā)商選擇了向應用開發(fā)者和研究人員提供開放式的應用接口,即開放API。開放API指的是開放應用程序編程接口,即使用SOAP、JavaScript等的一系列技術(shù)[7]。
(2) 通過網(wǎng)絡爬蟲爬取微博頁面。
通過網(wǎng)絡爬蟲抓取微博數(shù)據(jù)通常指的是通過HTTP協(xié)議發(fā)送請求到服務器,分析返回的網(wǎng)頁,并提取相應的微博數(shù)據(jù)[8]。
這種方法幾乎適用于任何微博數(shù)據(jù)的獲取,與官方API的數(shù)據(jù)采集不同,它不受微博運營商權(quán)限的限制。
(3) 開放的數(shù)據(jù)集。
隨著web2.0的發(fā)展,信息披露和資源共享變得越來越重要。越來越多的學者將語言庫和數(shù)據(jù)集開放到不同的開放程度以供開發(fā)和使用。利用已有的數(shù)據(jù)集,避免了預處理過程,提高了研究效率[9]。
目前,在微博數(shù)據(jù)的應用研究中,首先采用的是數(shù)據(jù)采集的方法。這些數(shù)據(jù)采集方法基本上滿足了研究人員的需要,但也存在一些差異。
根據(jù)引擎開發(fā)的目的,選擇研發(fā)適用范圍內(nèi)的數(shù)據(jù)集至關重要。在之前的微博數(shù)據(jù)選擇范圍研究中,研究人員一般選擇以下兩種數(shù)據(jù)選擇方法。
(1) 指定主題或者用戶
當研究人員利用微博中的數(shù)據(jù)進行社會現(xiàn)象分析或用戶行為分析等相關研究時,他們通常會在指定的主題或用戶中選擇數(shù)據(jù)[10]。根據(jù)研究的需要,研究人員通常使用規(guī)定的時間段來限制數(shù)據(jù)量。在數(shù)據(jù)選擇的過程中,也存在隨機選擇過程[ 11 ]。
(2) 隨機獲取用戶數(shù)據(jù)
在理論和實踐研究方面,當研究者需要研究微博的結(jié)構(gòu)特點、拓撲結(jié)構(gòu)、性能評價及其應用時,通常采用隨機訪問用戶數(shù)據(jù)的方式。隨機獲取用戶數(shù)據(jù)和信息的方法可以掌握微博用戶群的全部數(shù)據(jù)。它可以得到更準確、更全面的結(jié)果,也更有利于微博自身的發(fā)展和發(fā)展。
在數(shù)據(jù)分析階段中,主要工作是對微博數(shù)據(jù)庫中的數(shù)據(jù)進行特征提取和分析。一般采用社會網(wǎng)絡分析、數(shù)理統(tǒng)計和數(shù)據(jù)挖掘等方法。
(1) 社會網(wǎng)絡分析方法。
社會網(wǎng)絡分析方法主要是利用網(wǎng)絡拓撲圖來反映社會結(jié)構(gòu)之間的關系和屬性。這種方法能夠從大局上把握微博的整體特征和用戶之間交互情況。通過分析以往的研究成果,也證實了社會網(wǎng)絡分析方法在微博中的應用是可行的、相對成熟的[12]。
(2) 數(shù)理統(tǒng)計方法
數(shù)理統(tǒng)計方法在社會科學相關的科學研究中比較常用,是一種定量分析方法。該方法通過用戶的基本信息數(shù)據(jù)和經(jīng)常使用的數(shù)據(jù),利用統(tǒng)計學方法對數(shù)據(jù)中的某些參數(shù)或者參數(shù)間的關系進行統(tǒng)計和分析。通過分析和研究得出整體數(shù)據(jù)的分布特征[13]。
(3) 數(shù)據(jù)挖掘方法
數(shù)據(jù)挖掘是采用智能自動或半自動的,采用相關分析、聚類分析、分類、預測、時間序列模型和誤差分析,分析大量的數(shù)據(jù),做出歸納性的推理,趨勢和相關資料,挖掘隱含的、先前未知的、潛在的信息價值。
微博是一個信息分享、傳播的平臺,這種分享和傳播是通過相互關注的人之間進行的。用戶可以通過WEB、WAP(手機客戶端)和各種客戶端建立個人的交往圈子。微博具有短文本性、終端擴展性、即時性、“裂變型”、信息傳遞性等特點[ 14 ]。
傳統(tǒng)博客(blog)不限制用戶發(fā)文的篇幅,而微博將用戶的發(fā)文限制在140個字符以內(nèi)。
因為微博平臺具有開放性,因此,用戶可以通過web、wap等多種方式輕松使用微博。根據(jù)美國互聯(lián)網(wǎng)統(tǒng)計公司統(tǒng)計分析,與2011年相比,2012年的移動推特用戶數(shù)量增加了約101%。目前,它已成為增長最快的社交網(wǎng)絡應用[ 15 ]。
微博具有及時性,主要表現(xiàn)是內(nèi)容發(fā)布的即時性和信息傳播的即時性。由于微博的及時性及短端擴展性,用戶可以通過網(wǎng)絡隨時隨地快速發(fā)布微博。微博的及時性徹底改變了信息傳播的模式,使信息傳播平臺變得更加強大[ 16 ]。
此外,當微博用戶的好友在主頁上更新消息時,系統(tǒng)會自動在用戶主頁上完成信息的更新,并將其推送到微博好友的主頁上。這一步驟幾乎是同時完成的,這樣就進一步增強了微博信息的即時性。
微博的轉(zhuǎn)發(fā)功能,使信息不受限制地轉(zhuǎn)發(fā)。信息傳遞的范圍是“核裂變”、公式的幾何級數(shù)展開、微博的主動推送功能,信息迅速傳播給廣大用戶。
智能數(shù)據(jù)挖掘引擎由五個功能單元組成:核心算法模塊、智能選擇模塊、輸入輸出模塊、元知識庫和中央控制模塊。組成結(jié)構(gòu),如圖2所示。

圖2 智能數(shù)據(jù)挖掘引擎組成結(jié)構(gòu)
(1) 核心算法模塊
核心算法模塊完成了數(shù)據(jù)挖掘引擎最基本的處理功能,是引擎中最重要的部分。核心算法模塊主要由關聯(lián)規(guī)則算法、基于內(nèi)存的推理算法(MBR)和基于實例的推理算法(CBR)組成。
(2) 智能選擇模塊
智能選擇模塊根據(jù)用戶數(shù)據(jù)挖掘的特點和信息提取的方式,決定合適的數(shù)據(jù)挖掘算法和數(shù)據(jù)挖掘,以達到最佳的挖掘效果。智能選擇模塊是數(shù)據(jù)挖掘引擎的核心智能模塊,它直接決定了數(shù)據(jù)挖掘引擎的效率。
(3) 輸入輸出模塊
輸入輸出模塊負責從數(shù)據(jù)挖掘市場(數(shù)據(jù)源)和信息柜中從數(shù)據(jù)挖掘系統(tǒng)控制器中輸入數(shù)據(jù)。數(shù)據(jù)通過中央控制模塊提交給智能選擇模塊。同時,輸入輸出模塊還負責向數(shù)據(jù)挖掘系統(tǒng)控制器提交數(shù)據(jù)挖掘引擎核心算法模塊的處理結(jié)果。
(4) 中央控制模塊
中央控制模塊是數(shù)據(jù)挖掘引擎的核心控制單元,負責整個引擎的各個模塊的協(xié)調(diào)和控制。通過控制引擎的輸入輸出模塊,控制引擎與整個數(shù)據(jù)挖掘系統(tǒng)之間的相互作用,實現(xiàn)引擎的完整性和獨立性。
(5) 元知識庫
元知識庫主要存儲數(shù)據(jù)挖掘引擎構(gòu)建和工作過程的知識、核心算法模塊算法和智能選擇模塊,中央控制模塊負責對數(shù)據(jù)挖掘引擎進行更新和控制。元知識庫是實現(xiàn)數(shù)據(jù)挖掘引擎智能化的基本單元。
(1) 數(shù)據(jù)挖掘算法
數(shù)據(jù)挖掘算法是整個數(shù)據(jù)挖掘引擎的核心。不同的挖掘算法有不同的應用領域和特點,這就要求數(shù)據(jù)挖掘引擎在數(shù)據(jù)挖掘時必須有多種算法供用戶選擇。
(2) 智能選擇控制技術(shù)
智能選擇控制技術(shù)是實現(xiàn)數(shù)據(jù)挖掘引擎通用性的關鍵技術(shù)。基于元數(shù)據(jù)庫的推理機制實現(xiàn)了引擎的智能選擇。
(3) 元知識庫
利用元知識庫對數(shù)據(jù)挖掘算法、智能選擇模塊、中央控制模塊和引擎工作控制過程中的知識信息進行存儲和管理。元知識庫中知識的存儲和管理對整個引擎的性能至關重要。
這個過程包括設置狀態(tài)參數(shù)、數(shù)據(jù)和用戶需求預處理、加載元素知識庫和一些模塊的初始化等。
(1) 導入數(shù)據(jù)挖掘引擎的狀態(tài)參數(shù)配置文件,設置引擎的狀態(tài);狀態(tài)參數(shù)配置文件是一個文本文件,用于描述引擎的默認參數(shù)。
(2) 收集數(shù)據(jù)的特征信息和用戶的請求信息。
(3) 加載元知識庫知識。
(4) 將相關參數(shù)和元知識傳遞給相應的功能模塊。
(5) 初始化中央控制模塊。
(6) 初始化智能選擇模塊。
最后,在中央控制模塊的控制下,智能模塊選擇合適的數(shù)據(jù)挖掘算法模塊,根據(jù)元數(shù)據(jù)庫提供的元知識、數(shù)據(jù)特征信息和用戶需求進行數(shù)據(jù)挖掘。
將人工智能運用到搜索引擎中,可以幫助用戶更加便捷、更加準確的搜索到需要的信息。因此,人工智能推理引擎將是未來發(fā)展的趨勢。本文可以得出以下結(jié)論:
(1) 搜索引擎工作方式不同,微博數(shù)據(jù)體量龐大,人工智能推理引擎可以收集用戶的關鍵詞和使用習慣,即時向用戶推送需要的信息、功能和使用方法。
(2) 人工智能搜索引擎的實現(xiàn)需要設計智能數(shù)據(jù)挖掘引擎系統(tǒng)。智能數(shù)據(jù)挖掘引擎由五個功能單元組成:核心算法模塊、智能選擇模塊、輸入輸出模塊、元知識庫以及中央控制模塊等。
(3) 數(shù)據(jù)挖掘算法是人工智能推理引擎的基石。挖掘算法是否具有先進性和高效性,直接決定了數(shù)據(jù)挖掘引擎的性能。