一、基于搜索引擎和數據挖掘的博客營銷模式
博客的影響力越來越大,為企業的營銷活動打開了新的一扇窗。基于搜索引擎和數據挖掘的博客營銷模式的技術結構,就是結合當今世界上主流的搜索引擎技術和數據挖掘技術,提取博客中市場營銷所需要的信息。
1.基于搜索引擎和數據挖掘的博客營銷模式的應用系統結構
文中給出了網絡信息挖掘技術實現的總體流程圖, 分別對其中的每個步驟解釋如下:
第一步:確立目標樣本, 即由用戶選擇目標文本, 作為提取用戶的特征信息。
第二步:提取特征信息, 即根據目標樣本的詞頻分布, 從統計詞典中提取出挖掘目標的特征向量并計算出相應的權值。
第三步:網絡信息獲取,即先利用搜索引擎站點選擇待采集站點, 再利用Robot程序采集靜態Web頁面, 最后獲取被訪問站點網絡數據庫中的動態信息,生成WWW資源索引庫。
第四步:信息特征匹配,即提取索引庫中的源信息的特征向量, 并與目標樣本的特征向量進行匹配, 將符合閾值條件的信息返回給用戶。
2.基于搜索引擎和數據挖掘的博客營銷模式可采用的實現技術
(1)搜索引擎的主要技術。搜索引擎一般由搜索器、索引器、檢索器和用戶接口4個部分組成。①搜索器:其功能是在互聯網中漫游,發現和搜集信息。它要盡可能多、盡可能快地搜集新信息和定期更新舊信息,以避免死聯接和無效聯接,為此搜索器的實現常采用分布式、并行計算技術,以提高信息發現和更新的速度。②索引器:其功能是理解搜索器所搜索的信息,從中抽取出索引項, 用于表示文檔,以及生成文檔庫的索引表。索引器可以使用集中式索引算法或分布式索引算法。③檢索器:其功能是根據用戶的查詢在索引庫中快速檢出文檔,進行文檔與查詢的相關度評價,對將要輸出的結果進行排序,并實現某種用戶相關性反饋機制。④用戶接口:其作用是輸入用戶查詢、顯示查詢結果、提供用戶相關性反饋機制, 分為簡單接口和復雜接口兩種。
(2)WEB信息挖掘中的關鍵技術。網絡信息挖掘系統采用向量空間模型(Vector SpaceModal, VSM),用特征詞條(T1,T2,…,Tn) 及其權值Wi代表目標信息,在進行信息匹配時, 使用這些特征項評價未知文本與目標樣本的相關程度。特征詞條及其權值的選取稱為目標樣本的特征提取,特征提取算法的優劣將直接影響到系統的運行效果。一個有效的特征項集應該既能體現目標內容, 也能將目標同其他文檔相區分, 因此詞條權重的正比于詞條的文檔內頻數, 反比于訓練文本內出現該詞條的文檔頻數。
我們再來討論中文分詞處理。首先建立詞典庫。中文詞的切分問題是網絡信息挖掘中的一項關鍵的技術之一,中文不像英文詞之間有空格分割,中文詞的切分的好壞也就直接影響著主題的提取。《中國分類主題詞表》由于其學科體系的完整性和規范性,非常適合于作為詞庫, 當然對于專業要求較高的數據挖掘,以及在實際使用中出現的不符合要求的地方, 可在該詞表的基礎上進行擴充和修改;另外, 應當包括一個臨時的詞庫以統計用戶的檢索信息, 用于修正詞表。在進行詞頻統計時, 考慮到自然語言的多樣性, 系統建立并使用相應的同義詞典、相關詞詞典等輔助詞典, 以提高信息匹配的準確度。
二、基于搜索引擎和數據挖掘的博客營銷模式的應用
下面以Google 為例, 剖析網絡信息挖掘技術在搜索引擎中的應用。Google 的搜索機制是:幾個分布的Crawler(自動搜索軟件)同時工作, URL服務器則負責向這些Crawler提供URL 的列表。Crawler 所找到的網頁被送到存儲服務器(Store Server)中。存儲服務器把這些網頁壓縮后存入一個知識庫(repository)中。每個網頁都有一個關聯ID——doc ID,當一個新的URL 從一個網頁中解析出來時, 就被分配一個doc ID。索引庫(Indexer)和排序器(Sorter)負責建立索引, 索引庫從知識庫中讀取記錄, 將文檔解壓并進行解析。每個文檔就轉換成一組詞的出現狀況(word occurrences),稱為hits。hits記錄了詞、詞在文檔中的位置、字體大小、大小寫等。索引庫把這些hit又分成一組“barrels”,產生經過部分排序后的索引。索引庫同時分析網頁中所有的鏈接并將重要信息存在Anchors文檔中。這個文檔包含了足夠信息,可以用來判斷一個鏈接被鏈入或鏈出的結點信息。
URL分解器(URL Resolver)閱讀Anchors文檔,并把相對的URL轉換成絕對的URLs,并生成doc ID,它進一步為Anchor文本編制索引,并與Anchor 所指向的doc ID建立關聯。同時,它還產生由doc ID 對(pairs of doc ID)所形成的數據庫。這個鏈接數據庫(Links)用于計算所有文檔的頁面等級(Pagerank)。排序器會讀取barrels,并根據詞的ID號(word ID)列表來生成倒排擋。一個名為DumpLexicon的程序則把上面的列表和由索引庫產生的一個新的詞表結合起來產生另一個新的詞表供搜索器(Searcher)使用。這個搜索器就是利用一個Web服務器, 并使用由DumpLexicon所生成的詞表, 并利用上述倒排擋以及頁面等級來回答用戶的提問。
Google搜索的最大特色體現在它所采用的對網頁Links信息的挖掘技術上。實際上,網絡信息挖掘是目前網絡信息檢索發展的一個關鍵。
三、結束語
博客營銷作為企業營銷的新工具,正受到越來越多企業的關注,目前,大多數企業在博客營銷領域的實踐還處于探索階段。隨著XML作為在Web上交換數據的一種標準方式的出現、用戶信息需求的多樣化、網絡信息挖掘研究的不斷深入,“智能化”的搜索引擎將會涌現, 面向Web的網絡信息挖掘也將會變得非常輕松。
參考文獻:
[1]克里斯·安德森:長尾理論.中信出版社,2006
[2]托馬斯·弗里德曼:世界是平的.東方出版社,2006
[3]杰里米·萊特:《博客營銷》.中國財政經濟出版社,2007
[4]唐小鵬:博客營銷應用初探.科技資訊,2007年第7期