高逸晨
摘 要:經濟全球化的發展使任何企業都不能忽視企業的快速變化的市場的影響,從而把握信息盡快全球化已成為企業制勝的關鍵;這同樣適用于政府、行業管理部門,收集的信息產業和企業的最新發展,將能夠迅速對市場、行業和企業的實時、準確的動態監管,以最高的效率和制定相關的政策指導,使行業一直在健康的發展軌道。近年來,互聯網的飛速發展給人們提供了各種各樣的信息,在這個行業中也蘊含著豐富的商業信息。針對上述問題和需求,網絡信息傳播和非結構化的特點,現有的Web信息挖掘技術的應用,提出了多學科信息塊分割,從企業建立一個商業實體的節點名稱代碼提取和分類所需的信息,并最終建立一個基于Web信息挖掘的經營分析系統,以促進商業企業和產業的經營與管理。
關鍵詞:web信息;挖掘;分析
一、非結構化web信息提取
本文所提出的系統主要是對企業信息的收集和分析。由于商業信息比其他網頁內容更規范,商業網站頁面也有規則格式,類似或同一站點有幾種格式類似于信息抽取,具有一定的方便性。但是您必須看到業務信息有其特殊性,并且相同的信息塊可能包含許多業務信息。考慮到上述因素,本文可以提取信息分為兩個步驟:第一步,先過濾掉網頁上沒有的信息,根據特定的框架格式的網頁,網頁的文本的主要信息是孤立的,表單網頁信息和構建的文檔對象模型(DOM)頁面生成相應的頁面模板信息;步驟2:分詞,詞頻統計,和主題的信息塊得到的網頁分類的具體內容。在數字表單的情況下,該表的格式可用于標識專業域名詞典中的業務信息記錄。
具體的信息分離操作包含以下的步驟:
(1)循環讀取頁面信息
(2)讀取標題
(3)讀取表格
(4)提取段落信息
(5)提取圖片
(6)構造新的提取模板
經過上述的信息塊分離操作,最終可形成一棵HTML信息塊樹,以達到信息分離的目的。
二、信息抽取
在經過上一節所述處理后,信息是分散的,但必須考慮到業務信息本身的復雜性和混合性,往往可能包含多個話題中同一條信息的信息。因此,在第1節的基礎上,本系統還采用了一種信息抽取算法來獲取各種商業意義的web信息塊。具體步驟如下:
(1)對文本信息塊使用通用切分詞表進行分詞處理
(2)再在商業領域實體名字典的指導下,統計信息塊中各關鍵詞出現的頻率
(3)通過計算關鍵詞頻率,計算出每個句子的權重
(4)根據句子權重將信息塊分離成多個主題
(5)從新產生的主題信息塊抽取出信息塊所含的商業信息,存入信息庫中
經上述處理就能將混雜于頁面信息塊中的各個主題信息加以分離和提取。
三、信息評價
網絡上的大量信息,由于人性、技術原因,但也有一些矛盾,甚至沒有真正的內容,應該采取評價機制來確保提交結果的可靠性。該系統利用先驗知識和信息反饋對臺灣進行評估。分析的一些信托渠道盡可能多地獲得各種各樣的信息,各種信息來源的信用評級,當相同的數據源具有不同價值觀的沖突,最后的結果按照信貸,持續監控反饋,動態調整權重和評級。
首先在領域專家指導下建立相關的評價體系,該評價體系重點從信息的兩個特征上進行評價,權威性及準確性。
權威性包括信息是否表明了:
(1)作者。作者在文獻涉及領域受教育、培訓及工作經驗;有無作者聯系方式,作者的同行聲譽;
(2)網站主辦者。主辦機構在改領域的聲譽等
(3)引用資料來源,是否明確標出引用資料來源,以及來源是否具有權威性
準確性在于驗證信息內容是否與領域需求有關,該信息與領域需求的關聯性有多大等。
通過對信息的權威性及準確性進行評價和分級,能夠做到一下兩點:
(1)信息篩選:能夠去除與領域需求無關聯的信息
(2)信息加權:篩選后的信息,依照信用評級附加權重。當信息倉庫中存在有關鍵詞的信息,但其表述信息內容不同時,依據信息的加權值大小評判真實性。
信息評價系統涵蓋了相關領域的范圍和文法規則。信息信用評級從手動識別方法開始,以在域專家的指導下標記起始URL列表的地址。級別分為1級至10級。在系統的設計與實現中,該方法可以更好地對信息源進行評價,但還需要進一步研究,才能得出真正正確的信用評級。
四、信息提交與反饋
該系統提取的信息范圍很廣,信息的范圍也很大,但對于特定的用戶來說,它只想查看一小部分的視圖。所以向B/S方式的結果,合法用戶可以很容易地訪問系統通過互聯網提供通過使用java編程語言系統提供的服務,后臺數據庫為SQL Server2000。在jsp模式下實現用戶調用。考慮到很多企業都有自己的信息分析系統,系統還預留了一個與企業接口的B(業務信息/智能系統)系統,將系統的結果以接口調用給企業BI系統,供用戶使用。
同時,為了改變信用等級評價體系運用到系統中,可以改變的動態調整的趨勢,從終端用戶獲得的評價結果也可以分析原始信息,新信息的密度等因素,將調整規則基礎和信息來源,學習SOM。系統添加用戶反饋,獲取結果,提交接口的功能,自動獲取用戶的信息,并向用戶提供現有信息的選擇。
五、Conclusion
在這篇文章中,我們建立了基于Web信息挖掘的商業信息分析系統,利用現有的Web信息挖掘技術,根據原始數據的異構信息塊分割的特殊性提出,商業實體名稱代碼引導商業信息提取和分類,最后將分散在Web信息抽取處理,通過潛在的商業,實際效果具有實用價值,對企業管理進行有效的指導。但同時,系統和一些進一步的改進:企業名稱是提取關鍵信息的分析,較好的解決了現有的實體和條目的命名系統,對一些新的單詞,你需要學習鑒別方法是清楚的;此外,信息源具有更高的信用評級的準確評估……這將是我們設計研究的重點。