999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Web信息挖掘的商業分析系統設計

2018-05-14 17:11:00高逸晨
科技風 2018年1期
關鍵詞:頁面評價信息

高逸晨

摘 要:經濟全球化的發展使任何企業都不能忽視企業的快速變化的市場的影響,從而把握信息盡快全球化已成為企業制勝的關鍵;這同樣適用于政府、行業管理部門,收集的信息產業和企業的最新發展,將能夠迅速對市場、行業和企業的實時、準確的動態監管,以最高的效率和制定相關的政策指導,使行業一直在健康的發展軌道。近年來,互聯網的飛速發展給人們提供了各種各樣的信息,在這個行業中也蘊含著豐富的商業信息。針對上述問題和需求,網絡信息傳播和非結構化的特點,現有的Web信息挖掘技術的應用,提出了多學科信息塊分割,從企業建立一個商業實體的節點名稱代碼提取和分類所需的信息,并最終建立一個基于Web信息挖掘的經營分析系統,以促進商業企業和產業的經營與管理。

關鍵詞:web信息;挖掘;分析

一、非結構化web信息提取

本文所提出的系統主要是對企業信息的收集和分析。由于商業信息比其他網頁內容更規范,商業網站頁面也有規則格式,類似或同一站點有幾種格式類似于信息抽取,具有一定的方便性。但是您必須看到業務信息有其特殊性,并且相同的信息塊可能包含許多業務信息。考慮到上述因素,本文可以提取信息分為兩個步驟:第一步,先過濾掉網頁上沒有的信息,根據特定的框架格式的網頁,網頁的文本的主要信息是孤立的,表單網頁信息和構建的文檔對象模型(DOM)頁面生成相應的頁面模板信息;步驟2:分詞,詞頻統計,和主題的信息塊得到的網頁分類的具體內容。在數字表單的情況下,該表的格式可用于標識專業域名詞典中的業務信息記錄。

具體的信息分離操作包含以下的步驟:

(1)循環讀取頁面信息

(2)讀取標題

(3)讀取表格

(4)提取段落信息

(5)提取圖片

(6)構造新的提取模板

經過上述的信息塊分離操作,最終可形成一棵HTML信息塊樹,以達到信息分離的目的。

二、信息抽取

在經過上一節所述處理后,信息是分散的,但必須考慮到業務信息本身的復雜性和混合性,往往可能包含多個話題中同一條信息的信息。因此,在第1節的基礎上,本系統還采用了一種信息抽取算法來獲取各種商業意義的web信息塊。具體步驟如下:

(1)對文本信息塊使用通用切分詞表進行分詞處理

(2)再在商業領域實體名字典的指導下,統計信息塊中各關鍵詞出現的頻率

(3)通過計算關鍵詞頻率,計算出每個句子的權重

(4)根據句子權重將信息塊分離成多個主題

(5)從新產生的主題信息塊抽取出信息塊所含的商業信息,存入信息庫中

經上述處理就能將混雜于頁面信息塊中的各個主題信息加以分離和提取。

三、信息評價

網絡上的大量信息,由于人性、技術原因,但也有一些矛盾,甚至沒有真正的內容,應該采取評價機制來確保提交結果的可靠性。該系統利用先驗知識和信息反饋對臺灣進行評估。分析的一些信托渠道盡可能多地獲得各種各樣的信息,各種信息來源的信用評級,當相同的數據源具有不同價值觀的沖突,最后的結果按照信貸,持續監控反饋,動態調整權重和評級。

首先在領域專家指導下建立相關的評價體系,該評價體系重點從信息的兩個特征上進行評價,權威性及準確性。

權威性包括信息是否表明了:

(1)作者。作者在文獻涉及領域受教育、培訓及工作經驗;有無作者聯系方式,作者的同行聲譽;

(2)網站主辦者。主辦機構在改領域的聲譽等

(3)引用資料來源,是否明確標出引用資料來源,以及來源是否具有權威性

準確性在于驗證信息內容是否與領域需求有關,該信息與領域需求的關聯性有多大等。

通過對信息的權威性及準確性進行評價和分級,能夠做到一下兩點:

(1)信息篩選:能夠去除與領域需求無關聯的信息

(2)信息加權:篩選后的信息,依照信用評級附加權重。當信息倉庫中存在有關鍵詞的信息,但其表述信息內容不同時,依據信息的加權值大小評判真實性。

信息評價系統涵蓋了相關領域的范圍和文法規則。信息信用評級從手動識別方法開始,以在域專家的指導下標記起始URL列表的地址。級別分為1級至10級。在系統的設計與實現中,該方法可以更好地對信息源進行評價,但還需要進一步研究,才能得出真正正確的信用評級。

四、信息提交與反饋

該系統提取的信息范圍很廣,信息的范圍也很大,但對于特定的用戶來說,它只想查看一小部分的視圖。所以向B/S方式的結果,合法用戶可以很容易地訪問系統通過互聯網提供通過使用java編程語言系統提供的服務,后臺數據庫為SQL Server2000。在jsp模式下實現用戶調用。考慮到很多企業都有自己的信息分析系統,系統還預留了一個與企業接口的B(業務信息/智能系統)系統,將系統的結果以接口調用給企業BI系統,供用戶使用。

同時,為了改變信用等級評價體系運用到系統中,可以改變的動態調整的趨勢,從終端用戶獲得的評價結果也可以分析原始信息,新信息的密度等因素,將調整規則基礎和信息來源,學習SOM。系統添加用戶反饋,獲取結果,提交接口的功能,自動獲取用戶的信息,并向用戶提供現有信息的選擇。

五、Conclusion

在這篇文章中,我們建立了基于Web信息挖掘的商業信息分析系統,利用現有的Web信息挖掘技術,根據原始數據的異構信息塊分割的特殊性提出,商業實體名稱代碼引導商業信息提取和分類,最后將分散在Web信息抽取處理,通過潛在的商業,實際效果具有實用價值,對企業管理進行有效的指導。但同時,系統和一些進一步的改進:企業名稱是提取關鍵信息的分析,較好的解決了現有的實體和條目的命名系統,對一些新的單詞,你需要學習鑒別方法是清楚的;此外,信息源具有更高的信用評級的準確評估……這將是我們設計研究的重點。

猜你喜歡
頁面評價信息
大狗熊在睡覺
刷新生活的頁面
保健醫苑(2022年1期)2022-08-30 08:39:14
SBR改性瀝青的穩定性評價
石油瀝青(2021年4期)2021-10-14 08:50:44
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
基于Moodle的學習評價
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
保加利亞轉軌20年評價
多維度巧設聽課評價表 促進聽評課的務實有效
體育師友(2012年4期)2012-03-20 15:30:10
同一Word文檔 縱橫頁面并存
淺析ASP.NET頁面導航技術
主站蜘蛛池模板: 欧美另类图片视频无弹跳第一页| 国产亚洲精品自在线| 最新亚洲人成网站在线观看| 激情乱人伦| 97视频精品全国免费观看| 制服丝袜国产精品| 欧美色丁香| 国产乱人伦精品一区二区| 免费A级毛片无码无遮挡| 国产原创自拍不卡第一页| 欧美中文字幕在线视频| 无码国内精品人妻少妇蜜桃视频| 综合成人国产| 久久五月天综合| 久久中文字幕av不卡一区二区| 自拍中文字幕| 国产成人高清精品免费5388| jizz亚洲高清在线观看| 亚洲AV无码乱码在线观看代蜜桃 | 欧美成人午夜视频免看| 欧美日本在线观看| 91视频区| 国产精品久线在线观看| 亚洲 成人国产| 中文无码精品A∨在线观看不卡| 97综合久久| 中字无码精油按摩中出视频| 亚洲高清在线播放| 五月丁香在线视频| 亚洲黄网在线| 国产无人区一区二区三区| 国产男人的天堂| 精品国产乱码久久久久久一区二区| 免费99精品国产自在现线| 亚洲无码A视频在线| 夜色爽爽影院18禁妓女影院| 国产又黄又硬又粗| 国产精品区视频中文字幕| 97视频免费在线观看| 天天躁日日躁狠狠躁中文字幕| 国产精品性| 亚洲中文在线视频| 久久久久久久久亚洲精品| 欧美中日韩在线| 久久精品91麻豆| 四虎亚洲国产成人久久精品| 欧美国产在线看| 国产在线视频导航| 无码专区第一页| www.youjizz.com久久| 国产成人一二三| 亚洲欧美日韩成人在线| 91区国产福利在线观看午夜| 美女免费黄网站| 超清人妻系列无码专区| 国国产a国产片免费麻豆| 国产成人一区免费观看| 亚洲成人网在线播放| 一级看片免费视频| 欧美一区二区福利视频| 亚洲中文精品久久久久久不卡| 亚洲综合久久一本伊一区| 中文无码精品A∨在线观看不卡| 国产在线观看高清不卡| 一本大道香蕉久中文在线播放| 久久精品66| 欧美日韩福利| 亚洲国产成人精品一二区| 国产精品美女网站| 波多野结衣一区二区三区四区| 色吊丝av中文字幕| 国产成人免费视频精品一区二区 | 97国产在线观看| 久久一色本道亚洲| 亚洲精品午夜无码电影网| 国产丰满大乳无码免费播放| 天堂av高清一区二区三区| 亚洲AV无码久久精品色欲| 青草免费在线观看| 色综合a怡红院怡红院首页| 内射人妻无码色AV天堂| 国产精品亚欧美一区二区|