999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向專利數據的多數據源集成與表達

2009-05-14 08:02:34
魅力中國 2009年32期

許 謙

摘要:近年來,隨著信息源的不斷增長,人們對綜合研究多數據源數據的需求越來越強烈。為了專利研究工作的便利,建立自動化、高效率、高準確性的多數據源集成檢索系統是十分必要的。通過系統提供的統一的檢索界面,可以為用戶提供無縫的、靈活的訪問方式,以緩解用戶分別查詢不同數據庫的壓力。

關鍵詞:多數據源 數據源集成 數據表達 專利數據

隨著全球信息化進程的加快,人們越來越深刻地認識到,信息是與材料和能源同等重要的戰略資源,是重要的財富和資產。信息資源對經濟社會發展的作用日益突出,已成為開放環境下政治、經濟、文化和軍事等國際競爭的焦點。數據是信息的載體,它通常是指人類通過不同的傳感方式所獲得的原始資料,如表格、曲線、圖形、文字、圖像、文本、視頻等。

數據的組織方式主要有以下兩種:結構化數據和非結構化數據。結構化數據指存儲在數據庫里,可以用二維表結構來邏輯表達實現的數據,主要包括全文數據庫、摘要數據庫等各種傳統數據庫,其特點是數據結構性強,準確率高,查詢方便,使用和維護通過數據庫軟件進行管理,并有一定的操作規范。而不方便用數據庫二維邏輯表來表現的數據即稱為非結構化數據,包括所有格式的辦公文檔、文本、圖片、XML、HTML、各類報表、圖像和音頻、視頻信息等等,這些信息的形式相對不固定,難以用有限規則表達。

近年來,隨著信息源的不斷增長,計算機網絡和數據庫系統的迅速發展,人們對存取、關聯、組合多數據源數據的需求越來越強烈。如分布的多數據庫系統、數據倉庫系統、WEB信息收集系統等集成系統不斷涌現,在這些系統中,數據和信息的集成是其中的核心問題之一。信息資源的異構性在信息系統中無處不在,越來越多的應用需要訪問各種異構數據源。為了達到異構數據源的共享,必須首先解決數據集成問題。數據集成為多數據源提供一個完整的數據源模式和一致的訪問接口,用戶不必考慮數據模型的多樣性、異構性、數據抽取、數據合成等問題,只需指定他們想要的數據。

為了專利研究工作的便利,建立自動化、高效率、高準確性的多數據源集成檢索系統是十分必要的。通過系統提供的統一的檢索界面,為用戶提供無縫的和靈活的訪問方式,可以緩解用戶分別查詢不同數據庫的壓力。用戶可以同時檢索多個自治的、分布的和異構的數據源。多數據源集成檢索系統不需要用戶提供如何或者從哪里可以獲得信息的詳細情況,可以屏蔽多數據源中數據命名的不一致,非結構化和結構化數據的不一致,以及各數據源查詢能力不同等因素。

以專利數據為主進行研究,多數據源集成檢索系統需要分別獲取的數據分為結構化數據和非結構化數據兩類。

結構化數據指各種專利數據庫中的數據,包括中國專利數據庫、美國專利數據庫、EI、INSPEC等。這些專業數據庫集成了與專利相關的最新文獻、科技成果、標準等信息,可以完整地展現專利產生的背景、最新發展動態、相關領域的發展趨勢,可以瀏覽發明人與發明機構更多的論述以及在各種出版物上發表的信息。這些數據覆蓋面廣,權威性高,結構性強,是數據來源的主要部分。

非結構化數據主要指Web網站上的數據,包括與所查詢內容有關的各種信息,如百度、谷歌、與專利有關的網站信息等。Web 技術的飛速發展,在促使人們信息交流的方式變的更加方便快捷的同時,也積累了大量的數據,如何發現并利用隱藏在這些數據背后的知識就成為當前信息技術領域研究的熱點問題之一。這些數據具有豐富多樣、時效性強、更新速度快等特點,是專業結構化數據庫的重要補充部分。

為了對檢索到的信息進行集成,將關于同一主體的多條信息綜合為一條完整的信息,就必須對數據內容的一致性進行研究。針對檢索的主體,系統需要在眾多記錄中尋找相似重復記錄進行匹配,根據匹配的結果進行處理,刪除部分記錄或者多個記錄合并為一個更完整信息的記錄,同時將這些步驟中的處理過程和結果寫入數據庫,以便進行后續清洗過程,避免重復檢驗,以及更好的進行切片、切塊等操作。解決這類問題需要的技術有:記錄匹配算法、重復檢測算法、合并過程中的沖突解決算法等。只有分析出哪些信息的內容具有高度的相關性與一致性,才能對這些信息的內容進行集成。數據內容的一致性檢驗是數據集成的前提和基礎。

在數據集成的過程中,數據清洗和數據質量一直是一個非常關鍵的問題,它直接影響到數據表達的準確性。將數據準確無誤地表達出來是數據集成的最終目標,數據清洗正是為了提高數據質量,使之符合用戶使用要求,從而提高基于這些數據的信息服務的質量和效率。因此,使用高效、準確的表達方法將集成后的數據表達出來是至關重要的。

數據清洗與集成的內容主要包括以下方面:1.對異構的數據進行分析,使之具有良好的通用的結構,將非標準數據統一化成結構數據,根據數據字典消除不一致的數據,將元素標準化。2.對標準化的元素進行一致性校驗,將內容上的一些錯誤進行修改。3.去處重復的和錯誤的數據記錄。4.補充原始數據中不完整及遺漏的字段。例如對數據中不完整的字段補充必要的信息,使之完整;為空值字段設置合適的值;增加字段以添加額外的信息。最后得到整合完畢的數據。

將集成完畢的數據展現給用戶是系統的最終目的,最終的數據應該盡可能包含全部的正確信息,條理清晰,結構明確。界面設計是人與計算機之間傳遞和交換信息的媒介,良好的界面設計必須遵循以下幾個基本原則:1.用戶導向原則,要站在用戶的觀點和立場上來考慮設計,有良好的交互性。2.簡潔和易于操作原則。3.布局控制,界面中的信息量要適中,結構勻稱。4.視覺平衡,要合理搭配文字、圖表以及空白區域。5.和諧與一致性,一致的結構設計、導航設計和操作設計,可以讓瀏覽者對軟件的形象有深刻的記憶,迅速而又有效的進入在軟件中自己所需要的部分,快速了解整個軟件的各種功能操作。

多數據源集成檢索系統是最近幾年出現的一種新的服務方式,在一定程度上解決了網絡環境下分布式異構數據庫的檢索問題,緩解了用戶分別查詢不同數據庫的壓力。目前,面向專利數據的多數據源集成與表達方法研究尚存在空白,我們可以通過對國外類似系統的研究,從中得到借鑒,這對具有本地化特色的多數據源集成檢索系統的開發有一定的啟發作用。

主站蜘蛛池模板: 一级爆乳无码av| 熟妇无码人妻| 亚洲人成网7777777国产| 久久国产免费观看| 免费Aⅴ片在线观看蜜芽Tⅴ | 久久窝窝国产精品午夜看片| 亚洲精品视频免费看| 毛片在线看网站| 亚洲区欧美区| 久久免费精品琪琪| 九九热这里只有国产精品| 91无码视频在线观看| 午夜福利视频一区| 亚欧美国产综合| 国产免费网址| 亚洲国产成人综合精品2020| AV网站中文| 黄色网页在线播放| 狠狠干欧美| 99在线视频免费观看| 国产原创自拍不卡第一页| 亚洲一区二区三区国产精华液| 免费国产一级 片内射老| 免费a级毛片视频| 黄色a一级视频| 久草中文网| 国产又大又粗又猛又爽的视频| 国产又粗又猛又爽视频| 91精品国产综合久久香蕉922| 免费看a毛片| 免费a在线观看播放| 亚洲欧美激情小说另类| 18黑白丝水手服自慰喷水网站| 永久免费无码日韩视频| 中文字幕在线观看日本| 精品人妻无码区在线视频| 在线看片中文字幕| 精品色综合| 91口爆吞精国产对白第三集| 国产性爱网站| 亚洲Av综合日韩精品久久久| 9966国产精品视频| 99久久精品免费视频| 日a本亚洲中文在线观看| 国产一区二区丝袜高跟鞋| 亚洲性色永久网址| 五月婷婷综合在线视频| 亚洲国产一成久久精品国产成人综合| 粗大猛烈进出高潮视频无码| 狠狠操夜夜爽| 无套av在线| 97se亚洲| 亚洲一级色| 暴力调教一区二区三区| 毛片免费在线视频| 欧美日韩资源| 永久成人无码激情视频免费| 亚洲丝袜第一页| 中文字幕在线观看日本| 亚洲欧美在线综合图区| 国产原创演绎剧情有字幕的| 人妻免费无码不卡视频| 99精品国产电影| 亚洲无码日韩一区| 精品久久人人爽人人玩人人妻| 久久精品免费看一| 欧美区一区二区三| 男人天堂伊人网| Aⅴ无码专区在线观看| 欧美成人国产| 无码人中文字幕| 成AV人片一区二区三区久久| 韩日免费小视频| v天堂中文在线| 日本午夜视频在线观看| 91免费在线看| 国国产a国产片免费麻豆| 国产欧美自拍视频| 国产流白浆视频| 亚洲国产黄色| 欧美另类第一页| 99精品视频九九精品|