999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

第二講 化學(xué)數(shù)據(jù)庫(kù)系統(tǒng)的設(shè)計(jì)策略

2019-04-28 08:11:02姚建華徐雯麗蔣舒仰胡靜李佳王宇飛李靖靖
上海化工 2019年4期
關(guān)鍵詞:規(guī)范化化學(xué)數(shù)據(jù)庫(kù)

姚建華 徐雯麗 蔣舒仰 胡靜 李佳 王宇飛 李靖靖

1中國(guó)科學(xué)院能量調(diào)控材料重點(diǎn)實(shí)驗(yàn)室,中國(guó)科學(xué)院上海有機(jī)化學(xué)研究所(上海 200032)

2鄭州工程技術(shù)學(xué)院(河南鄭州 450044)

在第一講“化學(xué)信息學(xué)概述”中,介紹了化學(xué)信息學(xué)的定義和三大類主要方法:基于數(shù)據(jù)、基于邏輯和基于原理。在本講中,將介紹第一類方法——基于數(shù)據(jù)的部分內(nèi)容:化學(xué)數(shù)據(jù)庫(kù)系統(tǒng)的設(shè)計(jì)策略。

1 數(shù)據(jù)庫(kù)系統(tǒng)

“數(shù)據(jù)庫(kù)”是指一組數(shù)據(jù)及其組織方式。數(shù)據(jù)庫(kù)管理系統(tǒng)(DataBase Management System,DBMS)提供訪問此數(shù)據(jù)庫(kù)的功能。它是一套集成的計(jì)算機(jī)軟件,允許用戶與一個(gè)或多個(gè)數(shù)據(jù)庫(kù)交互,并管理數(shù)據(jù)庫(kù)的數(shù)據(jù)訪問權(quán)限。通常,DBMS主要具備以下功能:數(shù)據(jù)輸入、存儲(chǔ)、檢索和管理數(shù)據(jù)的方法。

一個(gè)數(shù)據(jù)庫(kù)系統(tǒng)主要由兩部分組成:結(jié)構(gòu)化數(shù)據(jù)(即數(shù)據(jù)庫(kù))和數(shù)據(jù)管理系統(tǒng)見圖1。因此,對(duì)應(yīng)的工作主要包含兩部分:(1)數(shù)據(jù)采集和規(guī)范化處理(數(shù)據(jù)庫(kù));(2)數(shù)據(jù)管理系統(tǒng)的設(shè)計(jì)與開發(fā)。

圖1 數(shù)據(jù)庫(kù)系統(tǒng)示意圖

通常,用戶評(píng)價(jià)數(shù)據(jù)庫(kù)性能的關(guān)鍵指標(biāo)包括:使用便利性、檢索結(jié)果正確性和獲得檢索結(jié)果的高效性。使用便利性是指用戶可以很方便地使用數(shù)據(jù)管理系統(tǒng)獲得數(shù)據(jù)庫(kù)中的數(shù)據(jù),管理(修改、刪除、增加)數(shù)據(jù)庫(kù)中的數(shù)據(jù)。檢索結(jié)果正確性是指用戶獲得的檢索結(jié)果與提交的提問數(shù)據(jù)相符。如果用戶提交的提問數(shù)據(jù)為“年齡小于15歲的人員”,那么用戶得到的正確檢索結(jié)果是數(shù)據(jù)庫(kù)中所有的年齡小于15歲的人員名單及其相關(guān)信息,且結(jié)果中沒有15歲及以上的人員信息,否則視為檢索結(jié)果錯(cuò)誤。獲得檢索結(jié)果的高效性即為用戶提交提問數(shù)據(jù)到獲得檢索結(jié)果之間的時(shí)間短、速度快。

實(shí)際上,一個(gè)數(shù)據(jù)庫(kù)系統(tǒng)性能與多種因素相關(guān)。如數(shù)據(jù)量、數(shù)據(jù)質(zhì)量、數(shù)據(jù)庫(kù)結(jié)構(gòu)、檢索算法和數(shù)據(jù)管理系統(tǒng)的性能。

建立一個(gè)數(shù)據(jù)庫(kù)系統(tǒng)的具體工作主要包括:(1)數(shù)據(jù)采集;(2)數(shù)據(jù)規(guī)范化處理規(guī)則的建立;(3)基于規(guī)則的規(guī)范化處理;(4)數(shù)據(jù)庫(kù)的數(shù)據(jù)結(jié)構(gòu)設(shè)計(jì);(5)查詢算法設(shè)計(jì)和系統(tǒng)開發(fā)。前面三項(xiàng)工作屬數(shù)據(jù)庫(kù),第四項(xiàng)與數(shù)據(jù)庫(kù)和數(shù)據(jù)庫(kù)管理系統(tǒng)都相關(guān),最后一項(xiàng)工作屬數(shù)據(jù)庫(kù)管理系統(tǒng)。

化學(xué)數(shù)據(jù)庫(kù)系統(tǒng)是具有化學(xué)專業(yè)背景的數(shù)據(jù)庫(kù)系統(tǒng),它與通用數(shù)據(jù)庫(kù)系統(tǒng)的主要區(qū)別在于:前者包含化學(xué)專業(yè)特有的化合物化學(xué)結(jié)構(gòu)和化學(xué)反應(yīng)數(shù)據(jù),它們與數(shù)字、文字或圖像數(shù)據(jù)不同。關(guān)于化學(xué)結(jié)構(gòu)和化學(xué)反應(yīng)數(shù)據(jù)的存儲(chǔ)、分析和運(yùn)算涉及應(yīng)用圖論[1]/化學(xué)圖論[2-3]的內(nèi)容,將單獨(dú)介紹。在本講中,將主要介紹:(1)化學(xué)數(shù)據(jù)采集;(2)化學(xué)數(shù)據(jù)的規(guī)范化規(guī)則建立及規(guī)范化處理;(3)數(shù)據(jù)庫(kù)的數(shù)據(jù)結(jié)構(gòu)設(shè)計(jì);(4)查詢算法設(shè)計(jì)和系統(tǒng)開發(fā)(化學(xué)結(jié)構(gòu)和化學(xué)反應(yīng)比較算法將單獨(dú)介紹)。

2 數(shù)據(jù)庫(kù)

根據(jù)項(xiàng)目或工作的實(shí)際需求,收集相關(guān)文獻(xiàn)報(bào)道、實(shí)驗(yàn)獲得或計(jì)算獲得的數(shù)據(jù)。不同的需求,采集的數(shù)據(jù)內(nèi)容和側(cè)重點(diǎn)有所不同。一般而言,關(guān)注化合物性質(zhì)的化學(xué)數(shù)據(jù)庫(kù),主要包含以下信息:化合物的化學(xué)結(jié)構(gòu)、化合物的CAS號(hào)、化合物的名稱、化合物的相關(guān)性質(zhì)參數(shù)或數(shù)據(jù);關(guān)注化合物合成路線的化學(xué)數(shù)據(jù)庫(kù),主要包含以下信息:合成路線、反應(yīng)條件等信息。當(dāng)然,也可以將關(guān)注的數(shù)據(jù)集成在一個(gè)數(shù)據(jù)庫(kù)中。由于數(shù)據(jù)采集的工作量較大和成本較高等原因,一般一個(gè)數(shù)據(jù)庫(kù)不可能收集化合物所有性質(zhì)的參數(shù)或數(shù)據(jù)。

3 化學(xué)數(shù)據(jù)及采集

化合物的化學(xué)結(jié)構(gòu)式和化學(xué)反應(yīng)式是化學(xué)數(shù)據(jù)庫(kù)系統(tǒng)特有的數(shù)據(jù),不同于數(shù)字、文字和圖像數(shù)據(jù)。

化合物的化學(xué)結(jié)構(gòu)表達(dá)式有1維、2維和3維式。化合物的1維結(jié)構(gòu)式,即為分子式,是用元素符號(hào)表示單質(zhì)或化合物分子組成的式子。化合物的2維結(jié)構(gòu)是以平面圖顯示原子間的排列和連接關(guān)系。化合物的3維結(jié)構(gòu)是以立體圖顯示原子間的連接、排列和距離關(guān)系。圖2列出了正丁醇的1維(a)、2維(b)和3維(c)結(jié)構(gòu)式。

圖2中的信息顯示:化合物的1維結(jié)構(gòu)式(即分子式)的描述能力有限,只能顯示化合物的元素組成,化合物的2維結(jié)構(gòu)式可以顯示分子內(nèi)原子之間的連接關(guān)系以及結(jié)構(gòu)的完整幾何圖形;化合物的3維結(jié)構(gòu)式可以顯示分子中原子的空間位置、原子間的連接關(guān)系以及分子的三維集合結(jié)構(gòu)。

圖2 正丁醇的1維(a)、2維(b)和3維(c)結(jié)構(gòu)式

目前,化學(xué)數(shù)據(jù)庫(kù)中化合物的化學(xué)結(jié)構(gòu)式通常采用2維和3維結(jié)構(gòu)式。由于3維結(jié)構(gòu)式只適用于精確分析結(jié)構(gòu)的某些特定特征,而且輸入比2維結(jié)構(gòu)難度大,因此,大部分化學(xué)數(shù)據(jù)庫(kù)中的化學(xué)結(jié)構(gòu)采用2維結(jié)構(gòu)式。化學(xué)結(jié)構(gòu)式的采集以2維結(jié)構(gòu)式為主。

CAS號(hào)(CASRegistry Number或稱CASNumber,CASRN,CAS#)又稱CAS登錄號(hào)或CAS登記號(hào)碼,是美國(guó)化學(xué)文摘社為每種公開發(fā)表的物質(zhì)(化合物、高分子材料、生物序列(Biological sequences)、混合物或合金)標(biāo)記的唯一標(biāo)識(shí)符,沒有化學(xué)意義。

CAS號(hào)由“-”字符分隔為三部分,第一部分(最左邊)由2~7個(gè)數(shù)字組成,第二部分(中間)由兩個(gè)數(shù)字組成,第三部分(最右邊)由一個(gè)數(shù)字組成,用作校驗(yàn)位。如列于圖2的化合物正丁醇的CAS號(hào)為:71-36-3。其中,“71”為CAS號(hào)的第一部分,“36”為CAS號(hào)的第二部分,“3”為CAS號(hào)的第三部分。目前,這個(gè)編碼規(guī)則可以為100 000 000個(gè)物質(zhì)提供唯一標(biāo)識(shí)碼[4]。盡管這個(gè)編碼規(guī)則簡(jiǎn)單,但有規(guī)則,適用于數(shù)據(jù)庫(kù)檢索。目前,CAS編碼已廣泛應(yīng)用于各類化學(xué)數(shù)據(jù)庫(kù)系統(tǒng)[5-6]。為了保證數(shù)據(jù)的質(zhì)量,建議從商業(yè)數(shù)據(jù)庫(kù)或有資質(zhì)的信息源采集化合物對(duì)應(yīng)的CAS號(hào)。

化合物的名稱有很多種,如:系統(tǒng)命名的名稱(IUPAC或CAS命名的名稱);商品名;通用名或自定義名。化合物名稱通常包含數(shù)字和字母或文字。如果化合物不是新發(fā)現(xiàn)的,一般采用普遍被認(rèn)可或使用的名稱。化合物的性質(zhì)參數(shù)或數(shù)據(jù)涉及面廣,一般一個(gè)數(shù)據(jù)庫(kù)中只收錄關(guān)注的性質(zhì)參數(shù)或數(shù)據(jù)。性質(zhì)參數(shù)可以是數(shù)字,也可以是文字。由于數(shù)據(jù)采集的工作量和成本的原因,一般一個(gè)數(shù)據(jù)庫(kù)不可能收集化合物所有性質(zhì)的參數(shù)或數(shù)據(jù)。

合成路線一般以反應(yīng)式表達(dá)(如圖3所示),反應(yīng)物和產(chǎn)物的化學(xué)結(jié)構(gòu)通常以2維結(jié)構(gòu)式表示。反應(yīng)條件、得率及其他數(shù)據(jù)通常用文字和數(shù)字表達(dá),溶劑可以用名稱,也可以用化學(xué)結(jié)構(gòu)式表示。

圖3 環(huán)己烷的合成路線

3 規(guī)范化處理規(guī)則建立及規(guī)范化處理

化學(xué)數(shù)據(jù)的規(guī)范化內(nèi)容主要包括化學(xué)結(jié)構(gòu)式、性質(zhì)數(shù)據(jù)的規(guī)范化。化學(xué)結(jié)構(gòu)式的規(guī)范化即將結(jié)構(gòu)式中自定義的表示都用具體的2維或3維結(jié)構(gòu)式表達(dá)。性質(zhì)數(shù)據(jù)的規(guī)范化即將計(jì)量單位統(tǒng)一,實(shí)驗(yàn)條件滿足一致性。具體的規(guī)則取決于規(guī)范化對(duì)象的特征。

4 數(shù)據(jù)庫(kù)的數(shù)據(jù)結(jié)構(gòu)設(shè)計(jì)

化學(xué)數(shù)據(jù)庫(kù)系統(tǒng)有單機(jī)版或網(wǎng)絡(luò)版兩大類。無論是哪一類管理系統(tǒng),對(duì)應(yīng)數(shù)據(jù)庫(kù)的數(shù)據(jù)結(jié)構(gòu)設(shè)計(jì),都必須以數(shù)據(jù)庫(kù)系統(tǒng)預(yù)定的功能以及數(shù)據(jù)管理系統(tǒng)的性能為設(shè)計(jì)根據(jù)。

本講中,將介紹兩個(gè)單機(jī)版的化學(xué)數(shù)據(jù)庫(kù)管理系統(tǒng):ISIS/BASE和CISOC-ChIMS。ISIS/BASE是MDL公司設(shè)計(jì)開發(fā)的單機(jī)版化學(xué)數(shù)據(jù)庫(kù)管理系統(tǒng)[7]。ISIS/BASE有11種數(shù)據(jù)類型,其中常用的有:Fixed Text(定長(zhǎng)字符串)、Variable Text(不定長(zhǎng)字符串)、Integer(整數(shù))、Real(實(shí)數(shù))、Range(實(shí)數(shù)范圍)、Date(日期)、Sketch(圖形)、Structure(2維或3維化學(xué)結(jié)構(gòu))和Reaction(單步反應(yīng)式)。用戶可用這些數(shù)據(jù)類型,設(shè)計(jì)數(shù)據(jù)庫(kù)的數(shù)據(jù)結(jié)構(gòu),建立單機(jī)版自用數(shù)據(jù)庫(kù)系統(tǒng)。用ISIS/BASE構(gòu)建的單機(jī)版的化合物數(shù)據(jù)庫(kù)系統(tǒng)和反應(yīng)數(shù)據(jù)庫(kù)系統(tǒng)界面如圖4所示。其中:化合物數(shù)據(jù)庫(kù)的數(shù)據(jù)結(jié)構(gòu)設(shè)計(jì)采用了以下5種數(shù)據(jù)類 型——Structure,Variable Text,Real,Range 和Date;反應(yīng)數(shù)據(jù)庫(kù)的數(shù)據(jù)結(jié)構(gòu)采用了以下5種數(shù)據(jù)類 型:Reaction,Variable Text,F(xiàn)ixed Text,Range和Structure。ISIS/BASE構(gòu)建的化合物數(shù)據(jù)庫(kù)和反應(yīng)數(shù)據(jù)庫(kù),庫(kù)中的每個(gè)數(shù)據(jù)域均可被作為提問數(shù)據(jù),實(shí)現(xiàn)對(duì)應(yīng)的數(shù)據(jù)檢索。

CISOC-ChIMS是由中國(guó)科學(xué)院上海有機(jī)化學(xué)研究所設(shè)計(jì)和開發(fā),并具有自主知識(shí)產(chǎn)權(quán)的化學(xué)信息管理系統(tǒng)(如圖5所示)[8]。同樣,它可以用于建立單機(jī)版的化學(xué)數(shù)據(jù)庫(kù)系統(tǒng)。用戶無需定義數(shù)據(jù)庫(kù)的數(shù)據(jù)結(jié)構(gòu),只需直接在界面中直接輸入相關(guān)信息即可。該系統(tǒng)適用于建立化合物數(shù)據(jù)庫(kù)系統(tǒng),具有化合物結(jié)構(gòu)和文字/數(shù)字檢索功能,中文處理功能優(yōu)于ISIS/BASE,并具有超級(jí)鏈接功能。前面介紹了兩個(gè)構(gòu)建單機(jī)版數(shù)據(jù)庫(kù)系統(tǒng)的實(shí)例。已有的報(bào)道顯示,目前,網(wǎng)絡(luò)版數(shù)據(jù)庫(kù)管理系統(tǒng)基本都是根據(jù)具體的內(nèi)容和要求設(shè)計(jì)和開發(fā)。例如基于網(wǎng)絡(luò)的危險(xiǎn)化學(xué)品信息查詢系統(tǒng),該系統(tǒng)采用超文本預(yù)處理器(PHP),MySQL和VC++實(shí)現(xiàn),并具有化合物結(jié)構(gòu)、CAS號(hào)、名稱和毒性查詢功能。用戶可以通過網(wǎng)絡(luò),根據(jù)化學(xué)結(jié)構(gòu)、CAS號(hào)或名稱等信息,實(shí)時(shí)獲得相關(guān)信息[9]。

5 查詢算法設(shè)計(jì)和系統(tǒng)開發(fā)

圖4 ISIS/BASE構(gòu)建的數(shù)據(jù)庫(kù)系統(tǒng)

圖5 CISOC-ChIMS數(shù)據(jù)庫(kù)管理系統(tǒng)

化學(xué)數(shù)據(jù)庫(kù)系統(tǒng)的文字和數(shù)字查詢算法可以直接采用計(jì)算機(jī)科學(xué)中成熟的算法,化學(xué)結(jié)構(gòu)的查詢算法有多種,如:SMILS碼比較,拓?fù)渲笖?shù)比較等。查詢算法的效率除了與算法本身有關(guān),還與數(shù)據(jù)庫(kù)的數(shù)據(jù)結(jié)構(gòu)、索引定義等因素相關(guān)。

對(duì)于單機(jī)版的管理系統(tǒng)開發(fā),建議采用VC++實(shí)現(xiàn),盡可能減少系統(tǒng)函數(shù)的使用,以降低因操作系統(tǒng)差異造成管理系統(tǒng)不能正常運(yùn)行的可能性。就網(wǎng)絡(luò)版的管理系統(tǒng)開發(fā)而言,建議采用VC++實(shí)現(xiàn)核心的比較功能,這將有助于保證檢索速度不受影響。

6 總結(jié)

化學(xué)數(shù)據(jù)庫(kù)系統(tǒng)屬化學(xué)專業(yè)的數(shù)據(jù)庫(kù)系統(tǒng),可應(yīng)用于涉及化學(xué)數(shù)據(jù)的相關(guān)領(lǐng)域。化學(xué)數(shù)據(jù)庫(kù)系統(tǒng)數(shù)據(jù)庫(kù)中的數(shù)據(jù)主要有四大類:文字、數(shù)字、化學(xué)結(jié)構(gòu)和化學(xué)反應(yīng)式。其中,化學(xué)結(jié)構(gòu)和化學(xué)反應(yīng)式是化學(xué)數(shù)據(jù)庫(kù)系統(tǒng)的“標(biāo)志性”數(shù)據(jù),化學(xué)結(jié)構(gòu)及化學(xué)反應(yīng)數(shù)據(jù)的計(jì)算機(jī)存儲(chǔ)、識(shí)別、比較等方法,是構(gòu)建化學(xué)數(shù)據(jù)庫(kù)系統(tǒng)的關(guān)鍵方法之一,也是化學(xué)數(shù)據(jù)庫(kù)的“特殊”之處。

猜你喜歡
規(guī)范化化學(xué)數(shù)據(jù)庫(kù)
價(jià)格認(rèn)定的規(guī)范化之路
商周刊(2017年23期)2017-11-24 03:24:09
奇妙的化學(xué)
奇妙的化學(xué)
數(shù)據(jù)庫(kù)
奇妙的化學(xué)
奇妙的化學(xué)
數(shù)據(jù)庫(kù)
數(shù)據(jù)庫(kù)
數(shù)據(jù)庫(kù)
狂犬病Ⅲ級(jí)暴露規(guī)范化預(yù)防處置實(shí)踐
主站蜘蛛池模板: 日韩AV无码免费一二三区| 国产三级国产精品国产普男人| 青青青国产免费线在| 青青热久免费精品视频6| 中文字幕不卡免费高清视频| 国产欧美日韩另类精彩视频| 草草影院国产第一页| 国产亚洲视频在线观看| 国产人成乱码视频免费观看| 国产香蕉在线视频| 精品91在线| 国产地址二永久伊甸园| 麻豆a级片| 美女国产在线| 精品久久综合1区2区3区激情| 91九色视频网| 国产激爽大片高清在线观看| 国产国拍精品视频免费看 | a色毛片免费视频| 久久夜色撩人精品国产| 国产成人精品日本亚洲77美色| 久无码久无码av无码| 天堂网亚洲综合在线| 天天色综合4| 国产精品一区不卡| 国产成人亚洲综合A∨在线播放| 国产麻豆福利av在线播放| 18禁黄无遮挡免费动漫网站| 欧美天堂久久| 国产精品伦视频观看免费| 18黑白丝水手服自慰喷水网站| 亚洲人成成无码网WWW| 国产精品毛片一区| 97成人在线视频| 十八禁美女裸体网站| 国产精品免费电影| 四虎综合网| 成人一区专区在线观看| 亚洲永久视频| 丝袜美女被出水视频一区| 啦啦啦网站在线观看a毛片| 麻豆精品久久久久久久99蜜桃| 精品剧情v国产在线观看| 久久久久国产一级毛片高清板| 在线va视频| 99r在线精品视频在线播放| 精品国产黑色丝袜高跟鞋| 直接黄91麻豆网站| 99这里只有精品在线| 丰满的熟女一区二区三区l| 狠狠色香婷婷久久亚洲精品| 久久久久免费精品国产| 精品小视频在线观看| 欧美日本激情| 国产成人精品一区二区| 日韩A∨精品日韩精品无码| 久久一日本道色综合久久| 国产精品hd在线播放| 亚洲熟妇AV日韩熟妇在线| 日韩在线观看网站| 91久久青青草原精品国产| 国产真实二区一区在线亚洲| 亚洲国产AV无码综合原创| 欧美日本在线播放| 91亚洲精选| 超清无码一区二区三区| 精品无码国产自产野外拍在线| 国产91蝌蚪窝| 亚洲男人在线| 激情网址在线观看| 免费激情网站| 国产一区在线视频观看| 亚洲国产亚综合在线区| 亚洲水蜜桃久久综合网站| 99国产在线视频| 国产91视频观看| 熟妇丰满人妻| 国产青榴视频在线观看网站| 亚洲嫩模喷白浆| 欧美精品三级在线| 亚洲精品波多野结衣| 亚洲 日韩 激情 无码 中出|