999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于科學(xué)計(jì)量方法的生物實(shí)體研究方案

2015-03-22 05:28:10
關(guān)鍵詞:生物特征方法

1 生物實(shí)體研究問題的提出

人類基因組計(jì)劃的提出和完成,全面改變了生命科學(xué)的面貌,開辟了基因組學(xué)發(fā)展的新紀(jì)元[1-2]。科學(xué)家開始融合信息科學(xué)、計(jì)算機(jī)科學(xué)以及數(shù)學(xué)等學(xué)科的理論和技術(shù),整體研究一個(gè)生物系統(tǒng)中所有生物實(shí)體(Gene、Disease、Phenotype、Chemical Compound、Protein、Drug和Virus等)的構(gòu)成,以及特定條件下這些生物實(shí)體間的相互關(guān)系。這些研究對(duì)于揭示細(xì)胞內(nèi)和細(xì)胞間的作用機(jī)理、疾病標(biāo)靶基因的發(fā)現(xiàn)以及新藥的研制等具有重大意義。

隨著科技的不斷進(jìn)步及基因組學(xué)的迅速發(fā)展,生物醫(yī)學(xué)領(lǐng)域海量的新生物實(shí)體不斷被科研人員發(fā)現(xiàn)[3-4],與這些生物實(shí)體相關(guān)的知識(shí)形成了大量與人類健康密切相關(guān)的科研成果。

這些成果大都以論文形式發(fā)表,并被數(shù)字化成電子文獻(xiàn)。由于這些文獻(xiàn)都是非結(jié)構(gòu)化的自然語(yǔ)言,因此為了獲取研究所需的實(shí)體關(guān)系知識(shí),科研人員需要花費(fèi)大量的時(shí)間和精力來閱讀數(shù)量眾多的文獻(xiàn)。于是,一種新的需求應(yīng)運(yùn)而生,那就是如何從海量的生物文獻(xiàn)中迅速地找到生物實(shí)體之間可能存在的關(guān)系。

2 國(guó)內(nèi)外研究現(xiàn)狀

2.1 基于文獻(xiàn)搜索引擎的生物實(shí)體關(guān)系發(fā)現(xiàn)

文獻(xiàn)搜索引擎可以幫助科研人員解決部分問題。在PubMed中,我們以“diabetes[MeSH Major Topic], drug*, gene*”為檢索式查詢了討論糖尿病、基因和藥物3種生物實(shí)體關(guān)系的所有文獻(xiàn),返回3 473條摘要記錄。說明存在大量探討糖尿病、基因和藥物之間關(guān)系的文獻(xiàn),但靠人工閱讀無法從大規(guī)模的文獻(xiàn)記錄中迅速獲取相關(guān)知識(shí)。

2.2 基于數(shù)據(jù)挖掘技術(shù)的生物實(shí)體識(shí)別

近年來,隨著數(shù)據(jù)挖掘技術(shù)的不斷發(fā)展,批量文本的自動(dòng)化處理已成為現(xiàn)實(shí),為生物實(shí)體的挖掘提供了新的契機(jī)。不過就國(guó)內(nèi)外相關(guān)研究仍僅局限于對(duì)海量文獻(xiàn)中生物醫(yī)學(xué)實(shí)體的識(shí)別[5-6]。最早的生物醫(yī)學(xué)實(shí)體識(shí)別方式是基于字典,如Proux等人于1998年第一次應(yīng)用英語(yǔ)詞典對(duì)基因和蛋白質(zhì)進(jìn)行了識(shí)別[7]。

基于啟發(fā)式規(guī)則的方式是早期被廣泛使用的一種方法,F(xiàn)ukuda等最早利用基于規(guī)則的系統(tǒng)判定文獻(xiàn)中的蛋白質(zhì)名稱[8];Tsuruoka等采用啟發(fā)式規(guī)則以最小化相關(guān)術(shù)語(yǔ)的歧義性和變化性,實(shí)現(xiàn)了術(shù)語(yǔ)名稱的標(biāo)準(zhǔn)化,從而提高了查找字典的效率[9]。

基于機(jī)器學(xué)習(xí)的方式則是目前主流的方法,它主要利用統(tǒng)計(jì)方法從大量數(shù)據(jù)中估算相關(guān)參數(shù)和特征進(jìn)而建立識(shí)別模型,具有客觀、移植性好等特點(diǎn)[10]。

隨后,生物信息領(lǐng)域的科研人員開始嘗試以生物醫(yī)學(xué)實(shí)體共現(xiàn)的手段從大規(guī)模的生物文本中探測(cè)隱藏的關(guān)系,并取得了一定的效果[11-14]。這種方法假設(shè)同一篇文獻(xiàn)中出現(xiàn)的兩個(gè)生物醫(yī)學(xué)實(shí)體之間存在某種關(guān)系,如果兩個(gè)生物醫(yī)學(xué)實(shí)體同時(shí)出現(xiàn)于多篇文獻(xiàn)中,則二者之間存在關(guān)系的可信度增強(qiáng)。然而,這些研究?jī)H局限于同種生物實(shí)體之間的關(guān)系(如蛋白質(zhì)—蛋白質(zhì))或兩種不同生物實(shí)體之間的關(guān)系(基因—蛋白質(zhì))。

2.3 基于知識(shí)庫(kù)的生物實(shí)體揭示

為了便于研究人員迅速獲取生物實(shí)體相關(guān)知識(shí),一些發(fā)達(dá)國(guó)家投入大量的人力、物力和財(cái)力,以人工標(biāo)注的方式構(gòu)建相關(guān)生物實(shí)體關(guān)系知識(shí)庫(kù)。Nucleic Acids Research (NAR)期刊在每年一度的特刊中會(huì)對(duì)全球所有高質(zhì)量的、有價(jià)值的生物實(shí)體關(guān)系知識(shí)庫(kù)進(jìn)行分類和描述,現(xiàn)已介紹1 552個(gè)數(shù)據(jù)庫(kù)[15],其他數(shù)據(jù)庫(kù)集合還包括MetaBase[16]和Bioinformatics Links Collection[17]等。由于這些知識(shí)庫(kù)中的知識(shí)大都以結(jié)構(gòu)化的方式存儲(chǔ),故在一定程度上滿足了科研人員快速獲取知識(shí)的需求。但隨之產(chǎn)生的問題是數(shù)據(jù)生產(chǎn)耗費(fèi)巨大,因而增長(zhǎng)速度緩慢[18]。有研究表明,目前僅有20%的生物醫(yī)學(xué)知識(shí)以結(jié)構(gòu)化的形式存儲(chǔ)于生物實(shí)體關(guān)系知識(shí)庫(kù)中,剩余的80%則為非結(jié)構(gòu)化數(shù)據(jù),以自由文本的形式隱藏在科學(xué)文獻(xiàn)中[19-21],有待挖掘。

3 基于科學(xué)計(jì)量方法的生物實(shí)體評(píng)價(jià)研究方案

科學(xué)計(jì)量學(xué)關(guān)注的對(duì)象主要分為兩類:一類為宏觀特征,如作者、機(jī)構(gòu)、國(guó)家、期刊等,它們用于評(píng)價(jià)文獻(xiàn)的非內(nèi)容特征;另一類為中觀特征,如關(guān)鍵詞、題目和參考文獻(xiàn)等,主要用于文獻(xiàn)主題的分析和評(píng)價(jià)。事實(shí)上,科研文獻(xiàn)中還存在一種微觀特征,即概念實(shí)體,專指科研文獻(xiàn)中出現(xiàn)的某一事物的概念或?qū)ο螅缥墨I(xiàn)中所使用的某一理論的名稱、某一方法的名稱或本文所研究的生物實(shí)體。文獻(xiàn)中的概念實(shí)體對(duì)象也是科學(xué)計(jì)量學(xué)應(yīng)關(guān)注的一種文獻(xiàn)特征(圖1)。

由于概念實(shí)體隱藏在科研文獻(xiàn)中,而早期數(shù)據(jù)挖掘技術(shù)不成熟,主要依靠手工標(biāo)識(shí)的方式實(shí)現(xiàn)。因此方法的推廣性較差,相關(guān)研究也較少。如有學(xué)者以“研究理論”(theory)為對(duì)象,人工對(duì)信息科學(xué)研究和家庭治療研究領(lǐng)域文獻(xiàn)中使用的基本理論進(jìn)行標(biāo)識(shí),進(jìn)而分析這些理論被使用的情況[22-23]。雖然有關(guān)生物實(shí)體的研究已取得一些成果,但仍局限于生物實(shí)體的識(shí)別研究和基于共現(xiàn)關(guān)系的生物實(shí)體關(guān)系研究。因此,本文擬基于科學(xué)計(jì)量方法進(jìn)行生物實(shí)體評(píng)價(jià)研究,即選取科研文獻(xiàn)中出現(xiàn)的生物實(shí)體為研究對(duì)象,利用科學(xué)計(jì)量方法對(duì)其影響力進(jìn)行評(píng)估,以期對(duì)生物實(shí)體之間的關(guān)系進(jìn)行分類和預(yù)測(cè),將其所代表的知識(shí)快速準(zhǔn)確地展現(xiàn)給科研人員,加速科研假說的生成,加快科學(xué)研究進(jìn)程。生物實(shí)體評(píng)價(jià)研究的具體方案如下。

3.1 生物實(shí)體的識(shí)別

科研文獻(xiàn)中生物實(shí)體的有效識(shí)別是實(shí)現(xiàn)生物實(shí)體研究的前提。傳統(tǒng)的生物實(shí)體識(shí)別方法包括基于字典、基于啟發(fā)式規(guī)則和基于機(jī)器學(xué)習(xí)等方法。基于字典的識(shí)別方法受字典本身的限制,會(huì)產(chǎn)生一些假陽(yáng)性和假陰性數(shù)據(jù),需引入一些簡(jiǎn)單的規(guī)則來輔助;基于規(guī)則的識(shí)別方法由于需要人工處理,推廣性較差;基于機(jī)器學(xué)習(xí)的方法對(duì)訓(xùn)練語(yǔ)料的規(guī)模和質(zhì)量依賴性較大。故可結(jié)合3種方法開展生物實(shí)體識(shí)別:以機(jī)器學(xué)習(xí)方法為主線,將字典特征形式整合至機(jī)器學(xué)習(xí)方法的第一步(生物實(shí)體特征選擇),接著進(jìn)行機(jī)器學(xué)習(xí)的第二步(采用分類方法對(duì)生物實(shí)體進(jìn)行分類),最后將基于啟發(fā)式規(guī)則的方法融入機(jī)器學(xué)習(xí)方法的后期處理中。

3.2 基于“引用”關(guān)系的生物實(shí)體關(guān)系建模

我們基于引文分析理論提出了概念實(shí)體的“引用”關(guān)系,其實(shí)質(zhì)上是通過文獻(xiàn)之間的引用關(guān)系建立概念實(shí)體之間的聯(lián)系,即做出如下假設(shè):如果文獻(xiàn)P1引用了文獻(xiàn)P2(P1→P2),P1中提及了實(shí)體K1和K2,P2中提及了實(shí)體K3和K4,則認(rèn)為K1“引用”了K3和K4(K1→K3、K1→K4),K2“引用”了K3和K4(K2→K3、K2→K4)(圖2)。顯然,基于大數(shù)據(jù)建立的這種“引用”關(guān)系具有一定的必然性。

3.3 基于“引用”網(wǎng)絡(luò)的生物實(shí)體研究

與生物實(shí)體共現(xiàn)網(wǎng)絡(luò)研究相似,通過網(wǎng)絡(luò)直徑、最小路徑、密度和最大Component等網(wǎng)絡(luò)宏觀指標(biāo)可研究生物醫(yī)學(xué)實(shí)體“引用”網(wǎng)絡(luò)的拓?fù)涮卣鳎煌ㄟ^K-core、Clique等網(wǎng)絡(luò)中觀指標(biāo)可挖掘生物醫(yī)學(xué)實(shí)體“引用”網(wǎng)絡(luò)的社團(tuán)結(jié)構(gòu);通過中心度、PageRank等網(wǎng)絡(luò)微觀指標(biāo)可分析生物醫(yī)學(xué)實(shí)體之間的相互關(guān)系。此外,通過生物實(shí)體“引用”網(wǎng)絡(luò)還可以跟蹤生物實(shí)體所代表知識(shí)的流動(dòng)軌跡,探索生物醫(yī)學(xué)知識(shí)轉(zhuǎn)移和擴(kuò)散的規(guī)律。

我們?cè)谇捌诘难芯恐校谏鲜黾僭O(shè)構(gòu)建生物信息數(shù)據(jù)庫(kù)“引用”網(wǎng)絡(luò)[24]和生物醫(yī)學(xué)實(shí)體“引用”網(wǎng)絡(luò)(Gene、Disease和Drug)[25]。對(duì)前一個(gè)網(wǎng)絡(luò)的拓?fù)涮卣骱椭髀窂椒治霭l(fā)現(xiàn),通過引文建立的生物醫(yī)學(xué)信息數(shù)據(jù)庫(kù)之間的關(guān)聯(lián)有助于探索數(shù)據(jù)庫(kù)的使用規(guī)律;對(duì)后一個(gè)網(wǎng)絡(luò)中生物醫(yī)學(xué)實(shí)體按照中心度指標(biāo)進(jìn)行排序,發(fā)現(xiàn)該方法能夠檢測(cè)出絕大多數(shù)在Comparative Toxicogenomic Database數(shù)據(jù)庫(kù)中手工注釋的生物醫(yī)學(xué)實(shí)體關(guān)系。

圖2 通過文獻(xiàn)引用建立的生物實(shí)體"引用"關(guān)系

4 總結(jié)

4.1 發(fā)展和完善科學(xué)計(jì)量學(xué)理論和實(shí)踐研究

科學(xué)計(jì)量學(xué)所關(guān)注科研文獻(xiàn)中的宏觀特征和中觀特征大都以題錄形式儲(chǔ)存于文獻(xiàn)數(shù)據(jù)庫(kù),其所代表的均為文獻(xiàn)的外顯知識(shí),可免費(fèi)獲取。由于概念實(shí)體大都蘊(yùn)藏于文獻(xiàn)的全文之中,文獻(xiàn)的內(nèi)含知識(shí)只有通過文本挖掘方可獲取。此外,概念實(shí)體與文獻(xiàn)中觀特征最大的區(qū)別在于其專指性更強(qiáng)。對(duì)生物實(shí)體這一微觀特征對(duì)象的評(píng)價(jià)擴(kuò)展了科學(xué)計(jì)量學(xué)的內(nèi)涵,有利于該學(xué)科理論的進(jìn)一步發(fā)展和完善。

4.2 開辟知識(shí)管理研究的新視角

科學(xué)計(jì)量方法為生物實(shí)體等非結(jié)構(gòu)化數(shù)據(jù)提供了一種“自上而下(Top-down)”的管理方式,即從海量文本入手分析,一方面幫助生物醫(yī)學(xué)科研人員快速準(zhǔn)確地發(fā)現(xiàn)隱藏于文獻(xiàn)中的生物實(shí)體關(guān)系,通過合理假設(shè)、實(shí)驗(yàn)驗(yàn)證,大大節(jié)省知識(shí)發(fā)現(xiàn)的周期;另一方面對(duì)生物知識(shí)的流動(dòng)、轉(zhuǎn)移、擴(kuò)散和利用等規(guī)律進(jìn)行深入探索。因而,生物實(shí)體評(píng)價(jià)開辟了知識(shí)管理方式研究的全新視角,并幫助生物醫(yī)學(xué)科研人員迅速、準(zhǔn)確地獲取隱藏于海量科學(xué)文獻(xiàn)文本中的相關(guān)生物醫(yī)學(xué)知識(shí),加快了科研假說的提出,從而進(jìn)一步推動(dòng)生物醫(yī)學(xué)相關(guān)學(xué)科的發(fā)展。

猜你喜歡
生物特征方法
生物多樣性
生物多樣性
上上生物
第12話 完美生物
航空世界(2020年10期)2020-01-19 14:36:20
如何表達(dá)“特征”
不忠誠(chéng)的四個(gè)特征
抓住特征巧觀察
用對(duì)方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 激情视频综合网| 国产午夜看片| 国产微拍一区二区三区四区| 国产激情在线视频| 农村乱人伦一区二区| 久久精品人妻中文系列| 国产一级二级三级毛片| 好吊色国产欧美日韩免费观看| 国产激情第一页| 国产69囗曝护士吞精在线视频| 亚洲码在线中文在线观看| 小说 亚洲 无码 精品| 东京热一区二区三区无码视频| 国产精品青青| 国产精品hd在线播放| 久久国产精品电影| 国产毛片久久国产| 无码区日韩专区免费系列| 久夜色精品国产噜噜| 国产一级妓女av网站| 欧美精品成人| 波多野结衣在线一区二区| 3D动漫精品啪啪一区二区下载| 国产成人乱无码视频| 五月天久久婷婷| 国产99免费视频| 国产69精品久久久久孕妇大杂乱| 9966国产精品视频| 国产福利拍拍拍| 高清无码一本到东京热| 91尤物国产尤物福利在线| 久久国产精品影院| 国产一区二区精品高清在线观看| 夜夜操天天摸| 亚洲最新网址| 亚洲毛片一级带毛片基地| av色爱 天堂网| 亚洲欧美精品一中文字幕| 91久久偷偷做嫩草影院免费看| jizz国产视频| 国产国产人免费视频成18| 亚洲福利视频网址| 日韩免费成人| 2021国产精品自拍| 真实国产精品vr专区| 欧美激情视频一区| 日韩专区欧美| 99视频在线精品免费观看6| 精品久久久久久成人AV| 无码AV日韩一二三区| 国产欧美日韩专区发布| 国产乱人伦偷精品视频AAA| 国产凹凸视频在线观看 | 在线观看欧美国产| 亚洲中文字幕精品| 亚洲水蜜桃久久综合网站| 国产三级成人| 亚洲成aⅴ人在线观看| 激情爆乳一区二区| 欧美精品在线看| 亚洲视频影院| 啪啪啪亚洲无码| 九色视频最新网址| 国产99视频精品免费观看9e| 一本一道波多野结衣一区二区 | 在线一级毛片| 人妻精品久久无码区| 久久亚洲精少妇毛片午夜无码 | 亚洲男人的天堂在线观看| 97久久免费视频| 综合人妻久久一区二区精品| 毛片免费试看| 欧美成人A视频| 99在线视频免费| 国产精品9| 蜜臀AVWWW国产天堂| 日韩高清中文字幕| 永久免费av网站可以直接看的| 毛片免费高清免费| 99无码熟妇丰满人妻啪啪| 青青草国产精品久久久久| 成人精品视频一区二区在线|