滕輝,趙阿勐,滕迪,寧小美,何蘭,宋運娜,馬玉坤
(齊齊哈爾醫學院,黑龍江 齊齊哈爾 161006)
醫學中海量的異質性數據,含有很多尚未被人們發現認識的信息,需要對這些數據進行處理,并從中獲得新發現。關聯分析技術是目前數據挖掘領域比較熱門的技術,它是從海量的潛在的數據中發現事物或因素間的有用的相互關系,而定量分析這種關系,則需要有算法或公式,即關聯算法,它是數據挖掘中的一類非常重要的算法。近年來,關聯規則算法被多方面改進[1-4],關聯規則被廣泛應用于各種數據庫的挖掘中[5-8],并在生物醫學與藥學的研究中得到一種推廣[9]。然而,通過利用關聯規則建立抗精神疾病藥物網絡模型還鮮有研究。
關聯規則的目的在于在一個數據集中找出項之間的關系,關聯規則中有三個非常重要的指標:
衡量關聯規則對出現頻率影響的指標
由于藥學相關文獻中有含有大量的專業性名詞,所以要從文獻中提煉有用結論,首先要對數據進行清理。可以在藥物名詞間建立關聯,從而確定兩個藥物名詞間的聯系。如果它們出現在同一篇文獻中,那么我們就認為它們是相關的。目前,發現兩者間的這種隱含關系的最重要的算法是ABC算法。它通過局部尋優,最終使全局最優值凸顯出來,具有收斂速度較快的特點。其基本思想是:假設A和C都與B相關,那么A和C之間可能存在某種關系,而這種關系經常可能不會被發現。
在原始關聯規則算法基礎上,對度量生物醫藥關聯時,支持度和置信度不能夠完全過濾掉無用的關聯規則,那么就可以利用關聯度度量擴展關聯規則框架。我們用作用度作為相關性的相關度量,以作用度評估一個預測模型是否有效。通過對網絡模型和關聯規則的改進,引入加速比和效率來分析算法的性能。其中,Q是字節點數,Kn是n個頻繁集的時間,Km是每個節點發送和接收k個頻繁集的時間。
在使用與藥物相關的網絡數據庫規律得到的標準化術語。一部分可能僅在文獻中提及或者比較性介紹,沒有進行具體研究,因此在實際應用中,可將閾值設置為大于等于3。主要過程的統計資料見表1。

表1 改進基于網絡模型的相關算法
從表1可以看出,隨著字節點數的增加,算法的速度增快,總執行時間減少,效率略有降低,但降低幅度較小。因此,改進后的算法具有一定的可擴展性,提高了計算效率。
首先給定最小支持度閾值,計算所有大于或等于支持度的項集,得到單個項目的項集;然后根據相關度量,計算項集中各項目之間的相關性,篩選出不滿足最小提升閾值的項目;最后根據篩選出的項目和 abc 理論生成新的項集及其關聯,篩選出不滿足最小提升值的項集,得到網絡模型數據集。
從Pubmed數據庫中抽取與精神疾病相關的醫學文獻,對數據進行清理得到治療精神疾病類藥物與藥物之間的相關性,利用關聯規則對抗精神疾病類藥物之間是否存在關聯進行量化,實現網絡模型的可視化,對網絡節點關聯和模型結構進行分析,并采用經典ROC曲線方法進行驗證算法的可靠性。
為了更好的分析具有高相關性的藥物,依照上述關聯規則算法,我們設定閾值為9,抽取得到32種藥物以及54種藥物的高相關性,建立抗精神疾病類疾病藥物網絡模型。對數據的多次處理,得到具有較高關聯性價值的藥物。
在圖1藥物網絡模型中,絕大多數節點的度較小,極少數節點的度較大,這符合冪律分布規律的,屬于無尺度網絡,它具有對隨機故障有較強承受能力,對有針對性攻擊較脆弱的屬性。在醫學領域中,這個特征說明了關鍵節點的重要性。從上述研究中,我們得到關鍵節點有舒必利、硫必利、喹硫平等,這些關鍵節點是抗精神疾病藥物研究的熱點,可能與許多其他藥物存在相互作用。剔除具有孤立節點的藥物,發現阿司匹林和雙氯芬酸這兩種藥物比較特殊,只有單一的相關性,與其他藥物沒有相關性。

圖1 抗精神疾病藥物的網絡模型
利用roc曲線算法驗證上述抗精神疾病藥物之間的相關性結果。結果表明:ROC 曲線下面積為0.801,相關性較高,對應的標準誤差為0.084,P值為0.95% 的置信區間為0.637,0.965。

圖2 抗精神疾病類藥物治療的 roc 曲線性能評價
從ROC曲線的計算結果可以看出,改進的關聯規則算法優于其他提取算法。這為研究人員未來對精神疾病癥相關診斷和治療、疾病候選基因篩選、靶向藥物、藥物重新定位和個體化醫學提供了研究基礎和研究思路。同樣,該算法模型也可用于其他臨床疾病的分析。
在大量的生物醫學文獻中,有大量的生物實體之間的聯系。對這些異質數據的系統分析給生物學家帶來了前所未有的機會,使他們能夠推斷不同生物實體之間在個體化醫學和轉譯醫學的背景下的聯系程度。然而,這些關聯是非常復雜和稀疏的,并且計算量的直接查詢是非常具有挑戰性的。網絡模型的建立拓寬了藥物再定位研究的思路。從傳統的一種疾病對應一個目標,從整體的角度展現疾病發生的復雜生物學過程和藥物在體內的作用規律。這是一個整體的、動態的、全面的系統分析。它在挖掘所獲得的數據資源中的隱藏信息方面達到了一個新的高度。利用關聯規則挖掘技術發現海量數據中不同集合之間的潛在相關性。它是數據挖掘中的一種重要算法。近年來在各行各業得到了廣泛的應用。為此,基于網絡模型的組合,提出了一種基于改進關聯規則的藥物相互作用算法,實現了藥物相互作用、藥物開發和藥物使用信息的準確分析和決策。結果表明,基于本研究構建的網絡模型的關聯規則算法優于其他關聯提取算法。它在改善藥物-藥物關系的決策過程中,具有高度的可靠性和智能性,促進了藥物的合理使用,對藥物研究具有一定的指導作用。這也為科研人員重新定位與疾病相關的診斷和治療藥物及個體化醫學提供了研究基礎和研究思路。