劉佳 魏佳奇 劉玉琴 時歌歌 郭靜
(1. 媒體融合與傳播國家重點實驗室(中國傳媒大學),北京 100024;2. 燕山大學經濟管理學院,秦皇島 066000;3. 北京印刷學院新聞出版學院,北京 102600)
基因編輯技術是實現基因定點修飾和調控的重要手段之一,與傳統的基因打靶技術相比,它的成本更低,并且擁有更高的效率和可靠性[1]。作為改變生物基因型和表型的“手術刀”,基因編輯技術在治療遺傳疾病和難以治愈的疾病等方面的遠大前景也吸引了各種生物學研究人員的高度重視[2-3]。到目前為止,主要發展了3代基因編輯技術,前兩代基因編輯技術鋅指核酸內切酶(ZFN)和類轉錄激活因子效應物核酸酶(TALEN)都是由DNA結合蛋白和核酸內切酶Fok I融合而成,而第3代基因編輯技術CRISPR-Cas9核酸酶則是基于細菌的一種免疫系統改造而成[4]。
近年來,國內外學者已經利用文獻計量分析和專利分析等方法研究了基因編輯技術的發展。Ledley等[5]利用文獻計量學和技術生命周期方法探討了基因療法的商業化前景和其技術成熟度水平之間的關系。Magee等[6]通過基因工程相關專利的引文網絡確定了基因編輯技術的主要知識軌跡,從而得出了CRISPR會在未來很長一段時間內得到有效發展的結論。而Li的團隊又利用社會網絡分析對2000-2019年基因編輯領域內作者和發明人網絡進行了探索,得出了一些作者在知識轉移過程中發揮的重要作用[7]。同樣,我國學者曹學偉等[8]運用文獻計量學方法對基因編輯領域的論文數據進行了研究,從而為掌握該技術的整體發展現狀做出了貢獻。王友華和范月蕾等[9-10]從全球的角度對CRISPR技術的發展進行了分析與展望。而汪慶等[11]則將研究重點聚焦于基因編輯技術在國際上的競爭態勢,并利用專利分析為我國提升相關領域專利質量和創新突破口提供了寶貴建議。
盡管已有一些學者對基因編輯技術的發展現狀進行了探索,但關于該技術的整體發展趨勢研究和演化研究明顯跟進不足,這不利于學者把握研究重點和基因編輯技術的進一步發展。為了更好的反映基因編輯技術的發展趨勢和未來的發展方向,幫助相關人員準確把握技術主題、創新研究方法、提高技術競爭力,本文結合專利分析和社會網絡分析,對基因編輯專利的申請態勢、國家地區分布、主要專利權人和核心技術主題進行了深入研究。
本文選取了德溫特創新平臺DII(Derwent innovations index)數據庫,對其中收錄的基因編輯專利進行檢索,檢索式為(TS=(gene editing OR genome editing OR genome engineering OR gene edited OR genome edited OR gene edit OR genome edit)),檢索時間范圍在2020年之前的所有專利,共檢索到1981-2019年5 723項專利,并將檢索到的專利數據全紀錄保存為純文本格式,借助ITGInsight[12]文本挖掘與可視化工具進行輔助分析。
基因編輯專利數量變化趨勢如圖1所示,基因編輯技術最早出現在1981年,但是在1981-1998年之間申請專利數量寥寥無幾,基因編輯技術發展緩慢。自1999年開始,專利數量突然出現猛增,并于2002年到達第一個峰值,在短短4年內,公布的專利申請數量就達到了595項,是1999年之前專利總數的4倍以上。之后,公布的專利數量呈現出下降趨勢,并在未來幾年中處于小幅度波動狀態,專利數量普遍不高。直到2013年,公布的專利數量出現反彈,并一直保持著強勁的增長態勢,僅2019年可檢索到的專利數量就達到了1 420項,占專利總數的25%左右。可見,目前基因編輯技術正處于高速發展階段。

圖1 每年公布的專利數量趨勢圖Fig.1 Trend chart of the number of patents published each year
技術生命周期(TLC)在調查專利活動和支持研發策略制定方面非常有效[13]。為了對基因編輯技術的演化過程進行更詳盡的分析,利用技術生命周期劃分方法[14],按照曲線的轉折點將產品的技術生命周期劃分為不同的研究階段,并對每一個研究階段中的專利數據做進一步分析,劃分依據如圖2所示。結合圖1的分析結果,將基因編輯技術的發展過程劃分為4個階段,即1981-1998年、1999-2002年、2003-2012年和2013-2019年。

圖2 技術生命周期圖Fig.2 Technology life cycle diagram
對于高價值的專利來說,為了獲得更大范圍的技術保護,通常會選擇在多個國家或地區進行申請,對檢索到的5 723項專利數據進行分析,選取了專利申請數量排名前20的地區,繪制了如圖3所示的國家/地區分布圖。

圖3 基因編輯專利申請國家/地區分布Fig.3 Country/Region distribution of gene editing patent applications
圖3顯示,世界知識產權組織、中國和美國是受理基因編輯專利申請數量排名前三的地區,在受理的專利申請數量超過1 000的地區中,歐洲專利局、澳大利亞和日本分別位列第4-6名。從地區分布來看,在這20個地區中,亞洲、歐洲和北美洲的一些地區最為突出。其中亞洲占據了8個地區,除了中國大陸和日本外,其余6個地區受理的專利申請數量相對較少。在北美洲主要以美國和加拿大兩個地區為主。在歐洲,除了世界知識產權組織和歐洲專利局以外,德國和俄羅斯也是受理基因編輯專利申請的兩個主要國家。另外,進一步分析同時在兩個國家/地區申請的專利數量,發現同時在美國和世界知識產權組織申請、以及同時在美國和歐洲專利局申請的專利數量最多,分別為1 837和1 376項。澳大利亞緊隨其后,同時在澳大利亞和上述兩個機構申請的專利數量分別為1 277和1 009項。而同時在美國和澳大利亞申請的專利數量也達到了992項,遠高于其他地區。雖然中國擁有的專利數量排名較高,但同時在中國和其他地區申請的專利數量卻并不突出。由此可見,美國市場和澳大利亞市場受到了更多的關注,并且更容易吸引高價值專利。
為了分析不同發展階段下各地區市場的受重視程度,根據每年各地區受理的專利申請數量繪制了技術演化圖,圖中氣泡大小與專利數量成正比。具體結果如圖4所示。
由圖4可知,世界知識產權組織、美國、歐洲專利局、日本在基因編輯的整個演化過程中都扮演著比較重要的角色,幾乎每年都會有較多的專利在上述4個地區申請。在1981-1998年間,基因編輯技術處于起步階段,僅有少數發達地區的市場受到重視。從1999年開始,高價值專利為了獲得更大的市場保護,開始在越來越多的國家或地區進行申請,但主要以世界知識產權組織、美國、歐洲專利局、澳大利亞和日本5個地區為主,中國市場逐漸參與進來。之后,中國市場的作用開始凸顯出來,并在2013-2019年間迅速成為擁有受保護專利數量最多的國家之一,與此同時,加拿大、韓國、印度、巴西等地區對高價值基因編輯專利的保護作用也得到了專利權人的廣泛認可。

圖4 基因編輯地區發展演化圖Fig.4 Evolution map of gene editing areas
對發明人或專利權人的合作網絡進行分析可以有效揭示技術研發合作機制及其動態演化特征[15-16]。本文篩選專利申請數量排名前20專利權人繪制了專利權人合作網絡,并依據主題相似性進行了聚類,以期從主要專利權人的社會關系結構及其屬性方面挖掘基因編輯演化的相關信息。如圖5所示,圖中節點大小與專利申請數量成正比,連線粗細與合作次數成正比。

圖5 主要專利權人合作網絡圖Fig.5 Network diagram of major patentees’cooperation
20個專利權人中,主要以中國機構和美國機構為主,美國機構的合作程度較高,形成了一個較大的合作網絡,而中國機構更傾向于單獨申請專利。由聚類的結果可知,具有相似研究主題的專利權人形成了兩個子網絡(圖中橢圓位置),其中以麻省理工學院為主的子網絡聚焦于CRISPR-Cas9系統和真核細胞育種等主題的研究,以加州大學為主的子網絡主要研究ZFN和融合蛋白等相關主題。
表1為主要專利權人的具體信息。其中加州大學的專利總數雖然不是最高的,但它的度中心性和中介中心性都高于其他專利權人,說明加州大學在合作網絡中的位置很重要,是促成多個專利權人合作的橋梁。美國衛生與公眾服務部的專利數量排名較低,但它在以麻省理工為主的子網絡中,擁有較高的度中心性和中介中心性。荷蘭的GEN HOSPITAL CORP公司在網絡中也擁有不錯的中心性數值,同時它還是連接Broad研究所和加州大學、麻省理工學院和加州大學重要的橋梁之一。
從專利申請的年份來看,美國的機構開始時間較早,大部分都是在1981-1998年末段開始申請,并一直延續到2019年。從第3個發展階段開始,中國的專利權人開始凸顯出來,上海交通大學和浙江大學是申請專利較早的兩個專利權人。2006年之后,江南大學在基因編輯方面的研究進展明顯,并迅速成為國內申請相關專利最多的機構。從近3年的專利占比來看,除了Cellectis公司、Sangamo公司和美國衛生與公眾服務部在各發展周期的專利申請數量較均衡外,其余專利權人都是在2012年后開始涌現出大量研究成果,在表1的20個主要專利權人中,國內機構近3年專利占比幾乎都超過了50%,其中蕪湖英特菲爾生物制品產業研究院的所有專利均是在2017-2018年申請受理的。可以說,2012-2019年是基因編輯發展最輝煌的窗口期。

表1 主要專利權人信息Table 1 Main patentee information
以專利分類號劃分的技術主題很難滿足分析需求,因此挖掘專利內容的主題和核心對于相關人員了解該技術領域的研究內容、熱點及趨勢具有重要意義[17]。ITGInsight使用語言學規則和改進的C-value值對主題詞的術語度進行判斷,可以過濾掉大部分無效術語,保留所需的技術主題術語。本文使用ITGInsight提取主題詞并構建共現網絡,利用IDF(inverse document frequency)因子對主題詞賦權,以區分基本詞匯和具有代表性的主題詞[18]。之后,使用重力模型計算主題詞共現網絡中連桿的權重,構建加權鄰接矩陣,通過社會網絡分析法計算這些主題詞在整個語料庫中的重要程度[19]。計算過程見下式:


其中N為語料庫中所有的文檔數,ni為包含主題詞i的文檔數,γ是兩個主題詞之間的距離,由于在鄰接矩陣中,主題詞直接相連時距離為1,沒有直接鄰接時距離為無窮大,因此簡化后的計算公式為 :ωij=IDFi×IDFj。
使用ITGInsight提取了候選主題詞列表,篩選出排名前20的技術主題詞繪制主題詞共現網絡圖(圖6),圖中節點標簽代表主題詞,括號中的數字代表共現次數,節點大小與共現次數成正比。通過構建的加權鄰接矩陣得到了主題詞的各項指標計算結果,具體結果如表2所示。

圖6 1981-1998年主題詞共現網絡圖Fig.6 Co-occurrence network diagram of subject terms in 1981-1998
結合圖6和表2的結果可知,在萌芽初期,由于對技術認識不足,各主題間沒有形成良好的知識傳遞,網絡中存在許多孤立的節點,網絡密度只 有 0.094 7。 在 圖 6中,“host cell”,“nucleotide sequence”是共現頻次最高的兩個詞,但是在度中心度的排名中,它們的重要程度并不高,說明這兩個詞是基本詞匯,基因編輯技術也是在這兩個主題的基礎上進行的。而“natural cell strain”,“type B hepatitis”,“HBs antibody”和“HBs antigen”是度中心度最高的4個主題詞,并且在圖6中形成了一個子網絡,說明基因工程在建立初期就以治療各種疾病為目標,并將研制乙肝抗體疫苗作為當時的第一個任務。另外,植物細胞和轉基因植物兩個主題詞的度中心度排名也處于中上水平,說明通過基因編輯來獲得轉基因植物已經引起了當時相關研究人員的重視。

表2 1981-1998主題詞指標計算(按度中心度降序)Table 2 Subject index calculation in 1981-1998(in descen-ding order of degree centrality)
對1999-2002年的595項專利進行分析,結果顯示各主題詞之間聯系程度和共現次數明顯增加,共現網絡更加復雜(圖7)。該時期網絡密度達到了0.647 4(表3),顯著高于前一階段,說明在此期間學者們對基因編輯技術的研究范圍更加廣泛,并注重各個領域及學科之間的聯系,從而增加了主題之間的知識傳遞,形成了更加系統的研究體系。

表3 1999-2002年主題詞指標計算(按度中心度降序)Table 3 Subject index calculation in 1999-2002 (in descending order of degree centrality)

圖7 1999-2002年主題詞共現網絡圖Fig.7 Co-occurrence network diagram of subject terms in 1999-2002
在表3中排名前20的主題詞中出現了新舊主題詞更替現象,其中度中心度數值排在前7位的主題詞均為新的技術主題詞。前3個主題詞表明基因編輯修飾的對象是生物樣本的核苷酸,而“mature form”“test compound”“gene product”“fusion protein”則說明了這一時期的基因編輯技術已經被用于生物實驗中以獲得所需的產物,而通過測試化合物和成熟形式可以為基因編輯技術走出實驗室提供保障。另外,“hybridization complex”和“isolated polypeptide”也是度中心度排名較高的兩個新出現的技術主題詞,其中雜交復合體多用于轉基因植物中,而多肽是醫藥開發工程中的關鍵產物,說明在1999-2002年間,除了繼續研究轉基因植物以外,研制基因編輯藥物也被提上了日程。
圖8為2003-2012年間的主題詞共現網絡圖,表4為主題詞評價指標計算結果。

圖8 2003-2012年主題詞共現網絡圖Fig.8 Co-occurrence network diagram of subject terms in 2003-2012
表4結果顯示主題詞網絡密度為0.568 4,略低于上一時期,說明雖然該階段累計專利數量較多,但研究比較分散,導致基因編輯技術的發展也較為緩慢。從主題詞的更替情況來看,“nucleic acid”是度中心度最高的主題詞,而“zinc finger nuclease”和“homologous recombination”雖然是新出現的技術主題詞,但它們的重要度排名卻分別處于第二和第三的位置,這說明在2003-2012年間,ZFN(zinc finger nuclease)是較廣泛的基因編輯技術,而同源重組則是當時最主要的研究內容。主題詞“pharmaceutical composition”的出現也表明在此窗口期基因編輯技術在藥物工程中的作用開始凸顯。

表4 2003-2012年主題詞指標計算(按度中心度降序)Table 4 Subject index calculation in 2003-2012 (in descending order of degree centrality)
為了進一步解釋專利申請數量下降的原因,文獻調研結果發現同源重組被廣泛用于發酵工程的微生物育種中,在防止副產物形成方面卓有成效[20]。這促進了基因編輯技術在實際生產中的應用,然而當涉及到藥物工程時人們對基因編輯的安全性、編輯效率和可靠性提出了更高的要求,當時ZFN技術在細胞毒性和價格方面的問題一直沒有得到有效解決,這也使得該技術在這一時期的發展受到了阻礙[21]。
2013-2019年共產生了4 019件專利,在對這些數據進行分析后,得到了如圖9所示的網絡圖。從圖9中可以直觀的看出網絡密度明顯增加,主題詞的共現次數也遠遠高于以往任何時候。從表5的主題詞指標計算結果中我們發現,網絡密度高達0.9632,說明網絡中幾乎所有的主題詞都存在直接聯系。

圖9 2013-2019年主題詞共現網絡圖Fig.9 Co-occurrence network diagram of subject terms in 2013-2019

表5 2013-2019年主題詞指標計算(按度中心度降序)Table 5 Subject index calculation in 2013-2019 (in descending order of degree centrality)
觀察該時期出現的主題詞后發現,除了“transgenic plant”“nucleic acid”“fusion protein”“plant cell”等常見主題詞外,又出現了一些新的主題詞,其中“Cas9 endonuclease protein”雖然出現次數不多,但它在網絡中的重要程度卻遠遠高于其他主題。參考相關文獻后我們了解到,自2012年CRISPR-Cas9系統出現以來,基因編輯技術就進入了一個新時代,通過RNA引導融合蛋白進行的基因調控為基因編輯技術提供了新的強大工具,這也使得基因治療從理想變成了現實[22]。而與該技術相關的主題詞如“recombinant vector”“guide RNA”“short palindromic repeat”也隨之出現在了這20個主題詞中。除此之外,“expression cassette”的度中心度排名比上一發展階段略有提高,而表達盒與基因表達水平密切相關,說明此時研究人員已經開始注重對編輯方法和工具的優化,以期得到更高的基因表達水平。從高速增長的專利數量中也不難推測出,CRISPR-Cas9技術還存在很大的應用范圍和改進空間,因此今后的研究方向應繼續聚焦于技術優化中,以使其更好的造福人類和社會。
為了反映基因編輯技術主題的整體演化過程,本文對上述所有主題出現的年份進行了統計,繪制了如圖10所示的主題詞演化圖。根據每個發展階段的主題詞特征總結了當時基因編輯研究的主要任務,1981-1998年屬于技術探索階段,1999-2002年屬于技術實驗階段,之后的兩個時間段分別對應著生產應用與藥物開發階段和基因治療與技術優化階段。從圖10可以直觀的看出,在每個發展階段都會存在一些主題詞的出現與消亡,這些變化導致基因編輯技術的研究重點也隨之改變。另外,除了一些基本主題詞如轉基因植物、宿主細胞、植物細胞等一直貫穿基因編輯技術的整個演化過程外,其余具有代表性的主題詞出現時間和分布密度與前文的分析結果基本一致,尤其是當CRISPR-Cas9系統出現后,基因編輯技術的發展趨勢和研究重點變得更加清晰。

圖10 基因編輯技術整體演化圖Fig.10 Overall evolution of gene editing technology
本文結合專利分析和社會網絡分析法對2020年之前的基因編輯專利數據進行了分析,通過對專利申請態勢、國家地區分布、主要專利權人和核心技術主題的分析揭示了基因編輯技術的演化過程,為相關決策者制定技術戰略提供了科學可靠的依據,并得到了一些有意義的結論和建議。
(1)從專利申請的變化趨勢來看,目前基因編輯技術正處于高速發展階段,除了繼續擴大其應用范圍外,研究人員還應重視引起專利申請量下降的因素,尤其是在技術監管和倫理規范還不健全的情況下,避免技術濫用和生物風險是保證基因編輯健康發展的重要前提。
(2)基因編輯專利分布已經從少數發達地區逐漸向其他地區擴散,覆蓋范圍更加均衡。其中中國市場前景明朗,在保護知識產權方面作用明顯,吸引了眾多國內外企業的投資,因此相關人員應把握當前的國際趨勢和中國良好的知識產權制度,加強高價值專利的保護范圍,占據基因編輯市場的主動地位。
(3)從主要專利權人演化結果來看,國內一些高校進步明顯,單個專利權人具備一定的科研實力。但與國外相比仍有一定差距,除了專利數量上的差距以外,還體現在國內專利權人以高校為主,缺乏與企業的直接聯系,不利于基因編輯的成果轉化和商業化進程。因此國內研究人員應積極建立“產學研”合作網絡,推動基因編輯源頭創新和成果轉化。
(4)基因編輯的發展方向主要受到各個階段的不同需求的影響,而新技術的出現則會加速這一演化過程的轉變,因此領域學者在警惕新技術產生的同時,還應順應社會實際需求,繼續把技術優化作為今后研究的目標之一,降低潛在風險,促進基因編輯技術進一步發展。