張 婷,徐東紫,陳 娟,楊瀟逸,歐陽昭連
(中國醫學科學院醫學信息研究所,北京 100020)
合成生物學是21 世紀生物學領域的新興交叉學科,基于工程設計理念,通過生物元件的挖掘與設計、元件和功能的組裝與集成、系統的優化與適配,從而獲得符合預期目標的人造生命單元或系統[1]。合成生物學是繼基因組學后生命科學領域的又一次重大創新性革命,核心理念是系統化設計和工程化構建,遵循從生物元件、生物模塊到生物系統自下而上的設計思路,利用生物系統內最基本的元件(DNA、RNA、蛋白質等生物分子),借助轉錄調控和代謝調控等開關組件,將基本元件組成功能模塊和系統,實現新的功能或生成新的物質[2-4]。合成生物學的主要技術包括DNA 人工測序和合成技術、生物元件(基因)和模塊組裝技術及異源移植與調控表達技術,其中基因克隆組裝技術是合成生物學的核心技術[5-7]。微生物藥物和天然藥物的微生物合成是合成生物學的重要分支,具有里程碑意義的研究成果是青蒿素和紫杉醇中間體的微生物合成,極大地推動了合成生物學在微生物和天然藥物領域的應用[8-9]。在天然藥物領域,合成生物學在青蒿素、紫杉醇、丹參酮、銀杏內酯等多種藥用活性成分的生物合成方面取得了突破性進展。在微生物藥物領域,借助合成生物學的克隆組裝技術和生物設計理念,不但可以提高現有微生物藥物的發酵水平,還可以獲得具有新結構和新活性的微生物藥物。合成生物學的出現和興起為藥物研發提供了新的思路和方法。主路徑分析(main path analysis)屬網絡分析方法,能將一個龐大而復雜的網絡(通常體現為科學研究或技術開發領域的論文或專利及其引文)簡化為一個或多個僅由少數連接節點和弧組成的主路徑(main path),從而降低網絡復雜性[10]。此概念提出以來一直受到學術界的廣泛關注,尤其是面向應用的研究,通過主路徑分析追溯歷史發展以闡明科學或技術領域的演變,追蹤技術發展軌跡及技術隨時間的變化情況。與傳統引文計量分析相比,主路徑分析的本質和優勢是其能體現出時間軸上的發展。主路徑分析的引文網絡是由專利、論文或法院判決書等文檔組成的數據集構建而成,基于專利引文網絡可以探索技術發展路徑。專利是技術信息最有效的載體,專利文獻包含了豐富的技術信息[11-13]。基于專利引文網絡,開展合成生物學領域的主路徑分析,可以客觀把握技術發展路徑,從情報學角度為技術開發提供新的研究視角。
合成生物學領域專利數據來源于Web of Science平臺德溫特專利數據庫(Derwent Innovation Index,DII),數據檢索及采集時間為2023 年6 月5 日。DII 數據庫覆蓋全球96%的專利數據,整合了Derwent World Patent Index(DWPI)與Derwent Patents Citation Index(DPCI)信息,可為本研究提供全面的專利信息及專利引文信息[12]。合成生物學領域正處于多種生物學研究領域的交叉口,概念還處于開放探索階段,是從理解到設計再到創造生命的宏觀科學的微觀集成。合成生物學狹義是指利用可再生的生物資源為原料生產各種產品;廣義是指通過構建生物功能元件、裝置和系統,對細胞或生命體進行遺傳學設計、改造,使其擁有滿足人類需求的生物功能,甚至創造新的生物系統[14]。本研究中基于狹義合成生物學,以查準為目標,采用“合成生物學”為主題詞進行精確檢索,構建合成生物學領域精準專利數據集,共檢索到專利432 項(1 609 件),包含專利引文4 987件。
1989 年,HUMMON 與DOREAIN 發表了關于科技文獻引文網絡“關鍵路徑”的應用研究,提出了“主路徑”思想[10]。采用深度優先搜索算法(depth first search)與窮舉搜索算法(exhaustive search algorithm)結合的方法尋找網絡中所有可能的搜索路徑,以遍歷數(traversal counts)優先來定義引證網絡的主路徑—— 對于網絡中的節點,選擇其輸出連線中具有最高遍歷數的連線作為下一路徑,重復應用遍歷計數最大法則,直至定義出全網絡中最常用路徑,即是反映知識主流的主路徑。主路徑分析有3 個重要步驟:1)構建無環有向網絡;2)遍歷權重分配;3)選擇搜索路徑。
基于專利引文構建專利引文網絡(無環有向圖),選擇引文網絡中最大連通子網提取主路徑。根據引用關系將引文網絡最大連通子網中的專利分為起點專利、中間專利、終點專利、孤立專利(各專利特點見表1)。

表1 專利引文網絡中的專利類型Tab.1 Types of patents in the patent citation network
計算專利引文網絡中所有連線的權重。選擇起點專利作為路徑的起點,選擇權重高的連線作為下一路徑,重復應用遍歷計數最大法則,當遇到終點專利時,算法終止。目前,比較成熟且常用的3 種遍歷權重算法是HUMMON 和DOREIAN(1989 年)提出的搜索路徑連接數(search path link count,SPLC)算法、搜索路徑節點對(search path node pair,SPNP)算法,以及BATAGELJ(2003 年)提出的搜索路徑數(search path count,SPC)算法[15]。
通常計算出的遍歷權重,SPNP 算法≥SPLC 算法≥SPC算法。有研究表明,3種算法的主要區別是如何看待中間節點的作用[16]。對于中間節點,SPC 算法將其看作“樞紐”,其僅作為載體傳輸、接收知識并傳遞給引文鏈中的下一個節點;SPLC 算法將其看作“樞紐+ 知識來源”,其既作為知識起源,也作為知識傳播載體;SPNP算法將其看作“樞紐+ 知識來源+ 知識匯”,其既作為知識起源,也作為知識傳播載體,同時還是知識傳播的終點。可見,研究中應避免采用SPNP 算法,除非相信原始知識可以在引文鏈中的一個中間體中消失。
SPLC 算法最接近科技發展中的知識擴散場景,可反映科學知識的傳播方式,其中每篇文章均引用了以前的文章,并另添加想法來創造新知識。單篇論文或專利不僅傳遞知識,本身也是知識來源[16-17]。故本研究中采用SPLC算法來計算遍歷權重,追蹤知識擴散軌跡。
2.4.1 路徑搜索方式
主路徑的路徑搜索方式可分為2種:一種是全局搜索路徑,包括2種變體,即全局主路徑(global main path)和全局關鍵路徑主路徑(global key-route main paths);一種是局部搜索路徑,包括3 種變體,即局部前向主路徑(local forward main path)、局部后向主路徑(local backward main path)、局部關鍵路徑主路徑(local key -route main paths)[18]。全局搜索路徑是尋找路徑中遍歷權重之和最大的路徑;局部搜索路徑每一步均選擇遍歷權重最大的鏈接,直至算法結束[19]。關鍵路徑主路徑既有全局關鍵路徑主路徑,也有局部路徑主路徑,先找出路徑中遍歷權重最大的一條鏈接,全局關鍵路徑主路徑是找出這條鏈接所在路徑中遍歷權重之和最大的路徑,而局部關鍵路徑主路徑則是以這條鏈接作為起點,分別向前、向后依次尋找遍歷權重最大的鏈接,直至起點、終點,將鏈接兩端路徑合并即得[20]。
2.4.2 全局搜索路徑
全局主路徑:指在整個網絡中具有整體最大遍歷權重的路徑,與局部視角關注過程中的重要節點不同,其更關注在整體知識流動或技術傳遞的重要節點。
全局關鍵路徑主路徑:指首先找出網絡中遍歷權重最高的鏈接路徑,從該鏈接路徑起點開始,不斷搜尋下一個擁有最大遍歷權重的節點直到網絡中的起點節點,再從該鏈接路徑終點開始,不斷搜尋下一個擁有最大遍歷權重的節點直到網絡中的終點節點,將鏈接兩端路徑合并即得,查找關鍵路徑所在路徑中起點節點和終點節點之間具有最大累積權重的路徑。
2.4.3 局部搜索路徑
局部前向主路徑:從網絡中的起點節點出點,不斷搜尋下一個擁有最大遍歷權重的節點直到網絡中的終點節點。
局部后向主路徑:從網絡中的終點節點出發,不斷搜尋下一個擁有最大遍歷權重的節點直到網絡中的起點節點,此方法可追溯到當前技術的初始技術來源。
局部關鍵路徑主路徑:局部關鍵路徑主路徑是首先找出網絡中的遍歷權重最大的鏈接路徑,從該鏈接路徑起點開始,不斷搜尋下一個擁有最大遍歷權重的節點直到網絡中的起點節點,再從該鏈接路徑終點開始,不斷搜尋下一個擁有最大遍歷權重的節點直到網絡中的終點節點,將關鍵路徑兩端路徑合并即得。
合成生物學領域共有專利申請432 項(1 609 件),國際規模指數3.72,平均每個專利家族超過3 件專利,專利布局廣泛,海外市場開拓范圍較廣,專利申請量年度分布見圖1[由于專利從申請到公開有18 個月的滯后期,因此2022 年(82 項)和2023 年(1 項)的數據不完整,不代表最終趨勢]。最早的專利申請開始于1992 年(US5637677A),該發明構建了一種能中和針對病原體免疫應答的生物活性肽,可使免疫宿主免于感染病原體;該專利于2019年得到專利許可,許可方為專利權人賓夕法尼亞大學,被許可方為美國國立衛生研究院(NIH)、美國衛生和人類服務部(DHHS)和美國政府。

圖1 合成生物學領域專利申請量年度分布Fig.1 Annual distribution of quantity of patent applications in the field of synthetic biology
合成生物學領域技術開發活躍,專利申請數量呈現逐年增長的態勢。基于1992 年至2021 年的數據進行多項式回歸分析,得回歸方程Y=0.000 2X4-0.003 7X3-0.001 7X2+ 0.832X- 0.359 2(R2 = 0.982 4)。基于該方程預測,如果全球專利申請數量繼續以同樣的速度增長,則到2025年和2030年將分別達113項和216項。
通過提取合成生物學領域專利標題、摘要的高頻詞,構建創新詞云圖(見圖2),可了解該領域的技術創新熱點。合成生物學領域的技術創新聚焦于基因合成和編輯等基因相關研究。通過DNA 合成技術,合成自定義的基因序列,用于構建新的生物體或改造現有生物體。CRISPR - Cas9 等基因編輯技術可精確修飾基因。此外,還可明確代謝領域熱點,包括代謝工程、代謝途徑等。合成生物學致力于重新設計代謝途徑,以實現有價值藥物的生產等。
基因相關研究專利申請數量最多,且被引頻次較高,技術創新活躍且具有較高技術影響力。被引頻次最高的專利是2016 年申請的WO2016166340A1(94 次),該發明涉及用于基因或基因組編輯的基因工程工具、方法和技術,在10 多個國家/地區進行了技術布局。綜合戰略價值、法律價值、市場價值、經濟價值、技術價值來看,專利價值最高的專利是2014 年申請的JP2014176390A,該發明是生產肌醇和肌醇衍生物的方法,涉及基因重組技術在肌醇生產中的應用。該專利在美國、歐洲、中國等10 多個國家/ 地區進行了技術布局,全面占領海外市場。合成生物學領域基因研究的典型專利見表2。

表2 合成生物學領域基因研究的典型專利Tab.2 Typical patents for gene research in the field of synthetic biology
432 項(1 609 件)專利共包含專利引文4 987 件,其中起點專利4 317件(86.57%),中間專利59件(1.18%),終點專利611 件(12.25%),孤立專利0 件。基于專利引文構建有向引文網絡(包含4 987個節點和9 068條邊),選取引文網絡中的最大連通子網(包含25 個節點和30 條邊)提取合成生物學領域的各全局及局部主路徑。結果表明,局部后向主路徑與全局主路徑完全一致;局部前向主路徑與全局關鍵主路徑上的專利完全相同,僅技術軌跡有差異。
4.2.1 全局主路徑
合成生物學領域全局主路徑(同局部后向主路徑)見圖3(綠色為起點專利,藍色為中間專利,紅色為終點專利;線的粗細代表邊的權重。下圖同)。該路徑共6 條技術路線,包含14 件專利(見表3,*為涉訴專利,#為高價值專利,下表同),其中起點專利6 件,中間專利7 件,終點專利1 件。從全局關鍵主路徑來看,合成生物學領域技術創新主要聚焦于脂質體、樣本處理方法、水凝膠和液滴網絡等。在合成生物學領域中,脂質體可以作為有效的載體,幫助將外源分子引入細胞內,從而實現定向基因編輯、基因治療和藥物遞送;水凝膠被廣泛用于細胞培養、生物材料制備和仿生實驗,提供了一個模擬生物環境的平臺,有助于研究細胞行為、生物反應和材料性能;液滴網絡被應用于單細胞分析、基因編輯、代謝工程等領域,可以將不同試劑分隔到微小液滴中,從而實現高效的并行實驗和高通量篩選。此外,合成生物學需要處理大量的生物樣本,包括細胞、蛋白質和核酸,優化的樣本處理方法可以提高實驗效率、減少污染,并確保實驗結果的準確性。

圖3 合成生物學領域全局主路徑Fig.3 Global main paths of synthetic biology

表3 合成生物學領域全局主路徑上的專利Tab.3 Patents on the global main paths of synthetic biology
合成生物學領域的全局主路徑(同局部后向主路徑)上有4 件高價值專利,分別是US10548852B2,US9831010B2,US11213797B2,US20120116568A1。其中,US20120116568A1既是高價值專利,又是涉訴專利。涉訴專利通常具有極高的價值,如US20120116568A1為美國專利,而美國專利訴訟往往需花費大量人力和財力,如果專利背后無巨大的利益糾葛,企業不會貿然提起專利訴訟。
4.2.2 全局關鍵路徑主路徑
合成生物學領域的全局關鍵路徑主路徑見圖4。該路徑共6 條技術路線,包含13 件專利(見表4),其中,起點專利6 件,中間專利6 件,終點專利1 件,全局關鍵路徑主路徑比全局主路徑少了1 件專利(US9831010B2),該專利是全局主路徑上的高價值專利。由于US9831010B2和WO2014064459A2是同族專利,涉及水凝膠網絡技術,因此全局關鍵路徑主路徑與全局主路徑蘊含的技術信息是相同的,雖然路徑上少了1 件專利,但并未造成技術信息損失。從全局關鍵路徑主路徑來看,合成生物學領域技術創新也是主要聚焦于脂質體、樣本處理方法、水凝膠和液滴網絡等。

圖4 合成生物學領域全局關鍵路徑主路徑Fig.4 Global key-route main paths of synthetic biology
合成生物學領域的全局關鍵路徑主路徑上有3 件高價值專利,分別是US10548852B2,US11213797B2,US20120116568A1,三者也均在全局主路徑(同局部后向主路徑)上。其中US20120116568A1 既是高價值專利,又是涉訴專利。
4.3.1 局部前向主路徑
合成生物學領域局部前向主路徑見圖5。該路徑共12 條技術路線,包含13 件專利,其中,起點專利6 件,中間專利6 件,終點專利1 件。局部前向主路徑中的專利與全局關鍵路徑主路徑的專利完全相同(見表4),僅技術路線有所差異,有12條技術路線,提供了更豐富的技術路線信息,其高價值專利也與全局關鍵路徑主路徑完全相同,共有3 件。局部前向主路徑是所有路徑中技術路線最多的主路徑,技術發展軌跡更加多樣。技術創新也是主要聚焦于脂質體、樣本處理方法、水凝膠、液滴網絡等。

圖5 合成生物學領域局部前向主路徑Fig.5 Local forward main paths of synthetic biology
4.3.2 局部關鍵路徑主路徑
合成生物學領域的局部關鍵路徑主路徑見圖6。該路徑共4 條技術路線,包含9 件專利(見表5),其中,起點專利1 件,中間專利7 件,終點專利1 件。局部關鍵路徑主路徑上的專利最少,比全局主路徑(局部后向主路徑)少了5件專利,分別是:US5858399A,WO2007094739A1,EP2253378A1,WO2009148598A1,US20120116568A1,技術路線未涉及脂質體、樣本處理方法等技術,僅有水凝膠和液滴網絡等。局部關鍵路徑主路徑缺失的US20120116568A1 是前幾條主路徑上識別出的涉訴專利,該專利涉及生物打印制造組織的裝置、系統和方法等相關技術。

圖6 合成生物學領域局部關鍵路徑主路徑Fig.6 Local key-route main paths of synthetic biology

表5 合成生物學領域局部關鍵路徑主路徑上的專利Tab.5 Patents on the local key-route main paths of synthetic biology
合成生物學領域的局部關鍵路徑主路徑上有3 件高價值專利,分別是US10548852B2,US9831010B2,US11213797B2,均在全局主路徑(同局部后向主路徑)上,但與全局關鍵路徑主路徑和局部前向主路徑上的3 件高價值專利有所差異。局部關鍵路徑主路徑上僅有高價值專利,沒有涉訴專利。局部關鍵路徑主路徑上的高價值專利US9831010B2 未在全局關鍵路徑主路徑和局部前向主路徑上識別出來。
通過對合成生物學領域的主路徑分析,綜合戰略價值、法律價值、市場價值、經濟價值及技術價值五個角度,識別主路徑上的高價值專利。合成生物學領域主路徑上共識別出4 件高價值專利(見表6),其中1 件既是高價值專利,也是涉訴專利,在主路徑上的分布情況見表6。全局主路徑(同局部后向主路徑)上識別出的高價值專利最多,有4件(見表7);其他主路徑上僅識別出3 件,其中全局關鍵路徑主路徑和局部前向主路徑未識別出US9831010B2,而局部關鍵路徑未識別出重要的涉訴專利US20120116568A1。合成生物學領域主路徑上共識別出的4件高價值專利均是美國專利。美國專利申請審查制度嚴格,必須通過多個程序和檢驗,在全球具有廣泛的影響力和較高的認可度。一旦在美國獲得專利保護,說明具有真正的創新性和實用性,很大程度上增加了專利的含金量和市場價值,在全球市場上的競爭優勢將得到顯著提升[21-22]。

表6 合成生物學領域主路徑上的高價值專利Tab.6 High-value patents on the main paths of synthetic biology

表7 合成生物學領域主路徑上的高價值專利信息Tab.7 Details of high-value patents on the main paths of synthetic biology
涉訴的高價值專利US20120116568A1是2011年申請的美國專利,該發明描述了1 種生物打印機,還包括打印頭,生物墨水和支撐材料等,進一步描述了用于制造組織構建體的方法。該專利解決了器官移植面臨的一些亟待解決的問題,如由于藥物研發周期長、成本高,且發現新療法的概率較低,需要促進組織工程與再生醫學應用工具和技術的研發,以緩解對組織和器官的迫切需求;以及能顯著提高具有成本效益的創新藥物數量和質量的工具和技術。該專利有2件中國同族專利,分別是CN103249567B(已授權)和CN105496601A(駁回),前者是2011年通過PCT 專利申請進入中國,而后者是在中國申請的1 件美國優先權的專利。US20120116568A1 被引頻次高達109 次,因專利侵權提起訴訟,涉及3條訴訟信息,從立案到結案分別歷時80天,133 天,263 天,分別以無效、轉讓、無效而最終結案。隨著專利的經濟價值的不斷凸顯,專利訴訟已經從單純的法律問題,演化成了資源和競爭戰略等要素相復合的產物,成為一種新型的牟利手段。此外,分析具有訴訟歷史的專利是對產品進入市場前進行風險預警和評估的一個重要手段,同時也是挖掘核心專利、評判專利質量和價值的重要指標之一。
另外3 件高價值專利均沒有涉及專利訴訟,US10548852B2 是2012 年申請的美國專利,該發明提供了1種液滴封裝及其制備方法,在合成生物學和膜蛋白研究中可以用作藥物輸送載體;該專利有1件中國同族專利CN104053497B(已授權),2012 年通過專利合作協定進入中國。US9831010B2 是2013 年申請的美國專利,該發明提供了1種水凝膠網絡及其生產方法,還涉及用于包含水凝膠網絡機械裝置的電化學電路和水凝膠組件,可以用于合成生物學以及作為電化學電路和機械設備中的組件,該專利未在中國進行技術布局。US11213797B2 是2013 年申請的美國專利,該發明涉及1 種用于生產液滴組件的設備及方法,還涉及包含多個液滴的液滴組件及液滴組件的各種用途;該專利有1件中國同族專利CN105188934B(已授權),2013 年通過PCT專利申請進入中國。
對4件高價值專利的技術主題進行分析發現,合成生物學領域的核心專利聚焦于生物打印、液滴封裝、水凝膠網絡等技術。
合成生物學是一種具有潛力的新興技術和顛覆性技術,近年來受到廣泛重視,隨著基因編輯與合成技術的突破,在大數據、人工智能等技術的加持下,生物技術與信息技術融合發展更加明顯,合成生物學的應用場景也不斷拓展。人工合成基因組技術在基因工程、代謝工程、蛋白工程、細胞工程、制藥工程中的運用拓展了合成生物學的應用前景。合成生物技術涵蓋平臺開發、醫藥、化工、能源、食品、農業等重點領域。醫療健康行業是合成生物學影響最大的重點領域,合成生物學在醫療健康領域的應用廣泛,上中下游均有覆蓋,包括細胞免疫療法、醫療耗材、體外檢測、藥物研發等諸多方向。合成生物技術的創新及應用,有望進一步助力腫瘤、感染等疾病的預防、診斷及治療。主路徑分析是一種網絡分析方法,能將龐大而復雜的網絡簡化為一個或多個僅由少數連接節點和弧組成的主路徑。專利是技術信息最有效的載體,基于專利引文網絡,對合成生物學領域開展主路徑分析,可以追蹤技術發展軌跡,把握技術演變路徑,客觀呈現該領域技術創新態勢。
合成生物學領域技術開發活躍,專利申請數量呈逐年增長態勢,基于多項式回歸預測,2025年和2030年專利申請數量將分別達到113 項和216 項;創新詞云分析顯示技術創新聚焦于基因和代謝相關研究。基于專利引文網絡提取合成生物學領域主路徑,各種路徑搜索方式識別出的專利差別不大,最多的有14件,最少的有9 件。全局主路徑(同局部后向主路徑)上的專利最多,有14 件,包含6 條技術路線;局部前向主路徑的技術路線最多,有12 條,包含13 件專利。綜合戰略價值、法律價值、市場價值、經濟價值、技術價值5 個角度,從合成生物學各主路徑上共識別出4件高價值專利,均是美國專利,其中,US20120116568A1 還是涉訴專利。美國專利因審查制度嚴格,在全球具有廣泛的影響力和較高的認可度,含金量和市場價值相對較高。通過高價值專利技術主題分析可以看出,合成生物學領域核心專利主要涉及生物打印、水凝膠網絡及液滴封裝技術。涉訴專利US20120116568A1 是有關生物打印技術的一項發明,涉及3 條訴訟信息,最終以無效、轉讓、無效結案。近年來,高科技企業越來越意識到專利在全球戰略布局中的巨大作用,不斷加強核心專利及其外圍專利的申請和爭奪。由于專利背后關系著企業的利益與生存,頻繁的專利擴張必然導致企業間專利摩擦升級,最終導致企業間的專利訴訟日益加劇。
合成生物學是以工程化手段設計合成基因組為標志的第三次生物技術革命。多個國家將合成生物學作為優先發展的學科和技術,制訂和實施了相關的科技計劃。21 世紀以來,合成生物學得到了長足發展,但在技術、產業應用、外部環境等方面依然面臨諸多挑戰,需要產學研各界攜手共同面對。合成生物學產品的開發,必將在解決人口與健康、資源與環境、能源與材料重大難題的過程中發揮重要作用。