劉 媛
(重慶大學法學院,重慶 400044)
自然語言是人類語言集團在一定條件下自然形成和使用的口頭和書面語言,表現為一些自然形成的語詞指號體系,是語詞指號和語詞意義的統一體[1]。自然語言處理(natural language processing,NLP)技術就是機器理解和運用人類語言的能力[2],它是一門融合了語言學、計算機科學、數學的科學。1949年,美國科學家Weaver[3]寫就了《翻譯備忘錄》(Translation Memorandum),標志著現代機器翻譯概念的正式形成。當前,全球正處在人工智能(AI)第三次浪潮之中,自然語言處理作為人工智能的核心技術之一,幫助我們實現人與機器快速準確的信息傳遞,為人工智能與其他產業的深度融合提供了重要支撐。它廣泛應用于無人駕駛、智能家居、機器翻譯等領域,是風險投資和科學研究的熱門領域,具有極高的產業價值。美國是在自然語言處理領域擁有巨大優勢的技術強國,在中美貿易摩擦的背景下,對美國相關專利數據進行分析,可以全面了解該國在此領域的專利競爭態勢,為中國制定產業和技術發展戰略、企業研發決策提供參考。
當前,國內外對于中美人工智能技術實力的判斷大相徑庭。清華大學的研究報告提出中國超過美國,成為人工智能領域技術起源第一大國,專利技術布局程度位居榜首[4];《烏鎮指數:全球人工智能發展報告2017》中提到,在自然語言處理技術專利申請數量方面,中國自2004年起就超越美國,隨后逐年拉開距離[5];而牛津大學的學者則認為,中國目前的人工智能實力實際僅約為美國的一半[6];韓國學者甚至聲稱,盡管近來有很多論文緊張地指出中國大陸在AI領域的力量,但認為中國大陸依然是相對不重要的AI技術來源地區,中國臺灣比中國大陸擁有更多的AI專利[7]。而之所以會得出不同結論,關鍵原因在于研究者們采用了不同的檢索和分析方式。現有專利分析文獻大多數沒有公開檢索式,這導致同行無法對數據進行監督和查證,研究成為自說自話。
考慮到自然語言處理技術涉及到《國際專利分類表》(International Patent Classification,IPC)中的多個類別,同時,為了最大范圍地進行精確檢索,參考現有文獻,本文檢索條件采用關鍵詞檢索,關鍵詞位于標題和摘要中,檢索式為:(((((languag* OR linguist* OR sentenc*) AND ((sentenc* OR lexic*) OR(analy* OR semantic*)))) OR (((languag* OR linguist*OR sentenc*) AND ((dialog* OR talk OR conversation)OR (model* OR manage* OR recoding* OR history*OR DB OR (Data and base)))) OR (((voice* OR speech*OR acoustic* OR sound* OR audio* OR phonetic*) and(((natural* AND language*)) OR (inference* OR detect*OR recogni* OR cogniti* OR interface OR capture*))))OR (((voice* OR speech* OR dialogu* OR conversat*OR speaking* OR language*) OR (combine OR unite OR join OR synthe*)) AND corpus*)) OR (((languag* OR linguist* OR sentenc*) and (morpheme* OR morpholog*)AND (process* OR analy* OR parsing* OR analy* OR assay)))))[7];專利類型限定為發明,發明專利授權日的時間限定在1999年1月1日至2018年12月31日,檢索時間為2019年1月8日。為避免重復統計,對具有同一優先權文件的專利進行簡單同族合并。因為美國專利申請自申請日起18個月自動公布,或者根據申請人要求在18個月以內公布,還有一些特殊情況不公布,所以近18個月的專利數據不能完全呈現客觀情況,僅供參考。
本文通過IncoPat專利數據庫進行檢索,獲得1999—2018年美國自然語言處理領域(以下簡稱樣本)專利數據,運用圖表軟件對數據進行統計和可視化處理,采用文字與圖表結合的方式,從專利申請和授權趨勢、專利技術、專利相關主體、訴訟及運營等4個方面進行專利情報剖析。
(1)專利申請趨勢。因美國公開專利申請文獻是從2001年3月15開始,此前僅公開授權專利,所以這里分析申請趨勢只能以2001年起算。2001—2018年,樣本專利申請有46 958件,簡單同族后有45 682件,由圖1可知,整體而言,美國自然語言處理領域專利申請量呈波浪式上升狀態。21世紀初,人工智能仍處在第二次浪潮結束后的寒冬[8],但隨著互聯網爆炸性的普及,軟硬件條件和海量數據開始對人工智能,包括自然語言處理技術帶來利好;2001—2006年,專利申請穩步增長,但自2007年起又開始疲軟無力,逐年下降,2010年跌至2 235件,直到2012年才恢復到與2006年基本持平的數量,究其原因,主要是受到2008年金融危機影響,市場震蕩、資本寒冬,惡劣的內外部環境迫使科技公司紛紛倒閉,同時美國政府削減公共科研資金,企業縮減研發經費,直接導致了專利申請數量的下挫;此后,經濟逐漸復蘇,2012—2016年,美國在自然語言處理領域的融資規模已經遙遙領先,占全球NLP領域總融資的50%到80%,每年新增的自然語言處理企業占當年全球NLP領域新增企業的40%左右[5],2013年與新一輪人工智能爆炸幾乎同步,自然語言處理領域的專利申請量一躍而上,以極快的速度躍過3 000件大關,此后一直穩定地保持在高位水平,逐漸進入技術成熟期。
(2)專利授權趨勢。1999—2018年,樣本專利總授權數量是37 370件,簡單同族后是36 316件。其中,1999—2011年這13年間,專利授權量保持在1 000~2 000件范圍內;隨著人工智能第三次浪潮來臨,2012—2016年的專利授權量躍上2 000件,增勢迅猛;此后,僅用了5年時間,于2017年進入“3 000+”時代。

圖1 1999—2018年樣本專利申請與授權數量
(1)10個主要技術方向。以IPC中的小類代碼為技術方向,表1展示了樣本發明專利主要集中的10個小類。其中,G06F(電數字數據處理)和G10L(語音分析識別)分居專利授權量的冠亞軍,二者占到樣本專利總數的61.6%,是創新熱度最高、發展速度最快的領域;處在第二梯隊的是H04M(電話通信)、H04L(數字信息的傳輸)、H04N(圖像通信)、H04R(聲-機電傳感器)、H04B(傳輸)5個小類,授權專利數量從5 000至2 000件不等;第三梯隊是H04W(無線通信網絡)、G06Q(特殊目的的數據處理系統或方法)、G08B(信號裝置或呼叫裝置)、G06K(數據識別),授權專利數量為1 000余件。

表1 1999—2018年樣本10個主要技術方向專利授權量
(2)10個技術方向專利授權趨勢。1999—2018年,G06F類和G10L類是樣本專利授權增速最快的兩個技術方向,近6年尤為明顯,一路遙遙領先;此外,H04R以傳感器為代表的硬件類表現也很搶眼,20年來增長了約15.7倍,應該是自然語言處理領域下一個技術爆炸點。H04L和H04N有著相似的趨勢,樣本專利授權量分別增長了3.7倍和3.3倍。H04M雖然起步早,但多年來維持在200~400件左右的授權量,2018年被H04L趕超。H04B與H04M雷同,兩者數據表現均疲軟無力,屬于發展早、后勁弱,亟待技術革新的方向。后3位H04W、G06、QG08B的樣本專利授權量分別增長了5.6倍、8.2倍和2.6倍,由于它們的基數本來偏少,尚需要進一步的積累。見表2所示。

表2 1999—2018年樣本10個主要技術方向的專利授權量 單位:件
(3)被引頻次最高的前10件專利。被引頻次,指的是某個專利文獻在首次公開之后被后續專利文獻引用的總次數[9]。專利的被引頻次能夠反映技術重要程度,是判斷一件專利在本領域是否具有基礎和核心地位的關鍵指標。表3列出了在樣本專利中被引頻次最高的前10件專利,它們的申請日都很早,除排名第一的以外,其他皆是在20世紀末提出的申請;較早的申請時間也導致其中8件專利保護期已屆滿,只有排名前兩名的專利尚處在有效期,第10名的專利因2011年沒有按時交納年費而失效。值得關注的是,“申請人”一欄中的Hoffberg,其本人身兼發明家和專利律師兩種角色,在專利運營中非常活躍;在“當前專利權人”一欄中,微軟技術許可公司也很醒目,微軟公司在NLP領域的專利運營水平不容小覷。

表3 1999—2018年樣本高被引頻次專利(前10名)
對專利各類相關主體進行分析,有助于我們辨別自然語言處理領域的主導者,進一步了解各大創新主體的專利競爭實力、持續發展能力及其技術布局戰略。
(1)申請人(已獲權)國別分布。樣本專利中,在美國提出發明專利申請并獲得授權的主體中,為美國籍的多達24 501件專利,占總數的67.47%,本土創新實力很強;其次,日本籍主體占12.48%,成為在美國進行專利布局最多的外國國家,韓國籍主體占3.60%,中國籍主體共1 104件專利(含中國臺灣653件),占3.04%,可見,亞洲國家搶占美國市場的競爭非常激烈;德國作為老牌技術強國,占2.27%,名列第五,也是歐洲諸國的排頭兵;其后是加拿大(2.16%)、英國(1.27%)、法國(1.16%)、荷蘭(0.88%)、瑞典(0.80%)。
(2)主要專利申請人授權趨勢。據表4顯示,IBM不僅很早就在自然語言處理領域進行專利布局,持續投入鑄造強大技術實力,近3年來授權量迅猛,2018年甚至獲得218件授權專利。至于微軟,雖然從2015年起專利授權量開始大跌,2018年“交白卷”,但這并不意味著它從該領域退出,相反,微軟自推出智能助理Cortana(微軟小娜)起,必然需要大量的專利作為支撐,事實上,排名第九的微軟技術許可公司承擔了大部分專利任務,把母公司的專利業務分擔出去;谷歌也在做類似安排。三星和索尼兩家日本公司比較穩健。紐昂斯(Nuance)作為目前全球最大的語音識別科技公司,是蘋果語音助手Siri的技術提供商,從2010年起其樣本專利授權量開始攀升。創建于1877年的AT&T,是美國老牌固網電話服務供應商及第二大的移動電話服務供應商,但直到2008年才實現專利零突破。亞馬遜表現出后發制人之勢,2018年專利授權量僅次于IBM,其在2014年推出的智能音箱Echo的市場占有率排名第1名,專利是它攻城略地的必備武器。

表4 1999—2018年樣本主要專利申請人授權趨勢(前10名) 單位:件
(3)標準化專利申請人(已獲權)與標準化當前專利權人。從上文的分析可知,科技公司常常因市場布局、風險分散,分流母子公司業務等因素,以旗下某個/些公司的名義進行專利申請,因此,對們進行標準化處理,把母子公司的數據進行整合,才能看到其全面而真實的技術實力。從表5可知,經過標準化后,索尼和三星的排名調換了,AT&T跌出前10名,日本電氣躋身第9名。另一方面,最初的專利權人可能會對手中的專利進行轉讓,那些渴望快速獲得技術的公司也會通過購買、加入專利池、并購等方式積極儲備專利,因此,通過對當前專利權人進行標準化分析,我們發現,紐昂斯持有的專利最多,成為行業領軍者;英特爾、高通、富士通3個科技巨頭通過多種方式獲得了可觀的專利,均有一定優勢。

表5 1999—2018樣本標準化專利申請人(已獲權)與標準化當前專利權人(前10名)

表5 (續)
(4)發明人及其技術方向。主要發明人的數據展示了該領域的核心技術人才及其擅長方向。從專利授權量的分布看(見圖2),Bangalore作為AT&T實驗室的首席技術官,在自然語言處理領域很有建樹,論文的被引率也非常高,其發明專利集中在G06F和G10L兩類。Acero在G10L小類上特別突出,與Bangalore在G10L的專利數量不相上下,他的技術成果絕大多數由微軟持有。Rhoads參與發明的專利在五大類別都有可觀的分布,這在發明人中較為少見,他是Tektronix(泰克)公司的首席科學家,該公司是測試、測量和監測領域的全球領導企業,因他曾供職于美國知名的音頻、視頻、圖片識別公司Digimarc,所以當前數據顯示其近60%發明成果由Digimarc享有。其他7位發明人都以G10L類見長,需要注意的是Rahim、Tur、Gilbert、Riccardi 這4位發明人都有AT&T背景;此外,Sharifi來自谷歌。唯一上榜的中國發明人Li Deng來自微軟,Moore V S來自IBM。總體來看,科技公司是技術人才極為重要的成長土壤,其中,AT&T成為自然語言處理領域的“黃埔軍校”,培養了很多優秀的人才。

圖2 1999—2018年樣本主要發明人及在5個技術方向的專利授權量
(1)授權專利轉讓情況。從樣本已獲得授權的專利轉讓趨勢,我們可以看到NLP領域在不同時間段的技術轉化、應用、推廣與合作的情況。圖3顯示出在1999—2013年,專利轉讓數量呈小幅攀升,技術運營和實施的熱度正在醞釀;2014年,專利轉讓突然躍升到5 745件,究其主要原因,是因為當年美國科技行業并購異常頻繁,而并購中一般會將專利打包轉讓,其中大事件包括微軟收購諾基亞手機業務及其專利組合、谷歌收購摩托羅拉移動后轉手出售給了聯想、蘋果收購了20家規模不同的科技公司等等,經過此次行業“洗牌”,專利進一步集中到科技巨頭手中,轉讓需求開始減少;2015年之后專利轉讓數量回落也印證了以上結論。

圖3 1999—2018年樣本授權專利轉讓趨勢
(2)主要轉讓/受讓人及其轉讓/受讓專利數量。轉讓/受讓人數據可以表明,哪些主體在具體實施專利運營,以及技術輸出/入活躍度。圖4(a)4(b)顯示,微軟轉讓的專利數量最多;AT&T股份公司及其資產公司、知識產權公司占據4席,頗有“狡兔三窟”之意;安華高科技(Avago Technologies)多年來不斷在電子通信行業擴展和收購,轉讓專利也很頻繁。在受讓專利方面,IBM成為最大買家;微軟旗下的技術許可公司位居第二;紐昂斯本身的研發實力和原有專利儲備不足,因此它主要是收購專利;索尼和三星為了在美國市場站穩腳跟,也買入了很多的專利來保駕護航。此外,轉讓人和買受人中還出現美國四大銀行中的3個,即美國銀行(Bank of America)、花旗銀行(CitiBank)、摩根大通銀行(JPMorgan Chase Bank)。除了自有的專利外,銀行作為債權人或經紀人,在破產、質押等過程中會涉及到大量專利的轉讓和受讓,這也從側面反映了美國科技與金融兩大行業關系密切。


圖4 1999—2018年樣本專利轉讓/受讓人情況(前10名)
(3)涉訴專利數量。普華永道的報告顯示,近5年來,美國總體專利訴訟案件數量持續走低,與授權量走高形成截然相反的趨勢[10]。在這樣的大背景下,加上2014年的行業“洗牌”,美國自然語言處理領域訴訟案件涉及的授權專利數量以該年為轉折點,結束了2000年以來的高增長,近5年大幅下跌(見圖5),再一次反映了主要競爭者逐步變為少數科技巨頭的行業現狀。

圖5 1999—2018年樣本涉訴授權專利數量
(4)主要訴訟當事人。實踐中,一件專利前后涉及十余個訴訟案件較為常見,母、子公司同時成為訴訟當事人或第三方也經常發生。為避免重復統計多個案件和母子公司,通過對訴訟當事人進行標準化處理,以涉案專利數量為指標,本文得到了表6所示數據。涉及的案件類型除常見的在美國進行的司法案件,還包括美國專利商標局專利審查和上訴委員會(PTAB)審理了復審案件。訴訟當事人包括了原被告、反訴原被告、第三方、復審請求人。涉案專利不限于自己持有的專利,還包括侵犯他人的專利。數據顯示,蘋果成為涉及專利數量最多的訴訟當事人,其后是微軟、谷歌、三星等行業巨頭。

表6 1999—2018年樣本訴訟當事人及涉案專利數量
通過對1999—2018年美國自然語言處理領域專利數據的分析,本文可以得到以下結論:
(1)在競爭環境方面,自然語言處理技術的機遇伴隨著人工智能第三次浪潮而到來,2014年之后,逐漸進入技術成熟期[11]。美國的專利申請量和授權量都增長迅速,其中,G06F和G10L是最重要的技術熱點,側重軟件領域,H04R所代表的硬件領域也極有爆發潛力,從“軟”到“硬”說明自然語言處理技術商業化落地速度加快。美國在NLP領域起步早、發展快,在全球技術競爭中占據了絕對的領先地位,其本土市場擁有多家標桿性的科技企業、成熟的科技與金融聯動機制以及較好的科研基礎和人才隊伍。此外,日、韓兩國的實力也非同一般。
(2)在創新和競爭主體方面,科技企業成為最主要的主體,它們的技術研發針對性和目的性強,創新意愿強,發明成果應用程度高,尤其是美、日、韓的代表性企業,不管是傳統巨頭還是后起之秀,多年的經營使它們具備扎實的技術基礎,擁有推動自然語言處理技術迭代和升級的實力。同時,隨著行業“洗牌”和競爭加劇,各大企業成立多個子公司以應對專利訴訟、許可、買賣等事項,保護企業的核心業務不受侵擾,專利技術和人才也逐漸集中到少數企業手中,形成了較為明顯的馬太效應。
《中國制造2025》把人工智能列為智能制造核心信息設備的關鍵技術,中國《國家中長期科學和技術發展規劃綱要(2006—2020年)》也把中文信息處理列為前沿技術之一,不管是國家層面的戰略規劃,還是產業發展的現實需要,自然語言處理技術已然是中國人工智能產業發展的重要一環。當前,中國與美、日、韓在NLP領域的差距較大,建議從以下方面進行改進:
第一,培育以企業為主導的創新格局。現今,美國在自然語言處理領域已擁有涵蓋基礎層、技術層和應用層的完整產業鏈,市場與企業的規模和成熟度都遠超中國。有數據顯示,美國在NLP領域的創業公司有252家,中國僅有92家[12]。與美國不同,專利數據和論文發表數量表明[11,13],中國在NLP領域的主要創新主體并不是科技企業,而是高校和科研機構,而他們并不是市場主體,只有讓處在競爭中的企業成為創新的主導者,才能締造出充滿活力的市場和產業。2017年,中國采取扶持巨頭企業做大技術平臺以帶動全行業發展的策略,科技部設立百度、阿里巴巴、騰訊和科大訊飛為首批國家新一代人工智能開放創新平臺,初步顯現出積極影響。然而,創新格局的培育是一個龐大工程,還需要系統的人才梯隊、成熟的市場機制、完善的法律制度、良好的營商環境,以及保護創新的社會共識等眾多板塊的協調發展。
第二,加快科研成果轉化。世界知識產權組織的報告指出,全球人工智能專利申請前20名學術機構中有17家來自中國,人工智能相關科學出版物數量前20名學術機構中有10家來自中國,10年里中國論文數量增加了150%[14]。可見,中國的人工智能具有不錯的學術研究基礎。但另一方面,中國人工智能論文的引用率卻被美國遠遠甩在后面,低于世界平均水平[13],論文質量還有待提高。高校和科研機構利用公共資金產生的技術成果,轉化率并不理想,造成了很大的浪費。這一問題不僅存在于自然語言處理領域,在其他技術領域也較為常見[15]。為了鼓勵科技成果轉化,中國已采取的措施有修訂《促進科技成果轉化法》、建設高校科技成果交易網站、設立高校科技成果轉化和技術轉移基地等等,這些以行政手段為主的措施起到了一定效果,但轉化的動力根本來源于市場。因此,需要優化科研成果的知識產權和利益分配機制,激勵科研人員的主動性;加大引入專利市場運營主體、中介機構,擴寬供需信息渠道;條件成熟的高校成立專門的知識產權運營公司,避免校內行政人員低效率管理。
第三,加強在美國的專利布局。雖然百度、中國科學院、浙江大學等在國內的自然語言處理專利申請數量非常突出,但他們的美國專利卻寥寥無幾;而中國企業在美國布局該領域專利的以華為技術有限公司、鴻海集團、臺灣工研院、深圳市騰訊計算機系統有限公司、中興通訊股份有限公司為主,其美國專利數量依舊很少,與日韓企業相差甚遠。在技術競爭全球化的今天,不能無視作為科技行業必爭之地的美國市場,我們應當加快在美國的NLP領域專利布局,尤其是重點技術方向,運用靈活的專利運營策略,以在激烈的競爭中贏得主動權。
第四,注重專業人才培養。中國在自然語言處理領域的高校專業體量偏小,專業人才儲備不足,員工人數僅為美國的1/3[12]。基礎層面人才薄弱、頂尖領軍人才欠缺,無法持續為產業輸出有生技術力量,制約了中國NLP產業的長期發展。因此,我們亟需夯實相關專業課程建設,完善在職人員技能培訓體系,搭建人才成長平臺,把培養自然語言處理專業人才作為一項長期工作堅持下去。
致謝:感謝重慶大學法學院2018級知識產權法研究生郭芳制作本文部分圖表。