[摘要]人工智能算法運行包含輸入數據、內部學習及輸出結果三個階段,數據的收集和使用貫穿程序運行的全部過程。而算法對于數據的迭代使用和再表達可能會出現非合理使用的風險??紤]到我國現有著作權許可模式的局限,應吸收域外立法之經驗,將合理使用的主體范圍進行適當擴張,以順應當前人工智能技術產業發展需要。
[關鍵詞]人工智能算法;數據侵權;合理使用
[中圖分類號]D922.16;TP18" " [文獻標識碼]A
[DOI]:10.20122/j.cnki.2097-0536.2024.01.014
一、問題的產生
在科技飛速發展的大數據時代,人工智能算法作為一類通過預先設定模型并進行自主分析數據的智能程序,已經可以完成機器自動化、醫療、語言識別處理甚至文學藝術創作等社會多領域的工作任務。人工智能算法之所以被稱之為“智能”工具,核心在于其整個運行過程與人類大腦神經網絡存在高度相似性:首先抓取海量的數據,再選擇合適的模型對數據進行訓練,不斷在演練中試錯、優化并發現規律,最終產生所需的結論。可以說,人工智能算法以數據作為基礎和“養料”,輸入數據越多,最終作出決策或輸出結果的正確性就越強。在如此海量的數據需求下,算法運行中對數據的大量抓取和使用則可能產生著作權侵權及個人信息侵權等問題。[1]
目前,現有的人工智能算法領域對于權利歸屬的認定研究多偏向于認定算法主體法律屬性、算法生成物著作權歸屬方面,對于人工智能運行過程抓取并使用現有數據可能產生的數據侵權問題的相關研究較少。忽略數據侵權可能性,僅關注人工智能技術發展,無法對知識產權進行保障,也不利于經濟制度的長期穩定。從長遠來看反而會遏制技術的自由發展。
二、人工智能算法的運行邏輯
人工智能中深度學習算法具有和人類大腦相似的學習方式,其內部邏輯雖然因開發者賦予算法程序的不同任務而有所差別,但基本可以依據算法的大致運行過程將工作流程劃分為以下三類:數據輸入(知識學習),內部處理及數據輸出(學習成果)。[2]
首先是數據輸入階段,也就是數據的準備和初期處理階段。這一階段涵蓋數據的收集、選擇以及分割,即數據的初步“篩選”過程。在這一階段需要收集海量數據并對其進行簡單的選擇和預處理。排除錯誤數據,選擇、提取正確數據,以便算法能夠更好地理解和處理,汲取所需的“知識”。其次是內部學習階段,這一部分是通過預先建立的模型訓練數據并逐步掌握各種運行規律和技巧的過程。在過程中不斷使用訓練數據對模型的參數進行調整,使算法能夠從數據中學習和適應,并在此過程中不斷優化。最后是輸出階段,即輸出最終結果:算法創作最終生成特定創作物,而算法模型運算則是將訓練好的模型部署于實際應用中,用于完成不同的任務需求。如新聞個性化推送機制或個人信用評價機制。[3]
這三大流程基本涵蓋了算法的整個生命周期,而人工智能算法與其他程序不同的是:算法每做出一次運算或生成一個自主創作物,就會再一次優化和改進自身的程序模型。算法的三個流程是不斷循環往復的,每一次輸出結果都會增加一份經驗,而其生成物或特定模型也會越來越精準,越來越滿足指向性需求。這樣的特點使得算法會不斷使用和處理已有的及最新吸收的數據,在海量數據的需求下,產生數據侵權風險的可能性將呈指數增長。
三、算法運行過程中的數據侵權風險
(一)輸入階段
輸入階段是數據進入算法過程中的第一步,這一階段的主要任務就是對數據進行初步的收集和整理。進入大數據時代,人們所接觸并使用的“數據”已經不再局限于計算機為載體的各類學科的高精尖技術知識,而是廣涵了社會時事新聞、公民個人隱私及文學影視作品等領域的各類龐雜而復雜的信息。并且隨著信息社會的發展和演化,數據甚至呈現出了可交易的財產利益屬性。這些非技術層面的數據有些屬于公共領域的開放性素材,而有些則涉及個人信息隱私和作品著作權。獲取允許開放使用的公用數據顯然合法合規,但隨意使用其他在網絡上有權利所屬的數據,則會產生相應的侵權風險。[4]
當前,算法獲取數據主要依靠“抓取”“購買”及“轉換”,即直接利用互聯網現有的數據信息、直接或間接購買所需的數據材料或將非數據形式的信息轉換成數據形式三種途徑。其中,“轉換”非電子數據的行為要考察其使用性質,不得超出合理使用之范圍;而“抓取”和“購買”直接使用網絡現有數據,需要注意是否授權及授權的范圍,即使有使用許可,超出授權范圍的使用也會構成侵權。
(二)內部學習階段
算法在“學習”的內部處理階段,其事先寫好的程序模型會不斷地接收和送回數值形式的數據,因此該階段與輸入階段緊密結合,若輸入階段的數據構成非合理使用,那么學習階段對數據的使用和處理當然構成侵權。算法程序對數據進行分類加工,如果輸入未經授權的數據則可能成立間接侵權。
另外還需要探討的是,如果輸入階段使用的數據不存在侵權風險,內部學習階段對數據的處理是否有侵權可能?在前期篩選數據完成后,人們通常需將訓練收集的數據轉化為機器可接收并“理解”的數值,并于該階段進行大量的設定和調整。這種并非機器全自動處理所用數據的環節是否可以理解為著作權法意義上的人為“改編”行為?有學者認為,數據的存儲和計算是瞬時完成的,如果僅僅被階段性臨時存儲及參與運算,則不涉及對復制權的侵犯,不應認定為侵權行為。[5]
(三)輸出階段
算法數據侵權爭議多產生于輸出階段,以人工智能算法生成物的著作權歸屬為核心內容。通過數據的篩選及內部模型的訓練,算法能夠依靠人的指令完成相應任務并輸出結果。在這一階段,人工智能生成物對第一階段輸入的數據可能產生“表達性使用”:人工智能生成物的“創造”與原作品之間可能存在部分相似、實質相似和完全不同的差異區分,因“完全不同”的“再創造”具備著作權法的創新性要求,對此不再贅述。主要需考量人工智能生成物與原有數據之間存在部分相似保留及實質相似的情況:如果生成物在表達上與原數據存在實質或部分的相似性,那么則可能會構成對原有數據著作權所有者復制權、改編權的侵犯。
(四)人工智能數據使用的法律免除困境
任何新興科技的發展總會涉及技術創新與法律限制之間的矛盾,法律與科技的關系從來都是復雜且辯證的。我國現行的《著作權法》規定了著作權侵權免除的兩大類型,可概括為合理使用和法定許可,而人工智能算法作為一項新興技術,其整個運行過程所需要的數據使用行為能否納入著作權侵權豁免的范疇,需要進一步討論。[6]
合理使用以個人學習、科研、適當引用為要件,抗辯著作權侵權。但在應用時需要注意其主體要求,如第二十二條第一款中強調“個人”,即排除了法人、非法人組織為該條款適用主體的情形。算法系統的建立一般需要一定的技術支撐和物質基礎,其所有方、控制方一般為大型商業公司或科研機構,在實踐中首先會出現難以納入規定主體的困難。
而對于法定許可,同樣也需考慮其適用要件。如《著作權法》第三十五條規定的“報刊轉載”、第四十二條規定的“制作錄音制品”許可等,法定許可制度對于主體的限制較合理使用更為嚴苛,無法匹配算法數據處理之需要。
四、數據侵權規制路徑再構建
(一)數據使用規制的域外經驗參考
國內學界對算法規制路徑的域外參考主要分成兩類,即以歐盟為代表的“非商業”模式和以美日為代表的“商業”模式。在考慮我國數據侵權規制路徑構建時,可以適當參考域外對于算法運行過程數據合理使用的規制制度,為我國的制度發展及完善提供相應經驗。[7]
首先是以美國、日本為代表的“商業使用”規制模式。美國是算法程序發展研究的最前沿國家,其行業標準和規制制度也較為成熟。綜合考量行業自身標準與公共利益、個人權利保護原則,美國發展出了“轉換性使用理論”。該理論規定,如果新的生成物使用了原有作品的相關數據,但自身具備新的信息和表達,實質上已對原有作品進行了改變,則構成合理使用?!稗D換性使用理論”一改以商業目的作為限制合理使用條件的規定,以“是否具有轉換性”作為認定合理使用的標準。日本與美國類似,為迎合信息社會網絡科技的發展和需要,幾次修改《日本著作權法》,將“計算機使用數據”的合理使用范圍不斷擴大,不限制適用主體,為非個人及科研主體之外的商業主體開拓了著作權侵權豁免的空間。
其次是以歐盟為代表的“非商業使用”規制模式。該模式與美國、日本“商業使用”規制模式相對應,并沒有全面認可“商業使用”的合理使用。但這一限制也并非歐盟各國意圖利用制度限制算法技術的創新發展:歐盟委員會曾于2016年推出《單一數字市場版權指令草案》,該草案中指出,可以為各成員國“復制作品和數據的行為”提供例外,此舉也將適用主體明確規定為科研機構以及適用目的為科學研究目的。2019年,歐盟又適時推出了《數字單一市場版權指令》(《DSM指令》),增加了“文本和數據挖掘”的例外情況,再次拓寬了合理使用之范圍。
結合以上兩類域外制度可得知,各國為促進自身科學技術的進步和發展,保證自身在21世紀信息技術變革競爭中的優勢,以最大程度保障技術發展為制度改革方向。
(二)調整傳統許可模式
由于我國現行《著作權法》并未對算法進行具體規制,考慮到人工智能算法對數據海量需求的特性,傳統規制下的“一對一”權利賦予不具有現實可行性,若要避免算法在運行過程中對數據產生的各類侵權問題,應重新考慮調整現有的許可模式。在合理使用制度方面,應重新審視適用條件、適用主體的范圍,探究在“科學研究”和“非商業使用”外增加“商業使用”的可能性,不應一味地排除商業互聯網公司的主體資格。由于市場自由競爭的特性,互聯網公司會主動進行科技研發,將合理使用的范圍擴大至商業使用范疇,長遠看來不僅可將“算法”歸入我國《著作權法》規制的范疇,還能促進算法技術的進步和發展。
有部分學者認為,將“商業使用”納入合理使用制度會違背合理使用具有公共利益的初衷。因此對于傳統許可模式的調整也可放眼于法定許可制度,如我國《信息網絡傳播權保護條例》中給予農村地區居民的特定作品許可,進行利益平衡之嘗試,在著作權人明確表示異議后再撤銷其準用許可。
五、結語
綜上,對于算法運行過程中可能涉及的數據侵權風險,可借鑒域外經驗,在保證合法適用數據的同時,又不因新技術的出現推翻傳統制度的規制范圍,嘗試在傳統規制的前提下進行適當調整。
參考文獻:
[1]彭飛榮.論算法創作中涉數據的著作權侵權風險及其化解[J].法律適用,2023(4):46-55.
[2]焦和平.人工智能創作中數據獲取與利用的著作權風險及化解路徑[J].當代法學,2022,36(4):128-140.
[3]楊緒東.人工智能編輯之合理使用探究[J].科技與法律,2020(1):8-14.
[4]吳漢東.人工智能生成作品的著作權法之問[J].中外法學,2020,32(3):653-674.
[5]徐小奔,楊依楠.論人工智能深度學習中著作權的合理使用[J].交大法學,2019(3):32-42.
[6]劉友華,魏遠山.機器學習的著作權侵權問題及其解決[J].華東政法大學學報,2019,22(2):68-79
[7]許娟.利用爬蟲技術侵犯企業數據知識產權法益的司法解釋[J].蘇州大學學報(哲學社會科學版),2020,41(1):47-58.
作者簡介:宋宗越(1999.3-),女,漢族,山東德州人,碩士在讀,研究方向:民商法。