(四川大學圖書館 四川成都 610041)
數據創新與知識產權保護是大數據時代背景下所面臨的兩大重要內容。由于國內具有價值的數據大多散落在各級政府、醫院、科研院校以及其他行業并相互獨立,形成了信息孤島,從而產生了暫時擱淺的休眠數據,這些數據不僅單項價值巨大,多重數據的整合開發更能發揮出巨大潛能。休眠數據是指已經存在于數據庫中、當前并不使用、將來有可能使用的數據,這種數據隨著時間延長而積累蔓延[1]。也有學者認為休眠數據是指數據價值被特定主體利用殆盡之時,只是這些數據的某一方面用途的價值被使用,并不意味著這些數據沒有其他任何價值,可能由于主體或主體數據需求的改變,可能由于數據技術的發展,也可能由于其關聯數據的出現,使其成為非常有價值的數據或者數據集合[2]。而如何將大量具有潛在價值的休眠數據進行再利用或重組創新,以及相關知識產權保護問題對傳統知識產權法提出了怎樣的要求,都亟需進一步探討和分析。
休眠數據的數據創新是將已經存在于各種數據庫中的不經常被使用或不被挖掘,但是具有一定潛在價值的數據,通過重組或整合等方式釋放,從而使數據的潛在價值得到充分體現。
海量休眠數據的潛在價值巨大,其數據再利用的不同環節和不同階段都蘊含著重大的商業性價值,并能促使產品增值以實現新的價值創造[3]。休眠數據再利用的典型例子是通過大數據技術搜索關聯數據,使主體和客體數據之間瞬時交互形成關聯列表,使數據中隱藏的價值得以實現。例如,京東商城將顧客在網站內的所有瀏覽軌跡都通過機器人系統自動記錄下來,根據不同的數據特點進行自動分類并分析處理,按照商品類別形成不同的推薦欄目,從而為客戶提供個性化的服務;攜程網對機票價格與機票預定時間二者銷售數據之間的關系進行了分析,以預測未來一段時間機票價格的走勢。
休眠數據有時需要通過與另一個毫無相干的數據集結合,其價值才能被激活變得有意義,即用一種用戶自己特定需要的方式根據不同的創新要求混合這些數據——數據重組。例如,廣州軍區廣州總醫院在2013年對手機輻射是否可增加大腦神經膠質瘤風險進行了研究,其中手機用戶以中華人民共和國工業和信息化部統計數據其中一部分(2 750人)為例,與此同時,選取膠質瘤患者2 630名作為參照對象,結合兩個數據集研究后發現二者并沒有任何的直接關系。總之,隨著大數據時代的到來,兩個或多個數據源重組再利用的總和比部分數據更加有價值。當我們將多個獨立數據集合的總和重組在一起時,重組總和本身的價值比單個數據總和更大。
大數據時代,創新主體對休眠數據的分析和挖掘以及重組再利用是通過對數據的抓取、分析與加工等手段得到新的數據集信息。但是這一過程中同時又產生了新的問題,即原有數據創造者的權利維護(即知識產權)與創新主體現有權利的擁有該如何界定和分配,對傳統的知識產權法提出了更高更精準的要求。而傳統意義上的知識產權是指人們就其智力勞動成果所依法享有的專有權利,通常是國家賦予創造者對其智力成果在一定時期內享有的專有權或獨占權[4]。知識產權從本質上說是一種無形財產權,其客體是智力成果或者知識產品,是一種無形財產或者一種沒有形體的精神財富,是創造性的智力勞動所創造的勞動成果。
傳統的知識產權簡單來說具有3個特征:專有性、地域性、時間性。大數據時代又重新賦予了知識產權新的特征:其網絡資源相對于傳統文字資源有著自己獨特的特征。①數字化、網絡化,這是網絡信息資源的基本特征;②信息量大,種類繁多;③信息更新周期短;④資源龐大,開放性強,信息資源不受地域限制,任何聯網的計算機都可以上傳和下載信息;⑤組織分散,沒有統一的管理機制和機構。而黃立芳提出數據產權這一概念,即數據開發者對合法獲得的共有或專有領域的數據,通過抓取、分析、加工、處理等智力勞動獲得的數據或數據集所擁有的人身權和財產權[5],也是對大數據時代背景下知識產權的補充。
海量休眠數據經過數據重組或整合等方式加工處理后成功創造出新的數據集合或數據集,即數據創新。這些創新數據既可以作為評價科研機構產出水平的數據,也可以通過在商業領域、銀行、商戶之間的交易記錄和憑證預測消費者消費傾向[6]。李學龍、龔海剛依據目前大數據分析的主要領域將大數據生成的來源劃分為科學數據、商業數據和互聯網數據3種類型[7]。無論是嚴謹的科學數據、熱點的商業數據還是自然語言處理的互聯網數據,都存在暫時被擱置的具有潛在價值的休眠數據。這些休眠數據經過進一步挖掘、加工、分析與整理需要新的知識產權政策支撐,是否會侵害到原有數據創造者的合法權利,是否對重組的結果給予合理的保護,這些都使得原有知識產權保護面臨新的挑戰。
數據創新強調利用數據挖掘(包括關聯規則學習、聚類分析和分類分析等[8])與知識發現(是指從數據中識別出有效的、新穎的、潛在有用的、最終可理解的模式過程[9])等大數據技術對具有潛在價值的休眠數據進行重組與整合,而創新的過程就是知識產權的應用和獲得過程。數據的二次利用涉及源數據隱私及商業機密的知識產權保護問題,其產權的保護與歸屬不僅是相關原有主體間的利益分割問題,更是創新主體持續發展和掌握競爭主動的重要支撐,所以知識產權保護與歸屬是數據創新的關鍵所在。在創新過程中,創新主體需要投入優勢資源和秘密技術等,同時圍繞一項產生的知識產權有很多利益主體,所以知識產權對于數據創新主體更多的是約束而不是激勵和促進,這在一定程度上阻礙了創新主體的創新積極性。只有數據創新各方面的利益達到均衡保障,創新主體的潛力與優勢才能充分發揮,數據創新活動才能順利開展。
如何平衡各創新主體之間新的利益格局以及使知識產權法律規則更具彈性,是在大數據時代環境下所面臨的新的要求。筆者認為上述問題可以簡化為兩個名詞:“平衡”與“彈性”。
(1)平衡。在新的背景下,休眠數據的重新整合以及利用知識產權法對原有數據資源的控制,導致知識產權法的發展必須在更廣闊的空間內的各種利益之間進行平衡。一方面,海量休眠數據再利用使得知識產權保護成為一個迫不及待的問題,因為數據的二次利用涉及大量知識產品,而創新主體所生產的本身就是知識產品,如果缺乏法律意義上的知識產權保護,技術的發展就會受到限制,數字化進程就會遇到障礙;而提高知識產權保護標準又可能束縛科技的發展。另一方面,數字化帶來的利益沖突是數據創新獲得的利益是否受到知識產權的保護,如果應受到保護,保護的范圍有多大,與原專利權團體之間的關系又該如何處理。因為新專利可能會侵害到原專利權人的權利,一旦受到保護之后,原專利權人的權利又該受到何種保護,同時對于重新組合的產品,法律風險已經被規避,但是對原專利權人造成的損失又該如何處理[10]。
(2)彈性。彈性與平衡相輔相成,各種利益需要在更廣泛的空間內保持平衡,因此就得充分保持法律法規的彈性。就數據創新主客體而言,彈性的需求是顯而易見的。因為協調創新主客體之間知識產權的法律法規,而協調本身不可能統一,因此妥協就不可避免,而妥協本身也就意味著彈性,只有更具彈性的法律法規才更具有廣泛性。過分原則的法律法規會導致規則范圍內所追求的目標無法實現[4]。在大數據時代,彈性這一要求表現得尤為突出,具有恰當彈性的知識產權法律法規,不僅可以使知識產權法能夠更好地適用各種新技術所帶來的法律問題,又可以使創新主客體之間清晰地理解相關規范。
大數據時代,數據創新越來越受到密切關注,且成了新的利益增長點和競爭力,而休眠數據的二次利用并重新釋放它的能量,為創新主體注入了新的活力。但如何平衡數據創新與知識產權保護的利益點是科學研究的重要課題。本文初步探析了二者之間的平衡點,為以后的研究打下基礎,至于如何建立二者沖突與協調機制,有待于進一步研究。