崔開源
(內蒙古科技大學 學報編輯部,內蒙古 包頭 014010)
在GB/ T 7714—2015《信息與文獻 參考文獻著錄規則》中,增加了 4 個文獻類型標識[1]:檔案(A) ,輿圖(CM) ,數據集(DS) ,其他(Z)。這四個新增的文獻類型中,其余三個文獻類型比較容易理解,數據集(DS)對很多人來說仍然比較陌生,容易和計算機的數據庫、數據表相混淆。雖然有些學者已經對此做出了研究,但由于已有定義不能包括目前已經發現的數據集,因此,需要對數據集的概念作出修正。
數據集的基本概念具體起源于何時,目前還不明確。從CNKI中,以關鍵詞“數據集”檢索后,可以看到1915年就已經有了相關的文獻。之后很長一段時間,相關文獻的數量都在10篇以下。1980年前后,相關文獻數量逐步增加。如圖1所示。
最早的中文文獻出現在1959年,共3篇。其文獻量的變化趨勢與外文文獻數量變化趨勢基本一致,如圖2所示。
國內目前已知最早的數據集文獻是1959年刊載在《航空材料》上的數據集,美國鋼鐵研究院的《AISI*標準不銹鋼的代號與成分》數據集[2],該數據集其實是美國鋼鐵研究院(AISI)在1957年6月提供的。同年,《航空材料》上還刊載了另外兩份數據集:《數據集NO.5:標準不銹鋼的抗腐蝕性的比較》[3]《數據集NO.6:機械試驗時的變形速度曲線圖》[4]。從1959年翻譯成中文的數據集文獻來看,數據集主要并不是在計算機領域,而是在材料、機械、航天領域。

圖1 CNKI數據庫中,關鍵詞為“數據集”的外文文獻數量變化

圖2 CNKI數據庫中,關鍵詞為“數據集”的中文文獻數量變化
從目前已經發現的數據集的形式來看,主要有四種典型的數據集樣式。一是表格加說明樣式;二是示意圖加說明樣式;三是數據圖表樣式;四是數據庫樣式。
表格加說明樣式,形式上類似數據庫里的一張關系表。但實質上與數據庫中的表中的數值不相同。比如,在表1中,對應于201所在的行,C所在的列的內容為“<0.15”,對應的內容是一種條件,而不是具體的值。只有各種元素的含量符合201鋼材對應行的內容要求時,才是合格的201鋼材。表中的內容,其實是系列標準,而非具體的數值。這是與數據庫樣式的數據集根本性不同的地方。

表1 表格式數據集 《AISI*標準不銹鋼的代號與成分》

表2 相對濕度對羊毛纖維直徑測定影響的校正表/微米
表2是1978年刊載在《毛紡科技》期刊中的《羊毛工業研究協會紡織數據集 (一)》中的一個內容[5]。該表規定了在不同的濕度環境下,使用特定的測量儀器和測量方法測出了羊毛纖維直徑后,對測量結果的修正方法。表中的第一行數據的含義是:對于測量結果為18~19.9微米的羊毛纖維,如果是在濕度為38%~42%之間測量的,最終值就需要在原來測量結果的基礎上加上0.4微米;如果是在濕度為68%~72%之間測量的,最終值就需要在原來測量結果的基礎上減去0.1微米。所以,某行某列對應的內容,不是具體的數值,而是對數值的處理方法。這與計算機領域關系數據庫中的表顯然是不同的。表2中的數值,不是通常的“實驗數據”或“數值”,而是“處理方法”或“關系”。
示意圖加說明樣式的數據集,先給出特定內容的示意圖,然后添加輔助性的說明內容或相關信息。如圖1所示。
為了說明該類數據集的特點,我們選取圖3中的局部內容進行放大并重新做清晰化處理,就可以得到如圖4所示的樣式。圖中包含了7個數據單元。每個數據單元類似于一張簡明數據表。每個數據單元,包含了一種鋼材型號,及該型號鋼材中影響抗腐蝕性的主要元素的含量。圖中顯示了不同鋼材在抗腐性方面的差異及主要原因。比如310相對于309,增加了NI和C,提高了抗氧化性能;309號鋼材相對于308號鋼材,增加了Cr和Ni,提高了抗氧化性、抗腐蝕性。這種數據集,看上去直觀,清晰。如果用計算機領域的數據庫概念對比,這張圖所反映的信息,類似于表與表之間的關系,而不是“數值”與“數值”之間的關系。此外,它也包含了說明性的內容。
另一個類似的數據集的實例是《機械試驗時的變形速度曲線圖》,如圖5所示。利用該曲線圖,可以查出進行機械試驗時的大約變形速度。該圖給出了具體的使用方法“當已知試驗材料的楊氏系數和引起變形的荷載時,就可以查到在一定時間內的變形速度。比如,已知鋁合金材料的楊氏系數為10×106,在8秒鐘內,荷載為40,000磅/寸2,首先由圖的右下方所需應力40 ×1000磅/寸2處開始向上查,找出與楊氏模數10×106斜線的交點,由此點再沿橫線向左找出與時間曲線(8秒)的交點,最后,沿縱線向下即可讀出所求的變形速度值5×0.0001,也就是0.0005寸/寸/秒”。
圖5所顯示的數據集,類似于若干條給定不同變量值的同一函數的曲線的疊加結果。它的基本單元不同于圖4的表,而是類似函數的曲線。是由若干條類似函數的曲線構成的。需要說明的是,該圖是個經驗結果,并不是嚴格的實際結果。因此,只能叫做大約的變形速度。
數據圖表樣式的數據集,常見于氣象學、測量學領域。下面是一個氣象領域的數據集:擴展重建海平面溫度(Extended Reconstructed Sea Surface Temperatures,ERSST)標準5下的2018年10月的全球氣候數據集的一個樣式,如圖6所示。

圖3 《AISI*標準不銹鋼的代號與成分》

圖4 AISI*標準不銹鋼的代號與成分圖局部放大并加工整理后的效果

圖5 機械試驗時的變形速度曲線圖

圖6 ERSST-v5 2018 年10月全球氣候數據(由 Z Hausfather提供)
該樣式是基于實際的觀測數據,按照一定的模型生成的直觀結果。它實際上是對若干數值的綜合處理結果,表現形式就是主要是圖像。我們無法從圖中看到此結果所依靠的最原始的觀測數據以及數據的處理過程。與之相似,圖7所顯示的數據集樣式,則是建立在數據集基礎之上的柱狀圖。該數據集顯示的是1871~2018 年 6 種不同的 SST 數據集的Nino 3.4 指數的每月標準偏差對比圖。
數據圖表樣式的數據集的主要特點是,在原始數據的基礎上,按照給定的數據處理規則,所產生的圖或表。我們用EXCEL所做的柱狀圖、餅狀圖,都屬于這個類型。數據圖表樣式與圖5最主要的區別是,數據圖表樣式是可以由數據直接生成,數據變化,圖表的樣式隨之變化。數據的處理規則是確定的。而圖4、圖5所示的數據集,由于其規律不確定,需要很多人為干預,添加好多經驗或實驗內容,計算機無法自動生成。凡是無法用計算機自動生成的圖、表及說明形式的數據集,都可以歸類到示意圖加說明樣式。當然,如果出現更好的工具,能夠把圖3的樣式由計算機模擬出來,那么,圖5也可歸類到數據圖表樣式中。
隨著大數據時代的到來,各學科產生的數據集(Date set,DS)的數量與日劇增[7]。數據庫樣式的數據集就逐漸多起來。幾乎所有學科都能找到以數據庫為基礎的數據集文獻。在醫學領域,有《數字化虛擬中國人女性一號號(VCH-F1)實驗數據集研究報告》[8],在氣象領域,有《地方MOS數據集及應用程序包的建立方法介紹》[9],在文獻信息領域,有2017年、2018年復旦大學師生中文電子期刊資源訪問行為數據集[10][11],在交通領域,有《高速公路場景下基于深度學習的數據集建立》[12],在信息領域,有《機器學習算法在同態加密數據集上的應用》[13]等等。其本質上都是若干關系表中的數據。僅僅在表現形式、規范性方面略有差異。比如《2018 年復旦大學師生中文電子期刊資源訪問行為數據集》,該數據集提供了詳細的數據庫基本信息、數據采集和處理方法、數據集中的14個文件所涉及的20個字段的詳細說明、數據質量控、數據的質量控制、數據使用方法和建議、數據獲取地址、數據存儲方式等等,內容非常詳盡。是一個現代技術條件下比較完善的數據庫樣式的數據集樣本。由于這類樣式比較常見,這里不過多介紹。

圖7 6種不同的 SST 數據集的Nino 3.4 指數的每月標準偏差對比圖
通過以上四種數據集樣式的分析,我們可以看到。把數據集定義為“是一種由數據所組成的集合”[1][7]是需要完善的。
首先,定義中的“數據”概念,在不同的學科中理解不一。對計算機專業領域來說,可以存儲的“數據”,既包括圖像、聲音、文字,也包括視頻甚至文件(對象)。當然,這些都是電子介質,不包括紙質資料。不能把紙質的介質叫做數據,只能把紙質介質上的內容轉化成“數據”。事實上排出了紙質介質。因此,嚴格地說,紙質圖書、電子期刊、紙質的數據集,都不是計算機的“數據”。在其它領域,“數據”就是實驗過程或結果中的數值。無論是紙媒還是電子媒體,只要屬于這個范圍,都是數據。
其次,集合的概念也不準確。集合本來是嚴格的數學概念。不相關的任意幾個數字,都可以稱為集合,但這顯然不是數據集中的數據。數據集中的數據應該是有特定關系的。集合既可以包含一個數據(元素),也可以包含若干個數據(元素),甚至可以是不包含任何數據的空集。但僅包含一個數據(元素)或空集的情況不能叫做數據集。
對于以上四種類型的數據集,上述定義不能夠完全涵蓋。一是表格加說明樣式中的表1、表2中的內容,不是通常意義上的數據,而是關系;數據圖表樣式類的數據集,是建立在數據基礎上的圖或表。計算機領域的數據概念,并不包括紙質媒介。因此,建議把數據集的概念修改如下:
數據集是實驗、觀測及釆集數值的處理方法、特定標準的約束條件,總結說明信息以及在數值基礎上形成的圖、表、聲音、視頻資料等,名稱中一般含有“數據集”字樣。又稱為資料集、數據集合或資料集合。
數據集與數據庫不同。數據庫樣式的數據集一般包括兩部分內容:數據集和數據庫。數據集是除了數據庫以外的其它信息。主要指數據的處理規則及說明信息而不是具體的數據。
上述定義包容了紙媒和電子媒介,包容了各個學科,也包含了未來的形式(聲音、視頻等),并把鑒別這類資料的關鍵要素“名稱中包含數據集“特別提示出來。從而有效地屏蔽了各類無關資料。當然,這個定義能否適合目前各類數據集,還有待實踐檢驗和進一步研究。