鄧建新,單路寶,葉志興,吳秀松
(1.廣西制造系統與先進制造技術重點實驗室,廣西 南寧 530003;2.廣西大學機械工程學院,廣西 南寧 530003)
傳統的材料研發主要通過“炒菜式”實驗方式進行,其成本高、周期長。隨著大數據技術誕生和成熟,基于數據推動材料設計發展“材料基因計劃、材料信息學”成為材料研發、成形制造和智能制造的主要方向之一[1-3]。在材料研究中,材料成形工藝是影響材料結構組織和性能的主要因素,如擠壓鑄造相比金屬型鑄造可以細化材料微結構,提高對應材料的抗拉強度[4]。因此,過去已有材料工藝數據無疑是材料大數據的主要來源,加強對過去已有材料工藝數據的收集、共享和利用自然成為材料信息學的重要基礎工作內容。依據過去材料方面研究的特點(主要通過實驗進行,鮮有按標準規劃收集工藝數據,大家通過文獻等報道進展),材料的工藝數據廣泛存在于被不同組織公開報道的文獻、網站等數據源,但因研究機構水平、研究手段、實驗設備等差異等導致這些來源的工藝數據的準確性、可信度自然存在差異,比如有些文獻的工藝數據已經通過制造物理零件驗證較優,而有些則只是通過軟件模擬確定的,有些工藝參數完全是經驗確定的。如基于它們來進行深度的數據分析,獲取材料成分與工藝間的關系并應用,會造成分析結果的可靠性存在差異(不可靠數據甚至帶來錯誤的知識[5]),進而影響構建的模型、對材料成分-工藝參數-性能等關系的描述、認識,和知識獲取,及其控制利用。這決定了需要針對不同來源的工藝數據可靠性進行評價,以為數據過濾(舍去那些可靠性低的數據),實現有區別地利用數據和保證獲取對應規律的正確、準確性和可靠性提供支撐。
隨著數據成為新的生產資源,對數據質量的研究越來越得到重視,但現有定義和數據質量評價框架的評價維度集中在準確性、數據缺失、相似重復對象檢測、一致性等評價和處理方面[6],而關于數據可靠性評價的相關研究比較少,雖然已有人涉及,但相比其他對象如產品和系統的可靠性,對數據可靠性還沒有普遍接受的統一定義[7](出現了“數據的綜合質量[8-9]、數據之間的距離[10]和數據的統計特征[11]”等定義)。開展實際數據可靠性評價的研究報道的主要有:王甜甜等[12]在Benford 定律基礎上構建了財務數據可靠性評價B 指標,最終研究結果表明B 指標在評價財務數據可靠性方面有一定效果;鮑靜等[13]分析了影響環境監測數據的4 個影響因素,分別是實驗室檢測技術、在線檢測技術、統計分析方法和實驗記錄,進而可從這幾個方面來提高環境監測數據的可靠性,在提高環境檢測數據的質量方面具有一定價值;胡丹露等[14]利用模糊綜合評判原理,建立了專題地理信息數據的可靠性多層次評價模型,保證了可靠性評價的可信度;胡媛等[15]從信源可信度與信息質量2 個方面建立了微博信息質量評價指標體系;林向義等[16]從信息接收者、信息發布者、信息傳播途徑和信息本身4 個方面構建了社交媒體中信息可靠性評價的指標體系;Alhaqbani 等[17]利用Beta 聲譽評價系統與主觀邏輯分析相結合,提出了一個醫療數據可靠性的評估系統,通過對醫療數據來源機構的可信賴度對醫療數據的可靠性進行評估;Sebastien 等[18]基于證據理論提出了一種基于數據來源標準對Web 表格進行可靠性評價的方法,只要確定適當的標準,該方法也可以適用于其他領域;Valarmathi 等[19]提出了一種基于聚類的通用方法,利用信念函數理論,從一組標準中評估數據的可靠性;Metzger 等[20]從信息質量的客觀性和信息來源的主觀性兩個方面來評價網絡信息的可靠性;Moores 等[21]從準確性、內容、格式和及時性4 個方面來評價網絡信息的質量。顯然,目前針對數據可靠性評價主要從主觀角度即制定相關評價指標方式來評價,但沒有通用指標,各評價框架(指標體系)都跟所評估的數據對象密切相關;還未有人涉及材料(和制造)工藝數據可靠性問題。由于材料工藝數據可能來源于相關文獻和網站中,再加上數據的特點、應用目的與上述情況有所不同,上述數據的可靠性評價指標并不完全適用于材料制造工藝參數數據。為了甄別不同來源的材料工藝數據可靠性,我們將其可靠性劃分為兩個層次:外源可靠性和內容可靠性。外源可靠性主要從“外觀”,即數據產生者、傳輸特性等質量、可信度來評估數據的可靠性,而內容可靠性則結合應用需求,基于數據內容本身的正確性、合理性等來評價其可靠性。前期我們基于數據本身建立了一種擠壓鑄造數據(內容)相對可靠性評價方法[22],本文主要建立外源可靠性評價體系。
以下重點以金屬材料為研究藍本,基于材料工藝數據來源特點,構建了材料工藝數據的可靠性評價指標,并建立了外源可靠性評價模型。為材料數據收集、選擇和利用提供理論和技術支持。
(1)材料工藝數據的研究的方式不同。
材料工藝數據來源于大量的研究和生產中,以金屬材料為例,對其材料工藝的研究有顯性和隱性兩類。顯性研究指明確進行材料成形工藝的研究,如進行某種合金的擠壓鑄造,然后觀察材料的性能,在于突出工藝的不同,或者同時突出工藝和材料成分的差異,其間一般涉及大量不同的工藝參數組合;隱性的材料工藝研究指主要以材料研究為主,工藝隱藏其中,為支撐其研究的一種實驗方法,重點在于突出材料成分等的不同,會有少量工藝參數,如溫度。這些研究如果選擇通過文獻報道研究結果,一般都會包括對應的工藝參數(但可能完全報道,也可能部分包括),會造成收集的數據存在缺失,影響其質量和可靠性。
(2)材料工藝數據的儲存和傳遞方式不同。
已有材料工藝數據的存儲和傳遞有專門和非專門兩種方式。專門方式為研究者(機構)已提出使用要求,構建了收集標準,直接從材料研究過程來收集材料工藝數據,如隨著材料基因計劃的推行,不少國家和機構已在設法構建對應的材料數據庫(如美國的MatWeb,中國的北京科技大學建立的國家材料科學數據共享網),并提出了共享使用的標準和方法,若涉及工藝(但不多,如日本的MatNavi 鮮涉及工藝;中國的國家材料科學數據共享網只涉及靜態氧化、粉末冶金等工藝),但一般限于內部使用和付費使用,由于是內部研究的數據,因此,材料工藝數據受其研究范圍的限制。如某機構專門進行粉末冶金研究,構建的材料工藝數據庫只有不同材料粉末冶金的參數,但應當看到,多個機構合作共建則會大幅度擴展這樣的數據庫,而且這是趨勢。同時從已有文獻中獲取工藝數據也必然是重要渠道,如國家材料科學數據共享網涉及的材料(工藝)數據很多都摘自文獻;另一類非專門的方式則指主要通過文獻、網站報道其研究內容和結果,其中包含的工藝參數被外界所利用。目前這是主要方式。由于文獻發表前一般需要審查(同行評審),其在文中報道的工藝數據自然也接受了審查,因此,相比直接通過網站而沒有通過同行審查的,可信度和正確性更能保證。
(3)材料工藝數據的發布者不同。
通過對涉及材料工藝的相關研究分析可知,我們從相關文獻和網站中收集到的材料工藝數據的發布者主要是相關企業和高校(包括科研院所),因研究機構水平、研究手段、實驗設備等,以及對學術聲譽等注重程度帶來的學術誠信差異等會一定程度這些來源的工藝數據的準確性自然存在差異。所提供的工藝數據(主要是工藝參數)大部分經歷了專門的物理實驗研究過程,有部分研究通過虛擬仿真實驗進行的工藝分析,如通過ProCAST 研究工藝參數對某材料性能的影響,但它們的可靠性存在差異。一般地,虛擬仿真在仿真時需要做適當簡化,不能完全模擬真實特征,得到的數據其可靠性低于通過物理實驗方式的數據。
基于1.1 中材料工藝數據的特點可知,目前能公開獲得的材料工藝數據主要是相關文獻和網站。制造工藝數據的發布者主要是相關企業和高校(包括科研院所),且大部分通過物理實驗或虛擬仿真實驗對其進行驗證。因此,評價材料工藝數據的可靠性需要區別這些特征。為此,參考國內外對數據、信息質量及可靠性的研究分析,初步確定材料工藝數據的外源可靠性取決于數據來源質量和數據驗證手段質量兩個方面。結合相關專家咨詢意見,得出最終的外源可靠性評價指標,見表1。數據來源質量從生產者和傳播渠道角度來反映,即假定生產者水平越高,聲譽越好越注重提供數據的可靠性,傳播渠道審查越嚴格,其數據自然也越準確。數據驗證手段則從數據的檢驗手段來側面區分數據的可靠性。

表1 材料工藝數據外源可靠性評價指標體系
在確定可靠性評價指標后,通過對每個指標的權重和指標的定量化數值累計求和得到可靠性評價模型。計算式如下:
式中K表示可靠性值,xi為第i個指標的定量化數值,wi為第i個指標的權重。
根據表1 得出材料制造工藝數據可靠性評價指標,利用層次分析法,求解各可靠性評價指標的權重。層次分析法的步驟是:①建立可靠性評價指標層次結構;②建立每一層的判斷矩陣;③判斷矩陣的求解;④判斷矩陣的一致性檢驗;⑤各因素權重的確定。
根據層次分析法思想,建立的材料工藝數據外源可靠性評價的層次結構如圖1 所示。

圖1 材料工藝數據外源可靠性評價的層次結構
判斷矩陣主要是通過咨詢相關專家,共同探討各指標之間的相對重要性構建而成的,參考Saaty 等研究者提出的判斷矩陣的構建標度法則來構建(見表2)。

表2 指標重要度賦值標準
(1)G 層判斷矩陣:從可靠性角度,數據驗證手段質量B比數據來源質量A明顯重要,因為無論何者生產的數據,經過驗證是保證數據可靠性的最有效方式,本處標度計為4,G層評價指標判斷矩陣(見矩陣1)。

矩陣1 G 層評價指標判斷矩陣
(2)A層判斷矩陣:數據質量主要受生產質量和傳輸質量影響,傳輸只要防止其被篡改等,因此數據發布者A1比數據傳播途徑A2稍微重要,標度計為2,A層評價指標判斷矩陣(見矩陣2)。

矩陣2 A 層評價指標判斷矩陣
(3)B層判斷矩陣:如上所分析,做過物理實驗B1比做過虛擬實驗B2稍跟具有說服力,更能保證數據更可靠,則其驗證手段質量更高,則得到的重要程度標度計為2,B層評價指標判斷矩陣(矩陣3)。

矩陣3 B 層評價指標判斷矩陣
(4)A1層判斷矩陣:從可靠性角度,企業為了滿足大規模生產,對其工藝數據會反復測試和優化,以保證產品質量和降低成本等(或者已經經過了大量生產后發布的),而高校等純研究機構的重復性實驗測試次數會因成本等原因相比企業少,故確定企業A11比高校A12明顯重要,標度計為4,A1層評價指標判斷矩陣(矩陣4)。

矩陣4 A1 層評價指標判斷矩陣
(5)A2層判斷矩陣:如前所述,期刊(本文主要指包含有材料工藝數據的期刊)有明確的審核機制,在對論文評審過程中,也加強了對其數據和結論可靠性的審查,以及編輯出版前錯誤的審查,一定程度保證了其中的材料工藝數據的可靠性,而部分網站(比如目前存在的科研數據共享網站)的數據也有審核機制(如與期刊論文一并提供的數據),而部分網站的數據則不審核數據內容的可靠性,只審核其缺失等情況,甚至不審查,造成可靠性會降低或無法保證,綜合確定期刊A21比網站A22稍微重要,標度計為2,A2層評價指標判斷矩陣(矩陣5)。

矩陣5 A2 層評價指標判斷矩陣
最終根據層次分析法的計算公式和一致性檢驗后計算得到材料工藝參數的外源可靠性評價指標權重值,見表3。

表3 材料工藝數據外源可靠性評價指標權重值
為了實現量化評價,需要確定最底層指標的量化方法。
(1)數據發布者指標的定量化。
對高校指標,高校與高校之間的比較,主要對比高校的影響力,選擇從最新的高校綜合排名來確定,高校的排名越靠前,它的影響力越大,一般研究條件等更好,也越注重學術聲譽,因而認為數據質量更高。
對企業指標的定量化,仍然關注其對工藝數據可靠性的影響,選擇運用多屬性決策就企業對工藝數據可靠性的可能的重視程度進行定量分析,側面反映工藝程度可靠性的影響。經查閱相關文獻,確定從企業規模f1、市場占有率f2和知名度f3三個角度進行定量比較[理論上,指標值越好(或高)的企業其更重視產品(及其工藝)的質量,會帶來更可靠的工藝數據]。主要步驟如下,為便于表述,以3 個企業為例,分別設為企業E1、企業E2、企業E3。
第一步,收集評價屬性的信息,得到評價屬性收集信息的定量化初值,并轉化為決策矩陣。以上三屬性中,市場規模和知名度本文確定為定性評價,市場占有率為定量評價,直接收集相關數據。將定性評價屬性的等級量化分值按表4 的規則轉換,得到定量決策矩陣。如企業E1、企業E2、企業E3所對應的企業規模指標分值為:5,7,3,所對應的知名度指標分值為:9,5,3,查閱相關文獻資料得出市場占有率,可得到決策矩陣A3×3。

表4 定性指標等級量化分值表
第二步,將決策矩陣進行標準化處理,屬性分類與方法:
效益型屬性:
成本型屬性:
式中,aij表示第i個企業的j個屬性值,rij為標準化后的值。因f1、f2和f3均為正向效益型屬性,按(3)式轉換。按決策矩陣A3×3根據公式(3)轉化得到標準化決策矩陣R:

矩陣5 企業層指標判斷矩陣
第三步,確定定量化數值。根據加權平均法可以得到的定量化數值,為此,同樣利用層次分析法,求解各屬性的權重。通過咨詢相關專家得到企業3 個屬性判斷矩陣如表10 所示,根據層次分析法的計算公式計算出指標權重值。按此計算決策矩陣A3×3中的3 個企業的數值分別為:0.748,0.549,0.332。
(2)數據傳播途徑期刊和網站的定量化。
期刊與期刊之間的比較,主要對比期刊的影響力,一般地,期刊影響力越大,越注重其論文中內容和編審質量(自然包括其中工藝數據的質量),評審和出版審核機制更嚴格,而如果一篇論文被反復引用,其也會一定程度受到研究者對其內容(數據)質量的審查,引用數最終反映到論文期刊影響因子上,為此,可從期刊的最新的復合影響因子來確定,期刊的影響因子越大,它的影響力越大,越注重對論文質量的審查,因此出版的論文中的數據質量理論上被認為更高。對于網站,如前所述,雖然也涉及審核機制對數據質量的影響,但本處主要從傳播質量保證角度出發來定量化,確定從網站安全性g1、檢索復雜性g2和更新及時性g3三個角度來,同樣采用多屬性決策方式進行定量化,方法跟企業類似,這里不再贅述。類似地利用層次分析法求解各屬性的權重,通過咨詢相關專家得到網站多屬性指標判斷矩陣(見矩陣6),計算出權重值。

矩陣6 網站層指標判斷矩陣
(3)數據驗證手段質量的定量化。
對于“是否做過物理實驗”和“是否做過虛擬實驗”兩個指標,很容易從獲取渠道發現,如期刊文獻上會明確說明實驗方法,可利用二元值{0,1}來表示{是,否}。
擠壓鑄造是集鍛造和鑄造優勢于一體,具有提高鑄件性能、消除缺陷等諸多優勢,能實現零件的近凈成形的材料制備工藝[23]。目前已經用于鋁合金、銅合金、鎂合金、鋅合金、鋼鐵及金屬復合材料的制備[24]。為此以下以擠壓鑄造為例,來根據以上方法評估不同機構提供的材料工藝數據可靠性。
通過收集不同機構提供的AZ91D 鎂合金的擠壓鑄造工藝參數數據,得到表5 和表6 的數據(為了表述簡單,只以四組不同來源的數據樣本為例,同時為了避免誤解,數據發布者等涉及的企業等名稱已用它名代替)。主要的4 個工藝參數是澆注溫度、比壓、保壓時間和模具預熱溫度;3 個性能指標是材料抗拉強度、延伸率和硬度。

表5 AZ91D 鎂合金擠壓鑄造工藝參數數據

表6 AZ91D 鎂合金擠壓鑄造工藝參數數據的來源情況
首先,按照前述的多屬性決策方法,計算出企業1 和企業2、網站b1和網站b2的定量化數值。
企業的決策矩陣(見矩陣7),根據公式(3)轉化得到歸一化決策矩陣R1

矩陣7 企業的決策矩陣
其次,根據前面計算出的指標權重值w1=(0.252,0.589,0.159),最終得到企業1 和企業2 的定量化數值分別為:0.748,0.252。
網站的決策矩陣(見矩陣8),根據公式(3)轉化得到歸一化決策矩陣R2

矩陣8 網站的決策矩陣
最后,由上式得到網站b1和網站b2的定量化數值分別為:0.198,0.802。
因為高校排名為成本屬性,所以高校1 和高校2根據公式(4)轉化得到歸一化的高校排名數值為(1,0);期刊1 和期刊2 根據公式(3)轉化得到的歸一化期刊復合影響因子數值為(0,1)。
根據公式(1)得出4 組數據的外源可靠性值分別為:0.613,0.298,0.311,0.044。因此最終可靠性從高到低為:數據1,數據3,數據2,數據4。根據該工藝可靠性可以設定可靠性閾值和確定篩選和使用原則,為數據管理和使用提供基礎。如可優先使用數據1,舍棄數據4。
材料設計制造開始轉化為基于數據驅動的設計趨勢,采集和利用材料數據是材料信息學的重要內容。本文針對材料工藝數據收集和利用過程存在的可靠性問題,重點建立了區分文獻和網站等不同來源工藝數據的可靠性評價體系,根據其產生特征,確定材料工藝數據的外源可靠性受來源質量和驗證手段質量兩個方面影響,來源質量區分機構的性質以及機構的影響力,驗證手段質量則需要區分是否經過驗證。在此基礎上,構建了定量化的評估模型,實現了數字化的可靠性評價。為材料工藝數據的采集和后期利用提供了選擇標準。為構建數據驅動的智能制造提供了支撐技術。
雖然本研究的數據可靠性評價針對的是材料工藝數據,但可用于所有根據文獻和網站來獲取數據的可靠性評價。同時,因為目前缺乏數據可靠性要求的使用原則,采用的是主觀的層次分析法來確定各指標的權重,但這不失一種引導標準。可作為數據篩選的第一層次方法。后期可根據使用要求,反向去優化,采取客觀權重的評價方法來確定權重。應當看到,本文目前只從數據來源(或外觀)角度評價了數據的可靠性,更多為側面的粗粒度評價,還沒有更全面地考慮材料數據內容(數值)本身的特點和質量,下一步將結合材料數據(材料特征、工藝特性)本身的特征來構建更細致的可靠性評價方法,即進行內容可靠性評價,如某材料的澆注溫度不可能的范圍。