向鴻瑾
(上海外國語大學,上海 201620)
數據挖掘是處理大型數據集以認知其模式并且建立解決問題和數據分析的過程。數據挖掘工具讓企業能夠預測未來趨勢,大量提高生產效率;讓醫院更高效地醫治病患;讓科研院所更富有成效地研究實驗過程及其相關變量。總的說來,數據挖掘能幫助人類更好地認識事物,分析事物。從源頭上來說,數據挖掘有著嚴謹的科學分析方法。數據挖掘脫胎于統計學,統計學則脫胎于數學。大部分統計學習算法有著嚴謹的數學證明,是現存的最優的最科學的分析問題的方法。
數據挖掘有著一些成熟的分析方法和算法,包括在金融業大放異彩的序列分析(Time Series Analysis)、經典的分類和聚類算法等。這些分析方法實際上都是在尋找事件的模式和參數。一個序列是指一個有序的事件列表,這是一種常見的數據結構。分類算法是在基于數據庫的其他特征向量中尋找數據的模式,從而得到可能的數據的內部結構。而聚類算法則與分類算法類似,能夠從特征中找到未知的關聯,通過分析不同樣本的相關性從而將它們分類并標號。
數據挖掘的目的具體來說有以下幾點:把握趨勢和模式;預測;求最優解。在這三個目的中,其過程也都需要對大量的、雜亂無章的數據進行以下三個步驟:數據預處理;數據挖掘;后處理。首先分析數據預處理。之所以有這樣一個步驟,是因為通常的數據挖掘需要涉及相對較大的數據量,只有從大量的數據中,才能看到整個未來發展趨勢。這些數據的來源不一導致格式不同,有的數據也許還存在一些缺失值或者無效值。如果不經處理,直接將這些‘臟’數據放到模型中去跑,就非常容易導致模型計算的失敗或可用性很差。所以數據預處理是數據挖掘過程中不可或缺的一步。預處理這一步通常占用了數據挖掘過程中的大部分時間,但的確值得這樣去做。
數據挖掘和后處理相對來說容易理解。完成了數據的預處理,下一步將通常進行特征的構造,然后將其放到特定的模型中去計算,利用某種標準去評判不同模型或組合模型的表現,最后確定一個最合適的模型用于后處理。后處理的過程是在已經發現了那個想要找到的模式后,去應用它或者用合適的方式將其表示出來。
第一次工業革命中,蒸汽機的出現讓家庭小作坊的織女們大量“下崗”失業,但是她們很快地轉入其他行業,包括但不限于秘書、財務、修女等。第二次工業革命中,電燈的出現讓給各個家庭運煤的工人也很快地失去了工作,但他們也能轉業去從事電話接線員等工作。第三次工業革命,電子計算機和互聯網信息化時代的到來,讓傳統的郵差的工作量大量減少,但是催生了新的低端工種,例如前端程序員等。從縱向來看,歷史的經驗可以讓我們得出一個暫時無法反駁的結論:每次的技術革命雖然會造成舊事物、舊工種的滅亡,但是也產生了大量的、新的工作需求。事物的相互聯系包含著事物的相互作用,而相互作用必然導致事物的運動、變化和發展。而發展是前進上升的運動,實質是新事物的產生和舊事物的滅亡。新事物是指合乎歷史前進方向、具有遠大前途的東西,新事物是不可戰勝的。
舊事物被打敗的原因除了舊事物不再適合新社會的要求以外,還有沉溺于舊事物的思想。這也加速了舊事物被淘汰的進程。二十年前,柯達公司可謂是如日中天,銷售的膠卷不僅僅能夠繞地球三圈,甚至可以連接太陽與地球。但是,正是這種瘋狂式的成功讓柯達公司一步一步走向了墳墓。來自日本的量產的單反數碼相機曾讓柯達公司不屑一顧:他們真的以為自己已經大到不能倒的地步,并對單反相機沒有一點點投資和研發意向,固執地將所有的經費投在了傳統的光學敏感材料上了。事實證明,柯達曾經不愿意接受的技術已經成了現代攝影技術的主流,甚至成功地擊敗了柯達公司:2013年5月,伊士曼-柯達公司正式提交退出破產保護的計劃,宣告了一代商業神話的滅亡。
所以,從事傳統行業的人們,不能固步自封,認為自己的工作是無可替代的。其實新技術的產生到推廣是非常快速的,如果一個人像柯達公司一樣拒絕排斥新技術,那么在新的技術影響下,他之前從事的職業將會極快地被取代,也會面臨與柯達公司相似的困境:下崗失業。更為現實的是,在新的技術環境下,工作對人們的知識水平和經驗要求更高,那么固執的“舊社會”的下崗民工將在新的時代下永遠失業。
綜上所述,可以看出:從數據量的爆發,到數據挖掘技術的應用,再到人類社會走向未來全新的人工智能時代是一條明晰的發展路徑。雖然不像新聞媒體中所說的那么極速地到來,但未來也不會像電影里表現出來的那么恐怖。不可否認的是,人工智能的確會給人類社會帶來全新的挑戰:短暫的失業潮、數量不小的傳統行業的資本虧損等。人們應當有著更為積極的態度去看待數據挖掘的應用和未來的人工智能技術,去學習、擁抱新的技術,掌握更為先進的生產力,為自己的家庭和社會帶來更大的價值。