李寶鐸
隨著網絡科技的發展,人類走進了大數據時代,如何對海量數據進行合理應用,成為人們必須要思考的問題。在這種形勢下,數據挖掘技術逐漸發展起來,在這些技術的支持下,數據的存儲、處理以及分析變得更加方便、快捷。企業可以建立一個超級計算環境,提高數據的利用率,完善生產經營模式。當下,越來越多的人才投身到數據挖掘技術的研究中,并取得了非常不錯的成果,吳春妹就是這些優秀人才中的代表。多年來,她始終堅持數據挖掘技術和大數據算法的研究,并取得了豐碩的成果,幫助合作企業建立了新型的運作模式,為互聯網行業的發展和進步做出了一定的貢獻。本期,筆者就對吳春妹女士進行專訪,了解她對數據挖掘技術的看法以及研究經驗。
筆者:您好,作為互聯網數據挖掘領域的佼佼者,您已經在該行業中拼搏了多年,能為我們分享一下您的從業經驗嗎?
吳春妹:我進入互聯網行業的時間比較早,一直堅持研究數據挖掘方面的技術。我認為,在這個大數據時代中,誰能應用先進的技術對海量數據進行合理運用,誰就能占得先機、實現發展。當然,對于這個新興領域來說,很多東西都是未知的,但是我們不能因此退縮,未知中往往蘊含著更多的財富。所以,無論是技術研發還是企業管理,我都會以一種積極的心態去面對。每一次在技術研發方面取得新的突破,都讓我更加堅定自己的選擇,我覺得只要堅持下去,就一定會有所收獲。
筆者:近幾年,大數據這個概念頻頻出現,數據挖掘技術被炒得很熱,但是很少有人真正清楚其中的含義,能夠根據您的理解為我們解析一下嗎?
吳春妹:所謂的數據挖掘,就是指從大量的、不完全的、有噪聲的、模糊的、隨機的數據中提取隱含在其中、人們事先不知道的,但又是潛在有用信息和知識的過程。關于數據挖掘有很多定義,我個人認為剛才我表述的這個定義最具代表性,能夠清楚地描述出數據挖掘的內涵。而我們研究數據挖掘技術,就是要在最短的時間內從海量數據中找到自己最需要的信息。這是一個非常復雜的過程,涉及到統計、在線分析處理、模糊識別等多方面技術。這就需要我們技術研發人員加強學習,完善自己的理論知識體系,熟練掌握相關技術,這樣才能研究出滿足實際需要的數據挖掘技術。
筆者:近幾年您獲得了多項軟件著作權,得到了權威機構的認證,并被一些企業應用于管理實踐中,取得了非常不錯的效果。您研發相關軟件系統的初衷是什么?
吳春妹:最初出現的大數據技術,主要是被應用于大型網絡企業中,是對點擊流數據進行分析。隨著網絡技術的發展,數據量成倍增加,很多企業每天都需要處理大量數據。包括銀行、情報部門以及事業單位等,他們對大數據技術的需求越來越大。同時,很多企業的管理者開始認識到了信息服務的重要價值,他們覺得,對信息進行合理挖掘和利用,能夠在一定程度上提高自己的競爭優勢。如果在信息收集、處理以及利用方面不積極,起點就可能比競爭者低很多。因此,短時間內,數據挖掘技術成為了企業關注的焦點。出于對這種現狀的考慮,我開始研究相關的軟件系統,針對不同企業的特征做出了不同的設計,希望這些系統能夠幫助企業對數據進行收集、分析,提高信息的利用率,促進企業健康發展。
筆者:現在看來您的目標基本上實現了,很多企業應用了您研發的軟件系統以后,都覺得很滿意。
吳春妹:我的研究成果能夠為合作企業的發展起到一定的積極作用,我感到非常欣慰。我覺得不同類型的企業對信息處理有著不同的需求,所以我在研究軟件系統的時候,會考慮多方面因素,爭取為企業構建一個完善的信息處理系統,保證其對現有的數據信息進行合理利用。
筆者:開始您就說過,數據挖掘過程非常復雜,其流程究竟是怎樣的呢?通過什么樣的方式在海量數據中挖掘到自己需要的信息?
吳春妹:數據挖掘過程可以總結為以下幾個步驟。第一步是定義問題,就是明確目標,確定本次操作想要得到什么,后續所有步驟都要圍繞所定義的問題展開;第二步是準備數據,就是在數據庫中提取目標數據集,對這部分數據進行預處理、加工等,具體包括檢驗數據的完整性和一致性,對丟失的域進行填補,對無效的數據進行刪除等;第三步是數據挖掘,需要選擇合適的數據算法,要將數據的功能以及算法作為依據,然后在凈化和轉換過的數據集上進行數據挖掘;第四步是結果分析,就是對挖掘的結果進行轉換和評價,將其轉化為用戶能夠理解的知識;第五步是知識的運用,這是數據挖掘的最終目的,就是將得到的知識整合到業務信息系統中去,成為企業管理的一部分。從流程中我們可以看出數據挖掘的過程比較復雜,任何一個環節出現問題,都有可能無法達到理想的挖掘效果。因此我們在研究相關技術和軟件系統的過程中會考慮到每一個細節,不允許出現任何疏漏。
筆者:現在,數據挖掘軟件的種類越來越多,企業面臨著很多選擇。能根據您的經驗為我們分析一下如何評價、選擇數據挖掘軟件嗎?
吳春妹:隨著大數據技術的發展,商業軟件的數量越來越多,企業選擇合適的軟件,能夠大大提升數據挖掘的成功率。根據我的個人經驗,我覺得應該從以下幾個方面來評價和選擇。首先是評價其計算性能,除了確定軟件能否在不同的商業平臺上運行之外,還要考慮其是否能連接不同的數據源,計算效率、運行的穩定性如何等;其次是評價功能性,包括算法的多樣性、算法的適用范圍、用戶能否根據自己的需要對算法和參數進行調整、挖掘結果能否以不同的形式表現出來等;第三是評價其可用性,包括用戶界面的友好程度、軟件的應用范圍和易學程度、主要針對初級用戶還是高級用戶等;最后是評價其輔助功能,包括軟件是否允許用戶修改數據集中的錯誤,能否將一次分析的結果反饋到另一次分析中。評價過程中,要從以上四個方面綜合考慮,根據自己的需要做出合理的判斷和選擇。
筆者:您分析得非常全面,企業在選擇數據挖掘軟件時,可以將其作為重要的參考依據。作為一名技術研發人員和一名企業管理者,您肩上的責任很重,您是如何在這兩項工作中間做好平衡的?
吳春妹:我覺得,一名合格的企業管理者必須是一名優秀的技術研發人員,尤其對于我們這種類型的企業來說更是如此。公司的主要業務就是研發大數據相關技術,為合作企業提供相應的服務。作為一名管理者,如果不懂這些技術,就無法明確公司的發展方向。所以長期以來,盡管公司日常管理工作非常忙碌,我也從來沒有放棄過技術研究。這樣做,一方面是可以將自己多年的研究經驗傳授給大家,鼓勵團隊成員之間相互交流,共同進步;另一方面是可以引起大家對技術研發工作的重視,用創新推進公司發展。我會根據市場需求和公司的實際情況對發展戰略進行調整,將公司發展與行業發展統一起來,防止發展偏離軌道。
筆者:近幾年,您帶領團隊開發數據挖掘技術和大數據算法,能為我們分享一下經驗嗎?
吳春妹:當前,大數據這個概念非常火熱,各行各業對數據挖掘技術越來越重視,這對于我們這種類型的企業來說無疑是一種發展良機。但是,所謂水漲船高,競爭者的數量越來越多,部分競爭者的實力非常強大。誰能研究出最先進的技術和產品,誰才能得到用戶的信任。就是說,僅僅認識到現實形勢是不夠的,要想在競爭中處于優勢地位,必須用實力說話,而先進的技術和產品就是實力的直接代表。所以,我和團隊成員會非常關注市場行情,明確用戶需要什么,然后確定技術研究方向,有條不紊地開展每一項研究工作。我們會將數據挖掘流程與用戶的特征聯系起來,綜合考慮各方面因素,研究出適合不同行業、不同用戶的大數據技術。當然,研究過程中會遇到很多困難,很多時候在進入模擬試驗階段以后,才發現技術或者軟件功能沒有達到預期,此時就需要回頭對每一個細節進行重新分析,明確問題所在,逐一改進。所有細節修改完成以后,需要重新模擬試驗,再次對軟件的可靠性和功能性進行評價,直至滿意為止。
筆者:憑借先進的技術和產品,您的公司與很多知名企業建立了長期合作的關系,這一過程中一定收獲了可觀的經濟效益吧?
吳春妹:的確是,事實證明我們在技術研發方面的投入沒有白費。產品被用戶認可,并被廣泛應用于實際中以后,公司的盈利能力明顯提升。尤其是與一些企業建立了長期合作關系以后,公司能夠獲得相對穩定的收益。我們會將收益中的一部分拿出來,繼續投入到技術研發工作中去,始終保持公司的創新活力,實現公司的可持續發展。如今,公司的盈利能力提升,規模處于進一步發展壯大之中。未來,我會帶領團隊向更多企業尋求合作,通過研發先進的數據挖掘技術提升其綜合管理水平,實現雙方的互利共贏。
筆者:您一直在強調將數據挖掘技術應用于實際中,重視對用戶需求的考慮,能談一下原因嗎?
吳春妹:原因很簡單,因為數據挖掘技術的出現主要就是面向應用的。隨著網絡技術的發展,各行各業的業務操作逐漸向著自動化的方向發展,業務數據越來越龐雜。我們研究數據挖掘技術,就是為了幫助企業解決數據管理和應用中的實際問題,所以我一直在強調用戶需求以及技術和產品的實際運用。現在,數據挖掘技術的應用范圍越來越廣,涵蓋了電信、醫學、軍事、金融等各個領域,取得了很好的效果。
筆者:您認為互聯網數據挖掘領域的發展前景如何?
吳春妹:我覺得這個領域具備非常廣闊的發展前景。從目前的情況來看,數據挖掘技術尚處于發展期,就已經創造了意想不到的價值。隨著技術的成熟,這種技術的應用范圍將會越來越廣,成為各行各業發展過程中必不可少的工具。所以,我會在這個領域堅持下去,希望自己能夠有機會見證各個行業的蛻變。同時,我也希望更多優秀的人才參與到數據挖掘技術研究工作中來,為該領域的發展和進步添磚加瓦。
筆者:根據您的判斷,您認為未來一段時間內數據挖掘技術的研究焦點是什么?
吳春妹:通過對市場形勢進行分析,結合我個人的理解,我認為未來一段時間內該領域的研究重點將體現在幾方面上。一是研究互聯網環境下的數據挖掘技術,尤其是分布式數據采掘技術的開發和應用將會越來越廣泛;二是有關生物信息的數據挖掘,推進生物化學、生物醫學領域的進一步發展;三是數據挖掘過程將向著可視化的方向發展,以往我們重點研究挖掘結果的可視化,將數據轉化為知識,方便用戶的理解和使用。而挖掘過程的可視化可以使用戶更加清楚整個進程,有利于人機交互的實現;四是數據處理范圍將會越來越廣,會涉及到更多數據類型,可能是結構比較特殊的數據,也可能是比較復雜的數據;五是數據挖掘語言將會越來越豐富,可能會研究專門用于知識發現的數據挖掘語言,促使其向著標準化的方向發展。
筆者:未來您在研究相關技術時會將以上幾點作為重點嗎?
吳春妹:我會將自己的判斷與公司的業務范圍聯系起來,確定科學合理的技術研發方向,為公司的發展指明道路。可以肯定的是,無論行業向著什么方向發展以及發展重點是什么,技術研發都是重中之重。因此,我和團隊成員會始終將該項工作作為公司發展的核心,積極學習相關理論知識,豐富實踐經驗,提高技術研發能力,以此適應市場形勢,緊跟時代潮流。
筆者:對于這個行業的未來你有著怎樣的希冀呢?
吳春妹:我認為這是一個充滿朝氣的行業,具有無限的可能性,因此對于這個行業的未來,我充滿期待。我會將公司以及每一個研究項目作為載體,為數據挖掘技術的成熟和進步貢獻一份力量。當然,我也希望各行各業的精英們能夠認識到數據挖掘技術的巨大潛力,加強相關產品和技術的應用,提高信息利用率,實現自身的健康發展,同時推進互聯網數據挖掘行業的革新。