999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

穿越大數(shù)據(jù) 引領科學夢
——記哈爾濱工業(yè)大學(深圳)計算機科學與技術學院助理教授廖清

2019-05-06 02:56:42劉玉杰
科學中國人 2019年6期
關鍵詞:數(shù)據(jù)挖掘模型教學

□ 劉玉杰

通過統(tǒng)計用戶的購物記錄,可以基于用戶的瀏覽、點擊、收藏、購買等行為推斷出該用戶的年齡、性別、購買能力、愛好等,也就相當于用這些挖掘出來的屬性為用戶畫像,刻畫出一個更加真實的用戶形象。同樣,通過一個簡單的腫瘤樣本,可以做些不簡單的事,不但可以了解到腫瘤的類型、屬于哪種疾病分類,還能分析出腫瘤是良性還是惡性,以及惡化到哪一階段等。這些就是數(shù)據(jù)挖掘,從字面上理解,就是在海量數(shù)據(jù)中找到有用的數(shù)據(jù),而“有用”的限定范圍要看具體的業(yè)務目標。

如今,我們進入信息時代已有多年,冗雜的數(shù)據(jù)與信息還是不斷如浪潮般襲來。但這些數(shù)據(jù)大多難以得到有效利用,其中包含的多重有用價值也亟待挖掘。數(shù)據(jù)挖掘正是一種可以挖掘這些數(shù)據(jù)價值的技術。

而這種技術也并不是什么新鮮事了,最早可以追溯到20世紀70年代,從電子郵件階段、信息發(fā)布階段,到電子商務階段,再到全程電子商務階段即軟件服務模式,發(fā)展至今,數(shù)據(jù)挖掘儼然已是一位年近半百的“老者”了。而在近幾年,隨著人工智能領域的大熱,數(shù)據(jù)挖掘也開始受到越來越多的關注。

在哈爾濱工業(yè)大學(深圳)計算機科學與技術學院,有一位科研人員,同樣密切關注著數(shù)據(jù)挖掘技術的發(fā)展,她就是廖清。十幾年如一日,廖清每天都與數(shù)據(jù)挖掘和深度學習為伴,她以基礎理論與應用研究為主,細細挖掘著高維度、少樣本數(shù)據(jù)的表征學習模型設計及算法優(yōu)化中的價值。

執(zhí)著科研 求數(shù)據(jù)真知

提到人工智能和數(shù)據(jù)挖掘,廖清整個人瞬間變得“生動”起來,連說話的語氣都透露著一絲輕快。“完全是興趣,我對人工智能與數(shù)據(jù)挖掘永遠都充滿熱情。”廖清說道。身上一直有著“冒險精神”的廖清,對新事物總是無比好奇,也勇于嘗試。2006年,廖清來到澳門科技大學學習計算機科學與技術專業(yè),自此便開啟了自己的科研旅程。

但在本科期間廖清并沒有深入接觸與數(shù)據(jù)有關的研究方向,僅對數(shù)據(jù)有了初步的認識,為了加深認識的程度,2010年畢業(yè)后廖清來到香港科技大學繼續(xù)進行計算機科學與技術專業(yè)的碩士學業(yè)。也正是在碩士期間,廖清得到了第一份與數(shù)據(jù)相關的工作。當時,她的任務主要是基于新浪微博平臺,尋找到具有網(wǎng)絡影響力的“網(wǎng)絡大咖”。為此,她通過新浪微博,搜集并分析了無數(shù)的數(shù)據(jù)。“在這個過程中,我對數(shù)據(jù)分析開始產(chǎn)生興趣。”廖清表示。她還發(fā)現(xiàn),在對數(shù)據(jù)進行分析時,需要用到許多她在本科期間學習的表征學習方面的知識。“只有先學習能夠正確反映當前原始數(shù)據(jù)特征的知識,才能進入到對數(shù)據(jù)進行分析的階段。”廖清補充道。

興趣是廖清科研路上巨大的推動力,在興趣的引領下,很早就立下“攻讀博士”志愿的廖清,在碩士畢業(yè)后更加堅定了自己的想法。于是她繼續(xù)在香港科技大學進行計算機工程專業(yè)的學習,主要在數(shù)據(jù)理論模型方面進行研究,并在學習與研究過程中積累了大量針對高維度數(shù)據(jù)分析的機器學習理論模型和應用研究經(jīng)驗,對數(shù)據(jù)分析有了深刻的認識,為后來參加工作后的研究打下了堅實的基礎。

2016年,畢業(yè)后的廖清來到哈爾濱工業(yè)大學(深圳)計算機科學與技術學院任職,她在延續(xù)博士期間研究方向的基礎上,將研究范疇進行了擴展。廖清圍繞高維度、少樣本數(shù)據(jù)分析這一方向,將高維度數(shù)據(jù)表征學習技術融入到少樣本數(shù)據(jù)分析中,一步步用扎實的腳步開拓出嶄新的研究領域。

雖千萬人吾往矣

孟子曾在《孟子·公孫丑上》中抒發(fā)了自己心中“雖千萬人吾往矣”的大志,在數(shù)據(jù)表征學習這一領域里,縱然面對無數(shù)的研究阻礙,廖清也沒有絲毫退縮,而是一如既往,勇往直前。帶著這種勇氣與氣魄,廖清始終在為了心中的科研理想而上下求索,哪怕直面困境,她也無畏無懼。

剛剛在數(shù)據(jù)分析研究上有些“柳暗花明”的廖清,從校門步入工作崗位后不久,就遇到了數(shù)據(jù)上的阻礙。廖清表示,當前在大數(shù)據(jù)時代的背景下,數(shù)據(jù)的高維度、少樣本現(xiàn)象已經(jīng)非常常見。她特別提到,數(shù)據(jù)一詞很好理解,那什么又是高維度數(shù)據(jù)呢?譬如一個人可以同時具備多種特征,黑頭發(fā)、藍上衣、戴眼鏡等,每一個特征都可以被看作是一個維度。如果想要細致描述這個人,是可以有成千上萬個維度可供利用的。雖然近年來,數(shù)據(jù)的采集能力在不斷增強,一次性采集成千上萬維數(shù)據(jù)特征已不成問題,但盡管如此,能夠采集到的樣本數(shù)目卻仍舊很有限。例如,在生物信息中,采集到的數(shù)萬個特征的樣本組織中,只有一個腫瘤樣本;而在推薦系統(tǒng)中,一次采集一個幾千維個人信息里,也只有一個顧客樣本……

這樣的現(xiàn)象還有很多,因而在這些應用領域里,雖然存在著大數(shù)據(jù)現(xiàn)象,卻也一直飽受著數(shù)據(jù)高維度、少樣本的困擾。利用傳統(tǒng)的機器學習方法,通過手動提取特征確實可以降低數(shù)據(jù)維度,將少樣本數(shù)據(jù)進行切割或者復制也的確可以達到提高樣本數(shù)目的目的,但這些方法也僅僅能暫且間接緩解傳統(tǒng)機器學習在高維度、少樣本數(shù)據(jù)上的性能瓶頸,長遠來看并不如意。一旦發(fā)現(xiàn)問題,廖清絕不容許自己有絲毫的耽誤,她開始針對高維度、少樣本數(shù)據(jù),打破傳統(tǒng)機器學習在此類數(shù)據(jù)上表征學習難、性能不佳的瓶頸,取得了巨大突破。

廖清先是針對數(shù)據(jù)高維度問題,在提出的降維模型基礎上,提出了新的高維度數(shù)據(jù)表征學習技術。她創(chuàng)新性地引入Log-determinant散度理論,將該理論與降維模型結合,首次解決了由于秩缺陷導致表征學習失敗的問題,降低了表征學習應用中出現(xiàn)表征失敗的風險,提高了降維模型在表征學習上的性能。她從理論上證明了降維模型可擴展到當前大部分非負矩陣分解工作中,解決了非負矩陣分解技術在秩上的技術缺陷。該成果發(fā)表在頂級會議IEEE ICDM上,還獲得了人工智能領域知名專家,澳大利亞科學院院士陶大程教授小組的高度關注。

接下來,廖清發(fā)現(xiàn)在現(xiàn)實世界中,存在著大量被稱為“數(shù)據(jù)孤島”的少樣本數(shù)據(jù)集,由于這些數(shù)據(jù)的特征、標簽和分類任務都不相同,使得數(shù)據(jù)源之間無法互相融合。為此,針對數(shù)據(jù)少樣本問題,廖清設計了多任務深度學習模型,她首次將不同類型與不同來源的少樣本數(shù)據(jù)集集合在一起,利用多任務學習技術將其融合在深度卷積神經(jīng)網(wǎng)絡中,有效解決了因數(shù)據(jù)少樣本導致的表征學習不準確、數(shù)據(jù)建模難等問題。這種利用多源數(shù)據(jù)共享表征來幫助少樣本數(shù)據(jù)進行表征學習的方法,為解決“數(shù)據(jù)孤島”現(xiàn)象開辟了全新的研究思路。值得一提的是,該模型在“天河”超算平臺上,將羅氏制藥、日本癌癥研究基金會等多個研究機構的腫瘤數(shù)據(jù)進行結合后,提供了更加精準的醫(yī)療診斷。對此,國家超級計算中心主任盧宇彤教授高度評價道:“這是‘天河二號’超級計算機與大數(shù)據(jù)、人工智能融合的創(chuàng)新發(fā)展,是提升超算應用水平的代表性應用。”

此外,廖清表示,在現(xiàn)實數(shù)據(jù)中,存在許多“維度災難”。首先,數(shù)據(jù)的超高維度現(xiàn)象會極大增加數(shù)據(jù)處理的復雜程度,這就會使得許多傳統(tǒng)數(shù)據(jù)模型很難對海量的高維數(shù)據(jù)進行有效處理。其次,在學習過程中,丟失的數(shù)據(jù)結構信息也會降低表征學習的效果。

于是,廖清針對高維數(shù)據(jù)降維速度慢、表征學習不穩(wěn)定、學習過程丟失數(shù)據(jù)幾何特征等問題,設計了幾種效率更快、更優(yōu)的數(shù)據(jù)表征優(yōu)化算法和模型,包括保留了原始數(shù)據(jù)局部信息的表征學習模型,還有幾種能快速迭代收斂的模型優(yōu)化算法。她在Signal Processing期刊上發(fā)表論文,提出了新的局部圖非負矩陣模型。此類模型既能夠?qū)W到更優(yōu)的數(shù)據(jù)表征,還可降低模型在大規(guī)模數(shù)據(jù)集下的學習時間,不僅能夠快速收斂,以便保證表征學習的穩(wěn)定和有效性,而且更能夠保留原始數(shù)據(jù)的結構特征。

人才培養(yǎng) 書寫數(shù)據(jù)新篇章

除了在科研中兢兢業(yè)業(yè),廖清也沒有忘記將自己這份對數(shù)據(jù)挖掘的熱愛傳遞下去。在來到哈爾濱工業(yè)大學(深圳)計算機科學與技術學院以前,廖清在博士期間就有過擔任本科生實驗課助教的經(jīng)歷,工作后她一邊潛心研究,一邊積極參與學院多門本科課程的教學方案研討、教學大綱設計、教案編寫等工作。目前,廖清主要講授“軟件工程”和“大數(shù)據(jù)技術與應用”兩門本科生課程。同時,作為“軟件工程實踐教學研討會”的成員,廖清還積極參加國內(nèi)軟件工程方面的教學研討會,與國內(nèi)高校同行老師都保持著密切的溝通,時常就教學經(jīng)驗進行交流,積累了豐富的教學理論與實際經(jīng)驗。

在不斷豐富自身的同時,廖清也開始了對個人學術研究之外一些問題的探索,這其中就包括在數(shù)據(jù)挖掘領域里人才的培養(yǎng)。她提到,由于自己本身比較獨立,她也因此希望學生能夠具備獨立科研的條件。她不希望看到學生只會每天“埋頭苦讀”不聞窗外事,而是能夠做自己在科研中的“領導者”。因此在針對數(shù)據(jù)挖掘方面的教學思想與理念上,廖清始終將學生放在首位,以學生的個人發(fā)展為本,強調(diào)學生探索新知識的經(jīng)歷,并引導學生了解獲得新知識的體驗。與此同時,廖清充分實施多樣性與豐富性并存的教學過程,以此來培養(yǎng)學生的創(chuàng)新精神和創(chuàng)新思維。在廖清看來,科研的進步離不開創(chuàng)新思想的協(xié)助,因此在教授好專業(yè)知識的前提下,廖清還盡自己最大能力充分調(diào)動起學生對學習的積極性,大力倡導以“主動、探究、合作”為主要特征的新的學習方式,為行業(yè)增添新鮮血液。

除了注重學生在學校期間的學習,廖清也意識到學生不能只在學校這個“溫室”中,還要走出校門,接觸更廣闊的天地。在引導學生更深入地研究專業(yè)知識以外,廖清常常鼓勵學生將課堂知識轉(zhuǎn)換為課外實踐,并積極參與各類知識競賽,以擴充自己的見識。于是,在課堂授課與實踐教學的指導上,廖清一方面重視課堂的教學過程,在看似枯燥的教材中盡量充分挖掘出其中的趣味因素;另一方面,廖清將課本中的“死”知識轉(zhuǎn)化為現(xiàn)實中的“活”例子。她表示,通過將抽象的教學知識轉(zhuǎn)化為身邊事例的教學方法,可以使學生對課堂更感興趣,也會更樂于接受新的知識,這樣就可以幫助學生從“被動學”變?yōu)椤爸鲃訉W”。

與學生在一起

這樣有針對性的教學方法,必然少不了廖清在課前做的充分準備。她在講每一個知識點前,都會在心中“彩排”多次,還會反復問自己,是否能給出具體的示例,來幫助學生更好地理解知識,理解后又是否能用學生比較容易接受的方式將知識點串連起來。此外,課堂上的廖清也并不是唱“獨角戲”,她會適當在課堂上增加與學生之間的互動,與學生在學術討論中進行思路碰撞。例如,她在基于示例講授知識點的過程中,會通過給出的多個示例,將講授內(nèi)容的難度層層漸進,與學生展開積極互動,鼓勵學生思考,還會讓學生以游戲闖關的方式,自己發(fā)現(xiàn)知識難點并找到解決方法。

廖清這種特色鮮明的教學思想理念與講授指導方式取得了良好的教學效果,極大地調(diào)動了學生課堂的參與性,原來學生只聽課不提問的狀態(tài)早已不復存在,取而代之的則是積極活潑的上課狀態(tài),令學生從被動的知識接受方變成了主動的學習者。課后,學生們也常常會圍在廖清身邊就學習到的課程內(nèi)容進行更深入的討論。一切就緒后,廖清并沒有一身輕,她還會對在教學中發(fā)現(xiàn)學生存在的問題進行總結,并用案例的方式在下一堂課前展示給學生,幫助學生對知識點做更全面的了解。通過這些方式,學生對知識產(chǎn)生了濃厚的研究興趣,自己主動積極申請加入課后研究小組,主動參與課外項目,還積極報名參加各類知識競賽。

人工智能與數(shù)據(jù)挖掘這條路很長,也很艱辛。廖清時常對學生說,如果在研究過程中覺得很痛苦,事實上是自身成長的過程,等到度過這段“痛苦期”,就會發(fā)現(xiàn)所有的苦難都是過眼云煙,等待他們的終會是滿滿收獲。未來,廖清還會帶著她那份自信、務實與堅韌走在人工智能與數(shù)據(jù)挖掘的大道上。

猜你喜歡
數(shù)據(jù)挖掘模型教學
一半模型
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
重要模型『一線三等角』
微課讓高中數(shù)學教學更高效
甘肅教育(2020年14期)2020-09-11 07:57:50
重尾非線性自回歸模型自加權M-估計的漸近分布
“自我診斷表”在高中數(shù)學教學中的應用
東方教育(2017年19期)2017-12-05 15:14:48
基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
對外漢語教學中“想”和“要”的比較
唐山文學(2016年2期)2017-01-15 14:03:59
3D打印中的模型分割與打包
一種基于Hadoop的大數(shù)據(jù)挖掘云服務及應用
主站蜘蛛池模板: 久久中文字幕av不卡一区二区| 日韩A∨精品日韩精品无码| 九色综合伊人久久富二代| 国内精品91| 国产成人综合网| 国产福利在线观看精品| 国产欧美自拍视频| 青青草a国产免费观看| 国产一区二区三区在线无码| 欧美亚洲国产精品久久蜜芽| 久久精品国产亚洲麻豆| 久久国产精品麻豆系列| 狠狠v日韩v欧美v| 综合五月天网| 成人噜噜噜视频在线观看| 久久精品最新免费国产成人| 在线精品自拍| 日韩精品成人在线| 日本精品视频| 亚洲AV无码乱码在线观看裸奔| 高清欧美性猛交XXXX黑人猛交| 久久久久久国产精品mv| 91国内外精品自在线播放| 全部免费毛片免费播放| 日本欧美中文字幕精品亚洲| 国产精品第| a毛片免费观看| 高清国产在线| 色噜噜综合网| 欧洲免费精品视频在线| 亚洲婷婷在线视频| 91精品啪在线观看国产91九色| 青青草国产精品久久久久| 亚洲第一成人在线| 国产青榴视频| 园内精品自拍视频在线播放| 57pao国产成视频免费播放| 国产制服丝袜91在线| 成年人免费国产视频| 无码 在线 在线| 99热这里只有精品免费| 欧美午夜理伦三级在线观看| 毛片在线播放网址| 无码内射在线| 伊人中文网| 久久一本日韩精品中文字幕屁孩| 97青青青国产在线播放| 99热这里只有免费国产精品 | 夜夜爽免费视频| 999国产精品| 亚洲中文字幕无码爆乳| 亚洲黄色视频在线观看一区| 欧美国产日韩另类| 亚洲最猛黑人xxxx黑人猛交| 9久久伊人精品综合| 波多野结衣一区二区三区AV| 亚洲精品中文字幕无乱码| 九九九久久国产精品| 国产精品亚欧美一区二区| 国产精品亚洲一区二区三区z| 国产内射在线观看| 亚洲首页国产精品丝袜| 国产精品香蕉| 亚洲一区波多野结衣二区三区| 亚洲欧洲日产国产无码AV| 国产精品香蕉在线观看不卡| 国产在线视频自拍| 人妻一本久道久久综合久久鬼色| 国产又粗又猛又爽视频| 国产成人区在线观看视频| 亚洲无码高清一区| 草草线在成年免费视频2| 91最新精品视频发布页| 久久久久人妻一区精品色奶水| 精品无码国产一区二区三区AV| 超清人妻系列无码专区| 1024你懂的国产精品| 久久久久久久久久国产精品| 在线观看免费黄色网址| 青青国产成人免费精品视频| 97在线国产视频| 在线观看免费黄色网址|