低調的“量化天王”
梁文鋒“發跡”于量化投資。
作為一名“80后”,梁文鋒本科、研究生都就讀于浙江大學,擁有信息與電子工程系本科和碩士學位。
2008年起,梁文鋒就開始帶領團隊使用機器學習等技術探索全自動量化交易。
2015年,幻方量化正式成立,2019年,其資金管理規模就突破百億元。
2019年,梁文鋒在當年的金牛獎頒獎儀式上,發表主題演講《一名程序員眼里中國量化投資的未來》,這是他罕有的公開發言。
2021年,幻方量化成為國內首家突破千億規模的量化私募大廠,被稱為國內量化私募“四大天王”之一。不過,就在這一年,由于業績波動,幻方量化關閉了全部募集通道。
對AI的興趣早就有跡可循
梁文鋒對于AI的興趣早就有跡可循。
2016年10月21日,幻方量化推出第一個AI模型,第一份由深度學習生成的交易倉位上線執行,使用GPU進行計算。2017年,幻方量化宣稱實現投資策略全面AI化。
幻方量化官網顯示,其在2018年就確立以AI為公司的主要發展方向。
2020年開始,幻方量化累計投資超億元、占地面積相當于一個籃球場的AI超級計算機“螢火一號”正式投入運作,號稱可以匹敵4萬臺個人電腦的超級算力。2021年,幻方量化投入十億建設“螢火二號”,以“任務級分時共享”為核心理念,調度系統秒級響應,平臺配備強大的軟件層支持:高性能算子庫(hfai.nn)、分布式訓練通訊框架(hfreduce)、專為AI開發而生的大容量高帶寬文件系統(3FS),讓AI模型能自如拓展到多節點之上,進行大規模并行訓練,算力擴容翻倍,集群連續滿載運行,平均占用率達到96%以上。
2021年,梁文鋒參與的論文提到,他們正在部署的螢火二號系統,“配備了1萬張A100GPU芯片”,在性能上接近DGX-A100(英偉達推出的人工智能專用超級計算機),但成本降低了一半,同時能耗減少了40%。
2023年初,幻方量化表示,過去的幾年,幻方量化及員工每年拿出收入的一部分投入公益,回饋社會,累計捐贈超過5.8億元。其中,2022年,員工“一只平凡的小豬”個人就向慈善機構捐贈1.38億元,當時的消息指出,這個人就是梁文鋒。
幻方量化曾表示,多年以來,該公司堅持把營收的大部分投入人工智能領域,建設領先的AI硬件基礎設施,進行大規模的研究,探索人類未知的奧秘,“我們相信幾乎所有的創新都是從大膽嘗試和點滴積累中孕育而來。”
引發大廠模型產品紛紛降價2023年7月,幻方量化宣布成立大模型公司DeepSeek,正式進軍通用人工智能領域。據報道,DeepSeek包括創始人梁文鋒在內,僅有139名工程師和研究人員。
僅僅不到一年的2024年5月,DeepSeek就發布了Deep-Seek-V2,因為創新的模型架構和史無前例的性價比,火爆出圈。DeepSeek-V2的API定價為每百萬tokens輸入1元、輸出2元,價格僅為GPT-4Turbo的百分之一。
對于為何能做到如此高的性價比,DeepSeek官方解釋稱,DeepSeek-V2采用了創新的架構,例如注意力機制方面的MLA(多頭潛在注意力)和前饋網絡方面的DeepSeek-MoE架構等,以實現具有更高經濟性的訓練效果和更高效的推理。
因此,DeepSeek被稱為“AI界的拼多多”,引發了字節、阿里、百度等大廠的大模型價格戰,紛紛宣布大模型產品降價。彼時,梁文鋒在接受媒體采訪時稱,DeepSeek無意成為行業鯰魚,低價背后是希望算力普惠。
2024年12月27日,Deep-Seek-V3更是橫空出世,火爆全球。據DeepSeek官網顯示,其評測成績不僅超越了Qwen2.5-72B(阿里自研大模型)和Llama3.1-405B(Meta自研大模型)等頂級開源模型,甚至能和GPT-4o、Claude3.5-Sonnet(Anthropic自研大模型)等頂級閉源模型一較高下。
DeepSeek宣布上線并同步開源DeepSeek-V3模型之外,還公布了長達53頁的訓練和技術細節。得到大幅升級的V3模型是在一個“難以想象”的預算下訓練完成的:整個訓練僅花費了557.6萬美元,在2048塊英偉達H800GPU(針對中國市場的低配版GPU)集群上運行55天完成,僅是OpenAIGPT-4o模型訓練成本的不到十分之一。
梁文鋒和他的DeepSeek還在繼續求索。
“投身于探索AGI的本質,不做中庸的事,帶著好奇心,用最長期的眼光去回答最大的問題。”DeepSeek的公眾號這樣寫道。