DeepSeek創始人梁文鋒

2025-03-13 00:00:00

文萃報·周二版 2025年10期

關鍵詞：人工智能模型

低調的“量化天王”

梁文鋒“發跡”于量化投資。

作為一名“80后”，梁文鋒本科、研究生都就讀于浙江大學，擁有信息與電子工程系本科和碩士學位。

2008年起，梁文鋒就開始帶領團隊使用機器學習等技術探索全自動量化交易。

2015年，幻方量化正式成立，2019年，其資金管理規模就突破百億元。

2019年，梁文鋒在當年的金牛獎頒獎儀式上，發表主題演講《一名程序員眼里中國量化投資的未來》，這是他罕有的公開發言。

2021年，幻方量化成為國內首家突破千億規模的量化私募大廠，被稱為國內量化私募“四大天王”之一。不過，就在這一年，由于業績波動，幻方量化關閉了全部募集通道。

對AI的興趣早就有跡可循

梁文鋒對于AI的興趣早就有跡可循。

2016年10月21日，幻方量化推出第一個AI模型，第一份由深度學習生成的交易倉位上線執行，使用GPU進行計算。2017年，幻方量化宣稱實現投資策略全面AI化。

幻方量化官網顯示，其在2018年就確立以AI為公司的主要發展方向。

2020年開始，幻方量化累計投資超億元、占地面積相當于一個籃球場的AI超級計算機“螢火一號”正式投入運作，號稱可以匹敵4萬臺個人電腦的超級算力。2021年，幻方量化投入十億建設“螢火二號”，以“任務級分時共享”為核心理念，調度系統秒級響應，平臺配備強大的軟件層支持：高性能算子庫（hfai.nn）、分布式訓練通訊框架（hfreduce）、專為AI開發而生的大容量高帶寬文件系統（3FS），讓AI模型能自如拓展到多節點之上，進行大規模并行訓練，算力擴容翻倍，集群連續滿載運行，平均占用率達到96%以上。

2021年，梁文鋒參與的論文提到，他們正在部署的螢火二號系統，“配備了1萬張A100GPU芯片”，在性能上接近DGX-A100（英偉達推出的人工智能專用超級計算機），但成本降低了一半，同時能耗減少了40%。

2023年初，幻方量化表示，過去的幾年，幻方量化及員工每年拿出收入的一部分投入公益，回饋社會，累計捐贈超過5.8億元。其中，2022年，員工“一只平凡的小豬”個人就向慈善機構捐贈1.38億元，當時的消息指出，這個人就是梁文鋒。

幻方量化曾表示，多年以來，該公司堅持把營收的大部分投入人工智能領域，建設領先的AI硬件基礎設施，進行大規模的研究，探索人類未知的奧秘，“我們相信幾乎所有的創新都是從大膽嘗試和點滴積累中孕育而來。”

引發大廠模型產品紛紛降價2023年7月，幻方量化宣布成立大模型公司DeepSeek，正式進軍通用人工智能領域。據報道，DeepSeek包括創始人梁文鋒在內，僅有139名工程師和研究人員。

僅僅不到一年的2024年5月，DeepSeek就發布了Deep-Seek-V2，因為創新的模型架構和史無前例的性價比，火爆出圈。DeepSeek-V2的API定價為每百萬tokens輸入1元、輸出2元，價格僅為GPT-4Turbo的百分之一。

對于為何能做到如此高的性價比，DeepSeek官方解釋稱，DeepSeek-V2采用了創新的架構，例如注意力機制方面的MLA（多頭潛在注意力）和前饋網絡方面的DeepSeek-MoE架構等，以實現具有更高經濟性的訓練效果和更高效的推理。

因此，DeepSeek被稱為“AI界的拼多多”，引發了字節、阿里、百度等大廠的大模型價格戰，紛紛宣布大模型產品降價。彼時，梁文鋒在接受媒體采訪時稱，DeepSeek無意成為行業鯰魚，低價背后是希望算力普惠。

2024年12月27日，Deep-Seek-V3更是橫空出世，火爆全球。據DeepSeek官網顯示，其評測成績不僅超越了Qwen2.5-72B（阿里自研大模型）和Llama3.1-405B（Meta自研大模型）等頂級開源模型，甚至能和GPT-4o、Claude3.5-Sonnet（Anthropic自研大模型）等頂級閉源模型一較高下。

DeepSeek宣布上線并同步開源DeepSeek-V3模型之外，還公布了長達53頁的訓練和技術細節。得到大幅升級的V3模型是在一個“難以想象”的預算下訓練完成的：整個訓練僅花費了557.6萬美元，在2048塊英偉達H800GPU（針對中國市場的低配版GPU）集群上運行55天完成，僅是OpenAIGPT-4o模型訓練成本的不到十分之一。

梁文鋒和他的DeepSeek還在繼續求索。

“投身于探索AGI的本質，不做中庸的事，帶著好奇心，用最長期的眼光去回答最大的問題。”DeepSeek的公眾號這樣寫道。