當前熱點話題下對開源發(fā)展的三點認識

2023-01-01 00:00:00梅宏

新經(jīng)濟導(dǎo)刊 2023年4期

圍繞社會經(jīng)濟領(lǐng)域逆全球化與信息技術(shù)領(lǐng)域大語言模型（LLM）和生成式AI（AIGC）這兩個熱點話題深入思考后，筆者產(chǎn)生了三點認識：一是信息技術(shù)生態(tài)必然是開源和閉源的交織，二是軟件供應(yīng)鏈全球化至少在基礎(chǔ)軟件領(lǐng)域開源是不可逆的，三是大模型和生成式AI的發(fā)展或?qū)⒋蠓忍嵘_源開發(fā)的質(zhì)量與效率。

一、信息技術(shù)生態(tài)必然是開源和閉源的交織

開源和閉源同整個信息技術(shù)生態(tài)緊密關(guān)聯(lián)。開源的發(fā)展一直是追求多方共贏的過程，開源的歷史則是軟件在創(chuàng)新自由與版權(quán)收益之間的博弈過程。開源雖然以理想主義為緣起，但在商業(yè)的蓬勃助力下匯聚群體智慧，成為開放創(chuàng)新的典范。

人們認為軟件源代碼一開始就是開放的，其實是后來Linux模式和其他自由軟件競爭才導(dǎo)致“開源”的出現(xiàn)。可以說，沒有商業(yè)就沒有開源，從商業(yè)模式支撐的軟件模式開發(fā)，到多種開源模式探索，再到企業(yè)積極擁抱開源和如今的開源全球化，開源已經(jīng)形成多元化商業(yè)模式。

開源一定離不開理想主義，開源需要奉獻精神。早期的開源都是圍繞微軟“帝國”周邊，特別是操作系統(tǒng)生態(tài)。事實上，在每一個壟斷性的軟件領(lǐng)域都必然會有一群理想主義者投入研發(fā)一個開源版本，比如操作系統(tǒng)Linux、瀏覽器、辦公系統(tǒng)、工業(yè)軟件等，所以理想主義是激發(fā)開源的一個重要動因。不過，企業(yè)追求商業(yè)利益最大化也是合理的，否則就沒有企業(yè)存在的必要了。但是顯然，理想主義和商業(yè)利益需要平衡。

開源成為當前的熱點，從微軟對開源的態(tài)度就可以看出來。起初，微軟是開源最大的反對者。2001年，微軟CEO巴爾默說開源是癌癥、是病毒，后來他卻成為開源的積極擁抱者，甚至在開源社區(qū)收購了GitHub。讓人疑惑不解的是，2022年，微軟以O(shè)penAI名義推出ChatGPT，盡管有消息稱GPT3大概要開源，但微軟為什么不直接開放呢？這也恰好說明一個道理，但凡能夠在這個領(lǐng)域獨享利益時，絕大多數(shù)企業(yè)或個人可能都會選擇一個相對閉源的態(tài)度。所以，信息技術(shù)生態(tài)必然是開源和閉源的交織。

“抱團取暖”一直是開源發(fā)展的重要驅(qū)動力。當出現(xiàn)壟斷時，我們希望大家團結(jié)起來，開源社區(qū)為大家提供了一個抱團取暖的平臺，大家在共同社區(qū)維護共同版本，就有可能形成一定的優(yōu)勢。以生成式AI開源的情況來看，ChatGPT的問世帶來了大語言模型的百花齊放，其中GPT4的優(yōu)勢目前最為明顯。那么現(xiàn)在，眾多跟隨者大概又到了抱團取暖的時刻，只是尚未明確抱團取暖的基本態(tài)勢。從目前大模型開源、閉源的情況以及各個大模型發(fā)展的時間線來看，這些模型目前還處于“戰(zhàn)國時代”，也就是說，大家都在各自為營。如何形成一個大家共同維護的開源大模型的合力，技術(shù)上仍有許多值得探討的事情，這正是開源閉源交織的問題。

二、軟件供應(yīng)鏈全球化在基礎(chǔ)軟件領(lǐng)域開源不可逆

雖然當前社會經(jīng)濟領(lǐng)域有逆全球化的趨勢，但軟件供應(yīng)全球化至少在基礎(chǔ)軟件領(lǐng)域開源是不可逆的。在經(jīng)濟全球化受阻的大背景下，科技領(lǐng)域尤其是開放科學(xué)還在持續(xù)進行。開放科學(xué)涉及開放硬件、開放軟件、開放訪問、開放數(shù)據(jù)、開放教育資源等，即所謂的“HSADES”，其中科學(xué)數(shù)據(jù)開放已成為全球共識。近年來，世界各國在科技領(lǐng)域的競爭日趨激烈，雖然一些少數(shù)團體要求審視科學(xué)數(shù)據(jù)完全開放政策，但從全球態(tài)勢看，還沒有出現(xiàn)科學(xué)數(shù)據(jù)共享通道關(guān)閉的征兆，所以開放科學(xué)仍然是進行時。

在過去近20年間，云計算、大數(shù)據(jù)、AI的發(fā)展均受益于開源。以AI為例，其快速發(fā)展離不開代碼的開源和數(shù)據(jù)的開放，包括開放開源的框架、開源的算法和開源的數(shù)據(jù)，這些開放推動了大數(shù)據(jù)和AI的快速發(fā)展。開源軟件，具體到軟件的生態(tài)領(lǐng)域已然全球化，而且已經(jīng)形成覆蓋全球的錯綜復(fù)雜的開源軟件生態(tài)鏈。從硬件資源的供應(yīng)鏈到系統(tǒng)技術(shù)的供應(yīng)鏈，一直到上層應(yīng)用的供應(yīng)網(wǎng)絡(luò)，形成了一個非常復(fù)雜的網(wǎng)絡(luò)。

開源已經(jīng)離散在生活中的每一個角落。2021年，有兩個報告均提到行業(yè)領(lǐng)導(dǎo)者90%都在使用企業(yè)開源軟件。而Synonsys（全球排名第一的電子設(shè)計自動化EDA解決方案提供商）提到17個行業(yè)里的1500個代碼中，有98%都是開源代碼。由此可見，開源是不可逆的，即便開源行動沒有涵蓋所有領(lǐng)域，但就基礎(chǔ)軟件領(lǐng)域和程序員的全球生態(tài)化而言，開源的確不可逆。例如Linux，其已經(jīng)成為日常生活中絕大多數(shù)人都會使用的系統(tǒng)，R語言更是有上千個軟件包并建立了上萬個復(fù)雜的依賴關(guān)系，這就是信息技術(shù)生態(tài)的復(fù)雜性。

再舉兩例。一是開源的云計算管理平臺OpenStack14，現(xiàn)已有817個代碼倉、2439個開放者和250個機構(gòu)模式、8種貢獻模式、4種任務(wù)選擇模式、3種協(xié)作模式，然后是提供部分解決方案、業(yè)務(wù)集成等一系列支持，形成了一個巨復(fù)雜的OpenStack生態(tài)。二是深度學(xué)習(xí)框架，以TensorFlow和PyTorch為代表的開源深度學(xué)習(xí)框架支撐了大量的深度學(xué)習(xí)應(yīng)用。

與此同時，全球化開源生態(tài)也會帶來很多不確定性，特別是在安全領(lǐng)域。開放供應(yīng)鏈的復(fù)雜性，使得開源供應(yīng)鏈面臨的風(fēng)險受到持續(xù)關(guān)注，如Apache Log4j漏洞事件曾引起巨大轟動（編者注：自2021年12月7日公開，Apache Log4j 漏洞被認為是“2021年最重要的安全威脅之一”，稱其為“核彈級”漏洞并不夸張。該漏洞已被廣泛應(yīng)用于勒索、挖礦、僵尸網(wǎng)絡(luò)上，黑產(chǎn)組織則利用Log4j漏洞發(fā)起多個攻擊事件），當然還有更多的類似事件。人們在大量使用開源軟件的同時也會擔(dān)憂其安全性，于是從政府到社區(qū)、從產(chǎn)業(yè)界到學(xué)術(shù)界都在建立各個級別的安全保障體系。2021年，美國發(fā)布了關(guān)于改善國家網(wǎng)絡(luò)安全的總統(tǒng)行政令，明確要求政府加強對供應(yīng)鏈的安全管控。2022年，阿里巴巴的王堅提出供應(yīng)鏈安全試驗，尤其是開放帶來的復(fù)雜軟件供應(yīng)鏈問題，已經(jīng)引起政府、社區(qū)、企業(yè)和學(xué)術(shù)界的普遍關(guān)注。

有鑒于此，國家層面需要考慮構(gòu)建面向全球的開源生態(tài)體系，這將涉及政府、市場、社區(qū)、企業(yè)和個體。盡管開源社區(qū)有常用的治理體系，但全球化的開源生態(tài)需要全球化的體系，這涉及全球?qū)用妫ê芏鄧业姆煞ㄒ?guī)、標準規(guī)范和技術(shù)工具等相關(guān)方面。

三、大模型和生成式AI的發(fā)展或?qū)⒋蠓嵘_源開發(fā)的質(zhì)量與效率

過去幾年，國內(nèi)的相關(guān)研究團隊圍繞群體智能做過一些開源軟件開發(fā)工作，提出了人工群體智能概念和構(gòu)建群體智能的構(gòu)造性模型。群體智能是科學(xué)家長期關(guān)注并研究的一種自然現(xiàn)象，也就是說群體中間每個個體可能不具備智能或者智能非常有限，但由個體構(gòu)成的群體會展現(xiàn)出遠遠超出個體能力的智能行為，這是低等生物群體里的矛盾現(xiàn)象之一。西方起初把社會性生物群體層面展現(xiàn)的群體智能稱為Smart，后來為了從社會層面進行區(qū)分改稱為Collective，兩個單詞本質(zhì)是一個意思，只是針對的群體不同。以低等生物群體智能為例，菌群聚合、蜂群筑巢、魚群避敵、蟻群尋食等，都不是靠個體單獨完成的任務(wù)。但微小的個體最后產(chǎn)生的效果卻非常好，甚至堪稱精美，這是低等生物群體智能現(xiàn)象。放大到人類社會，平庸的人在一起協(xié)作也能產(chǎn)生群體智能現(xiàn)象，歇后語“三個臭皮匠頂個諸葛亮”揭示的就是這個意思。市場經(jīng)濟通過一只“看不見的手”，卻能夠進行大規(guī)模資源的有效配置，這也可以被視為群體智能的典型現(xiàn)象之一。

怎樣理解生物群體智能？早期有一位法國科學(xué)家提出了環(huán)境激發(fā)效應(yīng)，并用這個概念解釋生物群體智能形成的機理。環(huán)境激發(fā)一詞來源于兩個希臘詞根，一個是刺激，一個是工作，受刺激而工作。基于環(huán)境激發(fā)效應(yīng)，個體在工作中就會留下痕跡，這個痕跡被其他個體感受到，從而刺激這些個體留下新的工作痕跡，慢慢匯聚起來的工作痕跡形成了群體智能。互聯(lián)網(wǎng)產(chǎn)生以后出現(xiàn)的網(wǎng)絡(luò)空間，匯聚了人類智能群體，為人類跨時空大規(guī)模協(xié)同提供了可能。隨著互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展，大量網(wǎng)絡(luò)應(yīng)用出現(xiàn)，這使得互聯(lián)網(wǎng)上一批松散的人群可以通過直接或間接的交互完成一系列需要大家共同完成的工作，維基百科就是一個典型的例子。現(xiàn)實中的眾包模式，也是通過大規(guī)模用戶分工合作完成的。此外，還有利用群體力量通過玩游戲的方式設(shè)計RNA（核糖核酸）分子結(jié)構(gòu)，利用群體力量求解單向選擇題，等等。

我們能否把群體智能用于開發(fā)軟件這種更為復(fù)雜的知識邏輯制品呢？顯然，開源軟件開發(fā)就是人類聚集群智非常典范的例證之一。但這一群體智能本身仍屬于比較原始的形態(tài)，通過大規(guī)模開發(fā)者群體的持續(xù)協(xié)同，能夠維護開發(fā)一個復(fù)雜的軟件系統(tǒng)，這涉及多種成功技術(shù)因素，比如開發(fā)技術(shù)有效的信息管理、自上而下的任務(wù)分解和自下而上的人員組成等。之所以其為原始形態(tài)，是因為它還沒有達到群體智能所探討和追求的完全分布式的社會化軟件開發(fā)目標。當下，大多數(shù)成功的開源軟件項目都依賴于一個小規(guī)模的精英群體完成頂層架構(gòu)設(shè)計，并對版本發(fā)布進行嚴格規(guī)劃和設(shè)置，他們更多集中于對源代碼的管理和匯聚，對需求設(shè)計的支持不夠。

環(huán)境激發(fā)效應(yīng)這一概念，為理解群體智能現(xiàn)象提供了一種解釋性模型，目前的研究主要關(guān)注群體智能的構(gòu)造性模型。群體智能系統(tǒng)包括三個關(guān)鍵因素：一是信息激發(fā)，即如何有效激發(fā)每個個體提供與問題相關(guān)的信息片段；二是信息融合，即如何對不同個體提供的信息進行有效的融合；三是信息反饋，即把融合后的信息有效反饋至每個個體。激發(fā)、融合、反饋，這一過程不斷循環(huán)，迭代起來，就是IFE（交互式前端技術(shù)）構(gòu)造模型。

這個模型對群體智能系統(tǒng)的形成主要在兩個框架內(nèi)發(fā)生：一是物理空間，也就是現(xiàn)實世界，二是網(wǎng)絡(luò)空間，包括數(shù)字化的物理空間。進一步觀察信息的反饋融合是否為自然發(fā)生，或者是否有人造的自動化系統(tǒng)參與，用這兩個標準來劃分自然的群體智能現(xiàn)象、半人工的群體智能現(xiàn)象或人工的群體智能現(xiàn)象。我們用AI設(shè)計，是希望解決用人類設(shè)計智慧信息的融合反饋算法。在物理空間，有純自然的群體智能，比如蜂群筑巢等。在網(wǎng)絡(luò)空間，智能也少有人工介入，只是利用網(wǎng)絡(luò)上原始信息的儲存和具有傳播能力的材料，比如開源主要是通過郵件列表做，還有眾包。人工群體智能就是加入人的干預(yù)，這在物理世界還沒有找到具體案例，但我們認為在網(wǎng)絡(luò)空間也許能找到，也許還可以構(gòu)造。網(wǎng)絡(luò)空間具有高效的信息融合能力以及個性化信息高效的反饋能力，這是一種業(yè)內(nèi)追求的群體智能的理想形態(tài)。

人工群體智能借助人工設(shè)計的智能模型預(yù)算法，實現(xiàn)了對群體中海量信息的有效融合與個性化反饋，在群體內(nèi)部形成信息的正反饋回路，進而在群體層面涌現(xiàn)形成超越個體智能的智能現(xiàn)象，這就是所謂的群體智能。

那么大模型和生成式AI能帶來什么？它或?qū)楹Ａ啃畔⒌母咝诤吓c個性化反饋提供創(chuàng)新性解決方案，可能會大幅度地提升開源軟件的質(zhì)量和效率，進而提升開源開發(fā)的群體智能水平。大模型作為海量信息的融合器，靠大模型融合而不是靠人。AIGC則針對軟件開發(fā)領(lǐng)域，結(jié)合個性化能力形成個性化信息反饋，再回到模型就變成一個大模型矢能的ACI。人工群體智能把大模型作為信息融合器，將使得上述這個循環(huán)運轉(zhuǎn)得更快，匯聚得更快。

四、如何更好地推進開源發(fā)展

第一，對開源生態(tài)的構(gòu)建，要大力弘揚開源精神，把握開放、共享、協(xié)同、生態(tài)的開源本質(zhì)，鼓勵奉獻，尊重市場，積極探索開源的商業(yè)模式。第二，積極推進構(gòu)建面向全球的開源生態(tài)治理體系，從人類命運共同體的視角來促進全球化開源生態(tài)。第三，積極探索LLM/ AIGC在開源軟件開發(fā)中的應(yīng)用，構(gòu)建面向開源軟件協(xié)同開發(fā)的ACI系統(tǒng)，在維護開發(fā)者群體多樣性和持續(xù)創(chuàng)造性的前提下，有效提升開發(fā)效率和質(zhì)量。

現(xiàn)在業(yè)內(nèi)在談開源軟件面臨的各種各樣的問題，很多專家說未來人類文明就運行在軟件之上，而在整個軟件體系中，毫無疑問開源軟件是非常重要的組成部分，特別是在越來越基礎(chǔ)的層面，開源軟件構(gòu)成了人類社會的基礎(chǔ)設(shè)施，因此我們有必要站在人類命運共同體的視角維護人類社會的基礎(chǔ)設(shè)施，而不是走向逆全球化之路。實際上，開源社區(qū)治理體系已經(jīng)相當成熟，在這種情況下，我們?nèi)栽谔剿饔袥]有新的模式，特別是適合于中國開源發(fā)展的模式。

（作者系中國科學(xué)院院士，中國計算機學(xué)會第十二屆理事會理事長）

新經(jīng)濟導(dǎo)刊2023年4期

新經(jīng)濟導(dǎo)刊的其它文章: 中國新經(jīng)濟數(shù); 全球典型未來產(chǎn)業(yè)發(fā)展模式研究; 交通運輸業(yè)高質(zhì)量發(fā)展促進物流降本增效的對策思路; 我國生物柴油發(fā)展態(tài)勢及政策建議; 組建行業(yè)協(xié)會共同推進醫(yī)學(xué)影像裝備業(yè)高質(zhì)量發(fā)展; 一種模型化、系統(tǒng)性信息系統(tǒng)構(gòu)建框架的整合與優(yōu)化