摘 要:ChatGPT成為近期的熱門話題。ChatGPT是由OpenAI開發的包括文本語言模型、文本到圖像的生成模型、從圖像生成文本等功能在內的大型語言模型。ChatGPT強大的語言理解能力和處理能力正在帶來一場時代變革。本文簡述了ChatGPT語言模型特點,簡單介紹了ChatGPT工作的技術原理,深入探討了ChatGPT對科技工作人員的影響,包括對科技工作人員的機遇、挑戰和倫理分析,提出了科技工作人員在應用ChatGPT時防范風險的措施。
關鍵詞:ChatGPT;語言模型;工作原理;科技工作人員;機遇與挑戰;倫理風險
中圖分類號:TP18 文獻標識碼:A 文章編號:2095-1302(2024)04-0-04
DOI:10.16667/j.issn.2095-1302.2024.04.035
0 引 言
2015年埃隆馬斯克與Sam Oldman、AWS Infosis以及YC reseach等人共同宣告OpenAI公司成立,即ChatGPT的母公司。馬斯克認為必須實現人工智能技術的民主化,并能使其廣泛使用。馬斯克等人認為AI不能為個人或公司獨有,它屬于全人類。OpenAI的目標是將在人工智能領域的研究成果開放分享給全人類。ChatGPT是由OpenAI開發的一種大型語言模型,其成為近期的熱門話題,各大軟件公司紛紛推出了自己的產品。比如百度推出的“文心一言”。本文簡述了ChatGPT語言模型的特點,說明了ChatGPT工作的技術原理,并探討了ChatGPT廣泛使用帶來的行業變革、挑戰,分析了ChatGPT給相關崗位就業帶來的經濟效益以及ChatGPT應用中存在的風險。
1 ChatGPT語言模型簡介
隨著人工智能技術的不斷發展,語言模型正在成為影響各行各業的重要力量。其中,ChatGPT是目前全球最先進的語言模型之一,其強大的語言理解能力和處理能力正在帶來一場時代變革。ChatGPT模型由語言模型和圖像模型以及圖像文本模型構成,目前已更新到第三代。OpenAI開發的ChatGPT模型通過文本互動來執行指定的任務[1];在2021年到2022年間,OpenAI相繼開發了能從自然語言文件串中生成正確代碼的GPT-3 Codex模型[2]和InstructGPT模型,InstructGPT模型具有執行操作者明確和不明確指令的
功能[3]。事實上,ChatGPT模型和InstructGPT模型相似,二者均可執行操作者的指令,并向操作者提供詳細的信息反饋[4]。ChatGPT模型的設計目的是能夠處理和生產自然語言文本。自然語言生成(Neural Language Generation, NLG)是從非語言說明形成人們可以理解的文本的技術。目前,自然語言生成NLG被廣泛應用在諸如對話系統和機器翻譯以及文本摘要等領域[5]。自然語言生成NLG涉及Transformer和BERT以及GPT-1/2/3、XLM、Codex、BART等模型。GPT模型是Transformer結構生成型預訓練變換器模型,可進行常識性的知識推理、問答問題和對詞語中蘊藏的語言場景進行解釋[6]。谷歌發布的LaMDA是根據Transformer使用外部信息資料執行對話的語言模型,其對話質量接近人類水
平[7];由Meta AI推出的PEER模型能模擬人類寫作過程的文本生成[8];OpenAI發布的AlphaCode可用于從文本生成代碼的生成模型。其中,GauGAN2能夠生成風景圖像,DALL-E 2是一種根據自然語言描述形成現實圖像的生成模型。Midjourney,Stable Diffusion和Muse是能夠根據文本生成圖像的模型[9]。Flamingo借助圖像、視頻和文本等信息,形成相關視覺語言模型[10];VisualGPT是OpenAI推出的從圖像到文本的生成模型。ChatGPT使用公平性算法來糾正模型偏差或采用大量算力方法訓練海量數據,從而克服學習遇到偏見或歧視等困難。OpenAI采取流量整形和排隊系統來滿足對ChatGPT的需求[11]。ChatGPT已經被廣泛應用在智能制造、檢測分析、大數據、芯片設計等領域。
2 ChatGPT技術工作原理
ChatGPT擁有復雜的神經網絡架構。ChatGPT的本質是數學運算,其技術特征包括以下幾方面:
(1)捕捉數據。數據可以是文字、視頻、圖片、語音等,把數據輸入神經網絡架構,ChatGPT會對用戶輸入的文本進行預處理,包括分詞、去掉停用詞等,以便更好地理解用戶的用途。
(2)編碼輸入。將經過ChatGPT預處理的用戶輸入編碼整合為一個向量,該向量包含用戶輸入的所有信息,它會根據算法輸出的結果進行分類等,再次輸入人工神經網絡,并且能夠被ChatGPT神經網絡模型所處理。
(3)解碼輸出。ChatGPT的神經網絡模型將解碼后的輸入向量作為輸入,并在內部進行一系列計算和處理,最終生成一個輸出向量,表示ChatGPT對用戶的回復。
(4)生成回復。ChatGPT將輸出向量轉化成自然語言文本,并將其發送給用戶。輸出的結果不能直接使用,必須經過不斷糾錯訓練才能夠使用。訓練過程需要大量數據,需要大量工程師不斷改造,到推理階段才能夠真正應用,ChatGPT會根據預測概率選擇最有可能的回復。
(5)循環迭代。ChatGPT不斷接受用戶的輸入,并根據上述過程生成回復。在與用戶交互的過程中,ChatGPT會不斷優化自己的模型參數,以提高其回復的質量和準確性。ChatGPT技術基于自然語言、處理信息和深度學習模型,通過不斷迭代和優化,可以不斷提高其對用戶的理解和回復質量。ChatGPT擁有獨有的架構和自然語言處理算法,經過多年的學習訓練,其掌握了豐富的知識,精通多種語言。
3 ChatGPT為科技工作人員帶來的機遇
科技工作人員的工作內容包括但不限于軟件編程、文案寫作等。ChatGPT的自然語言生成與對話技術能夠輔助科技工作人員高效完成編程、查閱文獻和寫作等工作,提高科技工作人員的工作效率。
3.1 ChatGPT提高了科技工作人員的編程效率
當前,科技工作人員依據數據科學研究范式進行相關研究時,需要獲取大量數據。通常情況下,數據往往通過開放數據集、API調用和Web Scrapper等途徑獲取。在獲取數據后需要借助相關編程語言工具進行數據分析。Python語言便是科技人員經常使用的編程語言之一。科技人員使用Python語言編程必須掌握編程的基礎語法及其語言環境,并利用API調用或Web Scrapper搜集數據?,F在ChatGPT可以幫助科技人員通過自然語言對話直接輸出源代碼獲取所需數據。當科技工作者準備獲取某個網頁上的信息時,需通過瀏覽器的相應功能查找對應類別sdywul的爬取位置,現在只需在ChatGPT中提出要求即可,由ChatGPT編寫科技人員所需程序。由于ChatGPT具有與用戶多次對話的功能,因此,用戶只需提出要求,就能使ChatGPT不斷根據用戶的要求編寫符合用戶目標的程序,實現用戶預期目標。科技工作人員可以通過與ChatGPT反復對話實現程序的修改,直至滿意。此外,由于ChatGPT是在大量代碼上訓練得到的結果,因此ChatGPT具有較強的對代碼上下文補全的能力??傊?,ChatGPT可以通過自然語言對話方式開展數據分析和機器學習模型訓練工作。
3.2 ChatGPT提高了科技工作人員文獻查閱效率
眾所周知,科技工作人員做研究需要閱讀一定數量的文獻,而且需要查找外文期刊資料。但是外文期刊數量眾多,且每年新出文獻極多,在不斷涌現的期刊中,科技人員需要及時捕捉對自己的研究有價值的文獻資料,才能把握前沿的研究領域和研究方法。但閱讀眾多中外文獻需要消耗大量的精力和時間,而ChatGPT憑借其先進的信息處理功能,可以幫助科技工作者研究、分析并提供有價值的文獻資料,幫助科研工作者做出數據驅動決策。比如,科研工作者想提煉某篇外文文獻中有價值的重點信息時,可通過對ChatGPT提問來實現,ChatGPT通過正確理解科技工作者提供的文獻資料信息進行自動總結。此外,還可以借助ChatGPT解釋難以理解的專業術語??蒲泄ぷ魅藛T倘若對ChatGPT的講解存在疑問,便可讓ChatGPT尋找術語對應的原文文本,消除使用者的疑惑。不僅如此,科技工作者如果對給出的文本不滿意,ChatGPT還會再次嘗試回復。正如前面指出的那樣,由于ChatGPT具有多輪對話記憶功能,所以操作者可將文獻信息的主旨內容分別輸入,然后進行對比。ChatGPT有助于科技工作者快速了解本研究領域的發展歷程,節省了科研工作者梳理文獻的時間,提高了科技工作者的查閱效率。
3.3 ChatGPT 提高了科技工作人員文案寫作效率
科技工作人員將自己的研究成果或工作成果通過文字表達出來,以便和同行交流??萍脊ぷ魅蝿盏奈淖直磉_也需要花費很多時間和精力,因此,科技工作人員可以借助ChatGPT來輔助其撰寫科研論文和科研報告。善于學習語言風格是ChatGPT語言模型的一大特點。ChatGPT能夠生成高質量和語言風格獨特的內容,科技工作者只需將自己所要表達的科研成果和研究報告的內容輸入即可,ChatGPT將有關內容進行潤色。針對科技工作人員之后寫的科研文章,ChatGPT可調用之前存儲的文章風格進行風格轉化與改寫。另外,ChatGPT也能幫助科技工作者在寫作過程中擴展思路,豐富事例??萍脊ぷ魅藛T在寫作過程中需要補充相關材料和事例時,往往通過搜索引擎輸入關鍵詞后,在大量結果中篩選適合的內容,這種篩選費時費力?,F在科技人員只需通過ChatGPT對話豐富補充材料佐證文章的觀點,就可以得到相關材料信息。雖然ChatGPT提供的事例與科技人員所需要的信息不完全相符,但它對科技人員有所啟發,將顯著提升科技工作人員的寫作效率。
4 ChatGPT給科技工作人員帶來的挑戰
任何技術都有兩面性。ChatGPT能夠給科技工作人員帶來便利,同時也會給科技工作人員帶來一定的挑戰。隨著人工智能技術的不斷發展,語言模型正在成為影響各行各業的重要力量。其中,ChatGPT是目前全球最先進的語言模型之一,其強大的語言理解能力和處理能力正在帶來一場時代變革,以下分析ChatGPT語言模型對科技工作者可能帶來的
挑戰。
4.1 ChatGPT的回答是否真實
ChatGPT使用語言模型可以實現自動化技術支持,并根據概率分布關系生成最符合要求的語言,雖然提高了效率,但無法保證生成內容的真實性和準確性。因此科技工作者利用ChatGPT編程、解析文獻,應該保持審慎的態度。
4.2 ChatGPT給科技工作者帶來數據污染
科技工作者需要真實可靠的數據,但ChatGPT提供的數據有可能存在數據混亂且不真實的風險。因為ChatGPT廣泛使用在各個行業,難免產生許多未經證實或未經斟酌的信息內容。如果某些行業產生的信息質量較差,甚至低劣,便會造成互聯網數據的污染。這就意味著科技工作者如果缺乏對信息的辨別能力,不僅會影響科技工作者的研究成果,還會影響未來ChatGPT模型訓練數據的質量。從本質上來說,ChatGPT學習語言模型需要從人類產生的文本中學習,因此海量的人工生成數據涌入ChatGPT訓練集,就有可能降低ChatGPT語言模型的能力,甚至因為混入信息噪聲而降低ChatGPT回答問題的準確率,從而進一步影響科技工作者通過ChatGPT獲取知識和信息的積極性。如果不正當使用ChatGPT,將可能對科技工作者、教育者、金融機構人員、律師等群體產生不良影響。為了減少ChatGPT使用不當給科技工作者帶來的不良影響,OpenAI官方建議用戶在使用ChatGPT時,將其作為幫助用戶獲取文本來源的輔助工具,而不能完全把ChatGPT回復的答案作為用戶進行決策判斷的標準。2023年1月OpenAI推出了ChatGPT生成文本檢測分類器,但需要特別指出的是,這種分類器仍然存在許多缺陷。相比而言,ChatGPT檢測器對英文文本的檢測效果要高于其他語言。
4.3 ChatGPT給科技工作者帶來的信息安全挑戰
數據保護很重要,尤其有些數據屬于知識產權保護范圍,不宜公開,科技工作人員首次注冊開啟與ChatGPT對話時,會出現“對話可能會被AI培訓師審查,請不要在對話中出現不宜公開的隱私信息”等提示。這就意味著ChatGPT存在數據安全或隱私泄露的風險。對于ChatGPT能否保護用戶隱私的問題,有一部分人不甚了解,認為ChatGPT是很成熟的產品,完全能夠做到對于用戶數據安全和隱私的保護。其實不然, ChatGPT模型之前是在GPT3.5版本之上建立起來的利用人工來加強學習的語言模型。如果操作人員輸入不宜公開的數據或隱私,則可能會對科技人員的數據安全造成影響。而如果科技人員輸入自己的敏感信息,比如銀行卡號、婚姻、職業和住址等信息,有可能形成安全隱患。雖然ChatGPT并非有意盜用或侵犯科技工作者的知識產權,但科技人員輸入的信息會對ChatGPT模型造成影響。如果科技工作人員因不謹慎輸入具有原創性的知識產權信息,恰好遇到也有從事這一領域并有較強興趣的科技工作者,那么輸入的信息很可能被ChatGPT作為答案回復另一名科技工作人員,導致原創信息泄露。需要說明的是,據OpenAI指出,ChatGPT人工訓練員查看對話信息時,也可能對模型加以改進。為避免個人隱私等泄露,科技工作者與ChatGPT對話時應盡量避免輸入個人隱私或不宜公開的信息。
5 ChatGPT給科技工作人員帶來的倫理風險
5.1 ChatGPT給科技工作人員帶來的知識產權歸屬風險
面對ChatGPT廣泛使用的情景,ChatGPT內容的創建是否會引起“知識產權”的爭論?ChatGPT有可能使該問題更嚴峻。之前的AI雖然具有算法、規則和模板,還可提供信息索引等功能,但創作者個性難以體現[12]。由于ChatGPT具有一定的自主創作能力和信息編排能力,因而ChatGPT可以依據某科技人員的創作風格創作相應文章,模糊了程序算法和獨立創作的界限[13],導致知識產權侵權糾紛時有發生[14]。由于尚無法律對ChatGPT知識產權問題進行明確規定,因此,ChatGPT生成內容的性質及知識產權歸屬問題仍待解決。
5.2 ChatGPT給科技工作人員帶來的技術與數據風險
有學者認為,目前ChatGPT所使用的數據來源是否均獲得授權存在疑問[15]。通常情況下,用戶在注冊登錄某一應用軟件時,會要求用戶給予允許訪問相關信息的權限,否則將無法訪問頁面。人工智能創作使用數據等各類信息同樣面臨侵權風險[16]。如果ChatGPT使用的數據信息未經授權,則其行為的合法性可能受到詬病。由于ChatGPT預先學習時無需人工介入、標注和監督,一方面可能導致ChatGPT獲取的數據來源存在非法的可能,另一方面,如果用戶在ChatGPT運行過程中設置了命令和禁止要求,可能誘導ChatGPT輸出不良、虛假或違法數據,致使ChatGPT獲取的信息沒有經過實質性過濾和篩查,存在數據來源虛假,甚至不合法的風險。此外,用戶向ChatGPT提出的命令本身也可能成為ChatGPT訓練的材料,當用戶無意間輸入個人信息或商業秘密時,ChatGPT便會瞬間捕捉,導致技術數據泄露。
5.3 ChatGPT給科技工作人員帶來的學術規范風險
越來越多的科技工作人員將嘗試利用ChatGPT撰寫學術論文,此舉會引發學術不端的危機,挑戰學術倫理規范。ChatGPT訓練了海量文字信息,涵蓋超過4 000億詞條和大約31億個網頁。在論文撰寫方面,ChatGPT的信息源自預先學習的現存資料,輸出這些未經授權的現存資料可能構成侵權。即便ChatGPT輸出的內容屬于《著作權法》規定的“信息資料”,這些信息資料的歸屬也存在爭議。另外,使用者利用ChatGPT寫論文并發表,其行為免不了遭到學術不端的指控。由于ChatGPT基于數據和邏輯預測給定詞句,因而在某種程度上對生成的文字具有較好的文法邏輯性和語言通暢性,但就生成的文字內容而言未必準確,因而存在杜撰的風險。有人嘗試要求ChatGPT推薦與本論文篇名相關的多篇參考文獻,而ChatGPT給出的參考文獻多為重復甚至是虛構的,由此可見,用戶對ChatGPT做出的回答也存在較多虛假
信息。
6 結 語
ChatGPT的面世為科技工作者帶來了諸多便利,但面對ChatGPT帶來的風險,還需要進一步甄別并加強監管,除了制定人工智能生成內容規范標準,還需要強化數據源頭監控,尤其涉及隱私倫理,道德政治偏見等內容,更要進行嚴格的數據審查。ChatGPT技術是一把雙刃劍,既可以提升效率推動生產發展,也可能傳播錯誤信息,影響網絡安全。因此,需要各界合作,才能在滿足社會需要的同時,推動該技術健康發展。
注:本文通訊作者為佟艷芬。
參考文獻
[1] BROWN T,MANN B,RYDER N,et al. Language Models are Few-Shot Learners [C/OL]// Advances in NeuralInformation Processing Systems. Curran Associates,Inc.,2020:1877-1901 [2023-02-05]. https://proceedings.neurips.cc/paper/2020/hash/1457c0d6bfcb4967418bfb8ac142f64a-Abstract.html.
[2] CHEN M,TWOREK J,JUN H,et al. Evaluating Large Language Models Trained on Code:arXiv:2107.03374 [Z/OL]. arXiv,2021(2021-07-14)[2023-02-02]. http://arxiv.org/abs/2107.03374.
[3] OUYANG L,WU J,JIANG X,et al. Training language modelsto follow instructions with human feedback:arXiv:2203.02155[Z/OL]. arXiv,2022(2022-03-04)[2023-02-02].http://arxiv.org/abs/2203.02155.
[4] OPENAI. ChatGPT:Optimizing Language Modelsfor Dialogue[EB/OL].(2022-11-30)[2023-02-12]. https://openai.com/blog/chatgpt/.
[5] HARRISON M. ChatGPT’s Explosive Popularity Makes It the Fastest-Growing App in Human History [EB/OL].(2023-02-03)[2023-02-05]. https://futurism.com/the-byte/chatgpts-fastest-growing-app-human-history.
[6] RADFORD A,NARASIMHAN K. Improving Language Understanding by Generative Pre-Training [C/OL].(2018-06-11)[2023-02-23]. https://www.semanticscholar.org/paper/Improving-Language-Understanding-by-Generative-Radford-Narasimhan/cd18800a0fe0b668a1cc19f2ec95b5003d0a5035.
[7] THOPPILAN R,DE FREITAS D,HALL J,et al. LaMDA:Language Modelsfor Dialog Applications [Z/OL]. arXiv,2022(2022-02-10)[2023-02-04].http://arxiv.org/abs/ 2201.08239.
[8] SCHICK T,DWIVEDI-YU J,JIANG Z,et al. PEER:A Collaborative Language Model [Z/OL]. arXiv,2022(2022-08-24)[2023-02-01]. http://arxiv.org/abs/2208.11663.
[9] SALIAN I. NVIDIA Research’s GauGAN AI Art Demo Respondsto Words [EB/OL].(2021–11–22)[2023-02-01]. https://blogs.nvidia.com/blog/2021/11/22/gaugan2-ai-art-demo/.
[10] ROMBACH R,BLATTMANN A,LORENZ D,et al. High-Resolution Image Synthesis with Latent Diffusion Models [C/OL]// 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR). NewOrleans,LA,USA:IEEE,2022:10674-10685 [2023-02-04]. https://ieeexplore.ieee.org/document/9878449/. DOI:10.1109/CVPR52688.2022.01042.
[11] MORRISON R. Compute Power Is Becoming a Bottleneck for Developing AI. Here’s How YouClearIt [EB/OL].(2022-12-13)[2023-02-05]. https://techmonitor.ai/technology/ai-and-automation/chatgpt-ai-compute-power.
[12]王遷.論人工智能生成的內容在著作權法中的定性[J].西北政法大學學報,2017,35(5):8.
[13]熊琦.人工智能生成內容的著作權認定[J].知識產權,2017,31(3):3-8
[14]朱杰. ChatGPT火爆背后有何法律風險?[N].法制日報,2023-2-14(16).
[15]李昀鍇. ChatGPT內容商業使用的法律風險及應[DB/OL].安徽律師網,2023-2-14.
[16]焦和平.人工智能創作中數據獲取與利用的著作權風險及化解路徑[J].當代法學,2022,36(4):128-140.
收稿日期:2023-05-25 修回日期:2023-06-28
基金項目:廣西人文社會科學重點研究基地項目“北部灣海洋發展研究中心”2020年度課題:我國西部陸海新通道沿線城市物流產業與關聯產業融合提升策略研究(BHZKY202001)
作者簡介:黃 林(1966—),男,江西豐城人,北部灣大學經濟管理學院教授,碩士研究生導師,北部灣海洋發展研究中心研究員,研究方向為物流供應鏈管理。
佟艷芬(1974—),女,廣西防城港人,北部灣大學經濟管理學院副教授,研究方向為區域經濟。
李 威(1988—),男,廣西欽州人,北部灣大學經濟管理學院講師,研究方向為物流發展。