999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

AIGC 時代新聞輿論工作新陣地
——面向大模型的可信訓練數據集與服務能力建設

2023-11-01 08:38:24蔡津津
中國傳媒科技 2023年10期
關鍵詞:人工智能內容模型

蔡津津

(新華社媒體融合生產與技術系統國家重點實驗室,北京 100000)

導語

隨著萬物互聯的新一代信息技術飛速發展,數字世界與現實世界的融合不斷加深,大規模數據與算力共同推動的人工智能技術跨越式發展,全球科研團隊都在致力于讓人工智能具備人類理解、思考、邏輯推理和輸出內容的能力。從而大幅降低人類操作數字世界來改造現實世界的成本和門檻,而其中人類語言(又稱自然語言)具有歧義性、抽象性、無窮的語義組合性和持續進化性等特點,并且理解語言往往需要具有一定的知識推理和認知能力,因此自然語言處理領域是人工智能技術突破的關鍵難點,是制約人工智能取得更大躍升和更廣泛應用的瓶頸之一,又被譽為“人工智能皇冠上的明珠”。[1]自2022 年年底,生成式人工智能(AIGC)技術的爆發式增長已突破了這一障礙,并讓全球新聞輿論格局首先面臨顛覆式的改變。

1. ChatGPT 開啟生成式人工智能(AIGC)時代

美國OpenAI 公司從2018 年起開始專注于GPT 系列大規模生成式預訓練語言模型的技術路線,在“大規模數據+大規模算力+大規模參數=大模型”基礎上探索出了“基礎大模型+指令微調”的人工智能新范式[2],突破了人工智能理解、處理和生成自然語言的瓶頸。基于大規模預訓練語言模型,GPT-4 的應用ChatGPT,可以通過與人類進行多輪對話的方式,識別人類意圖和隱喻、理解對話上下文、進行邏輯思考和推理、生成內容完整清晰合理的回答、優化內容中的知識點和措辭風格,并可以進一步通過接口對接集成到各類應用程序中,擴展執行多類任務,涌現出了不同以往的智能水平,展現了如下能力。

(1)具備通用知識水平,并能向不同專業領域擴充和掌握知識。通過增加專業領域的訓練數據和多個領域專家大模型之間的配合,擴展解決多種復雜問題。

(2)具備聯想和創作能力。創造隱喻并挖掘事物之間的關聯,甚至可以理解幽默和生成段子、詩歌與小說。

(3)具備思維鏈推理能力。可以自行將需要邏輯推理的復雜問題拆解成步驟,逐步給出解答過程和答案。

(4)具備抽取和總結知識與主要觀點的能力。可以將長文章中的內容、摘要、大綱、知識點抽取生成出來。

(5)具備根據需求自動生成和檢查程序代碼的能力。可以根據設計圖和需求描述生成可以執行的程序代碼。

微軟發表的論文稱對 GPT-4 進行了全面評測,認為“鑒于 GPT-4 能力的廣度和深度,它應該被合理視作一個通用人工智能(AGI)系統的早期(但仍不完整)版本”。[3]GPT-4 及其應用ChatGPT 標志著人工智能從感知理解世界進入到了生成創造世界的新階段。

2.高質量訓練數據集是AIGC 的關鍵

從GPT-1 到GPT-4 的大模型進化過程中,除了算力基礎設施外,高質量大規模數據集是決定大模型能力的關鍵因素,根據OpenAI 前期論文和博客介紹,ChatGPT 中數據集的規模和構建質量均高于以往的人工標注數據集[4],ChatGPT 大模型采用的 Transformer架構解碼預訓練模型的原理本質上是通過數據集語料中字詞出現的概率和關聯關系來抽取特征,在已有字詞后面預測補充最有可能出現的字詞來實現語言理解和生成的,因此訓練數據集的收集、清洗和特定標注異常重要。

首先,GPT-4 的基礎預訓練是在大量無標注、但需要質量高、重復率少、噪聲小、知識密度高、規范化程度高的大規模數據集上進行自監督訓練來完成的,保證大模型具備正確的語言理解和生成能力,訓練數據集包括13 萬億token(單詞或字符)的語料,涵蓋全球互聯網中主要以西方發達國家平臺為主的數據源,如:維基百科、電子書籍、科學期刊、reddit 社交媒體點贊數多的評論數據集、commonCrawl 網頁數據集等。

其次,ChatGPT 的大規模預訓練語言模型GPT-4還通過大量來自GitHub 的開源程序代碼數據集、代碼注釋數據約4.5TB,這部分面向具體問題和需求、有結構化分解和實現步驟注釋的代碼數據讓GPT-4 擁有了思維鏈(COT)能力和部分邏輯推理能力。

最后,GPT-4 基礎預訓練模型還需經過人工調優以及用帶有人工標注的數據集進行有效的監督訓練,一方面適應不同專業領域的問題,正確理解任務需求,生成更準確合理的內容,一方面實現與人類意圖對齊,即判別人類惡意指令、按照人類指令盡可能生成無負面影響結果的內容。這類數據集分為兩大類:一類是提示學習和指令精調數據集,主要有一系列問答對,提示指令、問題集及對應的相關內容文本語料構成;一類是用于進行RHLF(人類反饋強化學習)的數據集,請專家對大模型按照指令給出的答案和內容進行打分,標注人類偏好標簽,通過獎勵模型訓練,讓算法擬合人類的期望和傾向,減少有害內容,優化大模型的參數策略。[5]

從上述預訓練語言模型的訓練原理可以看出,大規模數據集讓AIGC 大模型掌握了人類公開在互聯網上的大量知識和原創內容,賦予了人工智能類人類的對話交互能力、知識體系和思考分析過程,而ChatGPT 通過這樣的自然語言入口,依托大模型快速構建起了應用生態,一是以ChatGPT 接口能力,在教育、傳媒、商務、客服、辦公、內容出版等領域成為人類進行內容創作和生成的得力助手,二是類GPT-4的AIGC 大模型通過補充專業領域數據集和語料集,讓構建醫療、制造、交通、法務、政務、汽車制造等產業端行業AI 基礎服務的成本和難度大大降低,加速產業數智化轉型和高質量發展;三是AIGC 大模型開始提供應用程序插件功能,形成了用人類自然語言操作各類應用程序完成任務的總入口,基于AIGC 大模型能力的進一步提升,結合應用程序插件,可以自行尋找鏈接程序接口和數據源的AI Agents(智能體)研究將成為OpenAI 的下一個研究突破的目標,AI Agents 可以根據人類一句任務指令,自行分析、分解、優化,進化出解決任務的能力,并尋找合適的資源完成任務。[6]

3. AIGC 時代新聞輿論格局面臨的風險與挑戰

AIGC 大模型的特性和應用生態的發展趨勢預示著以大模型和內容為核心驅動的新一代數字經濟形態正在逐步形成,模型即服務成為數智化轉型的服務載體,自然語言成為人機交互的指令載體,而內容數據本身作為大模型訓練必備的數據集及語料,又是AIGC 大模型生成的重要形態,其作用從以往的信息載體向知識載體甚至是生產力載體進化,內容生產傳播體系與社會經濟生活的運行正前所未有地深度融合綁定。

人工智能發展的每一個階段都會推進和影響社會意識形態或主流價值觀的塑造方式,為新聞輿論工作提供新的平臺和模式。物聯網、大數據、云計算、區塊鏈、算法系統在網絡空間中構建出獨特的公共輿論體系,以網絡平臺為新聞輿論聚集地和擴散源,將公眾匯集成各種不同的價值群體和多元的意識形態群體[7],其中推薦算法控制了內容傳播的范圍和可見度;而AIGC 大模型的出現讓數據集和原創內容成為人工智能感知現實世界,獲取知識的媒介、成為內容生產的關鍵要素,算法和算力逐步掌握內容生產和傳播的權力核心,隨著內容驅動的數字經濟生態不斷豐富,AIGC 大模型成為潛在的社會輿論成員,并以遠超人類個體的知識面和內容處理生成速度掌握了輿論引導的主動權和話語權,在主流媒體新聞輿論場、新興自媒體新聞輿論場上又疊加了生成式人工智能大模型新聞輿論場,迫使當前新聞輿論工作從“生產端”“流通端”到“作用端”的構建方式與運行機制發生改變。

改變的核心一方面是要把AIGC 大模型這樣的人工智能納入工作全流程來考慮,另一方面要重視內容驅動下輿論場與社會政治、經濟、文化、生活等方方面面的深度融合。新聞輿論工作不僅要做好主流媒體與新興自媒體間的協調聯動,還要做好與人工智能AIGC 大模型之間的協調聯動;不僅要做好面向人的新聞輿論工作,還要做好面向人工智能的新聞輿論工作。由于影響AIGC大模型能力的關鍵因素是內容數據集,且對實際社會經濟生活產生作用的中介也是內容數據,因此面向AIGC 大模型訓練的內容數據集和數據服務建設是新聞輿論工作必須高度重視的陣地。尤其當下美西方國家人工智能巨頭如OpenAI、Meta、Google 等陸續推出的AIGC 大模型,不斷成為各行各業人工智能應用發展的基座,會給我國主流新聞輿論格局帶來諸多風險與挑戰。

首先,AIGC 高仿真內容生成導致虛假新聞泛濫:AIGC 大模型有著高度逼真的內容生成能力,其語言邏輯通順、圖像逼真清晰,會出現捏造答案和偽造事實的現象,且生產和傳播速度極快,導致虛假信息泛濫。如美國媒體機構G/O Media 在旗下的科技網站Gizmodo上,使用谷歌Bard 和OpenAI 的ChatGPT 編寫了一篇有關《星球大戰》的文章,出現了諸多事實錯誤;科大訊飛也因為AI 自動生成關于“涉嫌大量采集用戶隱私數據”“美國正在考慮是否將科大訊飛、美亞柏科等加入制裁名單”的假消息導致股價閃崩。

其次,AIGC 的內容生成機制難以解釋和追溯讓輿論溯源更困難:AIGC 大模型是通過概率模型參數逐字推測來實現內容生成,算法黑盒導致難以解釋和溯源,生成內容具有隨機性和無法復現的問題,缺少時效性和時序性,觀點、事實、知識的來源無法查證,使得真相與虛假雜糅同構[8],對于AIGC 生成的議題設置、輿論觀點、偽事實內容和內容侵權,若無人工審核校驗留痕,都很難進行源頭追溯和傳播追蹤。

人機對話點對點交互方式讓輿論發現和引導更被動:AIGC 大模型通過與人類對話的方式進行交互和內容輸出,輿論引導和傳播從公域轉向了點對點的私域;人工智能在深度學習中對大量用戶敏感數據的交互使用,不僅使人類隱私暴露在人工智能之下,也極大地削弱了政府對數據信息的監管能力。[9]信息傳播的高度個性化和即時性可以更深入地影響用戶的認知,在公域互聯網空間內越來越難掌握到真正公眾對事件的輿情動向、意見看法、信念態度,難以有針對性地進行解讀、引導并促進輿情化解和達成共識。而AIGC大模型是否有正確的引導力完全有賴于大模型訓練和優化所使用的數據集和人工智能訓練專家。

AIGC 的技術霸權屬性讓輿論操控更隱蔽:雖然OpenAI 創始人認為AIGC 人工智能可以幫助人們快速掌握知識,提升能力,讓知識資源更平等地服務于每個人。但實質上AIGC 大模型依賴的是龐大的算力和數據集,在使用過程中又不斷地將人類原創內容和智慧甚至隱私信息吸收到掌握大模型技術和服務的機構中,占據技術創新優勢的美國和西方國家以及有足夠資本支撐大規模算力和數據集生產高昂成本的機構通過技術霸權成為輿論話語權的隱形壟斷者,通過收集個人信息,通過大數據進行群體畫像分析,或許會成為大模型掌控者研究和制定思想滲透策略的重要數據支撐[10],通過AIGC 全方位影響和塑造用戶的知識領域、意識形態和價值判斷,進而形成認知繭房,形成輿論操控的超級中心化。

AIGC 帶有較難扭轉的價值觀和意識形態屬性讓影響輿論更為深遠:AIGC 大模型的訓練方式決定了人工智能不僅學會了自然語言的文法和表述方式,還抽取和學習到了知識、立場、觀點和價值判斷,AIGC 大模型帶來的不僅是信息的傳播,更需要警惕的是帶來了意識形態和價值觀的傳播,AIGC 大模型內在價值觀一旦形成很難完全扭轉和改變,如ChatGPT 的價值觀底色根植于參與該系統設計研發人員的價值觀取向[11],取決于集中體現美西方意識形態和價值觀判斷的書籍、百科、社群討論和網站。而ChatGPT 的迅速流行會使用戶產生依賴進而削弱批判思維的形成和接觸現實的機會,因此缺少自主訓練數據集的大模型廣泛應用必將對我國主流新聞輿論格局造成更大沖擊。

世界各國也都意識到了AIGC 對國家秩序、社會倫理、輿論空間的風險與影響。美國國家標準與技術研究院發布人工智能風險管理框架,美國計算機協會的全球技術政策委員會也發布了《生成式人工智能技術的開發、部署和使用原則》; 意大利個人數據保護局率先封禁了ChatGPT,法國、愛爾蘭、德國等國也躍躍欲試地考慮采取封禁措施,擔憂技術失控的情緒正在全球蔓延。[12]2023 年8 月15 日國家網信辦聯合六部委發布的《生成式人工智能服務管理暫行辦法》正式施行,而這些監管規則有效落地實施,需要一個共性基礎條件,就是面向人工智能的可信訓練數據集和數據服務能力建設。

4.進軍新聞輿論工作新陣地——可信訓練數據集及數據服務

當前我國AIGC 大模型研發風生水起,截至7 月份,已發布通用大模型和行業大模型100 余個,10 億參數規模以上的為79 個,囿于奇高的算力成本和帶有中國主流價值觀和意識形態的高質量訓練數據語料集的缺乏,大多數中國的大模型還是在美西方開源大模型基礎上進一步訓練調整而來,同時西方國家的科研團隊也在抓緊進一步挖掘中文領域訓練數據集的富礦,如:近期Meta 的AIGC 大模型Llama 2 的合作伙伴中包括了中國AI 訓練數據提供商海天瑞聲,并共同發布了超大規模中文對話數據集DOTS-NLP-216。

黨的新聞輿論工作涉及“五個事關”,責任意義重大,中國主流新聞輿論工作者肩負著為大眾提供真實新聞信息、引導和監督輿論的職責,承擔著發揮“輿論壓艙石、社會黏合劑、價值風向標”“構建網上網下一體、內宣外宣聯動的主流輿論格局”的使命。在人工智能發展帶來的風險挑戰和嚴峻形勢下,主流媒體新聞輿論工作者如何“探索將人工智能運用在新聞采集、生產、分發、接收、反饋中,用主流價值導向駕馭‘算法’,全面提高輿論引導能力”,最重要的是充分發揮主流新聞輿論工作者腳力、眼力、腦力、筆力積累,恪守新聞倫理和社會責任的專業素養,把握處于AI 上游通過調查研究接觸現實世界一手資料的優勢地位,面向人工智能AIGC 大模型不僅要做到“守土有責”,做好“把關人”角色,更要做到“開疆擴土”,開辟面向大模型訓練的可信數據集和數據服務新陣地,提供決定大模型核心能力和價值觀的內容供給與知識供給,搶占AIGC 時代輿論引導、思想引領、文化傳承、服務人民的傳播高地。

新聞輿論領域提供的可信訓練數據集與數據服務建設包含三層含義:一是內容數據規范權威真實,二是內容數據可溯源可確權,三是符合主流價值且可審核可糾偏。圍繞這三層含義需開展如下建設內容。

首先,建立AIGC 大模型全生命周期訓練數據集:包含四大類,一是建立高質量規范化數據集和語料集,充分覆蓋主流意識形態和價值觀的規范化表述,包括:高質量書籍,權威解讀,標準問答,新聞事實稿件、述評和調查研究,保證大模型語言、立場、觀點和思維方式的準確性、規范化與專業性;二是建立保證事實與知識準確性的高質量領域知識庫數據集,尤其涉及中國政治、社會、經濟、文化等領域的權威闡述。三是建立內容意識形態安全語料集和主流價值觀語料集,主要有涉及意識形態安全的問題與指令集,問答模板以及評價打分數據集,用于對基礎大模型進行價值觀與意識形態糾偏和對齊;四是建立用于保證AIGC在多場景下生成內容的規范性評估、安全性評估和糾偏數據集,包括:大模型規范性評估、有害內容與敏感內容檢查評估、意識形態糾偏所需的指令集、指令模板、提示詞、打分數據集和問答對數據集。

其次,建立相關審核打分和大模型意識形態與價值觀評價標準規范。大模型訓練數據集建設需要配套相關標準規范,包括基礎訓練數據清洗去重標注規范;知識庫知識框架和審核規范;指令集、指令模板、問答對、提示詞標注標準規范;指令模板和提示詞規范以及一系列人類專家反饋強化學習打分與標簽標準規范;技術倫理、有害內容、敏感內容的分類分級標準規范等。

建立主流大模型人工標注與專家反饋合作服務機制:形成面向大模型的常態化專家訓練合作機制和面向社會提供專家訓練服務的機制,輸出代表中國權威知識內容和主流意識形態的專家智慧。一是組織國際關系、社會科學、新聞傳播等領域的學生和從業者構成主流大模型訓練數據集標注和指令集生成團隊;二是組織各領域學界權威專家、智庫學者和知識內容原創者形成知識庫內容審核團隊,確保知識體系框架正確,內容表述準確完整;三是組織新聞輿論和傳播領域資深專家、智庫學者形成大模型人類反饋強化學習的AI 導師團隊,構建人類反饋強化學習數據集,開展大模型意識形態審核和評估;四是逐步依托主流大模型提供合成數據生成服務,通過主流大模型本身大規模生成主流意識形態訓練數據集,有效彌補領域數據量不足的問題,提升數據集生產和標注效率。

建立動態追蹤和審核大模型意識形態安全服務:形成面向國內外大模型的意識形態安全動態追蹤和審核機制,為即將推出服務和已經開展服務的AIGC 大模型提供上線前內容安全審核評估服務、上線后內容安全追蹤服務,動態收集各類內容安全事件、安全問題、不斷豐富補充主流大模型所需的評估審核數據集,同時有針對性地豐富完善大模型意識形態安全糾偏訓練數據,為大模型的各類商業應用提供內容安全修正和優化服務。

建立適應AIGC 大模型的數據安全、內容追溯和事實核查機制:AIGC 大模型訓練數據集涉及數據源、內容原創者、使用者等多方利益,也存在數據安全、隱私保護和數據真實性問題,需要面向安全可信、隱私保護、版權追溯的需求創新訓練數據集生產和服務的技術手段、平臺工具、加工流程和標準規范,支持多方安全計算和聯邦計算方式,支持安全可控可追溯可確權的人工智能模型訓練需求;形成主流新聞輿論工作者在AIGC 大模型研發、服務、融合應用各環節做好內容安全和事實核查把關人的機制。

結語

新一代人工智能發展趨勢下,我國新聞輿論工作必須將人工智能作為新的輿論主體納入新聞輿論工作流程再造中來,深刻認識人工智能時代新聞輿論工作中“四力”核心競爭力的重要意義,并將其轉化為面向大模型的訓練數據集和內容供給,快速占領AIGC 上游新高地,深度融合到社會經濟運行場景中,一方面充分運用AIGC 技術延伸主流新聞輿論工作效能,推動多元話語體系互動融合,構建新型輿情態勢感知、應對、引導模式;另一方面為AIGC技術倫理約束與技術監管落地提供強有力的內容、機制和服務保證。

猜你喜歡
人工智能內容模型
一半模型
內容回顧溫故知新
科學大眾(2022年11期)2022-06-21 09:20:52
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
2019:人工智能
商界(2019年12期)2019-01-03 06:59:05
人工智能與就業
IT經理世界(2018年20期)2018-10-24 02:38:24
數讀人工智能
小康(2017年16期)2017-06-07 09:00:59
3D打印中的模型分割與打包
下一幕,人工智能!
南風窗(2016年19期)2016-09-21 16:51:29
主要內容
臺聲(2016年2期)2016-09-16 01:06:53
主站蜘蛛池模板: 久久香蕉国产线看观看精品蕉| 人与鲁专区| 色悠久久综合| 好紧太爽了视频免费无码| 色国产视频| 自偷自拍三级全三级视频| 91国内在线观看| 99精品国产自在现线观看| 97在线国产视频| 久操线在视频在线观看| 亚洲91精品视频| 中文字幕在线不卡视频| 婷婷色中文| 欧美伦理一区| 久久综合色88| 熟女视频91| 色香蕉影院| 91蜜芽尤物福利在线观看| 无码专区在线观看| 三级毛片在线播放| 91热爆在线| 婷婷综合在线观看丁香| 精品自窥自偷在线看| 在线观看国产精品第一区免费 | 黄片在线永久| 午夜电影在线观看国产1区| 在线a视频免费观看| 免费jjzz在在线播放国产| 国产丝袜无码精品| 91九色国产porny| 亚洲精品第一页不卡| 国产精品无码AV中文| 亚洲成人一区在线| 国产在线小视频| 国产精品美乳| 性欧美在线| 热伊人99re久久精品最新地| 免费A级毛片无码免费视频| 亚洲人妖在线| 精品色综合| 中文无码伦av中文字幕| 免费看的一级毛片| 国产精品真实对白精彩久久| 免费观看男人免费桶女人视频| 青草娱乐极品免费视频| www.亚洲色图.com| 在线另类稀缺国产呦| 欧美精品亚洲日韩a| 国产一区成人| 秋霞一区二区三区| 日韩黄色精品| 久久天天躁夜夜躁狠狠| 国产欧美精品一区二区| 中文一级毛片| 日韩在线成年视频人网站观看| 欧美精品啪啪一区二区三区| 婷婷亚洲视频| 亚洲天堂视频网| 在线a视频免费观看| 日韩最新中文字幕| 亚洲AⅤ综合在线欧美一区| 色综合五月婷婷| 本亚洲精品网站| 国产成人久久777777| 在线色国产| 91福利在线看| 91欧洲国产日韩在线人成| 亚洲av无码人妻| 亚洲国产综合精品一区| 91美女视频在线| 五月婷婷亚洲综合| 特级欧美视频aaaaaa| 99久久性生片| 久久中文无码精品| 国产精品成人第一区| 无码精品国产VA在线观看DVD| 九九精品在线观看| 亚洲区一区| 亚洲a级在线观看| 青青久在线视频免费观看| 国产色爱av资源综合区| 久久永久免费人妻精品|