段云峰教授：ChatGPT火爆出圈，大模型將改變世界！

責(zé)任編輯：lijing 作者：趙立京 |來源：企業(yè)網(wǎng)D1Net 2023-03-27 15:23:39 原創(chuàng)文章企業(yè)網(wǎng)D1Net

在 ChatGPT 引爆科技圈之后，OpenAI 又出大招，重磅推出多模態(tài)預(yù)訓(xùn)練大模型 GPT-4，號稱史上最先進(jìn)的 AI 系統(tǒng)。微軟更是將 GPT-4 全面接入 Office 全家桶，人人都可以用人工智能自動(dòng)生成文檔、電子郵件、演示文稿。

其實(shí)，不管是ChatGPT ，還是GPT-4，其背后都依賴大模型。據(jù)悉，AI 模型的參數(shù)量已經(jīng)在短短幾年內(nèi)從最初的數(shù)億擴(kuò)張到千億，甚至萬億規(guī)模。那么這些大模型的背后涉及了哪些技術(shù)?給我們帶來了哪些啟發(fā)?又面臨哪些挑戰(zhàn)?是否可以賦能某些行業(yè)?圍繞這些問題，中國移動(dòng)大數(shù)據(jù)總架構(gòu)師，北京大學(xué)博士后段云峰教授，在日前召開的“2023北京部委央企及大型企業(yè)CIO年會(huì)(春季)”大會(huì)上，對大模型技術(shù)和ChatGPT 的應(yīng)用和展望進(jìn)行了深入淺出的闡述。

中國移動(dòng)大數(shù)據(jù)總架構(gòu)師，北京大學(xué)博士后段云峰教授

大模型和ChatGPT是什么?

段云峰教授首先從大模型的基礎(chǔ)理論知識(shí)開始講起。AI大模型就是Foundation Model(基礎(chǔ)模型)，指通過在大規(guī)模寬泛的數(shù)據(jù)上進(jìn)行訓(xùn)練后能適應(yīng)一系列下游任務(wù)的模型。谷歌于2018年10月發(fā)布的BERT模型是最為典型的基礎(chǔ)模型，它利用BooksCorpus和英文維基百科里純文字的部分，無須標(biāo)注數(shù)據(jù)，用設(shè)計(jì)的兩個(gè)自監(jiān)督任務(wù)來做訓(xùn)練，訓(xùn)練好的模型通過微調(diào)在11個(gè)下游任務(wù)上實(shí)現(xiàn)最佳性能。

從參數(shù)規(guī)模上看，AI 大模型先后經(jīng)歷了預(yù)訓(xùn)練模型、大規(guī)模預(yù)訓(xùn)練模型、超大規(guī)模預(yù)訓(xùn)練模型三個(gè)階段，參數(shù)量實(shí)現(xiàn)了從億級到百萬億級的突破。從模態(tài)支持上看， AI 大模型從支持圖片、圖像、文本、語音單一模態(tài)下的單一任務(wù)，逐漸發(fā)展為支持多種模態(tài)下的多種任務(wù)。

OpenAI在2020年5月發(fā)布的GPT-3則是一個(gè)自回歸語言模型，具有1750億參數(shù)，在互聯(lián)網(wǎng)文本數(shù)據(jù)上訓(xùn)練得到的這一基礎(chǔ)模型，可以使用提示的例子完成各式各樣的任務(wù)，這類模型正在成為主流的AI范式。

ChatGPT就是OpenAI在2022年11月30日發(fā)布的人工智能技術(shù)驅(qū)動(dòng)的自然語言處理工具，它能夠通過理解和學(xué)習(xí)人類的語言來進(jìn)行對話，還能根據(jù)聊天的上下文進(jìn)行互動(dòng)，真正像人類一樣來聊天交流，甚至能完成撰寫郵件、視頻腳本、文案、翻譯、代碼，寫論文等任務(wù)。

GPT發(fā)展史

基于文本預(yù)訓(xùn)練的GPT-1，GPT-2，GPT-3三代模型都采用以Transformer為核心結(jié)構(gòu)的模型，主要的不同在于參數(shù)方面。而ChatGPT則在此基礎(chǔ)上，增加了人工強(qiáng)化學(xué)習(xí)的反饋(RLHF)。

具體來說，GPT-1是在無標(biāo)注的文本語料中進(jìn)行生成式預(yù)訓(xùn)練，然后進(jìn)行判別式微調(diào)，在具體的任務(wù)場景上獲得能力的提升。GPT-2相對于GPT-1，模型結(jié)構(gòu)并沒有做大的調(diào)整，只是使用了更多參數(shù)的模型和更多的訓(xùn)練數(shù)據(jù)。GPT-2的誕生說明當(dāng)一個(gè)大型語言模型在足夠大的多樣化數(shù)據(jù)集上進(jìn)行無監(jiān)督訓(xùn)練，就能在很多領(lǐng)域數(shù)據(jù)集上執(zhí)行任務(wù)。

基于上述結(jié)論，GPT-3加大了參數(shù)的量，擁有1750億。GPT-3除了能完成常見的NLP任務(wù)外，研究者意外發(fā)現(xiàn)GPT-3在寫SQL，JavaScript等語言的代碼時(shí)，可以進(jìn)行簡單的數(shù)學(xué)運(yùn)算。GPT-3的基本訓(xùn)練方法，包括模型，數(shù)據(jù)，訓(xùn)練都類似于GPT-2。

由此可見GPT系列模型的演進(jìn)主要是參數(shù)的增大、數(shù)據(jù)量及其多樣性的增加。這個(gè)預(yù)測和實(shí)驗(yàn)結(jié)果，帶來了良好的效果，但仍然達(dá)不到使用的預(yù)期，于是，研究者又在此基礎(chǔ)上，利用人工反饋的強(qiáng)化學(xué)習(xí)方法來對體系進(jìn)行優(yōu)化。

3月14日發(fā)布的GPT-4又有了很大的突破，除了性能提升之外，GPT-4還增添了一項(xiàng)新功能，識(shí)別圖像。這個(gè)新功能表示GPT-4已經(jīng)實(shí)現(xiàn)圖像和文字同時(shí)處理的多模態(tài)能力，有專家預(yù)測，未來會(huì)出現(xiàn)文字、圖像、音頻和視頻等所有數(shù)據(jù)統(tǒng)一處理的新變革。

不光是性能提升和圖像識(shí)別，GPT-4的整個(gè)訓(xùn)練和運(yùn)行都有一項(xiàng)技術(shù)作為支持，這個(gè)技術(shù)就是數(shù)據(jù)標(biāo)記化(Token)。Token的原理如下：用戶的問題輸入，無論是文字還是圖像，首先會(huì)被轉(zhuǎn)化為一個(gè)向量，然后以Token的形式輸入到ChatGPT的神經(jīng)網(wǎng)絡(luò)中。該網(wǎng)絡(luò)對輸入進(jìn)行一系列的計(jì)算和轉(zhuǎn)換后，生成Token，并形成相應(yīng)的輸出向量，輸出向量被轉(zhuǎn)化成文本，用以回答用戶的提問。所以，Token就是用戶輸入和GPT接收之間的一種介質(zhì)。

ChatGPT使用來自人類反饋的強(qiáng)化學(xué)習(xí)進(jìn)行訓(xùn)練，這種方法通過人類干預(yù)來增強(qiáng)機(jī)器學(xué)習(xí)以獲得更好的效果。在訓(xùn)練過程中，人類訓(xùn)練者扮演著用戶和人工智能助手的角色，并通過近端策略優(yōu)化算法進(jìn)行微調(diào)。

“2023年一月末，ChatGPT的月活用戶已突破1億，成為史上增長最快的消費(fèi)者應(yīng)用。截止2023年1月，美國89%的大學(xué)生都是用ChatGPT做作業(yè)。” 段云峰教授表示。

ChatGPT將影響哪些行業(yè)?

作為生成式 AI 的特定實(shí)現(xiàn)，ChatGPT將對諸多行業(yè)帶來深刻影響。

Resumebuilder.com調(diào)查了1000名計(jì)劃使用或已經(jīng)使用ChatGPT的企業(yè)領(lǐng)導(dǎo)人，發(fā)現(xiàn)近半數(shù)企業(yè)部署了ChatGPT，部分企業(yè)還表示已經(jīng)開始用ChatGPT取代員工。關(guān)于ChatGPT的用途，企業(yè)高管們表示，其中66%用于寫代碼，58%用于文案和內(nèi)容創(chuàng)作，57%用于客戶支持，52%用于寫會(huì)議摘要和其它文檔。在招聘過程中，使用 ChatGPT的企業(yè)還有77%用它撰寫工作職位描述、66%用它起草面試申請書，65%用它撰寫回應(yīng)求職書。大部分企業(yè)領(lǐng)導(dǎo)人對 ChatGPT的表現(xiàn)印象深刻，55%的人認(rèn)為工作質(zhì)量“出色”，34%的人認(rèn)為“非常好”。幾乎所有使用ChatGPT的公司表示節(jié)省了資金，48%表示節(jié)省逾50,000 美元，11%表示節(jié)省逾100,000 美元。這些企業(yè)中93%還計(jì)劃擴(kuò)大對ChatGPT的使用。

段云峰教授在演講中還提到了ChatGPT對戰(zhàn)爭的影響，他表示，在參與認(rèn)知作戰(zhàn)、引導(dǎo)輿論走向，輔助軍事決策、提升作戰(zhàn)效率，自主編寫程序代碼、實(shí)施網(wǎng)絡(luò)攻防戰(zhàn)等方面，人工智能將改變21世紀(jì)的戰(zhàn)爭形態(tài)。

近日，創(chuàng)新工場董事長兼首席執(zhí)行官、創(chuàng)新工場人工智能工程院院長李開復(fù)指出，AI 2.0將會(huì)帶來平臺(tái)式的變革，改寫用戶的入口和界面，誕生全新平臺(tái)，催生新一代AI 2.0應(yīng)用的研發(fā)和商業(yè)化。總的來說，AI 2.0將是提升21世紀(jì)整體社會(huì)生產(chǎn)力最為重要的賦能技術(shù)。

點(diǎn)燃算力基礎(chǔ)設(shè)施需求

在ChatGPT熱度不減的背后，人工智能內(nèi)容自動(dòng)生成技術(shù)所需要的算力需求也水漲船高。數(shù)據(jù)顯示，ChatGPT的總算力消耗約為3640PF-days(即假如每秒計(jì)算一千萬億次，需要計(jì)算3640天)，需要7~8個(gè)投資規(guī)模30億、算力500P的數(shù)據(jù)中心才能支撐運(yùn)行。據(jù)段云鋒介紹，2020年5月，微軟在Azure上為OpenAI搭建了獨(dú)立的超級計(jì)算機(jī)系統(tǒng)，包含28.5萬個(gè)CPU核和1萬張GPU卡(當(dāng)時(shí)為V100)。英偉達(dá)在2021年4月，使用1024張80G顯存的A100卡訓(xùn)練1750億參數(shù)的GPT-3模型，需要訓(xùn)練34天。段云峰教授指出，算力網(wǎng)絡(luò)是一種根據(jù)業(yè)務(wù)需求，在云、網(wǎng)、邊之間按需分配和靈活調(diào)度計(jì)算資源、存儲(chǔ)資源以及網(wǎng)絡(luò)資源的新型信息基礎(chǔ)設(shè)施。由此可見，ChatGPT用戶數(shù)快速增長，從應(yīng)用到算力，將點(diǎn)燃基礎(chǔ)設(shè)施需求。ChatGPT引領(lǐng)AI發(fā)展大潮，背后需要算力的快速提升，算力行業(yè)的發(fā)展已經(jīng)是大勢所趨，AI服務(wù)器、AI芯片等領(lǐng)域?qū)⒂瓉碇匾陌l(fā)展機(jī)遇。

為什么所有公開的對 GPT-3 的復(fù)現(xiàn)都失敗了?

這里的 “失敗”，是指訓(xùn)練得出模型有接近GPT-3或者更大的參數(shù)量，但仍無法與GPT-3原始文獻(xiàn)中報(bào)告的性能所匹配。在這一標(biāo)準(zhǔn)下，GPT-3和PaLM是 “成功” 的，但這兩個(gè)模型都不是公開的。而所有的公開模型(例如：OPT-175B 和 BLOOM-176B)都在一定程度上 “失敗” 了。

值得注意的是，假如能夠多次嘗試各種不同的訓(xùn)練設(shè)置，開源社區(qū)可能最終可以復(fù)現(xiàn) GPT-3。但截至目前，訓(xùn)練另一個(gè)版本OPT-175B 的開銷仍然太過高昂--對于如此大規(guī)模的模型，一次訓(xùn)練就將需要在約1000 個(gè)80G A100 GPU上花費(fèi)至少2個(gè)月的時(shí)間(數(shù)據(jù)來自于OPT的原始文獻(xiàn))。

關(guān)于復(fù)現(xiàn)失敗的原因，段云鋒表示大致可以從預(yù)訓(xùn)練數(shù)據(jù)和訓(xùn)練策略兩個(gè)方面來看。

首先在預(yù)訓(xùn)練數(shù)據(jù)方面，GPT-3在共計(jì)300B的Token上進(jìn)行訓(xùn)練，其中 60% 來自經(jīng)過篩選的Common Crawl，其它則來自：webtext2(用于訓(xùn)練 GPT-2 的語料庫)，Books1，Books2 和維基百科。OPT-175B所使用的Pile語料庫聲稱有著更好的多樣性，但BLOOM 采用的ROOTS語料庫則有太多的已經(jīng)存在的學(xué)術(shù)數(shù)據(jù)集，缺乏Common Crawl數(shù)據(jù)所包含的多樣性，這可能導(dǎo)致BLOOM性能更差。作為對比，GPT-3來自Common Crawl語料的占比要高得多，且來自廣泛領(lǐng)域，這也可能是GPT-3能夠作為首個(gè)通用聊天機(jī)器人 ChatGPT的基礎(chǔ)模型的原因之一。

訓(xùn)練策略包括訓(xùn)練框架、訓(xùn)練持續(xù)時(shí)間、模型架構(gòu)/訓(xùn)練設(shè)置、訓(xùn)練過程中的修改。在訓(xùn)練非常大的模型時(shí)，它們被用于獲得更好的穩(wěn)定性和收斂性。一個(gè)參數(shù)量大于175B的模型往往需要ZeRO式的數(shù)據(jù)并行(分布式的優(yōu)化器)和模型并行(包括張量并行、流水線并行，有時(shí)還包括序列并行)。OPT使用了ReLU激活函數(shù)，而PaLM使用SwiGLU激活函數(shù)，GPT-3和BLOOM使用GeLU，它通常使得訓(xùn)練的LLM的性能更好。

ChatGPT將在五類任務(wù)中大放異彩

段云峰教授認(rèn)為可以在以下五類任務(wù)中使用GPT-3.5或ChatGPT。首先是創(chuàng)造性和復(fù)雜的任務(wù)：包括代碼(代碼補(bǔ)全、自然語言指令生成代碼、代碼翻譯、bug 修復(fù))、文本摘要、翻譯、創(chuàng)造性寫作(例如寫故事、文章、郵件、報(bào)告，以及寫作的改進(jìn)等)。第二類是只有少數(shù)標(biāo)注或者沒有標(biāo)注數(shù)據(jù)的任務(wù)。正如原始的GPT-3文獻(xiàn)所說，GPT-3是為了那些 “昂貴標(biāo)注” 的任務(wù)設(shè)計(jì)的。在這種情況下，用極少量標(biāo)注數(shù)據(jù)微調(diào)一個(gè)更小的模型通常不可能達(dá)到GPT-3在零樣本(zero-shot)、單樣本(ont-shot)或少樣本(few-shot)的情況下的表現(xiàn)。第三類是分布外泛化(Out-of-distribution, OOD)。給定一些訓(xùn)練數(shù)據(jù)，傳統(tǒng)的微調(diào)可能會(huì)過擬合訓(xùn)練集并且有較差的分布外泛化能力;而少樣本的上下文學(xué)習(xí)(in-context learning)能夠有更好的分布外泛化性。例如，帶有提示的 PaLM 能夠在對抗自然語言推斷任務(wù)(Adversarial Natural Language Inference，ANLI)上超越經(jīng)過微調(diào)的 SOTA 模型，而它在正常的語言推斷任務(wù)上可能仍然劣于微調(diào)的 SOTA。第四類是需要處理多種任務(wù)的能力，而非關(guān)注特定任務(wù)上的卓越表現(xiàn)。聊天機(jī)器人就是這樣一種場景。第五類是那些檢索不可行的知識(shí)密集型任務(wù)。

大模型未來將有效幫助優(yōu)化傳統(tǒng)數(shù)據(jù)分析模型，從機(jī)器學(xué)習(xí)升級深度學(xué)習(xí)，帶動(dòng)“從NLP改良客戶服務(wù)”、“數(shù)字人改變營銷和服務(wù)”等新藍(lán)海。同時(shí)，MAAS(模型即服務(wù))將成為可能。此外，他認(rèn)為元宇宙與生成式模型相輔相成、技術(shù)互相促進(jìn)，那些能夠以元宇宙為線上化服務(wù)入口的行業(yè)，將在元宇宙中進(jìn)行場景融合，而ChatGPT能助力元宇宙場景生成與智能交互，這將改寫電商營銷模式。

結(jié)語

當(dāng)然，打造大模型并非易事，需要消耗龐大的數(shù)據(jù)、算力、算法等各種軟硬件資源。段云峰教授指出：大模型尚缺乏統(tǒng)一的評價(jià)標(biāo)準(zhǔn)和模塊化流程，創(chuàng)新力度不足，落地應(yīng)用緩慢。此外，結(jié)構(gòu)化數(shù)據(jù)如何用大模型、如何積累非結(jié)構(gòu)化數(shù)據(jù)、大模型如何驅(qū)動(dòng)組織變革、大模型能否驅(qū)動(dòng)企業(yè)“自動(dòng)駕駛”等等都是需要思考的問題。

關(guān)于企業(yè)網(wǎng)D1net(hfnxjk.com)：

國內(nèi)主流的to B IT門戶，同時(shí)在運(yùn)營國內(nèi)最大的甲方CIO專家?guī)旌椭橇敵黾吧缃黄脚_(tái)-信眾智(www.cioall.com)。同時(shí)運(yùn)營18個(gè)IT行業(yè)公眾號(微信搜索D1net即可關(guān)注)。

關(guān)鍵字：ChatGPT 大模型段云峰