精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

當(dāng)前位置:人工智能專家觀點(diǎn) → 正文

段云峰教授:ChatGPT火爆出圈,大模型將改變世界!

責(zé)任編輯:lijing 作者:趙立京 |來源:企業(yè)網(wǎng)D1Net  2023-03-27 15:23:39 原創(chuàng)文章 企業(yè)網(wǎng)D1Net

在 ChatGPT 引爆科技圈之后,OpenAI 又出大招,重磅推出多模態(tài)預(yù)訓(xùn)練大模型 GPT-4,號稱史上最先進(jìn)的 AI 系統(tǒng)。微軟更是將 GPT-4 全面接入 Office 全家桶,人人都可以用人工智能自動(dòng)生成文檔、電子郵件、演示文稿。

其實(shí),不管是ChatGPT ,還是GPT-4,其背后都依賴大模型。據(jù)悉,AI 模型的參數(shù)量已經(jīng)在短短幾年內(nèi)從最初的數(shù)億擴(kuò)張到千億,甚至萬億規(guī)模。那么這些大模型的背后涉及了哪些技術(shù)?給我們帶來了哪些啟發(fā)?又面臨哪些挑戰(zhàn)?是否可以賦能某些行業(yè)?圍繞這些問題,中國移動(dòng)大數(shù)據(jù)總架構(gòu)師,北京大學(xué)博士后段云峰教授,在日前召開的“2023北京部委央企及大型企業(yè)CIO年會(huì)(春季)”大會(huì)上,對大模型技術(shù)和ChatGPT 的應(yīng)用和展望進(jìn)行了深入淺出的闡述。

中國移動(dòng)大數(shù)據(jù)總架構(gòu)師,北京大學(xué)博士后段云峰教授

大模型和ChatGPT是什么?

段云峰教授首先從大模型的基礎(chǔ)理論知識(shí)開始講起。AI大模型就是Foundation Model(基礎(chǔ)模型),指通過在大規(guī)模寬泛的數(shù)據(jù)上進(jìn)行訓(xùn)練后能適應(yīng)一系列下游任務(wù)的模型。谷歌于2018年10月發(fā)布的BERT模型是最為典型的基礎(chǔ)模型,它利用BooksCorpus和英文維基百科里純文字的部分,無須標(biāo)注數(shù)據(jù),用設(shè)計(jì)的兩個(gè)自監(jiān)督任務(wù)來做訓(xùn)練,訓(xùn)練好的模型通過微調(diào)在11個(gè)下游任務(wù)上實(shí)現(xiàn)最佳性能。

從參數(shù)規(guī)模上看,AI 大模型先后經(jīng)歷了預(yù)訓(xùn)練模型、大規(guī)模預(yù)訓(xùn)練模型、超大規(guī)模預(yù)訓(xùn)練模型三個(gè)階段,參數(shù)量實(shí)現(xiàn)了從億級到百萬億級的突破。從模態(tài)支持上看, AI 大模型從支持圖片、圖像、文本、語音單一模態(tài)下的單一任務(wù),逐漸發(fā)展為支持多種模態(tài)下的多種任務(wù)。

OpenAI在2020年5月發(fā)布的GPT-3則是一個(gè)自回歸語言模型,具有1750億參數(shù),在互聯(lián)網(wǎng)文本數(shù)據(jù)上訓(xùn)練得到的這一基礎(chǔ)模型,可以使用提示的例子完成各式各樣的任務(wù),這類模型正在成為主流的AI范式。

ChatGPT就是OpenAI在2022年11月30日發(fā)布的人工智能技術(shù)驅(qū)動(dòng)的自然語言處理工具,它能夠通過理解和學(xué)習(xí)人類的語言來進(jìn)行對話,還能根據(jù)聊天的上下文進(jìn)行互動(dòng),真正像人類一樣來聊天交流,甚至能完成撰寫郵件、視頻腳本、文案、翻譯、代碼,寫論文等任務(wù)。

GPT發(fā)展史

基于文本預(yù)訓(xùn)練的GPT-1,GPT-2,GPT-3三代模型都采用以Transformer為核心結(jié)構(gòu)的模型,主要的不同在于參數(shù)方面。而ChatGPT則在此基礎(chǔ)上,增加了人工強(qiáng)化學(xué)習(xí)的反饋(RLHF)。

具體來說,GPT-1是在無標(biāo)注的文本語料中進(jìn)行生成式預(yù)訓(xùn)練,然后進(jìn)行判別式微調(diào),在具體的任務(wù)場景上獲得能力的提升。GPT-2相對于GPT-1,模型結(jié)構(gòu)并沒有做大的調(diào)整,只是使用了更多參數(shù)的模型和更多的訓(xùn)練數(shù)據(jù)。GPT-2的誕生說明當(dāng)一個(gè)大型語言模型在足夠大的多樣化數(shù)據(jù)集上進(jìn)行無監(jiān)督訓(xùn)練,就能在很多領(lǐng)域數(shù)據(jù)集上執(zhí)行任務(wù)。

基于上述結(jié)論,GPT-3加大了參數(shù)的量,擁有1750億。GPT-3除了能完成常見的NLP任務(wù)外,研究者意外發(fā)現(xiàn)GPT-3在寫SQL,JavaScript等語言的代碼時(shí),可以進(jìn)行簡單的數(shù)學(xué)運(yùn)算。GPT-3的基本訓(xùn)練方法,包括模型,數(shù)據(jù),訓(xùn)練都類似于GPT-2。

由此可見GPT系列模型的演進(jìn)主要是參數(shù)的增大、數(shù)據(jù)量及其多樣性的增加。這個(gè)預(yù)測和實(shí)驗(yàn)結(jié)果,帶來了良好的效果,但仍然達(dá)不到使用的預(yù)期,于是,研究者又在此基礎(chǔ)上,利用人工反饋的強(qiáng)化學(xué)習(xí)方法來對體系進(jìn)行優(yōu)化。

3月14日發(fā)布的GPT-4又有了很大的突破,除了性能提升之外,GPT-4還增添了一項(xiàng)新功能,識(shí)別圖像。這個(gè)新功能表示GPT-4已經(jīng)實(shí)現(xiàn)圖像和文字同時(shí)處理的多模態(tài)能力,有專家預(yù)測,未來會(huì)出現(xiàn)文字、圖像、音頻和視頻等所有數(shù)據(jù)統(tǒng)一處理的新變革。

不光是性能提升和圖像識(shí)別,GPT-4的整個(gè)訓(xùn)練和運(yùn)行都有一項(xiàng)技術(shù)作為支持,這個(gè)技術(shù)就是數(shù)據(jù)標(biāo)記化(Token)。Token的原理如下:用戶的問題輸入,無論是文字還是圖像,首先會(huì)被轉(zhuǎn)化為一個(gè)向量,然后以Token的形式輸入到ChatGPT的神經(jīng)網(wǎng)絡(luò)中。該網(wǎng)絡(luò)對輸入進(jìn)行一系列的計(jì)算和轉(zhuǎn)換后,生成Token,并形成相應(yīng)的輸出向量,輸出向量被轉(zhuǎn)化成文本,用以回答用戶的提問。所以,Token就是用戶輸入和GPT接收之間的一種介質(zhì)。

ChatGPT使用來自人類反饋的強(qiáng)化學(xué)習(xí)進(jìn)行訓(xùn)練,這種方法通過人類干預(yù)來增強(qiáng)機(jī)器學(xué)習(xí)以獲得更好的效果。在訓(xùn)練過程中,人類訓(xùn)練者扮演著用戶和人工智能助手的角色,并通過近端策略優(yōu)化算法進(jìn)行微調(diào)。

“2023年一月末,ChatGPT的月活用戶已突破1億,成為史上增長最快的消費(fèi)者應(yīng)用。截止2023年1月,美國89%的大學(xué)生都是用ChatGPT做作業(yè)。” 段云峰教授表示。

ChatGPT將影響哪些行業(yè)?

作為生成式 AI 的特定實(shí)現(xiàn),ChatGPT將對諸多行業(yè)帶來深刻影響。

Resumebuilder.com調(diào)查了1000名計(jì)劃使用或已經(jīng)使用ChatGPT的企業(yè)領(lǐng)導(dǎo)人,發(fā)現(xiàn)近半數(shù)企業(yè)部署了ChatGPT,部分企業(yè)還表示已經(jīng)開始用ChatGPT取代員工。關(guān)于ChatGPT的用途,企業(yè)高管們表示,其中66%用于寫代碼,58%用于文案和內(nèi)容創(chuàng)作,57%用于客戶支持,52%用于寫會(huì)議摘要和其它文檔。在招聘過程中,使用 ChatGPT的企業(yè)還有77%用它撰寫工作職位描述、66%用它起草面試申請書,65%用它撰寫回應(yīng)求職書。大部分企業(yè)領(lǐng)導(dǎo)人對 ChatGPT的表現(xiàn)印象深刻,55%的人認(rèn)為工作質(zhì)量“出色”,34%的人認(rèn)為“非常好”。幾乎所有使用ChatGPT的公司表示節(jié)省了資金,48%表示節(jié)省逾50,000 美元,11%表示節(jié)省逾100,000 美元。這些企業(yè)中93%還計(jì)劃擴(kuò)大對ChatGPT的使用。

段云峰教授在演講中還提到了ChatGPT對戰(zhàn)爭的影響,他表示,在參與認(rèn)知作戰(zhàn)、引導(dǎo)輿論走向,輔助軍事決策、提升作戰(zhàn)效率,自主編寫程序代碼、實(shí)施網(wǎng)絡(luò)攻防戰(zhàn)等方面,人工智能將改變21世紀(jì)的戰(zhàn)爭形態(tài)。

近日,創(chuàng)新工場董事長兼首席執(zhí)行官、創(chuàng)新工場人工智能工程院院長李開復(fù)指出,AI 2.0將會(huì)帶來平臺(tái)式的變革,改寫用戶的入口和界面,誕生全新平臺(tái),催生新一代AI 2.0應(yīng)用的研發(fā)和商業(yè)化。總的來說,AI 2.0將是提升21世紀(jì)整體社會(huì)生產(chǎn)力最為重要的賦能技術(shù)。

點(diǎn)燃算力基礎(chǔ)設(shè)施需求

在ChatGPT熱度不減的背后,人工智能內(nèi)容自動(dòng)生成技術(shù)所需要的算力需求也水漲船高。數(shù)據(jù)顯示,ChatGPT的總算力消耗約為3640PF-days(即假如每秒計(jì)算一千萬億次,需要計(jì)算3640天),需要7~8個(gè)投資規(guī)模30億、算力500P的數(shù)據(jù)中心才能支撐運(yùn)行。據(jù)段云鋒介紹,2020年5月,微軟在Azure上為OpenAI搭建了獨(dú)立的超級計(jì)算機(jī)系統(tǒng),包含28.5萬個(gè)CPU核和1萬張GPU卡(當(dāng)時(shí)為V100)。英偉達(dá)在2021年4月,使用1024張80G顯存的A100卡訓(xùn)練1750億參數(shù)的GPT-3模型,需要訓(xùn)練34天。段云峰教授指出,算力網(wǎng)絡(luò)是一種根據(jù)業(yè)務(wù)需求,在云、網(wǎng)、邊之間按需分配和靈活調(diào)度計(jì)算資源、存儲(chǔ)資源以及網(wǎng)絡(luò)資源的新型信息基礎(chǔ)設(shè)施。由此可見,ChatGPT用戶數(shù)快速增長,從應(yīng)用到算力,將點(diǎn)燃基礎(chǔ)設(shè)施需求。ChatGPT引領(lǐng)AI發(fā)展大潮,背后需要算力的快速提升,算力行業(yè)的發(fā)展已經(jīng)是大勢所趨,AI服務(wù)器、AI芯片等領(lǐng)域?qū)⒂瓉碇匾陌l(fā)展機(jī)遇。

為什么所有公開的對 GPT-3 的復(fù)現(xiàn)都失敗了?

這里的 “失敗”,是指訓(xùn)練得出模型有接近GPT-3或者更大的參數(shù)量,但仍無法與GPT-3原始文獻(xiàn)中報(bào)告的性能所匹配。在這一標(biāo)準(zhǔn)下,GPT-3和PaLM是 “成功” 的,但這兩個(gè)模型都不是公開的。而所有的公開模型(例如:OPT-175B 和 BLOOM-176B)都在一定程度上 “失敗” 了。

值得注意的是,假如能夠多次嘗試各種不同的訓(xùn)練設(shè)置,開源社區(qū)可能最終可以復(fù)現(xiàn) GPT-3。但截至目前,訓(xùn)練另一個(gè)版本OPT-175B 的開銷仍然太過高昂--對于如此大規(guī)模的模型,一次訓(xùn)練就將需要在約1000 個(gè)80G A100 GPU上花費(fèi)至少2個(gè)月的時(shí)間(數(shù)據(jù)來自于OPT的原始文獻(xiàn))。

關(guān)于復(fù)現(xiàn)失敗的原因,段云鋒表示大致可以從預(yù)訓(xùn)練數(shù)據(jù)和訓(xùn)練策略兩個(gè)方面來看。

首先在預(yù)訓(xùn)練數(shù)據(jù)方面,GPT-3在共計(jì)300B的Token上進(jìn)行訓(xùn)練,其中 60% 來自經(jīng)過篩選的Common Crawl,其它則來自:webtext2(用于訓(xùn)練 GPT-2 的語料庫),Books1,Books2 和維基百科。OPT-175B所使用的Pile語料庫聲稱有著更好的多樣性,但BLOOM 采用的ROOTS語料庫則有太多的已經(jīng)存在的學(xué)術(shù)數(shù)據(jù)集,缺乏Common Crawl數(shù)據(jù)所包含的多樣性,這可能導(dǎo)致BLOOM性能更差。作為對比,GPT-3來自Common Crawl語料的占比要高得多,且來自廣泛領(lǐng)域,這也可能是GPT-3能夠作為首個(gè)通用聊天機(jī)器人 ChatGPT的基礎(chǔ)模型的原因之一。

訓(xùn)練策略包括訓(xùn)練框架、訓(xùn)練持續(xù)時(shí)間、模型架構(gòu)/訓(xùn)練設(shè)置、訓(xùn)練過程中的修改。在訓(xùn)練非常大的模型時(shí),它們被用于獲得更好的穩(wěn)定性和收斂性。一個(gè)參數(shù)量大于175B的模型往往需要ZeRO式的數(shù)據(jù)并行(分布式的優(yōu)化器)和模型并行(包括張量并行、流水線并行,有時(shí)還包括序列并行)。OPT使用了ReLU激活函數(shù),而PaLM使用SwiGLU激活函數(shù),GPT-3和BLOOM使用GeLU,它通常使得訓(xùn)練的LLM的性能更好。

ChatGPT將在五類任務(wù)中大放異彩

段云峰教授認(rèn)為可以在以下五類任務(wù)中使用GPT-3.5或ChatGPT。首先是創(chuàng)造性和復(fù)雜的任務(wù):包括代碼(代碼補(bǔ)全、自然語言指令生成代碼、代碼翻譯、bug 修復(fù))、文本摘要、翻譯、創(chuàng)造性寫作(例如寫故事、文章、郵件、報(bào)告,以及寫作的改進(jìn)等)。第二類是只有少數(shù)標(biāo)注或者沒有標(biāo)注數(shù)據(jù)的任務(wù)。正如原始的GPT-3文獻(xiàn)所說,GPT-3是為了那些 “昂貴標(biāo)注” 的任務(wù)設(shè)計(jì)的。在這種情況下,用極少量標(biāo)注數(shù)據(jù)微調(diào)一個(gè)更小的模型通常不可能達(dá)到GPT-3在零樣本(zero-shot)、單樣本(ont-shot)或少樣本(few-shot)的情況下的表現(xiàn)。第三類是分布外泛化(Out-of-distribution, OOD)。給定一些訓(xùn)練數(shù)據(jù),傳統(tǒng)的微調(diào)可能會(huì)過擬合訓(xùn)練集并且有較差的分布外泛化能力;而少樣本的上下文學(xué)習(xí)(in-context learning)能夠有更好的分布外泛化性。例如,帶有提示的 PaLM 能夠在對抗自然語言推斷任務(wù)(Adversarial Natural Language Inference,ANLI)上超越經(jīng)過微調(diào)的 SOTA 模型,而它在正常的語言推斷任務(wù)上可能仍然劣于微調(diào)的 SOTA。第四類是需要處理多種任務(wù)的能力,而非關(guān)注特定任務(wù)上的卓越表現(xiàn)。聊天機(jī)器人就是這樣一種場景。第五類是那些檢索不可行的知識(shí)密集型任務(wù)。

大模型未來將有效幫助優(yōu)化傳統(tǒng)數(shù)據(jù)分析模型,從機(jī)器學(xué)習(xí)升級深度學(xué)習(xí),帶動(dòng)“從NLP改良客戶服務(wù)”、“數(shù)字人改變營銷和服務(wù)”等新藍(lán)海。同時(shí),MAAS(模型即服務(wù))將成為可能。此外,他認(rèn)為元宇宙與生成式模型相輔相成、技術(shù)互相促進(jìn),那些能夠以元宇宙為線上化服務(wù)入口的行業(yè),將在元宇宙中進(jìn)行場景融合,而ChatGPT能助力元宇宙場景生成與智能交互,這將改寫電商營銷模式。

結(jié)語

當(dāng)然,打造大模型并非易事,需要消耗龐大的數(shù)據(jù)、算力、算法等各種軟硬件資源。段云峰教授指出:大模型尚缺乏統(tǒng)一的評價(jià)標(biāo)準(zhǔn)和模塊化流程,創(chuàng)新力度不足,落地應(yīng)用緩慢。此外,結(jié)構(gòu)化數(shù)據(jù)如何用大模型、如何積累非結(jié)構(gòu)化數(shù)據(jù)、大模型如何驅(qū)動(dòng)組織變革、大模型能否驅(qū)動(dòng)企業(yè)“自動(dòng)駕駛”等等都是需要思考的問題。

關(guān)于企業(yè)網(wǎng)D1net(hfnxjk.com):

國內(nèi)主流的to B IT門戶,同時(shí)在運(yùn)營國內(nèi)最大的甲方CIO專家?guī)旌椭橇敵黾吧缃黄脚_(tái)-信眾智(www.cioall.com)。同時(shí)運(yùn)營18個(gè)IT行業(yè)公眾號(微信搜索D1net即可關(guān)注)。

關(guān)鍵字:ChatGPT大模型段云峰

原創(chuàng)文章 企業(yè)網(wǎng)D1Net

x 段云峰教授:ChatGPT火爆出圈,大模型將改變世界! 掃一掃
分享本文到朋友圈
當(dāng)前位置:人工智能專家觀點(diǎn) → 正文

段云峰教授:ChatGPT火爆出圈,大模型將改變世界!

責(zé)任編輯:lijing 作者:趙立京 |來源:企業(yè)網(wǎng)D1Net  2023-03-27 15:23:39 原創(chuàng)文章 企業(yè)網(wǎng)D1Net

在 ChatGPT 引爆科技圈之后,OpenAI 又出大招,重磅推出多模態(tài)預(yù)訓(xùn)練大模型 GPT-4,號稱史上最先進(jìn)的 AI 系統(tǒng)。微軟更是將 GPT-4 全面接入 Office 全家桶,人人都可以用人工智能自動(dòng)生成文檔、電子郵件、演示文稿。

其實(shí),不管是ChatGPT ,還是GPT-4,其背后都依賴大模型。據(jù)悉,AI 模型的參數(shù)量已經(jīng)在短短幾年內(nèi)從最初的數(shù)億擴(kuò)張到千億,甚至萬億規(guī)模。那么這些大模型的背后涉及了哪些技術(shù)?給我們帶來了哪些啟發(fā)?又面臨哪些挑戰(zhàn)?是否可以賦能某些行業(yè)?圍繞這些問題,中國移動(dòng)大數(shù)據(jù)總架構(gòu)師,北京大學(xué)博士后段云峰教授,在日前召開的“2023北京部委央企及大型企業(yè)CIO年會(huì)(春季)”大會(huì)上,對大模型技術(shù)和ChatGPT 的應(yīng)用和展望進(jìn)行了深入淺出的闡述。

中國移動(dòng)大數(shù)據(jù)總架構(gòu)師,北京大學(xué)博士后段云峰教授

大模型和ChatGPT是什么?

段云峰教授首先從大模型的基礎(chǔ)理論知識(shí)開始講起。AI大模型就是Foundation Model(基礎(chǔ)模型),指通過在大規(guī)模寬泛的數(shù)據(jù)上進(jìn)行訓(xùn)練后能適應(yīng)一系列下游任務(wù)的模型。谷歌于2018年10月發(fā)布的BERT模型是最為典型的基礎(chǔ)模型,它利用BooksCorpus和英文維基百科里純文字的部分,無須標(biāo)注數(shù)據(jù),用設(shè)計(jì)的兩個(gè)自監(jiān)督任務(wù)來做訓(xùn)練,訓(xùn)練好的模型通過微調(diào)在11個(gè)下游任務(wù)上實(shí)現(xiàn)最佳性能。

從參數(shù)規(guī)模上看,AI 大模型先后經(jīng)歷了預(yù)訓(xùn)練模型、大規(guī)模預(yù)訓(xùn)練模型、超大規(guī)模預(yù)訓(xùn)練模型三個(gè)階段,參數(shù)量實(shí)現(xiàn)了從億級到百萬億級的突破。從模態(tài)支持上看, AI 大模型從支持圖片、圖像、文本、語音單一模態(tài)下的單一任務(wù),逐漸發(fā)展為支持多種模態(tài)下的多種任務(wù)。

OpenAI在2020年5月發(fā)布的GPT-3則是一個(gè)自回歸語言模型,具有1750億參數(shù),在互聯(lián)網(wǎng)文本數(shù)據(jù)上訓(xùn)練得到的這一基礎(chǔ)模型,可以使用提示的例子完成各式各樣的任務(wù),這類模型正在成為主流的AI范式。

ChatGPT就是OpenAI在2022年11月30日發(fā)布的人工智能技術(shù)驅(qū)動(dòng)的自然語言處理工具,它能夠通過理解和學(xué)習(xí)人類的語言來進(jìn)行對話,還能根據(jù)聊天的上下文進(jìn)行互動(dòng),真正像人類一樣來聊天交流,甚至能完成撰寫郵件、視頻腳本、文案、翻譯、代碼,寫論文等任務(wù)。

GPT發(fā)展史

基于文本預(yù)訓(xùn)練的GPT-1,GPT-2,GPT-3三代模型都采用以Transformer為核心結(jié)構(gòu)的模型,主要的不同在于參數(shù)方面。而ChatGPT則在此基礎(chǔ)上,增加了人工強(qiáng)化學(xué)習(xí)的反饋(RLHF)。

具體來說,GPT-1是在無標(biāo)注的文本語料中進(jìn)行生成式預(yù)訓(xùn)練,然后進(jìn)行判別式微調(diào),在具體的任務(wù)場景上獲得能力的提升。GPT-2相對于GPT-1,模型結(jié)構(gòu)并沒有做大的調(diào)整,只是使用了更多參數(shù)的模型和更多的訓(xùn)練數(shù)據(jù)。GPT-2的誕生說明當(dāng)一個(gè)大型語言模型在足夠大的多樣化數(shù)據(jù)集上進(jìn)行無監(jiān)督訓(xùn)練,就能在很多領(lǐng)域數(shù)據(jù)集上執(zhí)行任務(wù)。

基于上述結(jié)論,GPT-3加大了參數(shù)的量,擁有1750億。GPT-3除了能完成常見的NLP任務(wù)外,研究者意外發(fā)現(xiàn)GPT-3在寫SQL,JavaScript等語言的代碼時(shí),可以進(jìn)行簡單的數(shù)學(xué)運(yùn)算。GPT-3的基本訓(xùn)練方法,包括模型,數(shù)據(jù),訓(xùn)練都類似于GPT-2。

由此可見GPT系列模型的演進(jìn)主要是參數(shù)的增大、數(shù)據(jù)量及其多樣性的增加。這個(gè)預(yù)測和實(shí)驗(yàn)結(jié)果,帶來了良好的效果,但仍然達(dá)不到使用的預(yù)期,于是,研究者又在此基礎(chǔ)上,利用人工反饋的強(qiáng)化學(xué)習(xí)方法來對體系進(jìn)行優(yōu)化。

3月14日發(fā)布的GPT-4又有了很大的突破,除了性能提升之外,GPT-4還增添了一項(xiàng)新功能,識(shí)別圖像。這個(gè)新功能表示GPT-4已經(jīng)實(shí)現(xiàn)圖像和文字同時(shí)處理的多模態(tài)能力,有專家預(yù)測,未來會(huì)出現(xiàn)文字、圖像、音頻和視頻等所有數(shù)據(jù)統(tǒng)一處理的新變革。

不光是性能提升和圖像識(shí)別,GPT-4的整個(gè)訓(xùn)練和運(yùn)行都有一項(xiàng)技術(shù)作為支持,這個(gè)技術(shù)就是數(shù)據(jù)標(biāo)記化(Token)。Token的原理如下:用戶的問題輸入,無論是文字還是圖像,首先會(huì)被轉(zhuǎn)化為一個(gè)向量,然后以Token的形式輸入到ChatGPT的神經(jīng)網(wǎng)絡(luò)中。該網(wǎng)絡(luò)對輸入進(jìn)行一系列的計(jì)算和轉(zhuǎn)換后,生成Token,并形成相應(yīng)的輸出向量,輸出向量被轉(zhuǎn)化成文本,用以回答用戶的提問。所以,Token就是用戶輸入和GPT接收之間的一種介質(zhì)。

ChatGPT使用來自人類反饋的強(qiáng)化學(xué)習(xí)進(jìn)行訓(xùn)練,這種方法通過人類干預(yù)來增強(qiáng)機(jī)器學(xué)習(xí)以獲得更好的效果。在訓(xùn)練過程中,人類訓(xùn)練者扮演著用戶和人工智能助手的角色,并通過近端策略優(yōu)化算法進(jìn)行微調(diào)。

“2023年一月末,ChatGPT的月活用戶已突破1億,成為史上增長最快的消費(fèi)者應(yīng)用。截止2023年1月,美國89%的大學(xué)生都是用ChatGPT做作業(yè)。” 段云峰教授表示。

ChatGPT將影響哪些行業(yè)?

作為生成式 AI 的特定實(shí)現(xiàn),ChatGPT將對諸多行業(yè)帶來深刻影響。

Resumebuilder.com調(diào)查了1000名計(jì)劃使用或已經(jīng)使用ChatGPT的企業(yè)領(lǐng)導(dǎo)人,發(fā)現(xiàn)近半數(shù)企業(yè)部署了ChatGPT,部分企業(yè)還表示已經(jīng)開始用ChatGPT取代員工。關(guān)于ChatGPT的用途,企業(yè)高管們表示,其中66%用于寫代碼,58%用于文案和內(nèi)容創(chuàng)作,57%用于客戶支持,52%用于寫會(huì)議摘要和其它文檔。在招聘過程中,使用 ChatGPT的企業(yè)還有77%用它撰寫工作職位描述、66%用它起草面試申請書,65%用它撰寫回應(yīng)求職書。大部分企業(yè)領(lǐng)導(dǎo)人對 ChatGPT的表現(xiàn)印象深刻,55%的人認(rèn)為工作質(zhì)量“出色”,34%的人認(rèn)為“非常好”。幾乎所有使用ChatGPT的公司表示節(jié)省了資金,48%表示節(jié)省逾50,000 美元,11%表示節(jié)省逾100,000 美元。這些企業(yè)中93%還計(jì)劃擴(kuò)大對ChatGPT的使用。

段云峰教授在演講中還提到了ChatGPT對戰(zhàn)爭的影響,他表示,在參與認(rèn)知作戰(zhàn)、引導(dǎo)輿論走向,輔助軍事決策、提升作戰(zhàn)效率,自主編寫程序代碼、實(shí)施網(wǎng)絡(luò)攻防戰(zhàn)等方面,人工智能將改變21世紀(jì)的戰(zhàn)爭形態(tài)。

近日,創(chuàng)新工場董事長兼首席執(zhí)行官、創(chuàng)新工場人工智能工程院院長李開復(fù)指出,AI 2.0將會(huì)帶來平臺(tái)式的變革,改寫用戶的入口和界面,誕生全新平臺(tái),催生新一代AI 2.0應(yīng)用的研發(fā)和商業(yè)化。總的來說,AI 2.0將是提升21世紀(jì)整體社會(huì)生產(chǎn)力最為重要的賦能技術(shù)。

點(diǎn)燃算力基礎(chǔ)設(shè)施需求

在ChatGPT熱度不減的背后,人工智能內(nèi)容自動(dòng)生成技術(shù)所需要的算力需求也水漲船高。數(shù)據(jù)顯示,ChatGPT的總算力消耗約為3640PF-days(即假如每秒計(jì)算一千萬億次,需要計(jì)算3640天),需要7~8個(gè)投資規(guī)模30億、算力500P的數(shù)據(jù)中心才能支撐運(yùn)行。據(jù)段云鋒介紹,2020年5月,微軟在Azure上為OpenAI搭建了獨(dú)立的超級計(jì)算機(jī)系統(tǒng),包含28.5萬個(gè)CPU核和1萬張GPU卡(當(dāng)時(shí)為V100)。英偉達(dá)在2021年4月,使用1024張80G顯存的A100卡訓(xùn)練1750億參數(shù)的GPT-3模型,需要訓(xùn)練34天。段云峰教授指出,算力網(wǎng)絡(luò)是一種根據(jù)業(yè)務(wù)需求,在云、網(wǎng)、邊之間按需分配和靈活調(diào)度計(jì)算資源、存儲(chǔ)資源以及網(wǎng)絡(luò)資源的新型信息基礎(chǔ)設(shè)施。由此可見,ChatGPT用戶數(shù)快速增長,從應(yīng)用到算力,將點(diǎn)燃基礎(chǔ)設(shè)施需求。ChatGPT引領(lǐng)AI發(fā)展大潮,背后需要算力的快速提升,算力行業(yè)的發(fā)展已經(jīng)是大勢所趨,AI服務(wù)器、AI芯片等領(lǐng)域?qū)⒂瓉碇匾陌l(fā)展機(jī)遇。

為什么所有公開的對 GPT-3 的復(fù)現(xiàn)都失敗了?

這里的 “失敗”,是指訓(xùn)練得出模型有接近GPT-3或者更大的參數(shù)量,但仍無法與GPT-3原始文獻(xiàn)中報(bào)告的性能所匹配。在這一標(biāo)準(zhǔn)下,GPT-3和PaLM是 “成功” 的,但這兩個(gè)模型都不是公開的。而所有的公開模型(例如:OPT-175B 和 BLOOM-176B)都在一定程度上 “失敗” 了。

值得注意的是,假如能夠多次嘗試各種不同的訓(xùn)練設(shè)置,開源社區(qū)可能最終可以復(fù)現(xiàn) GPT-3。但截至目前,訓(xùn)練另一個(gè)版本OPT-175B 的開銷仍然太過高昂--對于如此大規(guī)模的模型,一次訓(xùn)練就將需要在約1000 個(gè)80G A100 GPU上花費(fèi)至少2個(gè)月的時(shí)間(數(shù)據(jù)來自于OPT的原始文獻(xiàn))。

關(guān)于復(fù)現(xiàn)失敗的原因,段云鋒表示大致可以從預(yù)訓(xùn)練數(shù)據(jù)和訓(xùn)練策略兩個(gè)方面來看。

首先在預(yù)訓(xùn)練數(shù)據(jù)方面,GPT-3在共計(jì)300B的Token上進(jìn)行訓(xùn)練,其中 60% 來自經(jīng)過篩選的Common Crawl,其它則來自:webtext2(用于訓(xùn)練 GPT-2 的語料庫),Books1,Books2 和維基百科。OPT-175B所使用的Pile語料庫聲稱有著更好的多樣性,但BLOOM 采用的ROOTS語料庫則有太多的已經(jīng)存在的學(xué)術(shù)數(shù)據(jù)集,缺乏Common Crawl數(shù)據(jù)所包含的多樣性,這可能導(dǎo)致BLOOM性能更差。作為對比,GPT-3來自Common Crawl語料的占比要高得多,且來自廣泛領(lǐng)域,這也可能是GPT-3能夠作為首個(gè)通用聊天機(jī)器人 ChatGPT的基礎(chǔ)模型的原因之一。

訓(xùn)練策略包括訓(xùn)練框架、訓(xùn)練持續(xù)時(shí)間、模型架構(gòu)/訓(xùn)練設(shè)置、訓(xùn)練過程中的修改。在訓(xùn)練非常大的模型時(shí),它們被用于獲得更好的穩(wěn)定性和收斂性。一個(gè)參數(shù)量大于175B的模型往往需要ZeRO式的數(shù)據(jù)并行(分布式的優(yōu)化器)和模型并行(包括張量并行、流水線并行,有時(shí)還包括序列并行)。OPT使用了ReLU激活函數(shù),而PaLM使用SwiGLU激活函數(shù),GPT-3和BLOOM使用GeLU,它通常使得訓(xùn)練的LLM的性能更好。

ChatGPT將在五類任務(wù)中大放異彩

段云峰教授認(rèn)為可以在以下五類任務(wù)中使用GPT-3.5或ChatGPT。首先是創(chuàng)造性和復(fù)雜的任務(wù):包括代碼(代碼補(bǔ)全、自然語言指令生成代碼、代碼翻譯、bug 修復(fù))、文本摘要、翻譯、創(chuàng)造性寫作(例如寫故事、文章、郵件、報(bào)告,以及寫作的改進(jìn)等)。第二類是只有少數(shù)標(biāo)注或者沒有標(biāo)注數(shù)據(jù)的任務(wù)。正如原始的GPT-3文獻(xiàn)所說,GPT-3是為了那些 “昂貴標(biāo)注” 的任務(wù)設(shè)計(jì)的。在這種情況下,用極少量標(biāo)注數(shù)據(jù)微調(diào)一個(gè)更小的模型通常不可能達(dá)到GPT-3在零樣本(zero-shot)、單樣本(ont-shot)或少樣本(few-shot)的情況下的表現(xiàn)。第三類是分布外泛化(Out-of-distribution, OOD)。給定一些訓(xùn)練數(shù)據(jù),傳統(tǒng)的微調(diào)可能會(huì)過擬合訓(xùn)練集并且有較差的分布外泛化能力;而少樣本的上下文學(xué)習(xí)(in-context learning)能夠有更好的分布外泛化性。例如,帶有提示的 PaLM 能夠在對抗自然語言推斷任務(wù)(Adversarial Natural Language Inference,ANLI)上超越經(jīng)過微調(diào)的 SOTA 模型,而它在正常的語言推斷任務(wù)上可能仍然劣于微調(diào)的 SOTA。第四類是需要處理多種任務(wù)的能力,而非關(guān)注特定任務(wù)上的卓越表現(xiàn)。聊天機(jī)器人就是這樣一種場景。第五類是那些檢索不可行的知識(shí)密集型任務(wù)。

大模型未來將有效幫助優(yōu)化傳統(tǒng)數(shù)據(jù)分析模型,從機(jī)器學(xué)習(xí)升級深度學(xué)習(xí),帶動(dòng)“從NLP改良客戶服務(wù)”、“數(shù)字人改變營銷和服務(wù)”等新藍(lán)海。同時(shí),MAAS(模型即服務(wù))將成為可能。此外,他認(rèn)為元宇宙與生成式模型相輔相成、技術(shù)互相促進(jìn),那些能夠以元宇宙為線上化服務(wù)入口的行業(yè),將在元宇宙中進(jìn)行場景融合,而ChatGPT能助力元宇宙場景生成與智能交互,這將改寫電商營銷模式。

結(jié)語

當(dāng)然,打造大模型并非易事,需要消耗龐大的數(shù)據(jù)、算力、算法等各種軟硬件資源。段云峰教授指出:大模型尚缺乏統(tǒng)一的評價(jià)標(biāo)準(zhǔn)和模塊化流程,創(chuàng)新力度不足,落地應(yīng)用緩慢。此外,結(jié)構(gòu)化數(shù)據(jù)如何用大模型、如何積累非結(jié)構(gòu)化數(shù)據(jù)、大模型如何驅(qū)動(dòng)組織變革、大模型能否驅(qū)動(dòng)企業(yè)“自動(dòng)駕駛”等等都是需要思考的問題。

關(guān)于企業(yè)網(wǎng)D1net(hfnxjk.com):

國內(nèi)主流的to B IT門戶,同時(shí)在運(yùn)營國內(nèi)最大的甲方CIO專家?guī)旌椭橇敵黾吧缃黄脚_(tái)-信眾智(www.cioall.com)。同時(shí)運(yùn)營18個(gè)IT行業(yè)公眾號(微信搜索D1net即可關(guān)注)。

關(guān)鍵字:ChatGPT大模型段云峰

原創(chuàng)文章 企業(yè)網(wǎng)D1Net

電子周刊
回到頂部

關(guān)于我們聯(lián)系我們版權(quán)聲明隱私條款廣告服務(wù)友情鏈接投稿中心招賢納士

企業(yè)網(wǎng)版權(quán)所有 ©2010-2024 京ICP備09108050號-6 京公網(wǎng)安備 11010502049343號

^
  • <menuitem id="jw4sk"></menuitem>

    1. <form id="jw4sk"><tbody id="jw4sk"><dfn id="jw4sk"></dfn></tbody></form>
      主站蜘蛛池模板: 怀安县| 河东区| 兴文县| 鄂托克旗| 衡南县| 元谋县| 克拉玛依市| 花莲市| 甘孜| 珠海市| 武城县| 松桃| 龙游县| 黎平县| 和林格尔县| 阿勒泰市| 永定县| 公安县| 红河县| 廊坊市| 诸城市| 资源县| 永靖县| 吉木萨尔县| 普安县| 津南区| 交口县| 灵武市| 加查县| 汨罗市| 卢湾区| 林芝县| 龙泉市| 泾源县| 崇明县| 城口县| 县级市| 乌什县| 刚察县| 三原县| 新龙县|