7 月 28 日下午,CSDN 高端技術領導者社群「智研社-The Intelliger」第三期活動在北京鼎好超互聯 AGI 科技生態創新空間成功舉辦。
活動特別邀請到 Stability AI 機器學習運維主管、知名 AI 開源組織 LAION 工程負責人 & 創始人 Richard Vencu 和 CSDN 創始人 & 董事長、中國開源軟件推進聯盟副主席蔣濤進行深度對話,CSDN 高級副總裁李建忠、Momenta 工程質量負責人鄒欣、華為“天才少年”申博、白海科技創始人盧億雷、榮耀首席專家張軼博等重磅嘉賓到場,匯聚了大模型技術專家、大廠技術大牛、大模型公司 CXO、生態合作伙伴代表。現場嘉賓一起交流思想、分享經驗,進行 AGI 相關前沿科技的深入探討。
第三期智研社-北京站活動現場合影
「智研社-The Intelliger」由 CSDN CTO 俱樂部重磅升級而來。CSDN 高級副總裁李建忠在開場中為大家介紹了智研社未來發展的三個方向:
一是為技術人提供充分溝通交流的平臺;
二是提供 AGI 技術發展與應用實踐的探討與合作空間;
三是帶領中國 AGI 技術人走向全球,參與國際 AGI 技術交流,抓住 AI 爆發帶來的機遇。
在當今快速發展的人工智能領域,大規模計算資源的管理成為了一個關鍵挑戰。Stability AI 機器學習運維主管、知名 AI 開源組織 LAION 工程負責人 & 創始人 Richard Vencu 在現場帶來了《在 AWS 云上打造 Stability AI 超級計算機》的主題演講,深入闡述了在云環境中運行 5000 個 GPU 的經驗,揭示了這一規模計算所面臨的挑戰及其解決策略。
Richard Vencu,Stability AI 機器學習運維主管、LAION 工程負責人 & 創始人
核心挑戰在于:
機器學習訓練與推理的差異:Vencu 指出,機器學習訓練本質上不是一個網絡問題,而機器學習推理則是。這種區別源于推理需要通過標準化的網絡通道向全球用戶提供服務。
多團隊需求管理:不同 AI 團隊對規模和上市時間的要求各不相同,導致優先級不斷變化。這要求資源管理系統具有高度的靈活性。
共享環境中的信任問題:在共享的高性能計算(HPC)集群中,用戶通常無法獲得 root 訪問權限,這限制了系統的靈活性。
大規模資源管理:主要目標是減少 GPU 的閑置時間,提高利用率,并減少因缺陷導致的停機時間。
使用追蹤:需要精確追蹤每個項目和用戶的資源使用情況,以便進行報告、稅務處理和計費。
作為解決方案,Vencu 推薦使用 SLURM 作為資源調度器。SLURM 是一個有20多年歷史的開源系統,維護良好,提供搶占和重新排隊機制(腳本需要意識到這一點并能夠自行恢復)、跨不同優先級的優先機制和公平共享機制。這些功能有效解決了最大的挑戰——最小化 GPU 閑置時間。
在現場,Vencu 和到場嘉賓進行了互動,為那些希望在云中部署大規模 AI 計算資源的開發者提供了寶貴的見解和實踐指導。云環境中管理大規模 GPU 資源是一項復雜的任務,涉及多個方面的挑戰。通過采用適當的資源調度策略、嚴格的安全措施、靈活的項目管理以及全面的監控系統,可以顯著提高資源利用率,降低成本,同時滿足不同團隊的需求。
隨著大模型的廣泛應用,AI 技術已經在自然語言處理、計算機視覺、多模態理解等領域取得了顯著的突破。大模型強大的生成能力和理解能力,還在各種領域的實際應用中展現了巨大的潛力。然而,大模型的訓練和推理需要龐大的計算資源,AI 基礎設施(AI Infra)的建設成為了當前技術發展的關鍵。
為了解答這一系列問題,由 Momenta 工程質量負責人、CSDN 《新程序員》內容顧問鄒欣主持,Stability AI 機器學習運維主管、知名 AI 開源組織 LAION 工程負責人 & 創始人 Richard Vencu 和 CSDN 創始人 & 董事長、中國開源軟件推進聯盟副主席蔣濤展開圓桌對話,圍繞“2024 大模型技術演進與 AI Infra 創新”的話題進行了多個方面的探討。
以下是他們對每一方面內容的討論焦點:
計算機系統的架構轉變
- 當前,我們正在從以 CPU 為中心向以 GPU 或其他 AI 加速器為中心的模式轉變。這種轉變意味著計算任務將更多地依賴于專門化的硬件,以提高處理速度和效率。
- 未來可能進入“軟件 2.0”時代,編程將不再僅僅依靠代碼,而是利用數據和神經網絡來驅動程序的執行。這表明軟件開發的方式將發生根本性的變化,更加依賴算法和數據處理能力。
- 多家公司正在開發專用 AI 芯片,競爭格局尚未明朗。這預示著未來硬件市場的競爭將非常激烈,且可能會出現新的行業標準和生態系統。
大模型與小模型并存發展
- 超大規模集群支持的通用大模型將繼續發展。這些模型通常需要大量的計算資源,能夠處理復雜的任務和大規模的數據分析。
- 端側小模型也很重要,用于特定場景和保護隱私。這意味著在設備端進行高效且安全的數據處理將成為一個重要的研究方向,特別是在涉及敏感信息時。
- 兩種模型各有優勢,將并行發展。這種多樣化的策略可以確保在不同的應用場景中都能找到合適的解決方案。
開源 vs 閉源模型
- 結合 NVIDIA CEO 黃仁勛近日提出的“孿生地球”觀點,具體分析 Linux 基金會和 Apache 基金會等典型的開源項目案例,在場嘉賓討論了開源模型未來的商業化和產業化問題。如今像 OpenAI 這樣的領先公司仍缺少“護城河”,所以長期來看,開源模型可能會超過閉源模型。
- 開源促進了模型的快速迭代和改進,允許更多的開發者參與到項目中,從而加速了技術的成熟和應用的廣泛性。
- 但在某些領域,閉源模型仍可能保持優勢。閉源模型提供了更好的控制和安全性,對于某些對數據安全有極高要求的行業來說尤為重要。
數據與訓練挑戰
- 高質量訓練數據對模型至關重要。這意味著獲取和標注大量高質量的數據集將是未來發展的一個重點。
- 未來可能需要更多物理世界的數據。隨著技術的進步,如何有效地收集和利用現實世界中的數據將成為提升模型性能的關鍵因素之一。
- 數據開源和共享可能成為一個重要話題。這不僅有助于提高數據的質量和多樣性,還促進了跨組織之間的合作和知識共享。
AGI 展望
- 當前,人工智能處于早期階段,業界對 AGI 實現的時間表和可能性存在不同看法。盡管人工智能已經取得了顯著進展,但要達到真正的通用人工智能水平仍然充滿挑戰和不確定性。這需要持續的研究和技術突破。
- 在場嘉賓積極提問,就開源閉源之爭、具體工程實現、未來 AI 硬件問題和 AGI 愿景等多個角度展開精彩的交流互動。
現場掠影,嘉賓互動活躍
「智研社-The Intelliger」是由 CSDN 發起創立的高端技術領導者社群。「智研社-The Intelliger」的前身為 CTO 俱樂部,自 2009 年由 CSDN 創辦以來,是極具影響力的高端技術管理者分享與交流的平臺。隨著大模型技術的迅猛發展,人工智能將成為未來 10 年最有影響力的技術力量,必將重塑行業格局并引領創新浪潮。CTO 俱樂部正式更名為「智研社 The-Intelliger」,意味著其將以全新的面貌迎接 AGI 新紀元的到來。
活動主辦方 CSDN 作為中文技術社區的領導者,通過打造「智研社-The Intelliger」在全球各大技術中心城市的系列活動,匯聚技術領導者與行業精英,洞察技術趨勢,站在 AGI 的新起點上,推動技術革新和戰略思維的交融,引領技術領導者走向全球。
活動聯合主辦方鼎好超互聯AGI科技生態創新空間,鼎好超互聯”AGI 科技生態創新空間”由世紀互聯與鼎好 DH3 共同打造。空間持續吸納全國一線 Al 企業與人才,匯聚市場智算資源、科研資源、資金資源、市場資源和社群資源,為各行各業面向 AGI 轉型提供從訓練到推理的新型基礎設施,致力于成為中國 AGI 發展的“助推器”和“加速器”。