阿里云基礎(chǔ)軟件部資深技術(shù)總監(jiān)、龍蜥社區(qū)技術(shù)委員會主席楊勇在大會期間接受 CSDN 采訪時表示,大模型引領(lǐng)的AI 算力基礎(chǔ)設(shè)施創(chuàng)新需求,正在倒逼服務(wù)器操作系統(tǒng)從云原生系統(tǒng)向 AI 系統(tǒng)全面進(jìn)化,市場或?qū)⒅匦孪磁疲_源操作系統(tǒng)有望在未來智算體系中占據(jù)統(tǒng)治地位。
作為現(xiàn)代計算產(chǎn)業(yè)產(chǎn)業(yè)鏈重要的一環(huán),服務(wù)器操作系統(tǒng)歷經(jīng)半個世紀(jì)的發(fā)展,從 UNIX 到商業(yè) Windows Server 系列、開源 Linux 各類知名的發(fā)行版,在此前的互聯(lián)網(wǎng)時代已經(jīng)成熟。但隨著 AI 時代的到來,阿里云結(jié)合通義、龍蜥社區(qū)的實踐與發(fā)展,認(rèn)識到了服務(wù)器操作系統(tǒng)在復(fù)雜 AI 基礎(chǔ)設(shè)施體系中存在可靠性、穩(wěn)定性、算力利用率、智能運(yùn)維等新需求。楊勇希望通過龍蜥大會將這些趨勢判斷傳遞出去,壯大社區(qū)生態(tài),攜手布局智算未來。
AI 算力猛增倒逼操作系統(tǒng)全鏈路優(yōu)化
龍蜥社區(qū)成立于 2020 年,其發(fā)起龍蜥操作系統(tǒng) Anolis OS 項目的首先要做的是平替當(dāng)年宣布將停服的 CentOS。到今年 6 月 30 日,此前占據(jù)國內(nèi)主流地位的 CentOS 7 的生命周期已正式畫上句號,楊勇表示,結(jié)合現(xiàn)代云計算技術(shù)的發(fā)展,龍蜥社區(qū)已積累了完備的替換遷移技術(shù),針對業(yè)務(wù)系統(tǒng)遷移的核心挑戰(zhàn),形成了平替、升級和安全接管三類方案,能夠在保證業(yè)務(wù)連續(xù)性、穩(wěn)定性的前提下護(hù)航企業(yè)順利遷移。他透露,在阿里云平臺上,龍蜥和阿里云版本操作系統(tǒng)的部署數(shù)量,已于 2023 年超過了 CentOS。
新興業(yè)務(wù)通常基于 Java 與 Go 語言構(gòu)建,較為容易基于社區(qū)服務(wù)實現(xiàn)自助遷移,而傳統(tǒng) C/C++ 業(yè)務(wù)遷移需要應(yīng)用開發(fā)者配合,可能由于應(yīng)用源代碼遺失等原因需要更專業(yè)的服務(wù),楊勇表示,龍蜥社區(qū)平臺可以將這些需求導(dǎo)向到社區(qū)理事單位、合作伙伴提供的商業(yè)服務(wù),這很好地保障了社區(qū)生態(tài)的健康發(fā)展和企業(yè)的成熟應(yīng)用。
作為一個技術(shù)與產(chǎn)品并重的社區(qū),龍蜥社區(qū)目前更為關(guān)注的是云原生、AI 技術(shù)趨勢對服務(wù)器操作系統(tǒng)的沖擊。AI 大模型的落地,需要構(gòu)建 AI 智算集群,滿足大模型開發(fā)、部署、訓(xùn)練和推理場景的需要,算力需求遠(yuǎn)超此前的 AI 技術(shù)。在楊勇看來,大模型算力集群規(guī)模猛增意味著新的穩(wěn)定性挑戰(zhàn),這是 AI 基礎(chǔ)設(shè)施面臨的首要問題,需要管理軟硬件資源的操作系統(tǒng)可和上層負(fù)責(zé)運(yùn)維 AI 的平臺協(xié)同解決。
同時,AI 基礎(chǔ)設(shè)施還在操作系統(tǒng)之上架構(gòu)了一個集群調(diào)度層和 AI 框架,形成一個復(fù)雜多層的軟件棧,算力資源利用率的主要瓶頸便從芯片轉(zhuǎn)移到了數(shù)據(jù)流動鏈路,即模型訓(xùn)練、推理時,數(shù)據(jù)如何在硬件和軟件多層之間高效傳遞,這涉及異構(gòu)硬件、操作系統(tǒng)和上層應(yīng)用的協(xié)同,是一個全鏈路的優(yōu)化工作。
此外,云原生分布式系統(tǒng)的可觀測性、故障預(yù)警、問題診斷、故障自愈、智能運(yùn)維以及結(jié)合 AI 技術(shù)的落地,如 OS Colpilot、AIOps,也是很大的挑戰(zhàn)。
壯大社區(qū)生態(tài),布局前沿技術(shù)
要完成上述技術(shù)突破,推進(jìn) AI 基礎(chǔ)設(shè)施革命,楊勇認(rèn)為,需要整個產(chǎn)業(yè)“瘋狂地迭代”。事實上,在龍蜥社區(qū),來自阿里云以外的貢獻(xiàn),目前在內(nèi)核側(cè)占到了 53%, 在核外軟件包側(cè)占到了 34%。
作為龍蜥社區(qū)技術(shù)委員會主席,楊勇希望通過龍蜥大會這樣的平臺,以有效的組織將 AI、云等技術(shù)判斷清晰傳遞給合作伙伴、用戶和開發(fā)者,強(qiáng)化牽引作用,吸引更多志同道合的人參與龍蜥社區(qū),加入到瘋狂的迭代進(jìn)程。
對于阿里云與龍蜥社區(qū)生態(tài)中的雙重關(guān)系,楊勇總結(jié)為核心貢獻(xiàn)者和受益者。“隨著龍蜥社區(qū)生態(tài)的發(fā)展,各個參與者,也包括阿里云,從中獲得越來越多的收益。”楊勇說。例如,浪潮信息在龍蜥社區(qū)硬件兼容性的貢獻(xiàn),使得阿里云系統(tǒng)能夠更加順利地部署到客戶擁有的浪潮服務(wù)器上。
瘋狂的迭代從何處著手?阿里云給出的答案,是能夠提升 AI 算力性能和可靠性的前沿硬件技術(shù),例如高速的互聯(lián)總線、數(shù)據(jù)中心的網(wǎng)絡(luò)帶寬能力大幅提升,帶來的系統(tǒng)層面的問題。此外,就是 AI 基礎(chǔ)設(shè)施新場景下帶來的不同的優(yōu)化思路。從歷史的觀點來看,通用 CPU 的能力按照摩爾定律持續(xù)提升、虛擬化、容器化的應(yīng)用生態(tài)發(fā)展等都已證明,操作系統(tǒng)的發(fā)展驅(qū)動力與創(chuàng)新節(jié)奏,與硬件或應(yīng)用軟件這兩個因素息息相關(guān)。
另外的一個具體案例是 DPU,在一些廠商的方案里,高帶寬 RDMA 高速網(wǎng)絡(luò)就是由 DPU 管理的。而實現(xiàn) CPU 和 GPU 高速互聯(lián)支撐訓(xùn)練推理一體、成為技術(shù)護(hù)城河的高速互聯(lián)技術(shù)(NVLink),也是這樣一種硬件技術(shù)。
“AI 算力發(fā)展還處在早期,由先進(jìn)的硬件技術(shù)驅(qū)動的服務(wù)操作系統(tǒng)創(chuàng)新尚未真正來臨,”楊勇大膽預(yù)測說,未來這個領(lǐng)域?qū)⒊錆M無數(shù)可能,包括在算力管理、運(yùn)維管理中如何兼容乃至抽象屏蔽 AI 時代的各種新硬件。