7月12日,百度智能云系列對(duì)話欄目《云智面對(duì)面》第二期正式上線。本期活動(dòng)以“AI原生云算力雙引擎,重新定義企業(yè)生產(chǎn)力”為主題,也是百度智能云和英特爾的聯(lián)合專場(chǎng)。百度智能云IaaS產(chǎn)品負(fù)責(zé)人周磊、百度智能云IaaS網(wǎng)絡(luò)負(fù)責(zé)人王佩龍、百度基礎(chǔ)架構(gòu)部杰出系統(tǒng)架構(gòu)師王雁鵬以及英特爾可編程解決方案事業(yè)部高級(jí)技術(shù)經(jīng)理張然等嘉賓齊聚一堂,共同探討算力發(fā)展前沿以及如何賦能企業(yè)的話題。
AI計(jì)算大有可為,軟硬協(xié)同來(lái)應(yīng)對(duì)
回顧過(guò)去十幾年,計(jì)算一直是推動(dòng)技術(shù)發(fā)展的核心驅(qū)動(dòng)力。根據(jù)信通院去年發(fā)布的《中國(guó)算力發(fā)展指數(shù)白皮書(shū)》,“算力是生產(chǎn)力,算法是生產(chǎn)關(guān)系,數(shù)據(jù)是生產(chǎn)資料”,算力、算法、數(shù)據(jù)構(gòu)成了數(shù)字經(jīng)濟(jì)時(shí)代的生產(chǎn)基礎(chǔ)。算力帶來(lái)數(shù)據(jù)處理能力的不斷提升,網(wǎng)絡(luò)發(fā)展也隨之進(jìn)步。因此,可以說(shuō)計(jì)算和網(wǎng)絡(luò)是算力發(fā)展的雙引擎。
計(jì)算的發(fā)展讓更多新場(chǎng)景新業(yè)態(tài)成為可能,并得到大規(guī)模推廣。周磊提到百度百舸時(shí),再次說(shuō)起云計(jì)算的三大新趨勢(shì):
● 首先,算力異構(gòu)化,支持異構(gòu)的各種算力,包括支持CPU、GPU以及各種領(lǐng)域內(nèi)的定制芯片;
● 其次,計(jì)算部署位置分布式化,大量計(jì)算分布在大型數(shù)據(jù)中心、各種邊緣端;
● 最后,AI應(yīng)用越來(lái)越普適化,已在金融、智慧城市、視頻、農(nóng)業(yè)等領(lǐng)域廣泛應(yīng)用。
由于服務(wù)器集群規(guī)模的擴(kuò)張加上接入帶寬的躍升,網(wǎng)絡(luò)基礎(chǔ)設(shè)施面臨挑戰(zhàn)也越來(lái)越大。王佩龍就此提出了自己的看法,網(wǎng)元設(shè)施的發(fā)展經(jīng)歷了“硬件到軟件,再回到硬件”的歷程,隨著摩爾定律失效,業(yè)界再次把目光放到了硬件。當(dāng)前百度智能云“致力于發(fā)展軟硬件結(jié)合的網(wǎng)絡(luò)基礎(chǔ)設(shè)施,通過(guò)DPU和可編程硬件網(wǎng)關(guān),將CPU上的虛擬化開(kāi)銷卸載到硬件上,為計(jì)算和存儲(chǔ)提供更大的帶寬接入能力和更低的網(wǎng)絡(luò)時(shí)延”。
算力提升的背后,也離不開(kāi)技術(shù)底座的支持。目前,AI的算力需求比之前提升了幾個(gè)數(shù)量級(jí),甚至以后還要再提升1000倍。在此背景下,王雁鵬強(qiáng)調(diào),“計(jì)算機(jī)體系架構(gòu)從通用計(jì)算CPU時(shí)代,到并行GPU時(shí)代,正向DSA時(shí)代(DSA,即特定領(lǐng)域架構(gòu))演進(jìn)”。僅CPU、GPU都不能滿足如此大的算力需求,會(huì)出現(xiàn)更多的車PU、AI PU、視頻PU,即使CPU也會(huì)有ARM、RISC-V等區(qū)別,因此支持“一云多芯”非常必要。
同時(shí),數(shù)字化浪潮持續(xù)加速,產(chǎn)業(yè)轉(zhuǎn)型不斷帶來(lái)驚人的機(jī)遇。張然則認(rèn)為,要在這場(chǎng)變革中取得領(lǐng)先很大程度上取決于“技術(shù)架構(gòu)的創(chuàng)新”。英特爾 “IPU”(IPU,即基礎(chǔ)設(shè)施處理單元)正是誕生于這一挑戰(zhàn)的架構(gòu)性新產(chǎn)品,通過(guò)把基礎(chǔ)設(shè)施任務(wù)的相關(guān)開(kāi)銷全部從服務(wù)器中卸載到基礎(chǔ)設(shè)施處理單元上,以便優(yōu)化整體性能。此外,英特爾對(duì)未來(lái)數(shù)據(jù)中心的看法和百度高度一致,就是為用戶提供更高的安全性,要釋放更多算力,增加帶寬,降低延時(shí)。
“百舸”爭(zhēng)流,云繞“太行”
面對(duì)算力需求大爆發(fā),AI應(yīng)用逐漸普及等市場(chǎng)變化,百度智能云推出了百度百舸AI異構(gòu)計(jì)算平臺(tái),提供業(yè)界領(lǐng)先的AI原生云計(jì)算服務(wù)。百度百舸由AI計(jì)算、AI存儲(chǔ)、AI加速、AI容器四大部分組成,具有高性能、高彈性、高速互聯(lián)等能力。其中AI存儲(chǔ)基于傲騰技術(shù),實(shí)現(xiàn)大訓(xùn)練集訓(xùn)練4倍速提升。在AI計(jì)算部分,今年全面升級(jí)了計(jì)算實(shí)例對(duì)于RDMA高速網(wǎng)絡(luò)的支持能力,全新發(fā)布的RDMA網(wǎng)絡(luò)增強(qiáng)型實(shí)例能夠支持掛載彈性RDMA網(wǎng)卡,能夠?qū)崿F(xiàn)實(shí)例靈活接入RDMA網(wǎng)絡(luò),大幅提升不同實(shí)例之間、多實(shí)例GPU之間、實(shí)例到存儲(chǔ)之間的網(wǎng)絡(luò)性能表現(xiàn),能夠提升AI、HPC、緩存數(shù)據(jù)庫(kù)、大數(shù)據(jù)等場(chǎng)景的整體性能。百度百舸平臺(tái)使用多機(jī)網(wǎng)絡(luò)互聯(lián)來(lái)實(shí)現(xiàn)分布式計(jì)算,其服務(wù)器搭配自研DPU,提供高帶寬低時(shí)延的RDMA網(wǎng)絡(luò),同時(shí)支持GDR(GPU Direct RDMA)技術(shù),可支撐大規(guī)模異構(gòu)計(jì)算集群的海量算力。
而這些核心性能的優(yōu)化,離不開(kāi)百度智能云自研DPU對(duì)虛擬化架構(gòu)的重構(gòu)。百度智能云對(duì)DPU2.0的核心定位是“Cloud Native IO Engine”。云架構(gòu)下的核心問(wèn)題就在于數(shù)據(jù)中心東西向流量大增,IO的負(fù)擔(dān)太大。因此重點(diǎn)需要解決在多租戶、細(xì)粒度算力形態(tài)、后端解耦的硬件資源池架構(gòu)下,海量的IO數(shù)據(jù)搬移、通信、處理、安全等等問(wèn)題。重新定義軟硬件邊界,百度太行DPU2.0主要包含5大關(guān)鍵技術(shù):
● 軟件定義虛擬化,支持萬(wàn)級(jí)虛擬設(shè)備;
● 網(wǎng)絡(luò)硬件加速,由軟件轉(zhuǎn)發(fā)變成硬件轉(zhuǎn)發(fā);
● 高性能的RDMA網(wǎng)絡(luò),用自研協(xié)議解決流控、擁塞等問(wèn)題;
● 存算分離硬件加速,通過(guò)超大資源池打平本地和遠(yuǎn)程的區(qū)別;
● 云管控硬件通道,保證各形態(tài)計(jì)算實(shí)例共池,實(shí)現(xiàn)熱遷移、熱升級(jí)、熱插拔等特性,支持千億級(jí)模型訓(xùn)練。
長(zhǎng)期以來(lái),百度與英特爾在產(chǎn)品和技術(shù)上相互影響、一起進(jìn)步。以目前在售最新的第五代云服務(wù)器實(shí)例為例,它搭載了英特爾為百度定制的最新一代的IceLake CPU 8350c,基頻2.6GHz,睿頻3.1GHz,算力部分較第四代云服務(wù)器實(shí)例單核性能提升20%,整機(jī)性能提升50%。在性能提升的同時(shí)單實(shí)例價(jià)格降低5%,整體性價(jià)比大幅提升。在性價(jià)比提升的同時(shí),第五代實(shí)例支持不重啟的熱升降級(jí)能力,能夠在用戶關(guān)鍵業(yè)務(wù)不中斷的情況下實(shí)現(xiàn)計(jì)算性能的縱向擴(kuò)展。另外,百度智能云基于英特爾Tofino可編程交換芯片,對(duì)可編程硬件網(wǎng)關(guān)進(jìn)行了全面升級(jí),將單集群帶寬能力從幾百G躍升為幾十T,單個(gè)網(wǎng)元的轉(zhuǎn)發(fā)時(shí)延從30us降至 1us級(jí)別;單Tbps能耗下降90%以上。
算力供需多元化,技術(shù)賦能無(wú)終點(diǎn)
產(chǎn)品和技術(shù)的出發(fā)點(diǎn)離不開(kāi)客戶的需求,隨著云上業(yè)務(wù)不斷發(fā)展,不管是傳統(tǒng)行業(yè)還是新興行業(yè)都會(huì)遇到一些新的難題。
首先,算力供需會(huì)更加多元化。目前絕大多數(shù)的客戶需求都和AI計(jì)算能力相關(guān),如車、元宇宙、視頻等垂類的場(chǎng)景,同時(shí)對(duì)低碳、綠色能源的需求會(huì)越來(lái)越高,導(dǎo)致涌現(xiàn)出更多的計(jì)算架構(gòu)。將來(lái)一個(gè)計(jì)算部件會(huì)集成多種計(jì)算架構(gòu)單元,只有 “一云多芯”,才能把各種算力高效地提供給客戶。
其次,對(duì)安全和數(shù)據(jù)合規(guī)性的要求越來(lái)越高。例如自動(dòng)駕駛類行業(yè)對(duì)于數(shù)據(jù)收集、脫敏、標(biāo)注的需求以及對(duì)數(shù)據(jù)安全性提出了高度合規(guī)要求。這部分不僅僅涉及到算力部署形態(tài)的調(diào)整,對(duì)于算力本身物理級(jí)別的安全防護(hù)能力的要求也明顯提高。又如元宇宙以區(qū)塊鏈作為基礎(chǔ),加之虛擬資產(chǎn)、混合現(xiàn)實(shí)社交等場(chǎng)景必然會(huì)對(duì)于個(gè)人或組織敏感信息產(chǎn)生更頻繁的調(diào)用。
最后,過(guò)程數(shù)據(jù)的短時(shí)存儲(chǔ)需求難以滿足。目前互聯(lián)網(wǎng)行業(yè)的推理、金融行業(yè)的實(shí)時(shí)反欺詐等場(chǎng)景,長(zhǎng)年累月的數(shù)據(jù)量增長(zhǎng)以及索引規(guī)模擴(kuò)大對(duì)內(nèi)存容量有了更大要求。另外,如生命科學(xué)場(chǎng)景下,特別是對(duì)于大分子類的藥物合成、分子動(dòng)力學(xué)場(chǎng)景,越來(lái)越多的客戶產(chǎn)生了針對(duì)內(nèi)存容量不足的反饋。OOM(Out Of Memory,內(nèi)存溢出)問(wèn)題逐漸顯現(xiàn),內(nèi)存墻成為一部分應(yīng)用的瓶頸,GPU顯存容量的升級(jí)受到硬件限制,且AI加速器之間的傳輸速率升級(jí)無(wú)法兼顧低成本與算力的高速增長(zhǎng),因此必須有一種能夠高效、高性價(jià)比的方式來(lái)繞開(kāi)內(nèi)存墻可能帶來(lái)的限制。
臨近結(jié)束,周磊預(yù)告了7月下旬百度智能云即將發(fā)布的一款全新的分布式云IaaS產(chǎn)品,能夠滿足用戶由于一些時(shí)延、專屬、安全等因素對(duì)本地化算力部署的要求,為用戶提供同公有云一致的使用體驗(yàn)。
技術(shù)的創(chuàng)新沒(méi)有終點(diǎn)。面向未來(lái),只有解決了企業(yè)上云的后顧之憂,才能真正讓企業(yè)敢上云、愿上云、易上云,把數(shù)智化落到業(yè)務(wù)的實(shí)處,把技術(shù)能力變成生產(chǎn)力。