AI和5G技術加速了數字化轉型,隨著“新”數據形態、“新”部署環境、“新”應用模式及“新”價值需求的涌現,對數據存儲帶來了新的挑戰,也就意味著存儲需要管理的數據更多了、更寬了、更復雜了。在2018中國存儲與數據峰會中,浪潮存儲研發總監李輝帶來了《新數據時代,新存儲之道》的主題演講。
李輝認為,大數據、AI、云是應對以上四個變化常用的技術手段,他總結為7個“V”,分別是:“Virtualization、Value、Variety、Veracity、Velocity、Volume和Visibility。
實際上今天的云有了新的挑戰和壓力,如何去支撐更大規模的數據中心和更徹底的虛擬化和云化;在大數據方面,如何獲取更有價值的數據;AI預測是不是真的準確等等。
對此,浪潮給出的解決方案是采用集群的方式搭建一個AI集群,基于浪潮服務器硬件平臺,用一套分布式存儲的軟件來提供文件對接大數據。為未來超大規模數據中心打造一套超大規模的分布式存儲系統。
同時,李輝表示,浪潮的場景化定制是較為獨特的服務理念,浪潮提供一個觀點,即研發就是服務,通過給客戶面向未來整個數字化的轉型,云化數據中心的建設,對EB級數據的處理來定向開發定制戰略合作,這是浪潮的新存儲之道。
以下為演講全文:
各位尊敬的來賓,我是來自浪潮的李輝,跟鄭信武先生也認識了很多年,參加這個會也參加了很多年,但今天是第一次登臺演講,在主會場來跟大家作交流和分享。也非常感謝DOIT和鄭信武先生的邀請,來參加這次盛會,也預祝這次大會能夠圓滿的成功。也非常希望像鄭信武先生講的,在未來數據產業和存儲產業上,DOIT能夠組織更多的交流平臺,來促進咱們中國存儲產業超越式的發展。
說起浪潮,大家可能都了解浪潮的服務器,浪潮的服務器現在是全球第三,國內一直是第一。但現在浪潮是一家基于云+數,為廣大政府用戶和企業用戶提供云服務的公司。同時浪潮也是為我們的用戶提供全面的云化基礎設施,不僅有服務器,還有存儲、網絡、云平臺等產品。
所以今天跟大家交流和分享的內容是浪潮在存儲這方面創新,因為今天的主題是2018中國存儲和數據峰會,其實我今天的內容也是這兩個基本點,一個是存儲,一個是數據,只不過是這兩個點的順序反了過來。想先跟大家交流一下數據的情況,然后再跟大家交流浪潮如何應對新技術帶來的變化,怎么運用新的存儲解決之道幫助用戶應對這些新的挑戰,充分釋放這些數據的價值。
剛才李博士從應用的角度講了工業互聯網,我們今天講的這些是存儲系統層面的內容。首先我們想看一下,其實現在大家都在講一個事情就是數字化轉型,這是一個非常熱的話題,無論是我們現在的各種各樣的應用,我們一些非常好聽的名字,比如說智慧地球、智慧城市、智慧企業、智慧教育、智慧醫療、城市大腦、工業大腦、企業大腦,事實上都是數字化轉型。
其實我們在數字化轉型過程中,一個基本的架構、基本的原理是說我們想從這個物理世界里得到更多的數據,拿到我們所謂的數字世界里,通過這個數字世界的加工和處理,再回到這個物理世界,能夠給這個物理世界帶來更好的結果、更好的產品,使之更好的服務。
比如說DOIT做易會實際上也是這樣,所有參會的人信息在DOIT,通過這樣的一些信息和數據來組織更好的會務服務,其實這也是數字化轉型。在數字化轉型當中,一個很核心的是我們要有更多的數據進入到我們的數字世界,在未來我們會看到有兩個核心的技術,一個是5G,一個是AI,將會加速數字化的轉型。5G理論上的性能會比4G提高1000倍,實際的一些POC測試的性能提高了10倍,將會把更多的IOT設備推到了網絡上,來幫助我們采集數據。而AI現在剛才大家都在提AI非常熱,AI會讓我們有更強的能力來去做更多的、更深入的一些數據的或者是一些智慧的應用,這兩個技術會加速數字化的轉型。
那這兩個技術加速數字化的轉型會帶給我們什么?會在數據方面產生一些什么樣的變化?主要是有四個方面的變化,第一個,數據會具備新的形態。我們老說海量數據、大數據,可能今天我們才真正體會到我們現在面對的是海量的數據,我們面對的是大數據。因為今天我們看我們的數據來源,有內部數據,有外部數據。比如從外面通過授權得到的數據,比如去采購或者是去采集的一些數據。從這種數據的生產者的角度上講,過去我們靠敲鍵盤,我們大家都是鍵盤俠做了很多數據。后來我們借助一些設備來采集數據,從現實世界里采集數據,無論是智能家居還是智能交通,還是智能的工業互聯網,越來越多的設備在幫助我們采集數據。
有了AI之后,有了大數據和AI之后,實際上數據也在產生數據,尤其是一些大數據的挖掘過程中和AI的訓練和推理過程中,都會有相當多的次生數據,這些數據加在一起就構成了我們手里的大數據。其實這些數據在我們的處理上也不一樣,有的是要快,有的是要海量的批處理,有的是又要快又要海量的批處理,它的處理形態也不一樣。這些對我們的一個挑戰是什么?就意味著我們在存儲的角度,管的數據更多了、更寬了、更復雜了,這是一個新數據形態。
第二,我們看到新的部署環境,我們之前只做關鍵計算,現在又有了智慧計算、科學計算、網格計算,現在又有了智能的計算、邊緣計算。我們用各種各樣的計算手段,而且現在我們用新的一些基礎設施的手段,來部署我們數據處理的一些環境。比如說現在我們從公有云,公有云發展了十幾年,現在公有云又要進入企業云。我們自己的數據中心怎么去真正的變成云化,我們自己真正的數據中心的云化,我們還沒有云化完的時候,新的又來了。那我們就會發現,我們想把一些低延遲、高頻的,甚至是一些邏輯回路比較短的應用,我們會想放到Edge上,我們把數據量不大的,容易遠程上云的放到公有云上,或者短期沒有那么多設備,一個短周期的,一個高計算力需求的應用我們放到云上去。
一個高計算率需求的應用放到云上去,或者把一些數據備份,有一些容災的東西放到云上去,但是最終在我們自己手里邊,我們的數據型的、效率型的和安全性的應用,其實還是在我們自己的數據中心里,也就是數字化轉型,其實是以我為本的,以我們自己的數據中心為本的數字化的轉型,這是第二個變化。
第三個變化,我們看應用模式的變化,其實數字化轉型最核心的一個目標是無,最主要的一個手段是去,我們想通過數字化轉型,用我們智能的手段,智慧化的應用,比如在我們政府辦公里面變成無接觸的處理,坐在家里在手機上就可以把所有的政務處理解決完,或者可以無紙化的辦公,或者現在咱們的鐵路也在準備無紙化的,沒有票,包括我們的工廠的無人值守和汽車的無人駕駛,這些都是一些新的應用模式,這些新的應用模式對我們的變化是我們需要更多的數據,我們需要好的形態和好的工具來處理,來支撐我們的新的應用模式。
第四個方面的變化,新的價值的需求,我們一些智能化的應用,我們通過收集數據和大數據智能的應用來處理和加工,得到一個非常有價值的結果,幫助我們來做預測,幫助我們來做決策,幫助我們來提升生活水平,幫助我們來提升我們的政府的管理水平,這里還有一個所謂的價值需求,我們一定要有價值的數據,我們的有價值的數據從哪里來?我們會千方百計絞盡腦汁的找數據,其實我們這些數據就在我們的身邊和我們實際的企業的運營過程里,就我們在每天用我們數字化的設備和手段處理的過程里,也就是我們的過程的數據,其實我們在手機上和電腦上,我們在哪里處理的?這些過程的數據我們過去認為不太重要,歸檔都不會,檔案都不會有,現在我們可能會有了檔案,有些檔案我們可能會放一兩年,就把數據丟棄了。
當我們今天智能化的應用普及的時候,我們會發現過程的數據非常重要,比如我們有一個所謂的英語學習軟件,為了打造一個適應咱們中國人的AI的英語教師,他在有定向的收集我們整個通過手機傳輸到網上的英語的發音,他收集了4500萬人,大約10億分鐘的英語語音,通過智能的手段去訓練,去識別,最后訓練出一個最適合國人的AI英語教師,可能會比教師教得更好,因為會理解背后的語境文化和邏輯思維,而不是英語語言的東西,這是過程數據的價值。
電商過程數據的價值,和所有的過程數據價值對我們來說都非常重要,所以在數字化應用的第四個變化是,我們要追求有價值的數據,我們有價值的數據就在我們身邊,是有價值的過程數據。
這四個數據變化,新數據形態和新的部署環境,我們新的智能化的應用模式,和新的價值需求,尤其要挖掘我們的過程數據的價值的需求,組成了我們在我們看來所謂新的數據時代,它真的和過去我們處理數據不一樣了,我們的數據可能對于每個人來講,照片用的時候才會找,但是對于一個企業和組織來講是無時無刻不需要數據的,我們的數據的種類會更多,我們的數據部署環境更復雜,我們的應用模式更加的智能。
在這種情況下,我們存儲會有什么樣的挑戰?這四個變化對應我們現在常用的IT的技術手段,主要的就是三個,我們認為是大數據、AI、云,從這上來看數據處理需要解決什么,我們總結了7個V,比如Value等等。實際上今天我們云有新的挑戰和壓力,怎么支撐更大規模的數據中心和更徹底的虛擬化和云化?在大數據方面,我們怎么能夠有更有價值的數據到達我們的手里,進入我們的應用,比如我們在數據精度上的追求,數據速率上的追求和數據生命周期時長的追求和要求,都會是我們的挑戰,AI上最大的挑戰是會不會幫助我們,AI的預測是不是真的準確,AI的決策是不是真的會對我們最有用的決策,這是我們在存儲上碰到的挑戰。
有數據統計現在70%的服務器在超大數據中心和企業的中大型數據中心里,而且在未來三五年還會更多,越來越多,我們企業的數據中心會從幾十臺幾百臺的服務器變得越來越多,越來越大的數據中心的規模,在這樣一個數據中心里,我們的數據接入集群和數據處理和應用的集群規模都非常大,我們會用虛擬化的手段跑各種各樣的應用,畢竟我們需要敏捷的處理,在這樣的虛擬化情況下,時間樣的存儲可以支撐上萬臺的虛擬機的物理化和十萬臺虛擬機的運行,這是我們碰到的挑戰。
第二個挑戰是大數據,我們需要精度,比如我們在無人駕駛導航上,我們還是米級的導航,我們一個無人駕駛汽車在開的時候,安全肯定保證不了,因為汽車每秒鐘就會跑上三到五十米,精度要到厘米級。
在宏觀領域,科學研究上,在勘探、偵測、檢測上,其實我們在微觀的領域,我們是到了納米級,對人腦的研究要到納米級,第二,速率上,設備和儀器有無線電、光學和其他的,比如光學設備上,過去的視頻監控常說1秒鐘15禎,現在一些光學設備1秒鐘30禎,在時長上,現在在醫院里為了讓大家的生命更健康,為了讓我們每個人的壽命更長,我們的醫院會把我們的病例數據和各種的過去治療的數據存十五年以上,而現在為了一些安全的需要,過去30天的數據現在拉長到60天和90天,這些精度的速率的和數據生命周期上的要求,會把我們手里的數據放大至少一個數量級,過去可能我們覺得是幾十個PB,但是未來我們可以預見的是我們的一些大型數據中心里面的數據很容易到EB級,現在一些用戶在兩地三中心的追求下,需要在每一個數據中心里至少支撐一百個PB的數據,很容易到EB級,這是我們存儲的第二個挑戰。
存儲的第三個挑戰,是AI,其實AI我們要拿到很多原始的數據進行標記,進行處理,處理成小文件,從視頻里拿出數據,從圖片里拿出數據,語音里拿出數據,文本里拿出來,我們會拿出很多小文件,現在一個大型的AI,真正預測能力非常準確的,高預測率準確的,有可能它的小文件會達到萬億的級別,現在我們AI的算法和算例,我們的模型其實現在并不是那么的優化,我們需要短時間足夠的訓練,才能訓練出好的模型。
今年浪潮我們通常會用集群的方式搭建一個AI的集群,比如浪潮今年發布的16個節GPU節點的服務器,我們可能需要16臺搭一個256節點,每個GPU需要五個容器,每秒鐘每個容器要三千到五千個OPS,給一個GPU輸送數據,算下來,我們一個16個節點的GPU服務器,我們就會有384萬臺OPS,也就是性能上我們會有一個非常大的挑戰。這樣的一些挑戰,在存儲上怎么解決,企事業就是過去的SCIE或者集群存儲等傳統的架構已經不能解決問題,我們應該向互聯網學習,面向未來,去看我們這種分布式和我們這種超大規模分布式架構下我們怎么實現一個超大規模的存儲,在這個超大規模的存儲上,我們支持上萬臺的物理機和三段式的架構,我們支持云、大數據、人工智能的應用。
在容量上,性能上我們可以做到EB級,EGLPS,以及管理上可以做到AIOPS,現在數據中心越來越需要AIOPS來解決問題,谷歌數據中心用了AI的手段以后,能耗可以降低40%,這是新的存儲解決之道。
浪潮基于我們服務器的硬件平臺,我們在服務器的硬件平臺上用一套分布式的存儲的軟件來提供文件對接大數據,聽上去沒有太多的變化,但這確實是我們為未來的超大規模數據中心在打造的一套超大規模的分布式存儲系統,我們的單節點的能力,剛才劉鋼也講了PB級的容量,10GB的帶寬甚至10萬的LPS,最大的擴容性可以做到5200個節點,通過超大規模的擴展來最終提供我們需要的容量和最終提供我們的性能,在這里面,比如小文件上,我們可以達到一千億的處理能力,而且我們在AI大數據上我們需要數據的流動,我們真的需要數據的流動嗎?我們真的要復制和遷移數據嗎?我相信大家都不想做這個事情,TB級就夠難受了,PB就不用說了,到了EB級我們認為還是在那里吧,這個時候我們就需要一些文件的0拷貝技術,在原數據上,我們怎么做一些工作,能夠讓我們的數據通過不同的NF形式或者Hudp為不同的應用共享同一份數據而免去數據遷移和拷貝,以及openstack,我們怎么有更好的能力支持它,支持國內的用戶,國內的用戶沒有國外得那么幸福,國內的用戶我們更多得用openstack做云化中心和支持能力。
我認為浪潮有一點最獨特,就是場景化的定制,我們提倡一個觀點,研發就是服務,通過給我們的用戶面向未來整個數字化的轉型,云化數據中心的建設,對EB級數據的處理來定向開發定制開發戰略合作,這是我們浪潮的新存儲之道。
浪潮新存儲有了一些實踐,有一個高清圖片,有一個用戶選擇了大于350個節點,在他的數據中心里用了65個節點做所有虛擬機的鏡像化文件,用250個節點70個BP存儲他高清的圖片,用了30個節點在內部的協同辦公來用對象做了他的網盤,通過這樣的一個超大規模分布式存儲的架構,我們的這個用戶當然在這種對比傳統存儲降低了50%的采購成本,對于他的整個數據的作業,他有十個作業段,他降低了60%的作業時間,然后他在用戶的規模擴大一百倍情況下,用戶的服務的時間SLA從分鐘級降到了秒級,這是我們給超大規模的用戶所創造的一個價值,當然在這里面我們一套的架構和小文件上的優化,我們在數據的免遷移和免拷貝上所做得一些特性,確實幫到了他最終整個超大規模的應用。
我們另一個超大規模的應用,是在融合媒體領域,我們的融合媒體用戶也要在全國建兩地三中心,把他全部的應用,無論是關鍵的還是不關鍵的全部上云,在他的每個數據中心里現在都是千級服務器,一千臺以上的服務器,來支撐他大約接近100個業務應用,最終這個用戶選擇了我們大約一百多個節點,10PB空間,其中我們有40個節點,已經在支撐他的500臺物理機虛擬化,每臺物理機上跑了五個虛擬機,最終每個數據中心至少要一千臺物理機,每個物理機上十個虛擬機,一萬個虛擬機的規模。這樣通過超大規模的分布式存儲,我們這位用戶可以在他所有的全國數據中心里用一套的工具和一套的知識管理云化數據中心基礎設施中存儲的一部分,從他的運維上都得到了很高的價值,這是我們又一個新存儲的實踐。
這是我跟各位匯報的所有的內容,占用了大家稍微多的一點時間,也非常感謝大家聆聽我的分享,希望在未來能夠跟中國存儲的產業界所有的同行能夠一起合作,能夠跟所有的用戶一起合作,能夠為浪潮的新存儲面向未來,為所有的中國用戶云化數據中心提供更多的價值,帶來更多的幫助,讓我們充分享受我們的AI,充分享受我們的5G和智能化的未來,謝謝各位。