云端逐漸成為大數(shù)據(jù)企業(yè)的必爭之地。根據(jù)美國媒體報道,7月31日消息,分布式虛擬存儲系統(tǒng)Alluxio發(fā)布1.8版本,加速針對數(shù)據(jù)分析及機器學(xué)習(xí)的云端部署。
Alluxio是世界上首個能以內(nèi)存級速度集成數(shù)據(jù)的軟件系統(tǒng),其技術(shù)脫胎于其創(chuàng)始人李浩源博士在加州伯克利AMPLab的博士課題開源研究項目Tachyon——它能夠在大數(shù)據(jù)應(yīng)用層及存儲層之間搭建一個虛擬數(shù)據(jù)層,讓企業(yè)能夠利用這個系統(tǒng)來使用和管理不同的數(shù)據(jù)應(yīng)用及存儲方案。此前,全球知名的現(xiàn)象級開源軟件Spark及Mesos同樣出自AMPLab,只是不同于針對存儲的Alluxio,前者專注于計算,后者則專注于資源管理和調(diào)度。
由于擁有內(nèi)存級的訪問速度,Alluxio系統(tǒng)比過去的方案快了十倍甚至數(shù)十倍。
創(chuàng)建五年后,Alluxio是最活躍的數(shù)據(jù)生態(tài)系統(tǒng)開源項目之一,解決數(shù)據(jù)問題的能力備受信任。在中國市值排名前十的互聯(lián)網(wǎng)公司中,已經(jīng)有八家在應(yīng)用Alluxio的技術(shù)方案,管理PB級別的數(shù)據(jù)。除此之外,華為、聯(lián)想、中國電信、京東等公司也都在用它來管理數(shù)據(jù),其他合作伙伴包括英特爾、三星、微軟、Nvidia、Oracle等等。
Alluxio經(jīng)歷了數(shù)次版本更替。通過此次更新,這個系統(tǒng)希望能進(jìn)一步支持不同的云端存儲方案,加速數(shù)據(jù)儲存、調(diào)取和使用的速度,解決深度學(xué)習(xí)面臨的數(shù)據(jù)存儲問題;與此同時,給他們非常重視的開源社區(qū)提供更多的支持和幫助。
針對云端部署,Alluxio的新版本提供了三個全新的功能:
1.感知定位的數(shù)據(jù)管理工具。企業(yè)可以為數(shù)據(jù)應(yīng)用設(shè)置不同的策略,根據(jù)數(shù)據(jù)的位置標(biāo)記來選定具體的數(shù)據(jù)調(diào)用區(qū)域或者優(yōu)化數(shù)據(jù)分布,從而降低調(diào)用不同存儲位置的數(shù)據(jù)時的成本、提高效率。
2.針對不同云端存儲方案的優(yōu)化。解決對象存儲或者云端存儲方案和傳統(tǒng)的HDFS(Hadoop Distributed File System)方案中的API及執(zhí)行效率的差別帶來的問題;也讓把數(shù)據(jù)從HDFS轉(zhuǎn)移到對象存儲時更加容易,真正做到在云端輕便地轉(zhuǎn)移數(shù)據(jù)。
3.FUSE(Filesystem in Userspace)界面。FUSE能把云上的數(shù)據(jù)緩存在本地,通過普通的本地文件夾展現(xiàn),以無縫支持現(xiàn)有的機器學(xué)習(xí)和大數(shù)據(jù)分析框架來存取云端數(shù)據(jù)。
云端趨勢下,混合云部署的強大需求
此次Alluxio版本更新,可以說是順應(yīng)了企業(yè)“往云上走”的趨勢。
近幾年,不僅有層出不窮的云端數(shù)據(jù)存儲、計算和分析創(chuàng)業(yè)項目提供服務(wù),大公司也在尋求更好的云端部署方案。
2018年6月,微軟收購知名開源開發(fā)平臺GitHub后,并表示將進(jìn)行GitHub與自己的云服務(wù)產(chǎn)品Azure Cloud的整合。分析報告預(yù)測,未來云服務(wù)市場將從今年的281億美元增長到2021年的533億美元。
“數(shù)據(jù)分析和機器學(xué)習(xí)的興起讓云端的計算量大量增長,Alluxio的特性意味著它同樣可以很好地管理混合云的數(shù)據(jù)。”李浩源對鈦媒體說道。451Research的報告顯示,預(yù)計在2019年,超過66%的企業(yè)會使用一個混合云或者多個云服務(wù)方案的架構(gòu),它們都可能面對不同云服務(wù)上迥異的操作差異,單憑自己很難保證效率,需要第三方服務(wù)方案的協(xié)助。
更遠(yuǎn)的未來里,中小型企業(yè)可能會徹底轉(zhuǎn)向公有云部署。
Gartner預(yù)測,到2021年,全球超過50%的企業(yè)會應(yīng)用純粹的公有云存儲方案,而更大的公司則會應(yīng)用更多的第三方云端基礎(chǔ)架構(gòu)來管理混合云。
這和李浩源的判斷相符。他認(rèn)為,對于很多現(xiàn)代企業(yè)來說真正的價值往往在數(shù)據(jù)里。
尤其是對于某些大型企業(yè)來說,最核心的數(shù)據(jù)管理很難假手于人。2017年馬云接受Bloomberg專訪時曾說出金句,“數(shù)據(jù)的重要程度堪比上個世紀(jì)的石油。”
Eric Anderson(時任Google產(chǎn)品經(jīng)理)談Alluxio
“總有一些數(shù)據(jù)他們希望保存在本地服務(wù)器上,但全部放在本地成本又太高,所以選折中方案,在一個無縫的架構(gòu)下管理私有和公有云是一個剛需。”李浩源說道。
除此之外,Alluxio也希望能解決近幾年火熱的數(shù)據(jù)分析及深度學(xué)習(xí)面臨的數(shù)據(jù)存儲問題。
對于數(shù)據(jù)分析來說,已經(jīng)有了不少使用云上數(shù)據(jù)的方案,Alluxio只是能幫助提高性能、降低費用。
對于深度學(xué)習(xí),問題則稍顯復(fù)雜。
“不是所有的訓(xùn)練數(shù)據(jù)都能直接用于像Tensorflow這種深度學(xué)習(xí)框架,另外各類分布式存儲和云存儲的交互方式和傳統(tǒng)本地交互方式有很大區(qū)別,用戶難以準(zhǔn)確地配置和使用新工具。”舉個例子,沒有Alluxio時,讓深度學(xué)習(xí)框架TensorFlow訪問微軟云服務(wù)Azure Object store上的數(shù)據(jù)就是一件難以完成的事情。
Alluxio的特性意味著它能整合各類存儲系統(tǒng),縮短各類深度學(xué)習(xí)框架與存儲層之間的距離,提高效率及彈性、降低成本。另一方面,這次更新里的FUSE工具則讓Alluxio可以掛載本地文件系統(tǒng),讓用戶在使用遠(yuǎn)程云端分布式存儲時,擁有和本地數(shù)據(jù)時相似的交互體驗。
關(guān)注開源社區(qū)
除了針對云端部署及深度學(xué)習(xí)的更新之外,Alluxio的新版本還有另一個重點:為開發(fā)者提供了更多便利,包括:
1.提供針對應(yīng)用運行的數(shù)據(jù)服務(wù)監(jiān)視工具,包括能夠獲取集群實時數(shù)據(jù)的web圖形界面以及命令行界面(Command Line Interface)工具,讓開發(fā)者能夠更好地了解數(shù)據(jù)的使用情況、分析性能結(jié)果并獲得數(shù)據(jù)洞察。
2.更完善的生態(tài)系統(tǒng)集成。把對數(shù)據(jù)服務(wù)的追蹤和洞察擴展到不同的應(yīng)用層和存儲層,開發(fā)者可以通過新的工具直觀地看到存儲系統(tǒng)中的問題,比如延時的直方圖和存儲空間利用率。
3.一個入門套件(Starter Kit),其中包括預(yù)建的代碼及其他文件和一些簡單的案例展示,包括“如何在本地機器上安裝Alluxio”“如何安裝和設(shè)置AWS S3 Bucket(存儲桶)及加速遠(yuǎn)程讀取”,讓開發(fā)者能更快地上手并使用Alluxio。
“開源社區(qū)是我們最珍視的事情之一,所以希望盡可能地幫助開發(fā)者理解和使用這個系統(tǒng)。”李浩源說道。他認(rèn)為,自創(chuàng)立之初,這一社區(qū)帶來的活力是推動Alluxio迅速進(jìn)展的重要推力之一。
在2016年接受CSDN采訪時,Alluxio曾表示“Alluxio是史上成長速度最快的開源社區(qū)之一”,如今其貢獻(xiàn)者已經(jīng)超過800人,在GitHub上星標(biāo)超過3000個。
正在比賽氣泡足球的部分Alluxio團(tuán)隊成員
這個項目里還有不少活躍的公司貢獻(xiàn)者,他們還能提供針對具體產(chǎn)品和應(yīng)用場景的反饋。英特爾、騰訊、阿里巴巴、百度、京東、陌陌等公司同樣也是這個開源項目的貢獻(xiàn)者之一。比如陌陌的工程師團(tuán)隊會基于陌陌的應(yīng)用場景,做出適配和調(diào)整,而后經(jīng)過Alluxio的社區(qū)管理者審核后接納,“最終形成一個正向的反饋,是一個雙向改進(jìn)的過程”。
百度、去哪兒和陌陌都曾經(jīng)就應(yīng)用Alluxio之后的經(jīng)驗做出分享,比如百度此前分享過,在用他們自己開發(fā)的使用Spark SQL作為計算引擎的查詢系統(tǒng)時,單獨一次查詢需要100-150秒;加上作為內(nèi)存中心的存儲層的Alluxio之后,數(shù)據(jù)可能會沖擊本地或遠(yuǎn)程Alluxio節(jié)點,需要10-15秒;當(dāng)所有數(shù)據(jù)儲存在Alluxio本地時,平均只需5秒,速度提升了30倍。測試過后,百度圍繞 Alluxio和Spark SQL建立了一個完整的系統(tǒng)。
2016年初,Alluxio曾獲得硅谷知名風(fēng)險投資機構(gòu) Andressen Horowitz的750萬美元融資。