美國國家科學基金會(NSF)資助的云測試平臺Chameleon位于芝加哥大學和德克薩斯州高級計算中心,其開通運營不到一年的時間,但已在推動HPC容器領域的創新研究,百億億次的操作系統和網絡安全等方面有了不俗的業績。為了從研究的角度了解這個專用測試平臺,行業媒體邀請芝加哥大學計算研究所首席研究員凱特·科赫和德克薩斯大學奧斯汀分校高級計算中心主任丹尼·斯坦茲歐文對此進行了討論。
斯坦茲歐文說,“Chameleon是專注于云計算的研究平臺,致力于如何建立一個更好的云,特別是在云計算科學研究方面。”計算機科學家為了探索可編程云服務系統的設計概念和核心技術,需要一個大型的開放式云計算的研究平臺。就像租用房子比買房子在使用上有著更多的限制一樣,所以對于大多數云資源的情況下,但Chameleon在baremetal(裸金屬)上進行實驗。”
“這與其說是一個試驗臺,不如說是一個科學儀器,,而且這個名字也讓人稍微有些混亂。”科赫說。
“擁有計算機科學的實驗測試平臺意味著用戶能夠嘗試和驗證他們對這些資源的研究。于是,他們提出了一個假設,例如,他們想出了一個新的研究管理算法,或新的網絡算法,或新的做法,或者是任何一個分布式系統或操作系統,或新的虛擬化系統,或一個新的架構新的安全方法。他們想出了各種有趣的想法,我們目前將通過計算機科學能夠驗證科學儀器的研究,提出開放挑戰的解決方案。這意味著,如果他們有一個假設,新的算法能夠解決一些更快或更有效的研究,他們將能夠獲得資源和運行實驗的時間的證明或者反駁這個假設。”
Chameleon與眾不同的是訪問,并提供了可重構的水平。“計算機科學需要研究的類型與研究領域的科學家計劃的類型有點不同。”科赫解釋道,“域名科學家執行他們的代碼,他們并不需要重新編譯內核。它們并不需要深入資源和侵入訪問;計算機科學家做的。它是計算機科學,其中計算機科學家能夠證明或否定一個科學儀器假設。”
斯坦茲歐文也強調了這一方面的完全控制。“雖然Chameleon沒有超級計算機Stampede那么大,我們沒辦法給研究者提供Stampede,但我們可以為他們提供Chameleon,因為我們對配套生產科學進行了多年的研究和控制。”他說。“以我多年經營大型HPC設施的經驗,我們不得不說計算機科學的研究者,如果想提高水平或發生變化,可能影響系統上的其他用戶或使系統不穩定,而這些事情我們始終無法改變。所以我們真的可以說,Chameleon是系統軟件研究界或CS研究社區要對機器的運作方式產生根本性的變化的第一個系統。”
該環境包括650多核心的云節點(具有14500個核心處理器),兩個數據中心的總磁盤空間達到了5PB,站點之間網絡的連接達到了100Gbps。當前同類的硬件支持大規模的實驗,但在升級計劃可以添加異構單元允許采取進一步的實驗,異構單元包括高容量的內存,大容量的硬盤,GPU,以及協助處理器單元等。“今年晚些時候,我們為那些希望進行加速器實驗科學家增加GPU。我們將采用ARM處理器進行能源效率的實驗。我們會得到原子和其他各種有趣的異構硬件。”科赫說。
Chameleon系統所需的硬件設施
Chameleon的用戶群已擴大到600名研究人員開展的150多個項目。Chameleon允許用戶配置和測試不同的云架構的一系列的問題,包括機器學習和自適應操作系統,氣候模擬,洪水預報和許多其他測試。這些問題支持Chameleon研究的重要組織原則。
“如果你看一下在計算機科學中有趣的問題,它們都與規模有關。”科赫評論道。“這其中就有大數據的問題,而關于云計算或云基礎架構推出的創新技術也涉及到高性能計算這些非常有趣的問題。例如,我們要繼續運行高性能計算數據中心,我們是一直采用批處理計算類型的方式還是采取按需訪問的方式?”
“隨著儀器的價格下降,小型傳感器,個人設備,可穿戴的互聯網連接設備,以及串聯其它互聯網的設備,以及社交媒體都會生成大量的數據。”科赫說,“這并不總是大數據,它有時是大量時間積累的小塊數據,但我們的洞察力和我們的儀器能力,使我們現在實現了前所未有的環境,它將繼續增長。因此,現在的問題是什么新的數據處理模式,我們將如何與這個高度儀表的環境進行互動?這是計算機科學的所有有趣的研究問題,并且他們都具有大規模的元素。”
大多數項目都是使用多個節點的多個機架,而使用整個系統的機會不會太多,斯坦茲歐文表示,研究人員正在訪問的Chameleon已經完成了單個節點的工作,并已呈現出一定的規模。而感興趣的研究人員可以直接通過Chameleon的門戶網站了解Chameleon的配置過程。
Chameleon的一個用戶是匹茲堡大學的學生周玉宇。周玉宇一直在研究容器和虛擬化之間的性能比較,并將計劃對這種類型的中間地帶提出一個解決方案。
周玉宇向約翰·蘭格(美國匹茲堡大學)和阿貢國家實驗室的計算機科學家凱特·科赫介紹了他們如何利用Chameleon了解虛擬化(例如以KVM為例)和容器的適用性(例如Docker)技術的高性能計算應用程序。該團隊使用的五種微基準和三個微應用作為測試用例。結果顯示Docker在大多數情況下表現比KVM更好。周玉宇的下一步計劃是向外擴展到更多的節點,并調查結果的根本原因。他也想了解如何托管設施的位置是否會影響性能。
“這是一個非常有趣的項目,這個項目對于Chameleon是一個真正需要獲得規模很好的例子,因為為了孤立噪聲的影響,例如,你需要在多個節點運行周玉宇已經能夠運行數百個Chameleon的節點來驗證她的各種假說。”科赫說。
另一個有趣的用戶故事是亞利桑那大學運行代碼尋找系外行星項目。其項目是處理圖像數據,以識別一個行星的獨特的簽名,這要求臺式計算機計算幾個月的時間。學生們轉向云計算,因為它提供了并行化的工作流程,并進行高速處理。他們選擇使用Chameleon,而不是因為它利用了公共云或校園資源,而是其提供了細粒度的控制。使用Chameleon,和他們開發的一個自定義的研究應用,被稱為find-r,研究人員的運行時間能夠從四個月縮短至24-48小時。該研究的應用代碼通過GitHub上已提供給社區。
研究者甚至使用Chameleon來解決數據泄露問題。這項研究強調指出,阿肯色大學派恩拉夫學院網絡安全研究人員團隊,北卡羅萊納州的AT&T州立大學和路易斯安那州立大學都能夠模擬惡意攻擊,然后開發和測試上Chameleon他們的方法。該項目探索了三種情形:從云計算外部攻擊,從云計算內部攻擊,或內外同時攻擊。研究人員正在努力強化入侵檢測系統,使他們更有效阻止多級入侵攻擊。該小組已經編寫并提交了多篇論文,并希望與甲骨文、思科系統和微軟合作。
百億億級連接–Argo計劃
Chameleon也是國際ARGO計劃的關鍵資源,是一個為期三年的努力設計和原型的百億億級操作系統和運行時的關鍵資源。該項目涉及三個美國國家級實驗室和四所大學的40名研究人員的研究工作。
據行業媒體報道,阿貢國家實驗室的博士后研究員斯旺·皮爾那魯,是Argo計劃的合作者,他通過Chameleon測試Argo計劃的四大創新:(1)全球操作系統,(2)節點操作系統,(3)并發運行時間,(4)控制面板(BEACON)。
項目的成功很大程度上基于OpenStack的Chameleon可以能夠使用CHI配置軟件,這是該項目的成功的關鍵。“我們想驗證整個項目,包括基于補丁的Linux內核NodeOS。”皮爾那魯說。“我們可以做到這一點,在生產高性能計算設備都嚴格控制,但是沒有人等著我們改變這樣一個重要組成部分,我們需要抓緊時間部署。”據悉,Argo系統有望形成新一代的領先級機器的基礎,并計劃在2018-2020年期間部署。