人們可以設想一下,邊緣計算集群中的服務器出現故障,而存放備用的服務器的倉庫卻遠達幾百英里,服務商通過離客戶位置最近的技術人員在24小時內進行更換,雖然及時解決了問題,但其成本高昂。
現在設想一下,服務商為客戶托管運行關鍵應用程序的分布在各地的分布式平臺。那么需要什么樣的服務水平協議才能夠滿足用戶的需求?
運營模式是構建最早的分布式邊緣計算平臺的企業正在努力解決的最大難題之一。 那么如何讓大量的遠程站點能夠以可行的成本水平運行?
解決這個難題是開源數據中心項目Open19的一個重要設計目標,Open19是LinkedIn公司創建的數據中心硬件標準,現在由非盈利機構Open19基金會監管。如果安裝服務器如此簡單,交付驅動程序可以做什么呢?如果只是在邊緣集群附近存放一些可供替換的服務器,并且當集群中的實時服務器發生故障時,機器人手臂會將其取出,并更換新的服務器,那么該怎么辦?如果自我監控系統發現服務器即將發生故障,自動訂購替換設備,并及時關閉有問題的服務器,該怎么辦?
在未來,企業可以在任何地方部署邊緣數據中心:手機通信塔臺、工廠、零售店、賽場,這些都是需要計算能力來攝取和處理數據的場合,從而在現場做出決策,而不需要連接到可能遠達數百英里的中央數據中心。
更多的機架和機箱
Open19基金會總裁,LinkedIn公司全球數據中心架構首席工程師Yuval Bachar表示,Open19以統一的機箱和多個供應商可以設計的連接器開始。標準化、機架內部的硬件隔離、自我監控和自我修復配置系統,都是創建全自動或“無人值守”邊緣數據中心的難題。
許多關注邊緣計算的公司已經加入Open19基金會,其中包括LinkedIn的基金會聯合創始者Vapor IO公司,該公司為邊緣計算提供數據中心基礎設施和軟件。此外,還有開始將其云平臺擴展到手機通信塔臺的Packet公司。而美國無線塔臺行業巨頭Crown Castle公司是Vapor的投資者和合作伙伴,今年加入了該基金會。
Bachar在今年3月闡述了Open19對于邊緣數據中心部署的好處,其中包括部署在數據中心的液體冷卻系統。該系統將用于機器學習應用程序的高密度計算,預計將在邊緣擴散的工作負載之一,以及下一代網絡交換機。他表示將會實現更高的功率密度。
該設計已準備就緒,可用于可用的電源。“我們的電源架是普遍適用的。”Bachar說,“交流、直流、單相或多相設備都被放到電源架上,并分配到各個負載。”
Bachar說,“Open19標準使用服務器中具有完全電源隔離的分類硬件。我們沒有在機架上共用配電母線,每個服務器都受到單獨電源通道的完全保護、監控和啟用。電源通道是隔離的,每個服務器都有用于保護的電子保險絲。”
遠程監控更為重要
電子保險絲還提供實時功耗數據,可以揭示新出現的硬件問題。“如果看到服務器功耗波動,那通常表明存在問題。”Bachar解釋說。而跟蹤熱量波動也可能了解網絡故障或負載平衡器的問題。
LinkedIn公司使用該信息進行主動硬件維護,在異常問題影響工作負載之前,將具有異常電源活動的服務器用于測試。擴展預測性維護以創建自我修復系統,在硬件故障或數據丟失之前訂購新服務器,并獲得一個完全自動化的環境,非常適合邊緣計算。“手機通信塔臺并不會配備工作人員。”Bachar指出。
即插即用
Open19將所有電纜連接到機架背面,連接器的設計可以使新服務器安裝到位并連接。這意味著理論上可以替換服務器而不會意外斷開連接,或者不讓電纜影響氣流。
LinkedIn公司編寫了相關軟件,其功能是,一旦服務器插入機架可以自動聯機。“供應系統已經實現自動化。”Bachar指出,“在Open19中將服務器替換后,系統會自動檢測并自動配置。”
Bachar表示,該公司用于Open19基礎設施的監控和配置軟件最終將作為一個單獨的項目開源,將提供給Open19基金會或與其他開源合作伙伴。Open19平臺與現有的管理軟件配合使用,因此客戶可以按照LinkedIn公司使用自己的方式使用現有的自動化基礎設施。
采用機器人替換服務器?
對于具有足夠空間來存放替換服務器的組織,Bachar表示可以采用機器手移除故障服務器并替換新服務器,就像在數字磁帶存檔中更換磁帶的磁帶機器人一樣。
“這就是無人值守的數據中心,因為數據中心沒有配置工作人員。”他建議道,“他們將在緊急情況下隨時待命,但是通過采用自動化系統,可以遠程地自動改變服務器配置,了解情況,并主動更換服務器。”
他表示,從檢測硬件問題到訂購和安裝新服務器,并進行設置,可以自動完成邊緣數據中心的配置。