毫無疑問,為了支持領英公司(LinkedIn)遍及世界各地的4.67億的注冊會員,該公司需要消耗大量的功率,特別是考慮到該網站的每名注冊成員都會獲得相當個性化的頁面訪問體驗:一個專屬的訪問網頁,而該頁面僅僅只包括他們的聯系人信息。而為這些負載提供支持的是該公司跨多處數據中心的共計約100,000臺服務器。為了進一步詳細的了解領英公司是如何實現這一切的,最近,NetworkWorld.com網站的首席編輯John Dix與領英公司的生產運營兼IT副總裁Sonu Nayyar及其基礎設施工程高級總監Zaid Ali Kahn進行了一次深度的訪談。
圖1、領英公司位于俄勒岡州希爾斯伯勒縣的新數據中心
讓我們先從宏觀大局出發,有請二位先大致談談貴公司遍及全球世界各地的數據中心吧。
圖2、LinkedIn公司生產運營兼IT副總裁Sonu Nayyar
Nayyar:在美國,我們有三處主要的數據中心負責為全球的LinkedIn.com網站提供服務,一處位于德克薩斯州的理查德森,一處位于弗吉尼亞州的Ashburn,還有一處是我們剛剛在俄勒岡州希爾斯伯勒縣最新打造的數據中心。在2016年早些時候,我們還在新加坡建立了一處較小的數據中心,其主要目的是提升我們在亞太地區市場的注冊會員們的訪問體驗。其基本上是一套完整的數據,但只適用于亞太地區的會員。所有四處數據中心都由我們的MPLS骨干和13個全球入網點(POP,point-of-presence)連接。
圖3、LinkedIn公司基礎設施工程高級總監Zaid Ali Kahn
這幾處數據中心都是相似的架構嗎?還是說這些數據中心是在不同時期建造的,故而是一種混合呢?
Nayyar:我們有一種混合。之前,我們在Ashburn建立了我們的第一處數據中心,最開始使用的是托管的設備。顯然,該技術正逐年發展完善,現在,俄勒岡州的數據中心已然獲得了一套完整的升級功能。
Kahn:我們在弗吉尼亞州數據中心的打造是我們公司開始轉向批量模型的時候。因此,我們沒有使用諸如Equinix等公司的像零售商一樣的計算容量能力,而是租用了數據中心空間——其基本上是一個大空殼,內置了一切內容,包括電源、配電通道、機架等等。而且,在弗吉尼亞的數據中心建成之后,我們又在德克薩斯州興建了另一處,因為我們得以能夠很快的實現規模化。而當我們決定興建俄勒岡州的數據中心時,我們能夠退后一步,反思我們希望我們未來的數據中心到底是怎樣的。這就是我們轉換到超大規模模型的時候了。展望未來,我們將把我們其他的數據中心也改造為這一新的模型。
貴公司并沒有也像其他一些網絡巨頭一樣,在構建你們自己的服務器,對吧?
Kahn:是的,我們正在使用獨立的機架式服務器。我們與OEM供應廠商密切合作,以確保它們滿足并符合我們的性能規格等要求。我們是思科UCS的第一批大用戶之一,但我們已經開始更多地轉向Supermicro商用硬件了。
這些數據中心是否也支持您企業的業務需求?
Nayyar: 我們有一個混合的模式。我們在加利福尼亞州的圣克拉拉有一個小型的數據中心,在該數據中心有我們的企業數據中心資源,包括人力資源、財務、開發、預備生產等——但我們也興建了俄勒岡州的數據中心,以便使得我們可以使用安全區域,以便從任何數據中心都能夠支持企業的這些需要。
面向客戶的LinkedIn應用程序是什么樣的?
Nayyar:我們的應用程序是很復雜的。因此,數據中心中的所有內容都是為了支持在您訪問LinkedIn.com網站時所呈現的頁面。你可以想象,每位注冊會員訪問我們網站時采用的是不同的連接,而且,每個會員所看到的頁面也都是高度定制化的,而生成每個定制化的頁面會在我們的數據中心產生海量東西走向的流量。而隨著海量計算負載的繼續。對于進入我們的企業網絡的每個字節的數據,我們都會100倍的由東向西生成頁面。
Wow。真是不簡單呢!
Nayyar:通過我們的應用程序,一切都實現了連接。當然,我們網站的一些部分是獨立的,如招聘人員有不同的界面。但對于一般性的消費者成員,LinkedIn.com都是連接的。
Kahn:我們有多種產品和數千種服務。你可能聽說過Rest.Li框架,這是我們談論得最多的網關集成之一,當這些東西進行通信時,最終還是歸結為大量的數據在數據中心之間遷移。
圖4、具備LinkedIn公司的超高密度數據中心設計的服務器行
每處數據中心是否支持相同的負載還是各自分配不同的職責呢?
Nayyar:任何一處數據中心站點都可以為流量提供服務。如果某處數據中心發生故障,我們只需將流量路由傳輸到另一個站點。在我們的100Gbps MPLS骨干網上,所有數據中心之間正在進行著實時的復制。他們都服務于同樣的工作負載,這便是我們如何提高我們的可用性的秘訣所在。如果在某一處站點發生中斷,無論其是一個bug、網絡問題、電源問題、甚至不好的變化,我們均可以輕松地在五分鐘內將相應的流量導出。所有這些數據中心一起工作,服務于LinkedIn.com網站。
貴公司的服務是否是按照不同的地理區域來劃分的?
Kahn:是的。我們是Anycast(其具備從網絡中的多個點推廣一個IP地址的能力)的重度用戶,這意味著我們可以將我們的成員路由傳輸到最接近的POP。
Nayyar:我們試圖找出哪個國家地區的哪一部分的用戶的流量需求應該被路由傳輸到哪里,并將其路由傳輸到最近的POP。 POP是小規模的數據中心,主要是網絡設備和代理服務器,它們充當了用戶的TCP連接請求的終端。
Kahn:我們根據注冊會員的訪問體驗來選擇POP的位置。我們知道在哪些地區面臨相應的挑戰。我們有一個用于進行預測分析的數據科學模型,其顯示:如果我們在澳大利亞投放一個POP,那么頁面加載時間將提高X%。然后,我們必須在這些地理區域構建POP,并將它們綁定到我們的數據中心。所有的繁重的頁面處理是在POP進行的,然后有后端數據連接,但POP有助于使頁面的加載時間更快。通過在亞洲市場僅僅投放一個POP,我們就已經看到,網頁加載速度提高了25%。
Nayyar:我們在全球范圍內密切監控我們的站點速度,我們一直在尋求如何不斷的改善。無論是通過改善網絡還是繼續改進應用程序,頁面的負載或數據中心內部架構,減少構建該頁面所需的時間,并盡快的將其呈現給我們的注冊會員。
好吧,現在讓我們把焦點聚焦到貴公司最新的俄勒岡數據中心,其在2016年十一月正式建成投產。 那么其到底有何不同呢?
Kahn:在計算方面,該數據中心更為密集。通常,數據中心每臺機架為7-9千瓦。我們并不擁有這些設施,所以我們想通過將更多的服務器打包到機架中來優化空間。我們可以做到每臺機架超過14千瓦。但是使用密集計算,你可以想象,會產生很多熱量,所以我們必須弄清楚如何以創新的方法實現數據中心冷卻系統的設計。最終,我們選擇了后門熱交換。我們是第一批在機架上進行基于水的冷卻的企業之一。顯然,這會涉及到一定的資本支出(CapEx)費用,但隨著時間的推移,我們所消耗的能源功率將大幅減少。
這么說貴公司是通過機架在抽水?
Nayyar:我們基本上在外部預冷卻水,并通過這些后門進行熱交換器循環,這中和了機架上的熱空氣,所以無需冷空氣/熱空氣通道的密封遏制。
圖5、LinkedIn公司位于俄勒岡州希爾斯伯勒的數據中心采用后門熱交換器技術的服務器機架行
圍繞所有這些系統的泵水,是否存在任何值得特別關注的方面呢?
Nayyar:這是我們所關注的方面之一便是技術,但我們對其進行了徹底的測試,該款設計真的是非常強大。我們也有相當多的監控,所以我們知道是否有任何泄漏,但現在還不足以需要我們的特別關注。
使用外部空氣來冷卻水資源必須相當高效。貴公司希望在俄勒岡數據中心實現怎樣的PUE(電源使用效率)呢?
Nayyar: 俄勒岡州數據中心的PUE是1.06。值得一提的是,我們企業的目標是在未來100%的使用可持續能源。顯然,我們目前還沒有實現這一目標,但我們正在朝著這一方向努力,這也是為什么我們在俄勒岡州選擇Infomart的原因的一部分,因為他們能夠直接獲得可再生能源。
讓我們來談談貴公司在網絡方面所做的創新性的工作吧。據我了解,正如貴公司在你們的Altair設計項目文檔中所介紹的那樣,貴公司的每一臺機架都有一個頂級機架式交換機,而其可以與多結構設備裝置進行通信。
Kahn:是的。Altair設計是一款大的架構解決方案。您可以將其想象為是一個大的平面網絡。沒有核心,沒有機箱。假設您正在使用傳統的企業模式構建100,000多臺服務器。從一臺個服務器到另一臺服務器的數據包最終將需要通過25到30個芯片組,從而會在兩臺服務器之間產生毫秒級的延遲。而我們所做的就是使用一款五級Clos架構(脊柱和葉片設計)將服務器到服務器的通信減少到少于五個芯片組,并將我們在兩臺服務器之間的切換延遲減少到幾微秒。 (參見下圖6)。
圖6、Altair項目
所以,在我們的脊柱和葉拓撲結構中,一切都被分解為不同的階段。每個機架頂部有四條路徑,上至四個不同的脊柱,而這四個脊柱又與在其之上的脊柱通過多條路徑通信,所以所有這些脊柱交換機成為一個大的結構。每個機架頂交換機具有四個或更多個路徑,以使用等成本的多路徑(ECMP)。 (參見下圖7)。
圖7、Altair項目
機架頂部和脊柱交換機是否類似?
Kahn:是的,他們實際上是一樣的。我們已經采用了一個單一的SKU模型,這意味著我們只需要購買一種類型的交換機,一款U設備。
貴公司是否是從同一家供應商處采購所有的交換機的呢?
Kahn:不,其是一個平臺。它們都具備相同的設計和相同的芯片組。對于一個SKU。你可以有多家供應商,但卻是同一個平臺。我們使用一個Tomahawk的芯片組,其是32x100G端口,3.2Tbps。我們為每臺服務器帶來了50Gbps,這是不同的。我們相信,我們是最先以這種方式進行實際部署的企業,即:每臺服務器可以有10G,25G或50G,在未來,甚至可達到100Gbps的路徑。在接下來的四年或更長時間里,我們都會有未來驗證。
所有的脊柱是100Gbps,而脊柱之間的訂閱是一對一的。所以,如果你發送100Gbps,你總是會得到100Gbps的輸出。到機架頂部,我們帶來50Gbps,我們通過使用PSM4標準做到這一點,所以我們可以采用兩個100Gbps端口,并將其分為四個50Gbps端口,帶來有效的可用機柜帶寬為200Gb / s。
我在貴公司的一些文檔中讀到頂層機架不是冗余的,這意味著您可以承受整個機柜的損失,這是否是因為一切都在服務器之間復制的呢?
Kahn:沒錯,并且這種復制是跨數據中心的。這是關乎故障域的分布和簡化基礎設施的。在這個規模上,這些應用程序具有足夠的容錯能力,我們可以承受整個機柜的損失,而且只需跨數據中心或在數據中心內進行故障轉移即可。
貴公司是在機架式交換機中運行自己的代碼,我這樣的理解對嗎?
Kahn:其中一些是這樣的。我們采用的是OEM(原始設備制造商)和ODM(原始設計制造商)的組合。 OEM將是像思科這樣的提供商,或者其他供應商。然后我們還有ODM供應商,我們在其之上運行我們自己的代碼,我們正在慢慢采用這一模式,因為我們正在建立新的機柜和一組新的數據庫。
為什么要開發你們自己的代碼呢?
Kahn:我們有我們想要控制的非常具體的事務。我們想要關注于我們如何管理我們的架構。我們的目標不是建立世界上最好的網絡操作系統。這不是我們的目標。我們的目標是在管理我們的架構網絡的控制平面之上構建應用程序。
例如,我們想從交換機本身進行流傳輸遙測,并將其上傳到機器學習的平臺,然后使用它來找出如何智能地路由傳輸流量,找到性能瓶頸,以便更好地操作網絡。這就是我們的目標。在內部,我們稱之為可編程的數據中心。我們想更多地了解網絡的應用程序級別,并優化數據中心內的流量。
好的。那么,貴公司是否同時支持IPv4和IPv6呢,你們的目標是否是全面遷移到IPv6呢?
Kahn:是的。我們在IPv6方面非常活躍。幾年前,我們在IPv6上推出了www.linkedin.com,以解決IPv4地址不可避免的枯竭問題。我們決定首先解決這個問題,所以我們可以解決發送僅IPv6流量的市場。我們已經看到了IPv6在移動流量方面的高速增長,以及一些性能方面的提升。最近,隨著我們的規模化擴展,我們開始關注數據中心內的IPv6。我們將很快在我們的數據中心內用盡IPv4,所以我們決定雙棧IPv4和IPv6,目標是最終我們將在未來幾年內只使用IPv6。
貴公司數據中心的總容量是多少?您預計未來的增長情況如何,尤其是在貴公司被微軟收購之后?
Nayyar:如果將我們企業的數據中心包括在內,我認為我們的總容量接近40兆瓦。我們在2017年將增加更多的容量。這已經被寫入到我們的計劃之中了。我們還不確定與微軟的集成整合將如何影響到數據中心容量的使用。這筆收購交易剛剛結束,所以我們才剛剛開始尋找我們如何能夠一起工作。現在我們的計劃是實現有機的增長,但我們必須冷靜的看待事態的發展。
好的,我想上述問題就是我最為關注想要問的了,您還有什么需要補充的嗎?
Nayyar:有一件事是需要補充的。我們的理念一直是:無論其是否會有意義,我們要回報客戶,并開源我們一直在努力的項目。前面我們提到的交換機遙測,這是我們所構建的一個非常可擴展的、快速的、可復制的流應用程序,一個消息管道。我們將對其開源,是基于如下幾個原因。
顯然,如果我們開源了我們的項目,其他人可以從中受益,但我們也相信這其中會涉及到相關的商業利益。而我們將其開源的原因之一是希望能夠讓更多的人共享回饋,這帶來了改善;其二是我們相信這有助于我們的工程師的技術的提高,因為當他們的工作代碼正在被數百萬的同行參考借鑒時,有助于促進他們做得更好,他們能夠寫出更優秀的代碼,因為他們的名字就在它上面。
Nayyar:我們有一個名為Open19的開放硬件計劃,其在業界已經產生了一定的影響,而在明年,相信你會看到更多在這方面的突破。我們決定為您的服務器,存儲和網絡創建一個19英寸機架環境的開放標準。其目標是將通用組件減少50%。機架中的一切都需要電源和網絡,因此我們正在將機架內常見的50%的組件的任何內容實施合并。
除了節省大量的資本支出(CapEx)之外,Open19計劃還可以幫助您企業將機架整合的速度提高2-3倍。如果您企業有共享的電源模塊,共享的網絡組件,您企業將不會再有凌亂的線纜了。我們簽約了很多OEM和ODM供應商,因為他們能夠保留他們的知識產權,但是,通過遵守這個標準,他們又可以在未來保持很大的靈活性。
我們正在打造一個聯盟,而LinkedIn公司正是該聯盟的領導者之一。我們正在與其他企業進行戰略合作,其理念是聯盟成員將齊聚一堂,然后我們將共同開發設計,并向前推進。