數據中心和云已經是大眾耳熟能詳的東西,但是下面這幾件事,卻未必有多少人知曉:
你家的寬帶有可能來自數據中心而非運營商;
網絡攻擊最令人膽寒的大殺器是數據中心養雞場;
數據中心虛擬機的安全等級可能還不如你家里上網的PC。
有人的地方就有江湖,數據中心也概莫能外,這些問題的背后,是各種利益的博弈。今天,我們就來扒一扒隱藏在數據中心靚麗外表下的暗流。
揭秘這事,要靠數據說話,本文所有數據皆來自于北京派網軟件有限公司(Panabit)設備在多個數據中心的實際監測結果。
云中亂象
與混亂不堪的駐地網環境相比,數據中心網絡通常被認為是一片凈土。這多半要歸功于數據中心的建設和運營通常由同一個組織完成并形成單獨的管理域,用戶對計算、存儲、帶寬資源的使用行為要比自購設備接入駐地網的個人或企業用戶更有規律性,并時刻受到數據中心的監控,因而網絡邊界相對清晰,與外部網絡的關系也相對可控,不必受累于駐地網魚龍混雜、山頭林立、多方博弈的復雜性。但是作為在深度包檢測(DPI)這個行當摸爬滾打十余年的老兵,我們多年來對數據中心出口流量監測的經驗卻無法支撐這么樂觀的結論。DPI的拿手好戲是透過現象(IP)看本質(應用),同樣大小的數據流,即使IP頭信息完全一致,在我們看來,也會因為應用層協議的差異而截然不同。互聯網首先是應用和服務驅動的網絡,IP層流量的變化只是林林總總的用戶、應用、服務之間互動的一種表現形式,當然,各種惡意、非法的用戶和行為,也會摻雜其中,興風作浪。有些看似波濤洶涌的流量,其實可能無傷大雅;有些看似不起眼的涓涓細流卻會暗藏玄機,甚至匯聚成規模巨大的DDoS攻擊流。所謂于無聲處聽驚雷!盡管整個數據中心用戶的資源使用情況是嚴格受控的,但是他們用這些資源干了什么,卻未必那么受關注。
作為一項仍然處在上升期的朝陽產業,擴張才是王道,因而數據中心領域最受關注的技術點集中于與數據中心建設和運維密切相關的虛擬化技術、軟件定義網絡技術、系統可靠性甚至節能等領域,而針對數據中心網絡流量成分以及應用層行為的深度分析卻鮮有人問津,對于那些不守規矩的用戶或刻意逃避監管的非法攻擊者來說,數據中心無疑為他們提供了一片難得的“庇護所”和“溫床”。近年來,數據中心網絡因為莫名其妙的吞吐抖動、業務中斷、虛擬機頻繁被黑甚至因主動發起攻擊而受到主管部門警告的異常情況不斷發生,而數據中心的運維和管理部門卻常常無從下手進行定位排查。隨著各類業務和服務“云化”步伐的不斷加快,數據中心也將由功能單一的資源池演化為與網絡同等重要的基礎設施,整個互聯網生態鏈將在數據中心環境中進行重構,其中當然也包括無處不在的“暗黑”力量。
恐懼源于無知,無知因為漠視
一切恐懼的根源在于無知,網絡安全巨頭RSA正在倡導一個新口號"See everything, fear nothing",這在今天的數據中心有著最完美的詮釋。相較于密如蛛網盤根錯節的互聯網AS級拓撲而言,數據中心與互聯網骨干之間的接口關系要簡單的多,這些網絡出口上流淌的數據流就如同人體的脈象一般,隱藏著數據中心與外部世界之間錯綜復雜的關聯關系。對這些出口流量進行深度分析和挖掘,將有助于我們盡快了解這個看似熟悉實則陌生的生態系統,加強監管和防護,免于恐懼之苦。
然而在現實當中,監管和防護都嚴重缺位。通過使用Panabit設備對多個數據中心出口流量進行DPI分析,我們發現數據中心流量的復雜性和無序性已經幾乎可以與駐地網相提并論,但是卻鮮有人對此進行深入全面的剖析,更不用說提出針對性的解決方案了。這其中的根本原因,一方面是數據中心潛藏的問題尚未進入大規模爆發期,大部分數據中心運營者將其視為無關大局的零星偶發異常事件,遠未認識到問題的復雜性和嚴峻性,另一方面是由于運營商缺乏足夠的動力去投資和加強數據中心流量的分析和監管。漠視與無知交相輝映、惡性循環。下面,我們就用真實的數據解開數據中心出口流量的面紗,讓大家看一看,恐懼其實已經站在我們身邊。
虛擬化是把雙刃劍
虛擬化技術對數據中心的重要性不言而喻,然而,也正是虛擬化為各種惡意和非法的網絡行為打開了方便之門。虛擬化帶來的好處,當然是使應用部署變得簡單,用戶能夠獲得極大的自由度,通過各種手段上傳各類應用到云端。但另外一方面,由于數據中心內部缺乏完善的管控手段,這些部署行為往往不受安全設備監管,虛擬機的種類也千奇百怪。各種網絡應用的服務端、客戶端甚至攻擊源都散布其中,可謂玲瑯滿目。相比之下,一直被視為盜匪猖獗之地的駐地網,卻由于奇虎360為代表的互聯網廠商所倡導的的桌面安全免費運動實現了安全防護技術的高覆蓋,使近年來駐地網發生的規模性的攻擊和被攻擊事件數量呈現出逐步下降趨勢。而與此形成鮮明反差的,是數據中心內虛擬機的安全性普遍被用戶忽視,甚至為了追求便利性而有意犧牲安全性。云端部署較為普遍的Unix/Linux操作系統缺乏完善的安全技術支持,病毒檢出率低、病毒庫和IDP攻擊簽名更新不及時,在病毒查殺、入侵防護等方面與Windows等駐地網常見操作系統有較大差距,使合法用戶難以獲得高級別安全保證,而惡意和非法用戶卻更容易規避檢查和監控。可以說現在云端虛擬機的行為已經完全駐地網化,再也不是那個純潔簡單的“乖乖女”了。
上圖是由Panabit設備監控到的某個大型數據中心的連接趨勢圖,這種看似怪異的形態在數據中心的出口十分常見,可以用“流量復雜,攻擊顯著”來描述。圖中各類流量曲線均衡、平滑的部分通常代表正常的網絡行為。其中httpgroup代表數據中心常用服務,例如,網頁瀏覽、視頻、音樂和頁面游戲等,這些服務所對應的流量本該是數據中心出口流量的主成分,但在上面這張圖中,左右流量變化的卻是general和other類型,點開這些類別的流量結構表,不難發現它們包含了DNS和SYN類型的網絡攻擊。換句話說,大量本不應該出現在數據中心出口的流量不僅出現了,而且成為決定數據中心出口流量形態的決定性因素。經過我們最近對大量數據中心出口流量的分析和總結發現,GRE、DNS攻擊、SYN攻擊、單邊流量和大量莫名其妙的駐地網才應該有的軟件應用(比如:QQ、游戲、微信、視頻客戶端等)構成了數據中心最核心的異常流量。難道虛擬機們也修煉成精,開始QQ聊天、刷微信朋友圈了?這些妖魔邪祟是從哪里冒出來的?
既是標靶,也是巨炮
數據中心部署應用所產生和保存的數據往往具有很高的敏感性以及商業價值,因而數據中心一直以來都是網絡攻擊的重災區,各種部署其中的云端應用已經成為黑客最為青睞的攻擊目標,攻擊方式囊括了大家耳熟能詳的DDoS攻擊、遠程溢出、拖庫、撞庫等手段。但是另一方面,愈來愈多的攻擊流也來自于數據中心,甚至出現了數據中心一邊被大規模攻擊同時又向外輸出巨量攻擊流的奇觀。其中的原因來自兩個方面:
第一,數據中心薄弱的監管和防護導致虛擬機很容易被虜獲為“木馬”和“肉雞”;第二,數據中心有著駐地網無可比擬的計算資源和帶寬資源,可謂雞強馬壯,以前需要通過各種辛苦制毒、傳播、滲透和遴選才能掌控和調度的肉雞資源,現在只要點點鼠標,付出有限的資金成本購買一些虛擬機并上傳加密的攻擊程序,就可以輕易獲取大量帶寬和計算資源優良的肉雞。對有商業目的的黑客來說,何樂而不為?
上面這張圖是Panabit設備檢測到的一個DNS攻擊肉雞與數據中心外部地址的連接信息(這種肉雞很常見,把某些數據中心稱為養雞場毫不為過),顯然這臺主機正在響應遠端控制節點通過WWW發來的調度指令,對一個DNS服務器發起超過十幾萬條并發session的攻擊。像這種攻擊強度,基本上可以癱瘓大部分的企業級DNS服務器,讓一個企業網絡失去服務響應能力。這種烈度的攻擊如果和其他蠕蟲并發,只需要糾結數十個攻擊源,就可輕松癱瘓一個中型運營商網絡。單純觀察這臺主機從數據中心輸出的流量,只有區區不到2M,如果不細致分析這個虛擬機的網絡行為,完全沒有機會覺察到它的存在。這種不起眼的資源消耗型節點只要有幾十個,就足以令數據中心出口的防火墻、IDP等安全設備全部因為session耗盡而失去響應能力,而輸出的流量卻仍是涓涓細流而已。
NTP反射攻擊是另外一種利用網絡中NTP服務器的先天脆弱性(無認證,數據交換不等比例,UDP協議)來進行的DDoS攻擊方法。NTP反射因為犯罪成本更低,攻擊效果更佳,是黑客最近幾年DDoS攻擊手段新寵。得益于NTP服務器強大的計算能力以及充足的帶寬資源,以數據中心未作防護的NTP服務器做反射平臺,攻擊者可以輕易將幾百K的流量放大到幾百M。上圖就是一個NTP服務器被用來進行反射攻擊的真實案例(Panabit知道的太多了),圖中右上角的數字表明,輸入流量被放大了800倍之多!這種巨炮級別的NTP反射器完全可以輕松擊潰大部分企業網絡。這樣的攻擊節點,在云中可謂遍地開花,DNS攻擊、SYN攻擊、NTP/SSDP反射攻擊,不一而足,攻擊能力強大,成本卻極低。
相較于對駐地網的嚴格監管,運營商對于數據中心往往采取寬松的政策,很少做到嚴格的源地址校驗以及攻擊流量過濾,這樣做無非是擔心安全措施影響到數據中心內部各類云應用的順暢運行。安全和便利從來不可兼得,在數據中心之間商業競爭日趨激烈的今天,舍安全而取便利幾乎是云服務商的不二選擇。由于云服務商往往采用睜一只眼閉一只眼的松散管理模式,再加上虛擬機部署的便利性,各類攻擊工具的安裝就可以輕松繞過安全檢查。而攻擊者為了獲得更加隱蔽的攻擊效果,逃避安全設備對攻擊數據的檢查,也會不斷改進云端的蠕蟲程序以及工作模式,從簡單粗暴的動輒上萬條攻擊session演變為和正常節點數量相當的session數目,泯然眾人,變得更加不易覺察。正是這些內外因素的共同作用,使數據中心奇怪地將“最強大的破壞者”與“最悲情的受害者”這兩種互相矛盾的角色集于一身。
利益驅使下的帶寬濫用
數據中心網絡出口的駐地網化,虛擬化只是推手之一,由利益引發的數據中心帶寬濫用是另外一個重要因素。眾所周知,中國的帶寬市場長期存在兩個截然不同卻又并行不悖的價格體系:駐地網帶寬價格體系和數據中心帶寬價格體系,兩者之間的差價可達兩倍以上。價格雙軌制的存在創造出一個巨大的套利空間,最常見的獲利手段就是將數據中心流量轉接到駐地網出售以謀取暴利。流量倒賣產生的直接影響就是將普通用戶流量引入到了本該清凈的數據中心,埋下各種隱患。其實,只要關注一下數據中心流量中高得不正常的虛擬身份登錄頻次以及輸入流量就可以輕松定位此類異常行為。
上圖是Panabit設備對一臺虛擬機應用層流量的分析,如此多樣的流量成分,以前僅見于實體機構成的駐地網,如此眾多的用戶虛擬身份,并且帶有移動終端才會產生的流量,誰還能相信它是一臺數據中心的虛擬機?流量成分異常的背后必然是帶寬轉售行為,而購買者往往是駐地網寬帶運營商或者一些大型行業客戶。
由于數據中心部署的多為服務器端,因此正常的流量模型應該是輸出流量遠遠大于輸入流量,而駐地網絡中以用戶端設備為主,流量模型恰好相反(如下圖所示)。但是在上面這張某數據中心虛擬機輸入輸出流量監測表中,居然有只有2臺虛擬機的輸出流量大于輸入流量!而且相當接近!兒戲否?就憑這一點,就應該對涉及到的IP逐個進行重點檢查,其中必有蹊蹺。
駐地網運營商一個常見的問題是上行受到大型基礎運營商的限制,ADSL和xPon類型的線路較為典型。然而,隨著互聯網應用的發展,網盤類應用和一些云端同步類應用對上行帶寬的需求不斷提高,對大型企業和駐地網運營商造成了巨大的壓力。但是電信、聯通等基礎運營商對駐地網上行帶寬的限制非常嚴格,通過正常商業途徑解決的代價異常高昂。為了突破基礎運營商限制,將流量NAT后轉到數據中心上行是常見的應對手段之一。具體操作的方法,是由網關將內網產生的數據進行地址轉換之后,不走正常的路由上行,而是用一條其他的鏈路轉發給數據中心,通過數據中心的出口把上行流量發送出去,而下行響應則仍然使用原有鏈路。由于數據中心流量以輸出為主,所以運營商一般不會對上行進行限制,因而留下可乘之機。這種在駐地網和數據中心之間存在的大量單向流量,只要長期觀察數據中心的session,也非常容易定位。
對數據中心流量濫用的另一種形態,是利用兩個安裝了VPN程序的虛擬機,搭建兩個數據中心的GRE鏈路來充當長途傳輸,或者是非對稱上行數據的入口。這種濫用主要體現在大量的非正常VPN流量上。對于實時性要求不高的長途傳輸而言,這種虛擬鏈路的成本要遠低于租用中信、攬信等公司動輒每月數萬元的骨干傳輸光纖,又能避開市內傳輸復雜的協調工作,還順便擁有了數據中心級別的可靠性,因而成為很多低價場合的最愛。
上面這張圖中的第一行就是一個利用GRE鏈路進行大規模數據傳輸的案例,借助于Panabit強大的分析能力,要識別這些帶寬轉售所引起的異常流量在技術上幾乎沒有什么難度,問題還是出在監管缺位以及利益驅動上。但是,由于太多利益糾纏其中,這些問題只能點到為止,這個,你懂的。
工欲善其事,必先利其器
普通的網絡安全設備對于解決上述問題無能為力,云端流量深度分析以及可視化才是定位和破解各類難題的不二法門。一個云端流量分析與可視化系統的能力和有效性,可以從三個維度來衡量:
廣度:在已知流量模型下,有多少百分比的流量是可以被辨識、分類和控制,95%以上的識別率是基礎能力指標。今天的互聯網是一個最多變的世界,實時跟蹤互聯網應用的變化并非在實驗室靠人力堆砌可以達成,需要廠商有廣泛的互聯網視角和數據收集能力。投標吹牛易,實施兌現難。
深度:互聯網流量被映射到日志的詳細程度,是DPI設備觀察互聯網深度的最好體現。分析的粒度只有細致到每個IP每時每刻的每個session才是實現流量分析和可視化的基本前提,如果連這個都做不到,最好還是洗洗睡吧。
速度:數據中心出口流量巨大,經常達到Tbit級別,實現全面的流量分析和可視化對于DPI設備的處理能力、日志存取能力以及大數據分析能力無疑都是一個巨大的挑戰。
僅以一條10Gbps的物理鏈路為例,一天就會產生多達300GByte的全量行為、事件和用戶日志,如何在廣度、深度和速度三個維度上取得平衡,達到可視化的最佳配比,是擺在所有研究者面前的挑戰。
那么,問題來了,DPI技術哪家強?這個問題,還是留給用戶去評說吧。
結語
Amit Yoran在今年RSA大會的黑燈演講可謂精彩,他為我們描述了未知的恐懼,昭示了全面可視化的重要性。除去大家廣泛認知的企業網和駐地網可視化,我們希望在數據中心領域也能拋磚引玉,引起大家對數據中心出口流量可視化的重視。
后記:本文由北京派網軟件有限公司技術團隊和北京郵電大學李昕副教授共同完成,李老師也是一個IT自媒體人,歡迎關注他的微信公眾號“力博睿生”。感謝“運營商網絡維護與優化”微信群諸位專家提供數據和技術建議。