紐約時間3月18日,美國ACM協會宣布現在Microsoft Research的Leslie Lamport獲得2013年的圖靈獎——計算機界的最高成就獎項。AMC對Lamport獲獎的官方評價是:
“為其在分布式和并發系統的理論及實踐上的根本性貢獻,特別如因果關系、邏輯時鐘、安全性和活性、復制狀態機以及順序一致性等概念的發明。”
Lamport是應用數學家,工作領域為分布式系統和并發系統,通過建立的概念和發明的算法,Lamport在看似混亂的分布式計算系統中建立了清晰、明確的同步。Lamport設計了重要的算法、研發了規范的模型和驗證協議,從而提高了計算機系統的正確性、性能以及可靠性。Lamport在1990年提出的Paxos選舉算法(1998年發布)被谷歌公司廣泛應用在包括B4 SDN等在內的產品內。關于B4 SDN可以參閱我們的技術報告。
Lamport還因為并發編程和容錯計算的理論及實踐上的貢獻獲得過IEEE的Emanuel R. Piore獎。
物聯網催生大數據 數據中心技術需創新
Gartner最新報告顯示,2013年全球存儲市場繼續疲軟,相比于2012年,全球磁盤存儲廠商的總營收僅增長了1.4%,這與之前IDC報告的結果相差無幾。但仍有廠商交出亮眼成績,豐富全面的產品線或新品推出等讓EMC、HP與NetApp保持了收入增長。
但全球存儲市場的疲軟并不會讓數據增長會疲軟。Gartner預測到2020年,將有260億個物聯網設備被安裝并聯網。思科CEO錢伯斯則認為到2020年,將會有5000億個設備聯接到互聯網。大量設備接入所產生的海量數據,將給包括服務器、存儲以及網絡等數據中心領域技術帶來嚴峻的挑戰。這將迫使數據中心相關技術做出創新、變革。
遍布各地的聯網設備,把數據集中到單一數據中心不太現實,主數據中心與多個小型數據中心(mini data center)相互配合將成為趨勢。Gartner認為,除了對計算效率、網絡帶寬以及存儲效率等具體技術提出創新需求之外,DCIM(數據中心基礎設施管理)系統、運營技術標準以及通信協議都需具備前瞻性。
盡管數據量大,但并不是所有數據都一直保持活躍,有些數據訪問時間往往只有幾小時,由此催生了一個冷存儲生態系統。IDC將冷存儲定義為最低層的數據存儲解決方案,總成本要低于保存其上的數據集的剩余或者已知商業價值。
IDC研究認為,冷存儲解決方案不適合生產環境,其之所以形成獨有的“生態系統”,是云提供商、存儲系統和組件提供商以及ISV共同努力的結果。在未來,冷存儲介質將逐漸被用于對延遲要求較低的數據庫、存儲系統與備份等應用場景。
點評:如何解決海量數據給數據中心帶來的難題,在《數據中心2013:硬件重構與軟件定義》報告中,我們詳細闡述并分析了以互聯網企業為代表的“硬件重構”陣營,與傳統企業級用戶為代表的“軟件定義”陣營各自所使用的方法和技術。Open Rack、冷存儲、硅光子互聯、SDN、SDS以及閃存等,都是數據中心行業進行的技術創新或變革。
掘金大數據 數據庫各顯其能
大數據蘊含著不可估量的商業價值,但目前的分析方法或手段似乎難以發掘出其全部商機。改進或創新數據分析技術則已經成為一種商機。
微軟今天就發布了其最新的SQL Server 2014代碼,其最大的亮點在于,添加了內存數據庫引擎功能,并與Azure集成。當然,其功能還有改善的空間,如目前其內存數據總量不能超過256 GB,有雙插槽硬件要求,以及應用場景還不夠廣泛等等。但這些都可以隨時間的推移得以改進。
微軟一邊與Oracle合作在Azure上推出更多產品選擇以加強競爭力,一邊自己發展相關技術。畢竟大家都緊盯著大數據分析這個“香餑餑”,包括開源業界,例如OpenStack就已宣布加入Cassandra,以在DBaaS生態圈分得“一杯羹”。另外,據國外消息,以Hadoop聞名于世的Cloudera又獲得了一大筆投資——1.6億美元,關于這筆投資的具體使用,Cloudera CEO將在本周四的內部會上公布。
助力大數據 SDN聯姻Hadoop
SDN(軟件定義網絡)一大作用就是在擁有大量虛擬機和虛擬網絡的環境可以獲得強大的可定制性和自動化控制能力,然而在數據中心領域,其當前能解決的問題仍然有限,特別是一些虛擬機數量較少的領域,例如,大數據。大數據領域很少應用虛擬化技術,因為這個領域的計算任務十分繁重,并且擁有自己的調度器對資源進行調度,并不需要虛擬化帶來的定制化和自動化控制——這是當前人們所廣泛持有的觀點。
事實果然如此嗎?除了VMware從2013年開始一直在推動其VMware vSphere Big Data Extensions之外,近日,來自武漢科技大學的研究人員還將SDN應用到了大數據領域。在其稱為《Bandwidth-Aware Scheduling with SDN in Hadoop: A New Trend for Big Data》的論文當中,華中科技大學提供了一個稱之為BASS(Bandwidth-Aware Scheduling with SDN in Hadoop,基于SDN的Hadoop帶寬感知調度)的調度器。華中科技大學的人員認為,當前Hadoop擁有數種任務調度器,但全部都沒有將網絡帶寬考慮在內,因此,則將會“損失掉優化調度的機會”。
由于帶寬問題而導致負載未能合理分配的現象顯然確實存在,因為Hadoop的調度器僅僅考慮了計算,沒有考慮網絡。BASS的目的就是在調度的時候將網絡帶寬考慮進去,它將與OpenFlow控制器協作以獲取網絡相關信息,并在分配Hadoop任務的時候進行更高效率的調度。論文顯示BASS確實比其他任務調度器更快,特別低,還可以通過額外的Pre-BASS組件得到甚至更高的效率和更快的速度。
點評:大數據分析的基礎設施向來被認為比較簡單,不需要太復雜的管理,然而我們可以看到,軟件定義擁有的自動化管理能力和定制能力仍然能發揮作用,另一方面,軟件定義還能將割裂的計算、網絡和沒有提及到的存儲等資源進行統合管理的能力,而傳統的IT架構正缺乏這一點。