為了給用戶提供高質量的云服務,許多大型互聯網企業,如微軟、谷歌、亞馬遜和阿里巴巴等,在全球修建了許多數據中心。在數據中心內部,數以萬計的服務器通過高帶寬(10-100 Gbps)低時延(0-100 us)的數據中心網絡(Data Center Network,DCN)相連。數據中心內運行著很多對延遲敏感的實時應用,比如電商零售、搜索、社交網絡等。這些實時應用的用戶請求需要盡快得到響應,而較高的響應延遲將嚴重影響用戶體驗,降低公司的運營收入。
數據中心網絡流量以其突發性著稱,當流量瞬間爆發時,極易在流量接收端產生擁塞(端點擁塞)。不恰當的路由也會導致網絡內部流量不均衡,從而產生內部擁塞(鏈路擁塞)。網絡擁塞般可以通過負載均衡機制來解決。一旦發生擁塞,流量的網絡延遲和吞吐量都會受到影響,從而造成較長的應用響應時延和更差的用戶體驗。傳統數據中心的內部網絡是有損網絡(lossy network),網絡發生嚴重擁塞時交換機可以直接丟棄數據包。由于數據中心交換機的緩沖區較小,加之數據中心流量的突發性特點,擁塞丟包在數據中心十分常見。丟包的后果會造成較高的重傳時延,從而影響實時應用的性能。學術界與工業界都十分關注傳統有損數據中心網絡的擁塞問題,采取了一系列擁塞控制機制,以降低網絡中的排隊和擁塞丟包問題。即便如此,這些機制也很難完全避免擁塞丟包。著名的DCTCP協議在網絡擁塞并不嚴重時可以有效控制交換機隊列長度,但是當出現大量并發連接時,DCTCP仍難以避免交換機緩沖區的溢出。為了徹底解決擁塞丟包問題,許多公司已經嘗試在數據中心部署無損網絡(lossless network)。