Yahoo通過三步應對大數據:數據采集、數據存儲和數據處理等。
在數據采集方面,Yahoo建立幾個數據中心、幾十萬臺機器的實時搜集數據系統是一個主干道負責把數據經過過濾、清理以后進行整合,在高可靠性的情況下,把它放到Hadoop平臺。雖然相對來說精度很高、效果很好,但速度會慢一些。為了滿足實時性的需求,還有一個旁路系統,旁路系統在秒級能夠把數據匯到主干道上,這是數據采集的部分。
在數據存儲方面,基本上以HDFS為核心。而在數據處理方面,主要技術是Hadoop、MapReduce以及Yahoo自己開發的Pig。