如果有人問“誰將成為谷歌的大數據?”,唯一可以接受的答案是“谷歌是谷歌的大數據”。沒錯,谷歌表面看起來是一家網絡公司,但實際上它已經成為利用數據進行創新方面的領導者,且這一領導地位自其成立開始,從未顯示出任何放緩的跡象。
如果沒有數據,谷歌的搜索、廣告、翻譯、播放音樂、圖形搜索、趨勢等產品將不復存在。但是數據本身創造不出偉大的產品,這些產品能夠快速穩定的運行,最終需要獲得更多的智能。通過基礎架構和系統設計使之成為可能,這是谷歌真正的價值。
本月初,谷歌再次印證了這一點。他們在博客中解釋了如何讓用戶更好的搜索照片,基于這一目的,谷歌在系統中建立了很多創新模型。在此之前,谷歌的圖片搜索頗受好評,專業的機器學習系統是其成功的關鍵因素。毫無疑問,這又是Jeff Dean的杰作。谷歌在與ImageNet的競爭中找到了方法,以下是谷歌在博客中的描述:
Jeff Dean
“我們建立和訓練的模型與Jeff Dean和Andrew Ng的大規模神經網絡模型及其相似,當我們評估這些模型時令人印象深刻。在測試過程中,我們發現與其他方法相比,這一模型的平均精度提高一倍以上。”
谷歌圖片搜索為什么會取得現在的成功呢?區別在于計算機和算法都有明顯改善。首先,更大型和更高速的計算機使訓練包含更大數據量的超大規模的神經網絡成為可能。十年前,即使只在單一的圖片上運行神經網絡,都會因為過于復雜而面臨巨大挑戰,現如今這些神經網絡可以運行在數十億張圖片上。
其次,新的訓練技術使用于圖片識別的大規模深層神經網絡成為可能。當然,谷歌有一個訓練大規模神經網絡的系統,也是由Jeff Dean設計的。谷歌的系統甚至可以識別失焦圖片里的花。
從技術角度看,Jeff Dean是網絡產生的短暫歷史中最重要的人物之一,他參與創建了谷歌原始搜索引擎的底層并行處理引擎MapReduce,并且是對Hadoop產生起直接影響作用的MapReduce論文的首席作者。Jeff Dean在創建谷歌其他關鍵系統的過程中同樣扮演著重要的角色,例如BigTable分布式數據存儲和Spanner全球分布式事務型數據庫產品,其中BigTable成為Cassandra、HBase和美國國家安全局的Accumulo等NoSQL產品創立的基礎。
當你接觸到大數據和web大規模系統時,就會了解到Jeff Dean的工作像是一個水晶球。Hadoop的創始人Doug Cutting就曾表示,要想知道Hadoop的未來就看看現在的谷歌,“谷歌通過大量技術論文傳遞最新資訊,因此我們可以從中看到什么是未來。”