大數據在硅谷炙手可熱,拿融資自然也不再話下,拿到千萬級美元融資的也有不少,不久前大數據分析云服務GoodData就獲得了Intel Capital領投的2750萬美元。據華爾街日報消息,機器學習平臺 GraphLab 剛剛改名Dato,并獲得了 1850 萬美元新融資,投資方為 Vulcan Capital 、Opus Capital 、New Enterprise Associates、Madrona Venture Group。此前他們曾獲得680萬美元融資。
GraphLab 提供了一個完整的平臺,讓客戶能夠使用可擴展的機器學習系統進行大數據分析。簡單來說,就是從別的應用程序或者服務中抓取數據,讓機器學習這個模型,并將學到的知識作為基礎,自動地進行準確的預測和決策制定。這么講挺抽象,我們還是具體舉幾個例子吧。可能最好理解的就是民主國家政府的民意調查,可以通過社交網絡、媒體等提取數據,分析出民眾到底在關心什么,分析出哪些區域的哪些問題必須關注、解決。其實,生物醫學研究團隊也會使用 GraphLab,主要是來分析臨床記錄,從而預測病人的病情發展趨勢。零售業可以做價格預測、用戶推薦;金融服務業可以做詐騙預警;市場公司則可以通過情緒分析鎖定關鍵客戶。現在 GraphLab 的客戶已經包括 Zillow、Adobe、Zynga、Pandora 等。
那為什么是 GraphLab(現在應該叫 Dato 了)會獲得這么多客戶的青睞呢? 其實,將原始數據轉化為決策依據,并作出預測,這個過程還是很復雜的。往往需要大量的數據處理工具,收集、清洗數據,再建模分析,得出結論,進行展示;還需要大量的數據科學家或同樣知識淵博的軟件工程師來配合完成。既耗時費力,還投入不菲。所以 GraphLab 這樣的平臺,可以讓毫無編程經驗的數據科學家,快速地將理念轉化為生產環境可以使用的產品,提高企業的生產效率,自然受歡迎。值得一提的是,Dato 現在能處理各種數據類型。
GraphLab 的創始人 Carlos Guestrin 是機器學習界國際公認的大牛,曾被 Popular Science 雜志評為 2008 年 “Brilliant 10”,還獲得過美國青年科學家總統獎。2008 年在卡耐基梅隆大學帶著兩個學生研發了 GraphLab 的原型,2012 年被 Jeff Bezos 游說去了華盛頓大學。在 Madrona Ventures 和 NEA 的資金支持下,2014 年 3 月創辦了 GraphLab,并以測試版的形式推出了第一個商業版。2013 年 10 月,增加了機器學習功能,推出了新版本。現在的 GraphLab 已經不僅僅是圖譜分析了,更是一家基于 AI 的大數據公司,能夠處理各種數據類型,所以公司也改名叫 Dato 了。
我司在美帝的妹子小蘇曾寫過文章,詳細的介紹了硅谷的大數據行業發展。在美國現在的大數據公司主要有四類:
數據的擁有者、數據源:特點是業務優勢能收集到大量數據,就像煤老板壟斷一個地區的礦一樣。其實大多數有能力產生或收集數據的公司都屬于這類型,比如Vantage Sports和收集了PB級數據的包子鋪。
大數據咨詢:特點是非常技術,提供從基礎設施規劃建設維護到軟件開發和數據分析等的服務,但不擁有數據,比如Cloudera這家不到500人的startup是最著名的Hadoop架構咨詢公司。
做大數據工具的:比如AMPLab出來的Databricks和Yahoo人主導的Hortonworks。
整合應用型:特點是收集擁有或購買一些數據,然后結合AI來解決更多實際的痛點。
像 Dato 這種做整合應用型的大數據公司才有可能有希望。未來是 AI 的,而 AI 的食物是數據。就像很多產業鏈一樣,最困難且最有價值的創新往往發生在接近最終用戶的那端,比如 iPhone。大數據行業最有價值的部分在于如何利用機器去處理數據得到洞見,影響組織和個人的行為,從而改變世界。收集和整理數據在未來會變得標準化和自動化,而利用 AI 進行分析的能力會變得更為關鍵。