云數據倉庫讓企業的夢想足夠大,助力成功實現網絡規模,但是他們的野心超越了現實,因為他們正掙扎于管理不同的環境。
數量不多(但數量在不斷增長)的IT團隊對于通過公有云中的數據存儲庫來改善業務有著很大的計劃。
有前瞻性的IT廠商——以及推動廉價存儲的供應商——看到了下一波商業智能浪潮中的巨大潛力,它將使用一系列基于云的服務來利用不斷擴大的結構化和非結構化的數據緩存。盡管如此,這種模式的最大收益仍然在很大程度上是假設性的,因為大多數企業仍然處于探索階段——無論是在架構上還是在文化上。
對于想要走這條路線的IT廠商來說,有一系列托管產品可以使用,包括Amazon Redshift、Google Cloud Platform的BigQuery和Microsoft Azure SQL Data Warehouse。 這些數據倉庫通過與相關服務的更多抽象和集成來進一步簡化數據挖掘——在某些情況下,無需調出實例。最終的目標是,各種規模的公司可以效仿那些注重自動化和從數據收集中發掘更多信息的網絡規模企業的成功。
位于新墨西哥州洛斯阿拉莫斯市的衛星圖像公司Descartes Labs在大規模轉移到Google云平臺之前,在本地和云上使用了大量的數據工具。該公司存儲了大量原始數據,因為它并不總是知道客戶會問什么問題?,F在,它在很大程度上依靠Google BigQuery,Bigtable和對象存儲來滿足這些需求。
Descartes Labs的聯合創始人Tim Kelton表示,這一轉變是以開發人員為中心的方法的一部分,在這種方法中,員工們會選擇最好的工具來解決他們想要解決的問題。
“最大的變化,也許是微服務,可以在兩分鐘內有很多不同的團隊,開始做一些事情,然后問‘這是否適用于我們的工作正在努力實現的情景呢?‘,而不僅僅是說’采用的解決方案是Oracle SQL,一切都要朝著這個方向努力’,”Kelton說。
企業已經開始整合數據湖,或大量的原始數據庫,以及更傳統的數據倉庫。與此同時,云已經成為一種托管數據的可行的地方,也是可以在沒有大量資本投資的情況下,對多結構化數據進行高級分析的空間。
Gartner研究總監Adam Ronthal表示:“這反映出人們更強烈地希望能夠適應各種類型的數據,而這些數據是我們以前無法真正了解的,或者沒有技術或能力來利用的。”
云數據倉庫服務對提供者和客戶來說都是一個福音。所謂的超大規模平臺——Amazon Web Services(AWS)、Microsoft Azure和Google Cloud Platform——提供了相對便宜的存儲空間,以利用數據庫和其他關鍵系統帶來的工作負載。從那里,他們的定位是出售一系列更高層次的服務,這些服務被視為云計算的未來,這些服務旨在相信這些平臺只不過是商品化的虛擬主機的概念。
AOL用Amazon EMR取代了Cloudera Hadoop環境,與現有設備相比,這樣做可以節省大量資金;它現在將有效載荷存儲在Amazon Simple Storage Service中,并根據需要使用EC2 Spot Instances來啟動和拆除節點。下一步將是與其他AWS工具集成,例如用于基于觸發器功能的Lambda和用于流數據的Kinesis Firehose。有了這個,AOL希望實現更高的效率和庫存控制。
AOL的首席信息官James LaPlaine表示:“由于建立了更高層次的服務,我們看到了另一場可以參與的變革。”
企業通往云數據倉庫的道路并非坦途然而,那些高級服務可能會成為相當棘手的問題。出口成本過高,客戶應該盡可能多地使用云數據,以最大限度地利用這些專有服務。因此,盡管云數據倉庫對于那些可以在其選擇的平臺上重新開始的初創公司來說是非常有用的,但它可能會在轉型期間給企業帶來無數挑戰。
內部結構化數據通常必須被清理或重寫。出于這個原因,AOL和處于同樣情況下的許多其他公司一樣,選擇保留了大部分歷史數據。這些公司還必須擴大規模,以處理傳統上駐留在本地的大量舊數據集。這些情況下,IT專業人員不僅要考慮計算和存儲的成本,還要考慮網絡的成本,因為擴展對存儲的訪問可能會非常昂貴。
其他企業,如New York Times,在不同的公有云中都有工作負載。
《泰晤士報》的數據工程執行總監Matt Digan表示:“如果所有的東西都在同一個地方,那么處理起來就簡單多了,所以我們不必擁有Redshift集群,也不需要在BigQuery上有數據。”“加入這兩個數據集并不容易。”
企業IT商店也需要不同的技能,必須為文化變革做好準備。除了那些在全球范圍內工作的頂尖公司之外,對于習慣于傳統基礎設施的人來說,這目前還不太現實。Gartner分析師Ted Chamberlin說。
Chamberlin說:“對于一般企業來說,渴望實現這一目標是很好的,但大多數企業將要有兩到三四年的時間來改變他們的企業,并減少他們不想要的東西,從而轉向無狀態服務。”
云未來與數據倉庫息息相關盡管面臨這些挑戰,那些已經開始將數據倉庫遷移到公有云的企業看到了未來巨大的回報。
過去,《紐約時報》建立了自己的Hadoop集群,并使用了許多供應商的數據倉庫,包括Informatica,Oracle和AWS。這種方法的一部分問題是數據過于孤立或過于技術性。《泰晤士報》正在遷移到Google Cloud Platform,并最終希望它能夠作為該數據的單一容器。這也使得員工使用分析工具變得更加簡單。
Digan說:“我們的目標是向用戶提供數據,無論是數據分析師還是數據科學家,還是需要盡可能快速準確地了解某些內容的人員。”
《泰晤士報》計劃將整個企業投向系統,并將所有內容放入BigQuery,以獲得其讀者的統一視圖。接下來,Digan表示,他設想使用數據服務、機器學習模型和API來構建產品——包括內部和外部的,這將使公司能夠更深入地了解其讀者和銷售情況,進而為讀者提供更個性化的體驗。
這是最讓Digan興奮的,但它不是一夜之間的學習體驗,正如《泰晤士報》決定如何正確使用其數據一樣。
“這正是我們要去學習的東西,”Digan說,“現在的探索要容易得多,所以當分析人員查詢時,他們可以自己查詢這些問題,而不需要幫助,但是我們還不太了解我們將要進入的所有問題。”