云數據倉庫讓企業夢想成長,希望可以仿效網絡規模的成功,但是他們的野心超越了現實,因為他們想要管理不同的環境。
很多企業的IT團隊計劃通過公共云中的數據存儲庫來改善業務。向前發展的IT商店以及推動廉價存儲的供應商在下一輪商業智能中看到了巨大的潛力,它將使用一系列基于云計算的服務來利用不斷增長的結構化和非結構化數據的緩存。盡管如此,這種模式的最大收益仍然在很大程度上是假設性的,因為大多數企業在架構和文化上仍處于探索階段。
對于想要走這條路線的IT商店,通常擁有一系列管理產品,包括Amazon Redshift,谷歌云平臺的的Big Query和微軟AzureSQL數據倉庫。這些數據倉庫通過與相關服務的更多抽象和集成來繼續簡化數據挖掘,這在某些情況下,無需調出實例。最終目標是針對各種規模的公司,效仿那些強調自動化和從數據收集中挖掘出更多信息的網絡規模企業的成功。
笛卡爾實驗室是位于美國紐約州洛斯阿拉莫斯市的衛星圖像公司,在將其主要業務轉移到谷歌云平臺之前,已將其內部部署數據中心和云端的大型數據工具進行了結合。該公司存儲大量原始數據,因為它并不總是知道客戶會問什么問題。現在,該公司很大程度上依賴谷歌的BigQuery,Bigtable和對象存儲來滿足這些需求。
笛卡爾實驗室聯合創始人Tim Kelton表示,這一轉變是以開發人員為中心的方法的一部分,員工們為了解決這個問題而將會選擇最佳工具。
“最大的變化可能在微觀服務中,很多不同的團隊可以在兩分鐘內開始實施一些事情,并說,‘這是我們正在努力工作的情景嗎?’而不僅僅是說,‘采用的解決方案是Oracle SQL,而且一切仍需要更多的努力。’”Kelton說。
企業已經開始將大量的原始數據庫以及更傳統的數據倉庫納入數據湖。同時,云計算已經成為托管數據的可行的地方,這也是在不用大量資本投資的情況下對多結構化數據進行高級分析的空間。
調研機構Gartner公司研究總監Adam Ronthal表示:“它反映出更大的愿望,能夠適應我們以前無法真正駕馭的數據,或者沒有技術或能力可以利用的數據類型。”
云數據倉庫服務是服務提供商和客戶的福音。那些超大規模平臺(亞馬遜網絡服務(AWS),微軟Azure和Google云平臺)提供了成本相對低廉的存儲空間,以利用數據庫和其他關鍵系統帶來的工作負載。在那里,他們的定位是出售一系列更高層次的服務,這被視為云計算的未來。
美國在線(AOL)公司采用AmazonEMR取代了Cloudera Hadoop環境,與現有設備相比,節省了大量資金;它現在將有效載荷存儲在Amazon簡單存儲服務中,并根據需要使用EC2 Spot Instances來運行和拆除節點。下一步將是與其他AWS工具集成,例如用于基于觸發器的功能的Lambda和用于流數據的Kinesis Firehose。因此,美國在線公司通過這些工具希望實現更高的效率和庫存控制。
美國在線首席信息官詹姆斯·拉普萊恩表示:“由于建立了更高層次的服務,我們看到還有更多可以做的事情。
企業通往云端數據倉庫更加順暢
然而,這些更高層次的服務可能是一個相當棘手的問題。出口成本可能令人望而卻步,客戶應盡可能多地使用云端數據,以最大限度地利用這些專有服務。因此,盡管云端數據倉庫對于可以在其選擇的平臺上重新開始的初創公司來說是非常有用的,但它可能會在轉型期間為企業帶來無數挑戰。
內部結構化數據通常必須被清理或重寫。而且,由于這個原因,美國在線與像同樣情況下的許多其他公司一樣,選擇保留大部分歷史數據。這些企業還必須擴大規模,以處理傳統上位于本地數據中心下的大量較舊的數據集。在這些情況下,IT專業人員不僅要考慮計算和存儲的成本,還要考慮網絡的成本,因為擴展對存儲的訪問的成本可能會非常昂貴。
其他公司,如紐約時報,在不同的公共云中有工作負載。泰晤士報數據工程執行總監馬特·迪根表示:“如果數據和應用等一切都在同一個地方,這樣一來就簡單得多,所以我們不必擁有Redshift集群,并且在Big Query中也有數據。而加入這兩個數據集并不容易。”
企業IT商店也需要不同的技能,必須為文化變革做好準備。Gartner分析師Ted Chamberlin說,除了那些具有全球規模的公司可以實施,對于習慣于傳統基礎設施的人來說,這是不現實的。
Chamberlin說:“對于一般企業來說,這是非常有希望的,但大多數將要有兩到三年的時間來改變他們的企業,擯棄他們不想要的東西。”
綁定到數據倉庫的未來云計算
盡管存在這些挑戰,已經開始將數據倉庫遷移到公共云的企業看到了一個巨大的回報。
過去,紐約時報建立了自己的Hadoop集群和數據倉庫,其中包括Informatica,Oracle和AWS等許多供應商。這種方法的一部分問題是數據太孤立或太具技術性。紐約時報正在將業務遷移到谷歌云平臺,谷歌云平臺最終希望成為該數據的一個單獨的容器。這也使得一系列雇員使用分析工具變得更加簡單。
在過去,紐約時報建立了自己的Hadoop集群和用于數據倉庫,許多廠商包括Informatica、Oracle和AWS。這種方法的問題是數據太簡單或太技術。紐約時報正在遷移到谷歌云平臺,它最終希望成為該數據的一個單獨的容器。這也使得一系列雇員使用分析工具變得更加簡單。
Digan說:“我們的目標是向用戶提供數據,無論是數據分析師,數據科學家,還是那些需要盡可能快速準確地了解某些內容的人員。”
泰晤士報計劃讓整個企業采用這個系統,并將所有內容放入BigQuery,以獲得其讀者的統一視圖。Digan表示,他設想使用數據服務,機器學習模型和API來構建內部和外部產品,這將使該公司能夠更深入地了解其讀者和銷售情況,反過來為讀者提供更個性化的體驗。泰晤士報確定了其要求其數據正確的問題,這讓技術人員感到振奮,但這不是一朝一夕能夠做好的事情。
“這是我們要去學習的東西,”Digan說。“現在探索很容易,所以當分析人員查詢時,他們可以自己查詢這些結果,但是我們不太了解我們將要進入的一切。”