隨著Spark受到越來越多的關注,許多企業正在盡力跟上這一開源平臺快節奏的變化和發布頻率。數據倉庫研究院(TDWI)數據管理研究負責人Philip Russom博士表示:“許多企業正在嘗試部署Apache Spark,通常會結合數據湖使用,希望能發揮其在流數據、查詢和分析上的優勢。但用戶很快意識到,Spark并不容易使用,而且數據湖所需規劃與設計超出用戶想象。在這種情況下,用戶需要求助于外部顧問和管理服務提供商,他們需要具備為各種不同類型的客戶順利部署Apache Spark和數據湖的可靠經驗。”
大數據分析服務供應商Teradata天睿公司最近宣布旗下Think Big公司已經成功將Spark融入創建企業級品質數據湖和分析應用的開發框架。
目前,客戶可在搭載“通用硬件”的一般Hadoop環境中部署云端Apache Spark使用數據湖。客戶還可在Teradata Hadoop專用平臺上使用。該就緒式企業級平臺功能強大,專為運行企業級大數據工作負載進行預置和優化。
Think Big公司正在為部署Spark開發可復制的服務包,包括在提供數據湖和管理服務時,將Spark增加為執行引擎。Think Big還將通過旗下培訓分支機構Think Big大數據學院(Think Big Academy)為企業客戶提供一系列全新Spark培訓課程。這些培訓課程由經驗豐富的講師講解,面向經理、開發人員和管理員培訓如何使用Spark及機器學習、圖形、流、查詢等各種Spark模塊。
Think Big數據科學團隊還將開源Spark Python應用程序接口(API)的分布式K-Modes集群源程序。這些程序將為客戶細分和客戶流失分析提升分類數據集群性能。用戶可訪問Think Big公司的GitHub頁面,獲取該程序代碼及Think Big其它開源項目。
Think Big公司總裁Ron Bodkin表示:“Think Big咨詢業務正從美洲地區迅速拓展至歐洲和中國,因為首次接觸數據湖時,企業對正確使用Spark和Hadoop所需專業技術、經驗和方法的需求正在爆炸性增長。部署Spark應成為企業信息與分析戰略中的重要組成部分。我們依據經驗提供相關的使用案例,提出適當的問題,并提防部署中應注意的雷區。我們了解商業用戶的期望和技術需求,能幫助客戶創造真實的商業價值。而我們的Spark客戶已在全渠道消費個性化、高科技制造業實時故障檢測等領域付諸實踐。”
早在大數據熱潮興起之前,Think Big就已成為全球首家專注大數據服務的領導企業,致力于運用新興技術實施分析解決方案。現在,Think Big依托完善的流程、健全的工具和經驗豐富的大數據技術專家,在平臺和應用支持方面為Hadoop提供管理服務,以經濟的方式管理、監控并維護Hadoop平臺。Think Big公司通過完善測試的轉換流程,進行每一次部署安排,通過評估并提升客戶的生產支持、開發和維持團隊,使部署卓有成效。