為了開展開源戰略,基于大數據生態系統組件的應用程序必須加強,才能在生產中運行。 DevOps可能是其中的重要組成部分。
用戶一直希望減少對供應商的依賴。但是,當他們了解當今大數據生態系統的復雜環境時,他們至少在某種程度上將承擔一定的責任。
新風格的數據工程要求對DevOps進行整體的調整,這就是敏捷性方法的擴展,需要開發人員對創新應用在生產中的表現承擔更多的責任。同時,工程師需要以更快的速度學習新的軟件。
許多早期采用者不得不創建基于MapReduce的Hadoop應用程序,只能使用Spark處理引擎重新啟動它們。
如今有各種開源產品用于分析,包括Hadoop SQL查詢工具、機器學習和其他功能。開源數據流媒體空間就有一些例子,隨著一系列新的實時系統不斷進行批處理,這些數據流空間正在不斷發展。
在流媒體中,分析工具層出不窮。先是早期的競爭者Apache Storm,接著又出現Apache Spark和Apache Flink,而且這一切都發生在短短的幾年之內。
Hadoop聯合創始人、Cloudera首席架構師Doug Cutting表示,這是現代數據工程的本質,今天人們必須做好試用軟件組件的準備。
事實上,很難找到與多個流媒體架構合作的商店,而且其中涉及到很多在職學習。隨著Spark通過最近宣布的Drizzle插件在時間流式中添加記錄,就需要更多的學習。
數據工程師正在研究組件如何以不同的組合形式工作,這個過程是從概念驗證轉向生產的重要環節。最終用戶和供應商都屬于這個環節的一部分。
搞清楚你想要什么
回想一下:當供應商們作為唯一創新來源的日子里,用戶往往處于被動地位。供應商仍然可能在大數據應用實施方面發揮很大的作用,但被動的用戶就要承受更大的風險。
事實上,產品發布時間中至少有一些滯后時間與準備軟件的供應商有關。開源大數據應用程序從概念驗證到生產投入的艱難過程并非巧合。
但是,隨著數據商店開始對新的開源應用程序進行變革,需要大量的創新。
為了繼續推進大數據工程,團隊需要非常認真地追求DevOps的信條,或者稱之為DataOps,尤其是要求數據工程師和IT架構師負責將創新思想運用到生產過程中。