91av精品视频,久久免费视频精品,精品国产福利久久久

大數據架構面臨技術集成的巨大障礙

責任編輯：editor004

作者：Craig Stedman

2016-11-01 10:42:53

摘自：TechTarget中國

企業可以利用Hadoop以及所有與它相關的技術設計大數據環境，以滿足其特定的需求。IT團隊尋求構建大數據架構時有大量的技術可供選擇，他們可以混合搭配各種技術以滿足數據處理和分析需求。

企業可以利用Hadoop以及所有與它相關的技術設計大數據環境，以滿足其特定的需求。但把所有的技術集成在一起并不是一件容易的事。

IT團隊尋求構建大數據架構時有大量的技術可供選擇，他們可以混合搭配各種技術以滿足數據處理和分析需求。但是有一個問題存在：把所有需要的技術框架組合到一起是一項艱巨的任務。

在不斷擴展的Hadoop生態系統中，選擇和部署合適的大數據技術是一個長期反復的過程，周期要以年計。除非公司管理者愿花大量財力和資源來加速推動項目。選擇技術的過程中有失誤判斷是很常見的，一家公司的架構藍圖不一定適用于另一家組織，即便是完全相同的行業也不行。

Bryan Lari是美國德克薩斯州大學MD安德森癌癥研究中心（位于休斯頓）研究分析主任，他說：“我經常跟人說，這不是像你在亞馬遜下個訂單或者從蘋果商店買個東西那么簡單的事。這是一件復雜的事，它需要一個過程。我們在半年或者一年之內是做不完的。這也不是可以套用公式就能應用的技術，盡管有很多案例或者用戶有成功經驗，但我們也可能用不同的工具來滿足我們的需求。”

MD安德森的大數據環境集中在Hadoop集群中，在三月份的時候投入了生產環境，初步打算用來處理病人房間監視設備傳輸回來的重要信號數據。不過，數據湖平臺還包括HBase（與Hadoop配合的NoSQL數據庫），Hive（Hadoop支持SQL的軟件），還有各種其他Apache開源技術，例如：Pig、Sqoop、Oozie和Zookeeper。此外，這家癌癥治療和研究組織還部署了Oracle數據倉庫作為信息庫來支持分析和報表應用，還有IBM的Watson認知計算系統提供自然語言處理和機器學習功能。未來出現新的數據可視化、治理和安全工具也必然會參與進來。

MD安德森癌癥中心的IT團隊在2015年初就開始使用Hadoop。為了演示可能的應用情況同時熟悉該技術，該中心首先使用基本的Apache Hadoop軟件構建了試點集群環境。后來，他們部署了Hadoop Hortonworks分布式架構用于生產環境。

Vamshi Punugoti是MD安德森癌癥中興研究信息系統的副主任，他說從這次試點項目中得到的經驗可以使他們處理架構調整更容易。隨著新的大數據工具出現，總會有調整架構的可能性，一定需要功能增強或者替換組件。Punugoti說：“這是個持續更新的過程，包括我們收集到的數據都在不斷變化著。如果我們認為(現有架構)可以處理一切那就太天真了。”

演進更好的架構

Uber平臺工程師團隊花了大約一年時間設計了多層大數據架構，但是這么多技術組件搭建的有點倉促。Uber公司Hadoop團隊高級工程師Vinoth Chandar說，該公司的現有系統跟不上業務運營帶來的快速增長的數據量。結果，大部分數據不能進行實時分析，Chandar認為這對于Uber公司倡導實質性“實時叫車”理念來說是個大問題。

為了幫助運營經理實現數據驅動，Chandar和他的同事們搭建了Hadoop數據湖環境，其中包括HBase、Hive、Spark處理引擎、Kafka消息隊列系統，還有其它一些技術。其中一些技術是內部構建的，例如：有一款數據提取工具Streamific。

有了該架構之后，Uber公司將追趕大數據和分析的藝術狀態。但是，這并不是容易做到的。他半開玩笑地補充說：“為了把這些技術組件整合到一起，我們十個人幾乎一年沒有睡覺。”

架構的挑戰對于組織來說可不是鬧著玩的。Gartner咨詢公司預測，到2018年，70%的Hadoop部署將無法實現他們節約成本和收入增長的目標，主要原因是技能不足和技術整合困難。Gartner公司分析師Merv Adrian說，整合障礙還在加劇，Hadoop分發商與大數據技術有關的數字還在穩步攀升，這代表了部署Hadoop的公司對Hadoop技術支持的需求量趨勢。

在2016年太平洋西北地區BI峰會上，Adrian列舉了46種Hadoop相關的開源技術創新，這些產品都是由一家或者多家分發商提供支持服務的。但是，要把這些組件放到大數據架構中卻是留給使用方的工作。“大多數Hadoop項目都像是藝術工作，我們都要把這些技術組件整合到一起使用。”

執行過程中的變化

這種整合拼湊工作是非常艱巨的任務，即便Hadoop不是框架中的一部分。Celtra公司提供了一個平臺可以設計在線顯示和視頻廣告，有幾部分已經在基于云的處理架構中陸續部署了，現在正把Spark及其SQL模塊整合到Amazon簡單存儲服務(S3)、MySQL關系型數據庫和Snowflake計算的數據倉庫系統。

Grega Kespret是這家波士頓公司的分析總監，他說：“我們經歷了許多嘗試和錯誤。比較有挑戰的是要設計一套架構滿足業務需求，但還不能過度設計。”他提醒說，如果你做了，可能會以一片混亂而告終。

最開始的時候，Celtra公司通過網站訪問者和S3中的其它可跟蹤事件收集廣告交互數據，然后使用Spark作為ETL引擎(抽取、轉換和加載)聚合信息，分析MySQL中的運營數據用于報表。但是，原始的事件數據是很難分析的。Celtra公司增加了一套獨立的基于Spark的分析系統，但是仍然需要該公司的數據分析師們團結一致去清理和驗證事件數據，這個過程的工作是很容易出錯的。

在2015年底的時候，Kespret和他的團隊經過各種嘗試最終放棄了其它技術，選擇了Snowflake作為事件數據存儲系統，然后把數據按用戶會話進行組織之后會存儲到MySQL，這樣數據分析師用起來更方便。

Snowflake系統在去年四月份投入生產使用，比該軟件軟發布較早一點。Kespret說，下一步是要在Snowflake中存儲數據，評估第二步ETL過程，然后處理數據存儲到另一套MySQL數據庫中。

大數據開發的“狂野西部日”

Hadoop合作設計者Doug Cutting認為，技術選擇方案過多導致了構建大數據架構過程的復雜化。對于許多希望利用Hadoop及其同生技術的用戶組織，“這真像是狂野西部時期的泡沫”。Cutting現在是Hadoop供應商Cloudera公司的首席架構師。

不過Cutting認為，大數據系統的益處也正體現于此——這種多樣性帶來了架構靈活性，支持各種新的分析應用，而且IT成本更低。因此，費一番周折實現集成也是值得的。他認為大多數問題是因為對這些開源軟件的開發和部署流程不熟悉引起的。他說：“Hadoop很快就不會令人生畏，人們會習慣使用它的。”

或許是這樣吧，不過雅虎公司(據聲稱是最大的Hadoop用戶群)的IT經理們表示，他們并沒有完全消除壓力。Cutting曾在雅虎總部工作(位于美國加州Sunnyvale)，那時候Hadoop在2006年剛啟動。雅虎這家web搜索和互聯網服務公司是該技術的第一家生產環境用戶。目前，該公司(雅虎)的大數據環境有40個集群，混雜了HBase、Spark、Storm實時處理引擎和其它Hadoop相關技術。

Sumeet Singh是雅虎公司負責云計算和大數據平臺產品開發的高級總監。他說，總的來說，圍繞Hadoop建立的巨大技術生態體系對用戶是有利的。Singh表示，Hadoop這個開源框架加速了技術開發的步伐，使IT團隊可以集中精力規劃和創造對他們公司有用的工具，而不必自己完成所有工作。“我知道有許多開源項目，不過不是每個人都能廣泛接觸采納，這其中會有真正明確獲益的贏家。”

大數據的世界并不總是陽光明媚的，Singh說：“總會有各種問題隨之而來”，他的頭腦快要被各種開源框架和大數據框架涉及的數不清的技術撐爆了。

數據環境 Hadoop