《企業網D1Net》11月23日訊
企業級數據倉庫(EDW)是大多數大型組織和許多中型公司分析和商業智能的骨干。工具和技術已經證明,SQL查詢語言是眾所周知的,并且有足夠的專業知識以保持EDWs的運行。
許多關系型數據倉庫的方法的缺點是,他們是剛性的,很難改變。你是從數據建模和創建模式開始的,但前提是你知道所有你必須回答的問題。當新的數據源和新的問題出現時,ETL和BI架構以及相關的應用程序都必須更新,這通常特別需要費時費力。
輸入Hadoop,它可以以較低的成本讓您將數據存儲在一個大規模的數據庫(以同樣比例的商業數據庫相比)。更重要的是,它可以輕松處理各種復雜和多樣的變化,因為你沒有一個預定義的架構以符合所有的數據。
這聽起來不錯,但你在哪里找到知道如何使用豬、蜂房、瓢和其他必須的工具的人去運行Hadoop?更重要的是,你怎樣從一批取決于減緩和迭代MapReduce的數據處理平臺快速得到數據?
Hadoop將取代企業數據倉庫并貶低關系數據庫,最終數據集市的角色么?或者是Hadoop太年輕不夠成熟、太緩慢不足以改變大多數人工作的方式?下面我們將看到兩種觀點。
正方
本維特的創始人兼首席執行官,Platfora
EDW是個老古董
統一的企業級數據倉庫的主張似乎是誘人的——將你的企業中的所有數據導入到一個完美的數據庫。
所以,你開始的為期18個月的旅程,去找到重要的數據源,在重要的業務問題達到共識,規劃業務流程,最終落實到一個數據庫來處理他們。
而當你做的時候,如果你能完成的話,在這18個月的時期你將有一個固化的老古董。在18個月內,如果你的世界沒有太大的改變,那可能是好的。但是,這不是現實中我所遇到的任何大型企業的情況。
為什么是Hadoop獲得這么大的聲勢?顯然,主要是因為它的成本效益和可擴展性和它在人們的心目中,是和谷歌,雅虎和Facebook等公司緊密聯系在一起的。但更重要的是,就我所看到的,企業正在產生越來越多的數據——相互作用、日志、視圖、采購、點擊等等。這些與越來越多的新的和有趣的數據集相連接——位置數據,購買用戶的人口統計,Twitter用戶的情緒等等。問題是,這些旋渦的數據集有一天可以起到支持作用但是卻不為人所知。數據倉庫尚未建立的時候,我被期望能夠完美地預測什么樣的數據是重要的以及我將如何質疑它,提前幾年或者每次我錯了時候花幾個月重構它。這實際上被認為是“最佳實踐”。
Hadoop獨特之處是,它不要求任何這些目前所面對的決定。你可以以任何形式和任何規模登陸原始數據,在Hadoop中幾乎沒有摩擦。你也不必三思而后行——在你寫數據的時候不必考慮你將如何使用這些數據。不再因為成本、摩擦或政治而有很多被棄用的數據。
然而在維持現狀的管理員眼中,Hadoop是另一個數據源。這是一個傾銷地,在那里你可以為他們精心構建的數據倉庫(他們的記錄系統)添磚加瓦。他們甚至會為你提供一個“連接器”使藥吃起來很甜。當然,你又回到了做顧問并且做那個12個月到18個月的IT項目的境地。
但是,讓我們通過鏡子來仔細觀察一下。該數據庫是不是“記錄系統”——它在Hadoop中的數據只是一個影子。事實上,沒有什么比那些在Hadoop中的原始數據更真實的。但機器不能完成這個任務,即用一個方法對數據做交互式商業智能,探索和分析,從而對Hadoop中的數據做出反抗。供應商中的Platfora正在做滿足這方面的需求的工作。
想象一下這意味著什么。在Hadoop中有無摩擦的任何種類或類型的原始數據。沒有建立一個數據倉庫,沒有ETL集成的痛苦,沒有任何其他的IT項目,日常業務用戶可以立即這些數據運用到工作中。機器已經在支持這個構想,這和用戶利用數據的能力一樣,都在經歷了世代交替的急劇變化。
不再需要傳統的數據倉庫了。它是一個不靈活的、昂貴的舊時代的遺物。現在是離開黑暗時代的時候了。
反方
Teradata實驗室的主席,斯科特
EDWs 仍將大放異彩
有些人提出的關系型數據庫管理系統(RDBMS)以及建立在它們之上的數據倉庫,不再被需要。事實上,有些人認為,像新Hadoop一樣的新技術,在一點點時間和經濟開銷的情況下,能夠做數據倉庫一樣的工作,而且順便說一句,Hadoop是“免費”。
我們不能責怪一些想要相信這個說法的人。
在反對這個論點之前論點,請允許我說,Hadoop在未來的分析環境的將發揮重要作用,因為它提供了一個大的數據“煉油”廠,它可以帶來大量的原料(數據),更重要的是相應的分析功能。Hadoop的強大功能之一是你不必預先決定你需要保存以及你打算如何使用它,但是可以運用它的信息。由于企業需要更精確的分析,Hadoop作為一個新的“燃料”來源是至關重要的。
核心論點其實就是以下幾點:1、數據倉庫是過于“僵硬”和死板的,2、“社區”將解決Hadoop的所有限制。
從表面上看,這些觀點聽起來非常引人注目。但經過深入了解,我們知道他們是誤導性的和自相矛盾的。
從僵化的數據倉庫開始這個觀點,重要的是我們要通過實踐以及數據倉庫區分技術以及RDBMS。剛性架構屬于EDWs,在那里用戶在開始搜索之前必須定義他們正在尋找什么和其中的一些誤解部分,這往往是剛性的IT政策的結果,有時是過時的或不充分的數據倉庫體系結構的結果。在當今最好的數據倉庫架構是專為分析而設計的時代,剛性結構不是一個固有的問題。
結構有個不好的分析環境?“不!”試想一下會發生什么事?如果你運行一個上市公司,分析師每季度在Hadoop或在其他地方,分析成堆的未建模的數據,然后拿出你的財務季度業績。最可能發生的是,在這個過程中一定會發生什么問題,因為有太多的不確定性。所以,有時候結構是真的好用的。
所以,所有這些成功的企業都在使用結構和數據模型,是因為這是唯一的方法進入一個關系型數據庫或數據倉庫中嗎?當然不是。這不是有關一個數據倉庫可以做什么的問題,這是業務需要什么的問題。聲稱客戶將不再要求數據的質量以及在他們所有的數據基礎設施中準確的數據模型,其實是一種誤導。
讓我們回到第二個問題。如果Hadoop將在在一年或兩年內支持從SQL到BI的一切,為什么你需要一個數據倉庫?
這種說法忽略了一個簡單的事實:一些最杰出的計算機科學家需要工作幾十年去建立數據庫。那么Hadoop更夠在幾年內實現同樣的功能么?
答案顯然是否定的,這將是一個真正的恥辱,浪費社會公共資源去重建現有的功能和發明更新、更非凡的使用。一些Hadoop世界的早期交付中,旨在消除RDBMS需要的模式和違背Hadoop的“靈活性”的物理設計上的限制。更重要的是,這些要求舍棄了Hadoop的最初開發的并不是BI或SQL執行這個前提。這就像當你想要一個螺絲刀時卻用的是錘子——讓我們的免費的Hadoop成為偉大的工具,就像當初它被設計時那樣。
歷史告訴我們,新技術的影響在短期內總是被高估,在長遠范圍內總是被低估。Hadoop在現在和將來都不會成為一個數據倉庫。關系型數據庫和數據倉庫中將會茁壯成長,而不會因為Hadoop而死亡。我們認為Hadoop將會是未來分析數據基礎設施解決方案的一個組成部分,而不是唯一的部分。