摘要:在過去幾十年來,數據管理和商業智能已然成為了企業價值創造的核心。那么,就不妨來閱讀一下本文所介紹的Computer Weekly是如何跟蹤數據管理所為企業組織帶來的相關承諾和磨難吧。
在過去的半個世紀中,數據管理已經成為大部分IT商業價值的助產師。
在大約二十年前的1996年11月7日,當Nicholas Enticknap撰文以紀念 Computer Weekly創刊30周年時,他寫道:“20世紀90年代以來,IT為企業所提供的競爭優勢越來越明顯,而這也導致了數據挖掘和數據倉庫應用程序的興起。
“這同時還導致了能夠使得您企業組織所擁有的數據和應用程序方面的優勢能夠為別人所用的一大升值,包括為客戶、供應商和中介機構(如經紀公司)所用。”
二十年后,還是在這一IT大背景下,數據管理、商業智能和數據分析仍然有著特殊使命。Enticknap繼續評論其是“自20世紀90年代以來,所推動的第二次重大革命:基于互聯網計算的興起。”
而在更早十年的1986年7月3日所發行的Computer Weekly報刊上,同一作者也曾談到了類似的主題,在一系列關于當時所謂的“第五次革命”的計算相關的介紹文章中,涉及到人工智能(AI):“我們即將看到新的應用程序被陸續推出,旨在將數據轉化為信息,如提供決策支持和專家系統。”
從第一代到第四代的計算,無論它們之間具體區別的細節是怎樣的,都“遵循了由約翰·馮諾依曼(John vonNeumann)和他的同事們在1944年所首次提出的同樣的基本計算機體系結構”,Enticknap寫道,彼時一臺計算機還是“一臺超級強大的計算器時,而電子仍處于其起步階段。”
而一大方面的新的典范,其中還包括了用戶友好的計算機,則很好的解決了“如何充分利用在數據領域的大規模投資的問題。”
關系數據庫模型和語言
Enticknap于1996年寫道,到了20世紀70年代,我們已經看到,事務處理數據庫的建立、而微型計算機也已經作為一種商業工具。同時,我們還看到數 據庫管理系統和跨多臺微型計算機的分布式處理的推出,而不再是集中于單一一臺大型主機。
到那個時候,關系數據庫模型打破了數據存儲和應用程序之間的依賴關系,已成為了眾所周知的事情。其已經由供職于IBM、牛津大學畢業的數學家英國人Tedd Codd在1970發表了一篇論文《A Relational Model of Data for Large Shared Data Banks(大型共享數據庫的關系數據模型)》從理論上證明成立了。
智能業務策略分析師兼顧問邁克·弗格森為Ted Codd及其合作者和同事們工作,而劍橋數學家Chris Date則在上世紀80年代末期則為他們工作。
弗格森很驚訝的發現,IBM花了如此長的時間——大約11年的時間——才將Codd發明的關系模型轉變為數據庫產品。到了1978年,拉里·埃里森和他的Oracle數據庫團隊彌補了這一差距。而Oracle目前仍然是企業數據庫領域的巨頭。
IBM也是結構化查詢語言(SQL)的滋生地,其是由 Donald Chamberlin和Raymond Boyce在上世紀70年代中期所發明的,而且該語言目前仍然是最被廣泛使用的數據庫語言。
SQL是一種實現關系模型的語言。弗格森回憶了Codd和Date在涉及距離原始概念的偏差時的不滿。盡管如此,借助SQL,關系數據庫——如Oracle的數據庫、以及IBM的DB2、微軟的SQL Server、現在由SAP所擁有的Sybase DB,已經發展壯大。
事實上,SQL在數據庫領域的持久存在已十分顯著。盡管在過去的10年里,有Hadoop堆棧、NoSQL數據庫、Apache Spark框架這樣的所謂的大數據技術的興起,但SQL已多次作為數據查詢的超級語言回歸了。
數據倉庫和商業智能
在紀念Computer Weekly創刊三十周年的???,有一個關于數據倉庫如何在1996年嚴重辜負了關于其炒作的故事。
“彼時,盡管圍繞著這一概念有著各種各樣的炒作,但在英國排名前1000名的企業組織中,僅僅只有不到10%的企業組織正在部署實施數據倉庫。”據Computer Weekly的報道。而在今天,我們又
在基于大數據Hadoop的“數據湖”的領域,看到發生了類似的故事。
數據倉庫體現了以分析為目的的數據庫技術的演變,并主張為一家企業組織所有的業務系統數據建立集中的存儲庫。
這個想法主要是獲取事務性數據庫的數據,并將其加載到數據倉庫中進行分析。這樣一個對于生成數據的提取、轉換和加載(ETL)的技術,遷移數據,然后利用商業智能(BI)軟件將編寫SQL查詢的痛苦移除,來寫報告和分析。
這套技術現在經常被用于處理過于緩慢和過時的任務,以及過于依賴于企業內部IT的任務。其在今天經常被用來與新一波的現代數據發現和可視化軟件進行對比,包括諸如Qlik、Tableau和similar ilk,以避免IT作為一種功能。
然而,在上世紀90年代中后期和2000年代早期,弗格森非常希望重申以數據倉庫、ETL和商業智能軟件這三種技術為代表的生產力的基本的階躍變化。
“彼時,數據倉庫絕對需要瞄準BI市場。截至那時,我們所有的都是那些綠色和白色打印的紙張,吐出事務型數據庫系統,以進行報告。”他說。
弗格森說,他曾在那個時候供職于Teradata公司,而該公司在彼時在其大規模并行處理數據庫“非常具有先鋒性”,并為以報告為目的進行了優化。
再加上當時興起的ETL技術(特別是興起于現在的Informatica公司)和BI工具——包括Business Objects公司、Cognos公司以及MicroStrategy公司,等等——數據倉庫/商業智能,標志著“生產力的分水嶺”,弗格森說。
他說:“早期實施了這些技術的10%的企業組織,都是由那些已經看到了洞察力的價值的管理者們所領導的”。
這種洞察力也是從SAS和(現在的IBM的SPSS預測)等數據分析技術的使用而產生的,其較少的是關于BI報告,而更多的則是關于用于預測的統計模型的建立。
數據倉庫開發與來自SAP公司、Siebel的大企業資源規劃(ERP)和客戶關系管理(CRM)軟件包的興起并行發展。
近年來,SAP公司已經開始專攻內存、列式數據庫(columnar database)平臺Hana,據說這是要把分析和事務數據庫模型整合在一起。
正如我們已經在Computer Weekly的報道中看到,商業軟件的歷史將是這一個主題的姊妹篇。
在弗格森看來,我們在這里可以說,ETL供應商們正面臨“從他們的業務應用程序中獲取數據,而數據模型并未得到很好的理解的壓力”,以及從上世紀90年代及之后的關系數據庫管理系統獲取數據的壓力。
網絡的到來
正是由于這些技術對于數據庫制造商和數據庫管理員并不復雜,另一個英國人蒂姆·伯納斯·李在1994年發明了萬維網。而Computer Weekly也從90年代中期開始建立其網站。
在線事務處理(OLTP)數據庫的特殊點在于,他們從來都不是為了服務于在網絡上的大量并發用戶而建立的,更不用說那些來自手機等移動設備的網絡訪問了,尤其是隨著現如今的智能手機的興起。
在1996年3月28日出版的Computer Weekly上,Julia Vowler報道了關系數據庫供應商和對象數據庫供應商公司(如Informix公司)之間的網絡戰爭。彼時,Informix公司的技術被公認為更適合于支持文本、音頻、視頻、HTML和Java;以及連接數據庫到Web服務器。
據報道,Informix公司的客戶包括摩根斯坦利、雷曼兄弟和美國宇航局。
而到了今天,誰記得面向對象的數據庫管理系統公司呢?當然,這方面的技術仍然在不斷發展,面向對象的編程語言包括諸如C#、Python和Perl、Ruby仍在繼續蓬勃發展。
但是,那些試圖取代甲骨文和其它關系數據庫供應廠商的企業基本上都被業內其他企業所取代了——Informix公司在2001年由IBM收購。
大數據的興起
然而,關系模型的霸權最近遭到了來自NoSQL(不僅僅是SQL,NotOnlySQL)公司熱潮高漲的質疑和挑戰,其往往是基于開源技術的,但也并不全是基于開源技術的。MarkLogic便是一款非開源的NoSQL技術。但是,我們現在已經有了Basho( Rick技術)、Couchbase、DataStax公司(Cassandra數據庫)和MongoDB。
弗格森將這個群體總結為提供了非常具體的使用案例,通常與電子商務或其他網站操作運營事務相關。
在2014年,Teradata公司的首席技術官Stephen Brobst在接受Computer Weeky 的采訪時表示,NoSQL的供應商們最終會走上對象數據庫供應商們的老路。
“在硅谷,SQL和NoSQL的偏執狂之間將會有一場宗教似的戰爭。而最終,理性會贏得勝利。在SQL中執行一切的工作任務絕不是一個好主意,而所有工作任務都不在SQL中執行也不是一個好主意。”Brobst說。
“而關于NoSQL,Mongo在為Java程序員們增強易用性方面確實做得相當不錯。而Cassandra則是很好的網絡日志。但我相信,未來所將會發生的事情很可能是20世紀90年代對象數據庫所發生事情的重演。”他說。
“當時的呼聲是’關系模型已死',其已經統治有20年了”。但是,從本質上講,關系數據庫工程師們挖走了所有的好點子,并帶給了對象數據庫,扼殺了那些純粹的對象數據庫的工程師們。”他說。
諸如此類的任何事情都可以證明這種預測的準確性,而較新的數據庫供應商所興起的基礎與已經興起的Hadoop系列技術的基礎則是一樣的——大數據。
大數據是我們現如今所經常到處流傳的一大術語,但可以說包括了從社交媒體數據、機器生成的數據和其他不符合行和列的關系數據庫技術的各種數據類型。
自從戰略公司麥肯錫在其于2011年5月發布的報告中將大數據這一術語描述為:“創新、市場競爭和生產力的下一個前沿領域,企業CXO級別的企業領導人將因此而被自己的IT部門卡住咽喉”以來,“我們的大數據在哪里?我們怎樣才能從中賺錢呢?”一直是企業高層執行人員所魂牽夢繞的問題。有些人甚至可能問:“Hadoop是什么?”
Hadoop技術,或者,更準確地說,Hadoop分布式文件系統——是一款開源版本的并行編程框架,稱為MapReduce,最初是由谷歌開發的。
其簡化了分布在商品硬件上的跨大型數據集的數據處理,是由Doug Cutting和Mike Cafarella十年前在雅虎公司開發的。Cutting現在是Cloudera的高管,該公司是Hadoop的分銷商公司之一,還包括Hortonworks和MapR。
MapReduce本身即將被由DataBricks公司商品化的Apache Spark所取代(或補充)。Spark是另一種并行處理架構,但它并不局限于Hadoop技術,并且可以在關系數據存儲以及NoSQL數據庫運行。其也不是batchy,而MapReduce則是的。
數據管理的未來
今天,數據管理是一個令人興奮的、快速發展的領域。而根據Computer Weekly的報道,在過去的50年——尤其是在過去20年間,隨著網絡和大數據的興起,我們對此已經討論了太多。
我們還討論過太多關于主數據管理(MDM)、共享數據的安全管理等議題,這些通常是關于真實的單一版本;而MDM的基礎——數據管理,總是會回來困擾數據專業人士和數據庫供應商。
而弗格森的觀點則是,“企業IT現在比任何時候都需要更多的工具,以便降低復雜性,而CIO們也不再需要花大錢來支付數據科學與數據工程方面的技能了。在某種程度上,這是回到了Codd的時代。我們需要數據的獨立性。那么,數據存儲被在哪里有什么關系?工具和應用程序不應該知道這一點。”
無論技術將如何打造未來的數據管理架構的形態,該領域只能發展成為商業價值的主要承擔者之一。其來自IT,并為了企業組織的發展及其未來。而更重要的是,我們這些為此而記錄和撰寫文章的人將有大量的工作要做。