“現實情況是,這些工具仍不斷涌現,并且Hadoop的平臺的承諾并沒有達到業務需要依賴于它的水平,”Loconzolo說。但是,大數據和分析的學科發展如此之快以至于企業需要在涉水該方面或冒落后的風險。 “在過去,新興技術可能花費數年時間才能成熟,”他說。 “現在人們在幾個月內或幾周內就能拿出迭代和驅動解決方案”那么,什么才是應該是您的觀察名單上的或在您的測試實驗室中的最重要的新生技術和發展趨勢?計算機世界要求IT主管、咨詢顧問和行業分析師來權衡。這里是他們給出的名單。
1、云中的大數據分析
Hadoop是一個用于處理非常大的數據集的框架和工具,它最初被設計為在集群的物理機器上工作。這已經改變了。“現在越來越多的技術可用于在云中處理數據,”一Forrester Research的分析師布賴恩•霍普金斯說。例子包括亞馬遜的Redshift托管BI數據倉庫、谷歌的BigQuery中的數據分析服務、IBM的Bluemix云平臺和亞馬遜的室壁運動數據處理服務。 “大數據的未來狀態將是內部部署和云的混合,”他說。
Smarter Remarketer,是基于SaaS零售分析、細分和營銷服務的提供商,最近從一個內部的Hadoop和MongoDB的數據庫基礎架構轉向了亞馬遜的Redshift,Redshift是基于云的數據倉庫。印第安納波利斯的公司在收集網上的和零售銷售的以及客戶的人口統計數據,以及實時行為數據,然后分析這些信息,以幫助零售商在現實中的某些情況下建立有針對性的消費者需要的信息反饋機制。
Abbott說redshift對smarter Remarketer更具成本效益,特別是因為它具有結構化數據豐富的報表功能。而作為一個托管服務,這既具有可擴展性和又非常容易使用。 “擴大在虛擬機比購買物理機管理工作更便宜,”他說。
就其本身而言,總部設在加州的 Mountain View 已經小心翼翼走向云分析,因為它需要一個安全、穩定和可審計的環境。目前,金融軟件公司保持私有Intuit分析云內的一切。“我們正在與亞馬遜和Cloudera合作一個可以跨越公私,高可用性和安全分析的云,但目前還沒有人解決這個問題,”Loconzolo說。但是,像Intuit這種賣能夠在云中運行的產品的公司轉向云是不可避免的。 “它會達到這樣一種程度,那便是高成本的將所有的數據轉移到一個私有云中,”他說。
2. Hadoop:新的企業數據操作系統
霍普金斯說,分布式分析的框架,如MapReduce,正在演變為逐漸轉向Hadoop的通用數據操作系統的分布式資源管理器。他說,有了這些系統,你可以通過將它們插入Hadoop作為分布式文件存儲系統來執行許多不同的數據操作和分析操作。
這對企業意味著什么呢?由于SQL,MapReduce的,內存,流處理,圖形分析和其他類型的工作負載在Hadoop上有足夠的性能來運行,越來越多的企業將會使用Hadoop作為一個企業的**?;羝战鹚拐f,“在Hadoop中運行許多不同種類的查詢和數據操作將使你想進行分析的**成本更低、更加通用”。
Intuit公司的Hadoop基礎已經建立。“我們的策略是利用Hadoop分布式文件系統,它將與MapReduce和Hadoop密切合作,它將作為一項能使所有類型的人與產品進行互動的長期戰略,,”Loconzolo說。
3.大數據湖泊
傳統的數據庫理論決定了你可以再輸入任何數據之前設計數據設置。數據湖,也被稱為企業的數據湖泊或企業**,逐漸成為企業的大腦,在普華永道美國咨詢業務的合伙人兼首席技術專家克里斯•柯倫說。 他說,“據說我們將把這些數據源放到一個大的Hadoop存儲庫中,我們不會事先試圖設計一個數據模型”。相反,它將給人們提供工具來分析數據,以及給在湖中存在的數據一個高層次的定義。 隨著不斷深入,人們逐漸建立起對數據的看法。對于建設一個大型的數據庫,這將是一個大增量的有機的模型,“柯倫說。不大好的地方就是,使用它的人必須是高度熟練。
Loconzolo說,作為Intuit分析云的一部分,Intuit有一個數據湖,其中包括用戶點擊流數據和企業以及第三方數據,但重點是“民主化”周圍的工具,使商務人士能有效地使用它。 Loconzolo說,在Hadoop上構建數據湖,他的關心的是對于該平臺企業并沒有真正就緒。 “我們希望,傳統的企業數據庫,有幾十年的監控訪問控制、加密、保護數據并跟蹤從源到目標數據的血統,”他說。
4.更多的預測分析
霍普金斯說,在大數據時代,分析師不僅要和更多的數據一起工作,而且要掌握處理大量的多屬性記錄的能力。傳統的機器學習使用基于總數據集的樣本進行統計分析。他說,“你現在有能力處理非常大的數字記錄和每條記錄的屬性”,并且增加了可預測性。
大數據和計算能力的組合也可以讓分析師探索全天新的行為數據,如訪問的網站或位置。霍普金斯將其稱之為“稀疏數據”,因為要找到感興趣的東西,你必須涉及大量的不相關的數據。“試圖用傳統的機器學習算法,對這種類型的數據的計算是不可能的。他說,現在我們可以用廉價的計算能力來解決問題。“當速度和內存不再是關鍵問題時,你制定的問題就會完全不同,”Abbott 說。“現在,通過對問題配以巨大的計算資源,你可以找到哪些變量是最合適被解析的。這真的是一個改變游戲規則。“
Loconzolo說,“由于相同Hadoop核心,實現實時分析和預測建模,這就是我們的利益所在”。對于這個問題,Hadoop以比更成熟的技術長達20倍的時間來獲得答案。所以Intuit公司正在測試Apache Spark,這是一種大規模數據處理引擎,及其相關的SQL查詢工具,Spark SQL。 “Spark有快速交互式查詢和圖表服務和流媒體的功能。Loconzolo說,它將數據保持在Hadoop之中,但為我們以足夠的性能來縮小差距。
5.SQL 在Hadoop之上:更快、更好
如果你是一個聰明的編碼器和數學家,你可以在Hadoop上存放數據,并對任何事情做出分析。這是承諾和問題,Gartner的分析師馬克•拜爾表示。“我需要有人把它變成一個我很熟悉的格式和語言結構,”他說,SQL 是可以被Hadoop產品所識別的,即使任何熟悉的語言都可以有這個功能,拜爾說。支持類似SQL的查詢工具,使得那些已經了解SQL應用類似的技術企業用戶能更好的把握數據?;羝战鹚拐f, SQL在Hadoop之上“打開了企業Hadoop平臺的門”因為企業并不需要對高端數據科學家和商業分析師投資,那些人可以編寫使用Java、JavaScript和Python腳本 ,這是Hadoop的用戶傳統上需要做的。
這些工具不是什么新鮮事物。 Apache Hive的配置單元提供了一個結構化的結構化,曾經用于Hadoop的類似SQL的查詢語言。但是,來源于Cloudera、匹維托軟件、IBM和其他供應商的商業選擇,不僅提供了更高的性能,同時也變得越來越快。這使得該技術非常適合“迭代分析,”其中一位分析師問了一個問題,得到一個答案,然后問另外一個。這類型的工作,歷來需要構建一個數據倉庫。SQL在Hadoop中不會取代數據倉庫,至少不會很快,霍普金斯說,“但它確實給特定類型的分析提供了更昂貴的軟件和設備的替代品。”
6.更多,更好的NoSQL
柯倫說,替代傳統的基于SQL的關系型數據庫的,叫做NoSQL(簡稱“不僅是SQL”)數據庫,作為在特定種類的分析應用程序使用的工具正在迅速得到普及,并且這一勢頭將繼續增長。他估計,有15到20個開源NoSQL數據庫,每個都有自己的特點。例如,一個擁有圖形數據庫的能力的NoSQL產品,如ArangoDB,提供了一個比相關數據庫更快速、更直接的方式來分析客戶或銷售人員的關系網絡。這些數據庫已經存在了一段時間,但他們在加速發展,因為人們需要的各種分析,他說。普華永道一位客戶在新興市場已經在商店貨架上放置了傳感器以監控哪些產品還有,客戶處理他們用多長時間以及消費者在貨架前站多長時間。 “這些傳感器噴涌的數據流將成倍增長,”柯倫說。 “一個NoSQL的key-value對的數據庫,如Redis正是這種合適的地方,因為這是專用的,高性能和輕便的。”
7.深入學習
深度學習,基于神經網絡的一套機器學習技術,仍在不斷發展,但在解決業務問題上有巨大潛力,霍普金斯說。 “深度學習使計算機能夠識別大量的非結構化和二進制數據,并在不需要特定的模型或編程指令下推斷出之間的關系,”他說。
舉一個例子,一個深度學習算法可以從維基百科的數據自身知道,加利福尼亞州和得克薩斯州這兩個州在美國。“它沒有被定為模型去了解一個國家和國家的概念,并且這在舊的機器學習和新興深度學習方法之間有很大差異,“霍普金斯說。
霍普金斯說,“大數據將使用類似深度學習先進的分析技術,以我們現在才開始理解的方式處理很多不同的和非結構化的文本”。例如,它可以用于識別許多不同種類的數據,比如形狀,顏色和視頻中的物體 – 或甚至圖像內的貓,如由谷歌在2012年所做的著名的“神經網絡”。識別管理和高級分析概念以及它所寓意的東西是一個重要的未來趨勢,霍普金斯說。
8.在內存分析
拜爾說,使用內存數據庫來加快分析處理成為日益流行和非常有益的設置。事實上,很多企業已經借助混合交易/分析處理(HTAP) – 允許交易和分析處理駐留在同一個內存數據庫。
拜爾說,但是有很多圍繞HTAP的炒作,而企業已經過度使用了。對于其中用戶需要整天以同樣的方式多次觀察相同的數據系統,并且這里面的數據中沒有顯著變化 – 在內存中是一種浪費。
雖然你可以更快地用HTAP進行分析,所有的交易都必須駐留在同一個數據庫中。拜爾說,問題是,是現在大多數的分析工作是關于把數據從許多不同的系統連接在一起。“只要把全部的都放在一個數據庫可以追溯到這個證偽的信念,如果你想使用HTAP你所有的分析中,它要求所有的交易是在一個地方,”他說,“你仍然需要集成不同的數據。”
此外,引進的內存數據庫意味著有另一種產品來管理、安全、并找出如何整合和規模。
對于Intuit公司來說,Spark的使用已經帶走了一些擁抱內存數據庫沖動。“如果我們能夠用Spark基礎設施解決我們實用案例的70%,內存中的系統便可以解決100%,我們將繼續保持我們的分析云中的70%,”Loconzolo說。 “因此,我們將原型,看看它現在是否已經準備好,并停留在內存系統內部。”
保持領先
隨著圍繞大數據和分析出現如此多的新趨勢,IT組織需要創造條件,讓分析師和數據科學家做實驗。 “你需要一種方法來評估,做出原型并最終融入其中的一些技術應用到企業,”柯倫說。
“IT經理和實施人員不能以缺乏成熟為借口,停止試驗,”拜爾說。最初,只有少數人 – 最熟練的分析師和數據科學家 – 需要進行試驗。那么那些高級用戶和IT部門應該共同確定何時提供新的組織的其余部分資源。并且IT部門不一定想要向前全速前進的分析師。相反,拜爾說,IT部門需要與分析師合作,“把變速油門安裝在這些新的高性能的工具之上”。