摘要:隨著社交媒體、移動化和云計算的發展,數據分析及相關的技術已經作為一款具有顛覆性的技術在這個數字時代占有了一席之地了。
在本文中,五位業內人士將為您預測2016年大數據和分析市場的趨勢。
隨著社交媒體、移動化和云計算的發展,數據分析及相關的技術已經作為一款具有顛覆性的技術在這個數字時代占有了一席之地了。在過去的2015年中,我們已經看到對大數據的分析利用正被一股強大的利用新的數據技術以加強商務智能的推動力推動著由測試步入到了生產階段。2016年新春伊始,五名業內人士將與您分享他們對于2016年數據和分析領域的預測。
Hadoop發行商Hortonworks公司的CTO Scott Gnau預測以下趨勢將在2016年主導數據和分析市場領域:
· 獲取一切可提供洞察分析價值的數據。在2016年,企業將著眼于從所有數據中獲得洞察價值,Gnau表示說。 “這不只是關于物聯網,而是要通過互聯網連接起凡是能夠提供洞察分析價值的一切設備。”他說。 “我們要超越傳感器等相關設備,著眼于一切可以從中獲取洞察價值數據信息的設備,這包括來自企業生產過程中的服務器日志、地理位置和來自互聯網的所有數據。”
· 重視邊緣數據。Gnau表示說,企業必須超越他們的數據中心并開始重視利用邊緣的數據。他指出,數據流現在收集了來自許多傳感器和服務器之外的設備上的數據,例如,來自海上的石油鉆塔或太空中的衛星。這使得管理安全邊界及提供跨系統的完整數據源有一個巨大的機會。 Gnau表示說IoAT創建了一個新的模式,需要新的思維和新的數據管理系統,而這些解決方案將在2016年變得更加成熟,并進一步滲透到企業運用中去。
· 運動平臺的數據。在2016年,業界將看到運動平臺的數據運用的發展。“企業用戶有對于更高級別的平臺來處理許多設備協議,并把所有的數據流匯集到Hadoop的需要。”Gnau表示說。 “該平臺需要方便多協議語言的通信。運動數據和靜態數據的整合是2016年中的一個大機會。”
· 大數據變得容易。有市場對于簡化大數據技術方面有需要,并為此在所有層面都存在的機會:技術、消費等領域。Gnau表示說,在2016年,數據分析技術將明顯有趨于走向簡單化的趨勢。 “無論你是集群操作員、安全管理員或是數據分析員,每個人都希望Hadoop及其相關的大數據技術是簡單直接的。”他說。 “其處理過程就像一個單一的集成開發經驗或減少設置或配置文件的數量一樣將開始出現一刀切的模式。”
· Hadoop用于關鍵任務工作負載。在2016年,Hadoop將被用于交付更多的關鍵任務工作負載,并超出“網絡規模化”的企業,Gnau預測說。“雖然像雅虎、Spotify和TrueCar這樣的公司都建立了相關的業務部門以便充分利用Hadoop,我們將看到更多的傳統企業使用Hadoop,以便從其所管理的大量數據中提取有價值的見解,并提供新的關鍵業務分析應用程序,而這想要簡單地實現,沒有Hadoop是不可能的。”他說。
IT系統管理解決方案提供商Adaptiva公司創始人兼首席技術官迪帕克·庫馬爾預測:
· 今年,數據將得到限制。 “對于數據的使用將變得更加規范,因為供應商將無法跟上數據的需求;而企業也將無法跟上成本的上漲。”庫馬爾說。 “這樣一來,企業將開始利用技術來監測這些數據。”
· 系統管理將因為大數據分析而變得智能化。“大數據分析解決方案的集成整合將繼續功虧一簣,留下未連接的孤島的數據的業務洞察力未被發現——而系統管理將介入幫助。”他說。
能源分析專家FirstFuel軟件公司首席數據科學家巴德里·拉加表示,在2016年,我們將看到:
· 數據的運用更加民主普及化。拉加說,多虧了像亞馬遜的Mechanical Turk這樣的解決方案,使得企業和個人用戶將能夠更方便地收集來自世界各地的數據信息,而在此之前他們是無法實現的。 “不僅能夠更容易的找到數據,同時更加用戶友好的工具的出現將使人們無需具備大量的數據知識就能進行數據信息分析,從而確保獲得有意義的價值洞察了。”他說。
· 對于數據隱私權問題的關注將增加。歐洲最近制定了嚴格的數據監管規定,這意味著企業用戶將需要針對如何解決數據安全問題制定相應的戰略。”企業已經不能僅僅將數據隱私問題視為一個事后考慮的事項了,他們需要主動的解釋他們是如何使用數據的,確保其符合企業所在地及全球的相關監管法律法規。”他說。
· 新的應用程序將被開發以從數據分析中發掘數據價值見解。拉加說,在2016年,企業和個人用戶將進一步挖掘數據并進行分析,以提供個性化的引人入勝的跨行業的數據體驗,包括能源,體育,社會公益和音樂領域。 “比如,人們將能夠使用數據以根據自己的個人喜好來改變歌曲。”他說。
商業智能和分析企業Tableau軟件公司的產品營銷總監丹·高根預測了2016年大數據領域的一系列發展趨勢,包括:
· NoSQL獲得發展。高根說,2016年,NoSQL數據庫將成為領先的企業IT環境,作為無模式的數據庫概念的優勢會變得更加明顯。 “沒有比從Gartner的運行數據庫管理系統魔力象限能夠看到更加令人震驚的顯示畫面了。”而這在過去,甲骨文,IBM,微軟和SAP是占主導地位的。“相比之下,在最近的魔力象限中,我們看到了研發NoSQL的公司,包括MongoDB、DataStax、Redis實驗室、MarkLogic和亞馬遜網絡服務(其DynamoDB產品),數量上超過了Gartner的領導者象限報告的傳統數據庫供應商。
· Apache Spark進一步用于大數據分析。Apache Spark已經從Hadoop系統的一個組件成為了不少企業大數據平臺的選擇了。“較之Hadoop,Spark為數據處理速度帶來了大幅的提升,并且已經成為目前規模最大的大數據開源項目了,根據Spark項目的發起者和Databricks的聯合創始人馬泰扎哈里亞介紹。”高根說。 “我們將看到越來越多的企業使用案例Spark,例如,在高盛集團, Spark已成為大數據分析的’通用語言’。”
· 大數據進一步成熟。Hadoop被添加到了企業標準。高根說,企業利用Hadoop的能力將在2016年變得成熟。“作為其進一步成熟的證據,Hadoop的不斷發展的趨勢將使其成為企業IT規劃的核心部分,我們將看到圍繞著諸如安全這樣的企業系統組件投資的增長。”他說。“Apache Sentry項目為實施細粒度提供了一個系統,基于角色的授權將數據和元數據存儲在Hadoop集群上。這些都是客戶希望從他們的企業級RDBMS平臺和現在的新興大數據技術能夠獲得的前沿的能力類型,從而進一步消除了企業采用的一大障礙。”
· 大數據獲得快速發展,并進一步促進Hadoop的采用。高根說,2016年,我們將看到Hadoop獲得傳統上一直與數據倉庫相關的性能。 “隨著Hadoop獲得更多對于企業用戶的吸引力,我們將看到來自最終用戶對于同樣快速的數據探索的能力的不斷增長的需求,這與他們對于傳統的數據倉庫的期望是一樣的。”他說。 “為了滿足最終用戶的需求,我們看到越來越多地對于諸如Cloudera Impala、AtScale、Actian Vector和Jethro Data等新技術的采用——這進一步模糊了”傳統”BI和“大數據”之間的概念。
· 幫助最終用戶發現所有形式的數據增長的選擇數量進一步增加。自助服務的數據準備工具正在爆炸式的普及。高根說,部分的原因是由于轉向企業-用戶生成的數據發現工具的采用,如Tableau,減少了分析數據的時間。“企業用戶現在希望也能夠減少數據分析的準備時間和復雜度,尤其重要的是在處理各種數據類型和格式時。”他說。”我們已經看到了這一領域的創新,包括從專注于最終用戶準備的大數據公司如Alteryx、Trifacta、Paxata和Lavastorm,同時還看到有長期的ETL領域的領軍企業如Informatica公司對于其REV產品進行的大量的投資。”
· MPP數據倉庫在云中的增長正在升溫。高根說,數據倉庫的“死亡”已經被炒作了一段時間了,而在這一細分市場的增長已經放緩也已經不是什么秘密了。“但我們現在將看到這項技術應用程序轉移到云計算的一個重大轉變,在這一個領域亞馬遜憑借其在Redshift的按需云數據倉庫占據了主導。”他說。“Redshift是AWS增長最快的業務,但其現在需要面臨來自谷歌BigQuery、以及來自提供長期數據倉庫的強勢競爭者如微軟產品( Azure SQL 數據倉庫)和Teradata的競爭、還有來自諸如2015年Strata + Hadoop World獲勝者初創公司Snowflake的競爭。分析人士認為,那些已經采用Hadoop的企業中,有90%的企業還會繼續保持他們的數據倉庫,通過這些新的云服務產品,這些客戶可以相對于存儲在他們的Hadoop數據湖的更大量的數據信息,能夠動態地在數據倉庫中向上或向下擴展的存儲和計算資源。
· 融合收斂的流行:物聯網、云計算和大數據結合到了一起。該技術仍處于初期階段,但來自物聯網設備上的數據將成為“殺手級應用”,成為推動云和PB級數據爆炸式增長的驅動因素之一,高根說。 “出于這個原因,我們將看到了領先的云服務和數據公司,如谷歌、亞馬遜網絡服務和微軟將把物聯網服務帶入我們的生活,使得數據可以無縫地遷移到他們的基于云的分析引擎。”他說。
數據倉庫和大數據分析專家企業Teradata公司的企業系統總經理丹·格雷厄姆表達了他對于2016年的預測:
· 企業將重新設置Hadoop。格雷厄姆認為,在2016年,我們將看到企業汲取他們從以往的部署到重新構建他們的方法的相關經驗教訓。 “隨著Hadoop和相關開源技術超越了純粹的知識收集,以及炒作的消退,企業將重新設置(但不會放棄)自己的Hadoop部署,以解決他們所學到的教訓——特別是圍繞管理,數據集成,安全性和可靠性等領域”他說。
· 關于數據分析算法的探討將進入企業高層會議。 在數據采集和數據的托管分析的制備過程中,相關的算法將升溫。”他說。 “這樣一來,企業的CEO和投資者們將開始探討深層的數據分析為核心業務的目標。”
· 數據湖泊最終會發現一些殺手級應用程序。受數據量和成本因素的影響,數據湖泊將成為原始物聯網數據最常見的存儲庫,格雷厄姆說。”物聯網M2M數據的規模大小將將超過幾個數量級運行內存容量,從而推動了低存儲成本的數據湖技術。”他說。
· 在數據中心捕獲的物聯網數據的價值將迅速被新的交易數據的價值所削弱。 “缺乏貨幣化的數據字段,大多數傳感器的數據將在數小時,幾天或幾周的時間后變為低價值,因為這些數據信息將被相同的傳感器的更新的數據集合所替換。”格雷厄姆說。 “架構和系統將被迫以彌補這一數據價值的快速下降,以應付數據存儲和處理成本。”