今年早些時候公布的一項統計引起了我的注意,據Gartner稱,到2018年,70%的Hadoop的部署將無法滿足節約成本和增加收入的目的,這主要因為來自技能和整合方面的挑戰。
技能和整合方面的挑戰?目前所有廠商不是都生成能夠使大數據輕松流暢的被使用嗎?那么他的困難在哪里呢?下面就讓我們來逐一來看。
收集數據
大數據或者說是全部數據是如何收集的呢?得到這些數據量可能是一個嚇人的整體,如何將他們變得更小更有用呢?
在傳統收集數據方面,例如,惠及、人力資源系統等的,這些交易系統已經很早就被用作數據源進行分析,ETL過程也非常到位。因為這些數據都是結構化的數據,所以相對起來更輕松容易。
云計算、物聯網時代的來臨,傳感器和其它設備每天都會產生很多的數據,這些數據需要進行及時的收集,但是總體來說,這些數據通常還是非常標準版的,而上行數據轉換的要求也并不巨大。
難點在非結構化數據方面,收集媒體文件、文本數據是大數據平臺如Hadoop進行的。因為這些數據是非結構化數據,所以在存儲方面,需要真正的了解數據,并弄清楚他們,給予適當的ETL工具和API接口,以及所需要的吞吐量,這些才是收集數據所面臨的挑戰。
存儲數據
大數據平臺是一個多類型產物,需要存儲所有類型的數據,并且數據可以被表示出來。從簡單的文件存儲到復雜的非常規的數據存儲,都需要進行存儲。
由于大數據平臺的設計理念,該平臺是無限擴展的,他能夠提供在云中的服務,具有非常好的彈性,至少,存儲大數據來說是非常容易的。
然而存儲數據最棘手的問題是如何使大數據平臺在現實中應用,從核心的Hadoop平臺,以及各種商業發行版以及數據庫廠商提供的混合平臺,有很多選擇,很多價位,這對于企業來說,需要了解不同的變化,需要很深的技術水平。
使用數據
一旦你在數據平臺中保存了所有的這些數據,那么你需要他們變換成你需要的核核對數據,并且確保跨多個源的一致性,保證數據的質量,這是大數據中最困難的部分。
如果你只需要在一個特定的額數據源上構建應用程序,或者在一直的數據上頂部做報告,anemia有許多解決方案能夠自動化進行。
但是,當需要跨渠道的界限、探索和利用異構數據,這個時候對于企業用戶往往是個難題,往往需要廠商的加入才能解決問題。