近幾年,有些名詞由于使用過度或者是遭到誤解而被認為是“大數據”。從用谷歌流感趨勢解析器來預測大規模流感的爆發,到追蹤人們購物的趨勢,從引導消費者如何省錢,到制定能夠對底層公司和個人產生影響的實時交易決策——數據已經成為今天全球經濟中保持競爭力的關鍵。要想理解產業大數據的意義,以及為什么大數據能夠受到如此多的關注,我們需要將數據庫產業劃分成幾個部分來分析,這些產業在我們今天處理和分析數據的時候也為我們帶來了不小的挑戰。
為了充分了解大數據以達到我寫這篇文章的目的,我會盡力從一個幫助公司了解大數據對其有何種意義的公司管理人員的角度,對大數據的定義予以闡明。大數據簡單來說就是目前的一代人,他們有處理數據庫和科學技術的需要以此來滿足數據市場的需求。在與高德納公司和其他公司結成同盟的今天,在談論數據庫的不同時我聽到過這樣一種解釋:數量,種類,速度和難度。
這種數據包括復雜的文章,大容量的視頻和錄音文件,即時信息和多變的商業進程,這些都需要來自不同渠道的靈活的數據綱要。技術專家意識到遺留系統和傳統的關系上的數據庫處理系統的解決方案無法控制和處理數據的類型,因為它們是以一種直接趨向商業結果的方式呈現的,這時候問題就來了。這已經不再僅僅是儲存信息的問題了。技術專家和商業領導者應當充分利用現有數據,存取,處理并在實際中使用它們。為了滿足新的需要,新的使用者現正處于一種必須應對某些挑戰的狀態,因為隨著數據的不斷增加,新的問題也隨之出現。
因此,當某些企業想要用大數據執行某些計劃但是失敗的時候,我們最常見的錯誤是什么呢?最近的一份調查顯示在更廣泛的領域內超過百分之七十五的大數據或者說是IT項目都是不完善的。我們應該清楚的看到,在找到最有效的解決方法使大數據能夠被充分利用開發并為我們所用的道路上仍然有許多困難和挑戰。
讓我們來列舉一部分。
首先,你沒有充分利用你的數據。
也許,讓很多企業都不得不面臨大數據的挑戰的一個很明顯的原因,是缺乏一種通過使用大數據來推動支持決策形成商業智慧的能力。
如果一個線上出版者能夠更好地理解讀者會在什么時候以及為什么瀏覽他出版的內容并在他的頁面上停留很久,他便能夠根據現在和未來的瀏覽者的需要對內容進行改進。在現存的數據中,驅動價值是產業中最常見的難題之一。雖然眾多的科技產品可以幫助克服這些困難,但是大部分的數據庫產品都缺乏快速有效解決的這一問題的能力,因為它們沒有進行大規模的數據轉換,在精確衡量商業智慧上往往會制定一些不符合實際的過高目標。
如果大部分的數據庫技術在一開始的時候并不了解和滿足數據的某些特殊要求,那么它們便需要某種數據定義或者是數據綱要來減緩項目進程。還有要順便提一句,這里描述的都是我在過去的15年來有著愉快的工作經歷的IT項目。
NoSQL關系型數據庫有效地解決了這個問題。如果執行了NoSQL關系型數據庫(通常情況下可以行得通),那么綱要便不再需要了,或者是需要的程度降低了。這是NoSQL關系型數據庫的主要價值所在,也是在關系市場上直接增加在使用者的知名度的一個主要的推動力。
復雜的數據建模,中間層的目標規劃和不斷返工,這些與更早的RDBMS關系型數據庫管理系統有諸多聯系的特點,為探索一種新的充分利用大數據的方式開辟了一條新路。
第二點是,你已經將公司賭在了免費軟件上
通過過去幾年的促銷循環系統,每一個組織都在考慮有效利用最新最好的解決方案,像Apache和Pig這樣的,都是感覺過去的RDBMS關系型數據庫管理系統已經過時而力求創新。事實的確如此,關系型數據庫本身無法滿足NoSQL數據庫能夠達到的要求。在源頭開放的大數據生態系統中,持續增長的失敗案例已經能夠防止大象試圖飛行—許多公司已經感受到了小范圍失敗帶來的損失。
免費軟件運動已經因為其不真實性而備受批判,主要由哪些抱著不切實的幻想,守望著自己的產品能夠成為下一個最暢銷的產品或者只有他們自己可以做到這種程度的這種沒有什么經驗的軟件開發者共享。
產業在過去的幾十年里已經盡力去克服公司軟件中的一些現實的不穩定因素(完整的版本是“你得到的永遠不會多于你應得的——但是不要忘記后續,如果這看起來太美好而讓人無法相信其真實性的話……”)
現實是大部分的開放源數據軟件在滿足公司的需要上都并不可行。大部分的開放源安裝包的存在都是為了吸引那些尋求簡單客戶基礎的網絡開發者。這些產品都具有一些很典型的特點,不能物盡其用,不安全而且眾所周知它們會丟失數據。是的它們會丟失數據,因為它們在一開始被設計研發時,就沒有可以核對每一個自主數據的處理器。
第三點是,你徹底的放棄了昂貴的遺留下來的數據系統
我相信數據倉庫將會有一個長遠的未來。這并不是一個非常大膽的猜想,但是RDBMS關系型數據庫管理系統的未來又會怎樣?當然不久之后我們將看不到Oracle數據庫的終結。
我的數據顯示,邏輯型數據倉庫(LDW)正在呈上漲趨勢。一個倉庫是建于由兩個或者多個現實數據庫合成的單一的接入視圖之上的。同樣的原因,產業未來應用的發展也正在采集使用NoSQL數據庫,這便需要一種新的方式來構建和儲存數據倉庫。使用RDBMS關系型數據庫管理系統的話,一開始會很難去駕馭它,反復做又會花費大量的時間和金錢。
一個邏輯性數據倉庫(LDW)擁有一種獨特的功能,能夠加強幾乎所有來自各種數據源的數據和索引,并構建一種客制化的時間系統,使所有客戶進行交易和分析問題成為可能。雖然RDBMS關系型數據庫管理系統已經成為一種舊的派別,但是放棄現有的數據執行手段的代價是非常巨大的。邏輯型數據倉庫LDW允許公司在關于遺留系統的沉沒成本的問題時可以盡量減少損失,并轉向一個更有效率,更多面的,更有伸縮性的數據平臺。一個公司的NoSQL關系型數據庫可以成為舊有的RDBMS關系型數據庫管理系統和失敗的用以處理結構性數據,文件內容,檔案和媒體的實戰項目之間的整合點。這對過去長期一直與錯誤軟件作斗爭的不穩定的IT行業意義重大。
第四點是你不了解你的數據
對于任何產業來說,一種進化必然會很快的產生一種知識代溝:你對迎面而來的挑戰和解決方法的了解遠遠落后于那些在特定企業中呆過的人。
一些人認為大數據產生了一些新的社會角色的需要。就在最近,我看到了首席數據官CDO和數據科學家的出現。很多人嘲笑過將專家帶進企業帶來的成本和需求,但是缺乏正確的專業知識的企業是無法理解自己的數據的,這意味著,他們也就不會知道最好的使用自身數據的方法。據高德納公司預測,到2015年全球百分之二十五的大型企業都將聘請首席數據官CDO。
但是坦白說,你們真的不需要數據科學家,你們需要的是更好的軟件。
第五點是你總是貪得無厭
也許在你突襲進入大數據領域中最容易避開的錯誤就是不要吸收太多的數據。大部分情況下,科技方面的原因導致了這種現象的出現。奇怪的是,從大數據的角度處理整個公司的事情基本上是不可能的,那么為什么不從最底層開始,逐漸積累成功的經驗從而使項目一點一點發展起來呢?使用靈活的科學技術,像公司中的 NoSQL關系型數據庫。迭代數據倉庫的發展會很快出現,同時能夠減少重復作業和預付工程成本。
曾經有一段時間,以能力為基礎的公司成功的帶著所有的可用數據快速果斷地實現了轉移,若要增加每一個公司的競爭優勢其壓力也是十分大的。太多企業吸收過多自身無法成功處理的數據。有一種錯誤的觀念是,所有的大數據問題在某種程度上都可以一起解決,就像一個需要唯一解決辦法的集成問題一樣。帶著游戲總會結束的思想,IT管理者和主要的信息人員應當問清楚自己嘗試去施加影響的商業決策到底是什么樣的,而不是一味考慮怎樣把新技術和舊有技術融為一體。能否獲得正確的答案將直接決定一切數據項目的成敗。
團隊應從小處著眼,快速的縮小比例,并能夠適應擺在面前相關的模式和解決方法將會有利于使未來的項目不超出預算并按時完成,最重要的一點是,達到預期的結果。
無論你正在處理的是金融數據,特定的保健數據和購物分析還是出版工作和政府情報,這些數據的一致性就在于他們的多變性,復雜性和多樣化以及它們不斷增加的數量和需求。要想以一種驅動商業價值的方式來處理大量的不斷匯集的數據,企業必須要明白眾多大數據項目失敗的原因,從而避免已經出現過的錯誤導致的失敗。知道不應該做什么和知道應該做什么同樣重要,有了這些基本的知識,企業才能快速實現他們短期和長期的各種目標。