之前發一篇文章《大數據行業里的兩大誤區》,很多朋友評價還不錯,受此激勵,結合最近目睹、經歷的項目,想多寫一些。經過筆者總結,發現大數據的誤區還真是不少,尤其是國內,很多人以訛傳訛,造成了很多基本概念的偏差。接上一篇文章,再來談談大數據中的一部分誤區,供大家拍磚。
誤區三:數據量特別大才叫大數據
在 “數據界”存在這樣有一波人,他們認為“只有Peta級以上的才叫大數據,甚至到了Zeta以上才叫大數據,目前還沒有到真正的大數據時代!”,每次聽到 這樣的話,我就知道這些人受IOE某巨頭的4V理論中的“容量”影響太巨大了。對此,我想說的第一句話是“盡信書不如無書,盡信巨頭不如去IOE”,去 IOE不只是要從硬件做起,還要從思想上敢于挑戰巨頭做起,盡管很多IT界的經典理論都是傳統巨頭提出的,但是隨著挑戰者的出現,萌發了新的思想和技術 后,傳統巨頭會被慢慢顛覆,這也是我們人類前進向前的一個重要因素。如果我們還停留在迷信巨頭的時代,如此刻板教條的去追求一個概念,那么就不會有現在的 Hadoop,不會有現在的Spark,不會有現在的特斯拉,不會有機器學習人工智能,更不會有未來的第N次工業革命。
首先我想強調,大 數據技術真的不是一個新鮮詞,在之前的文章中我已經說過,大數據的本質還是數據,數據這個行業已經發展了若干年,而數據量的規模永遠是超出該時代的想象 的,比如十幾年前,一張軟盤的數據量也就1.44M,當時的數據如果達到1T都讓旁人咂舌。那么按數據量的標準,當時如果有人收集了1T數據就已經進入大 數據時代了嗎?顯然不是!所以我想說,數據量的大小并不是衡量大數據的標準,如果按數據量去判斷是否大數據的話,那么“大數據”這個詞真的是一個偽命題, 就如同“老虎比如是老的,小伙必須是小的,巨頭必須是腦袋大的,飛人必須是長翅膀的”這種純粹字面意思去定義的話題一樣。
那么再回過來說,大數據的概念是什么?首先,大數據是一個完整的生態體系,從數據的產生、采集、加工、匯總、展現、挖掘、推送等方面形成了一個閉環的價值鏈,并且通過每個環節的多種技術處理后,為所在業務場景提供有價值的應用和服務。其次,大數據的核心是什么?一方面是開源,一方面是節流, 目前大數據技術的核心目標都是通過低成本的技術更好的滿足對數據的需求(尤其是處理近年來更多的非結構化數據),并在在滿足需求的基礎上盡可能多的為企業 節省投資。說一千道一萬,大數據的核心理念還是滿足應用需求,有明確目標的技術叫生產力,沒有業務目標的技術叫“浪費生命力”。
誤區四:為了大數據而大數據
這 個誤區我認為是目前最嚴重的。在部分企業中,追求技術一定要最新、最好、最炫,一定要拿到國際先進、世界一流才行。所有的企業,不分行業不分性質不分地域 不分年代,一律高喊“趕超BAT,大數據助力**企業達到**目標”,接下來就是先去IOE,然后投資買集群,把之前的各種高性能小型機大型機都不用了, 之前買的O記授權全部停了,之前的幾十年投資一夜之間作廢,又投入了更多的資源去追趕“大數據”。
同學們,這種勞民傷財的事情相信大家每天都會聽到或者親眼看到,很多企業不計成本就是為了博領導一笑,這得是多么大的誤區啊。對此我想說:
第 一,從技術上來說,比如BAT或者很多互聯網企業去追求大數據,是因為業務發展的需要。任何一個互聯網企業一出生就是為了流量和點擊而活著,這就意味這大 量的非結構化數據需要進行快速處理,這時候就決定了互聯網企業只能通過一些并發手段去分解底層的數據,然后進行快速加工,并滿足其服務用戶和市場的需要。 互聯網企業的業務流程和業務模型就決定了必須得采用大數據技術。反之,很多企業根本用不著這些技術,有些企業簡單的一兩個Excel文件里面做幾個公式就 可以滿足它的發展,而且數據的周期還是按月處理的,根本不需要運用這些技術。
第二,從投資上來說,互聯網企業出生都是平民,根本買不起大 型設備,就算一夜暴富后,也沒有一個傳統的小型機大型機可以更好的滿足它們的發展,故只能另辟蹊徑創造價值鏈和標準了,在之前的低投資、輕量級架構上,不 斷進行小量的線性硬件投資滿足業務的發展。反倒是一些傳統企業,甚至是巨無霸,其投資計劃已經在一年前明確,而且在原來的基礎上投資會更有ROI(投資回 報率),現在反倒為了追求大數據的口號,犧牲了之前的大量投資,除了“得不償失”,剩下的只能是滿地的節操了。
大數據技術甚至任何一種技 術都是為了滿足特定的業務目標而生的,在具備了明確的業務目的后,順勢設計符合自身業務架構的技術架構,才是一種科學的健康的發展觀。如果您是一位老板、 CEO或者投資人,千萬要明白,大數據技術對于企業來說,有時候像水,而企業的業務目標就是那艘船,“水能載舟,亦能覆舟”。
隨著生產關 系的不斷調整,又會出現若干輪生產力的不斷進步,大數據之后的技術也會日新月異的進步著,比如現在開始潮流涌現的“機器學習、深度學習”等諸多的人工智能 方面的技術,也出現了比如“小數據”、“微數據”等更細方向技術的細分,在技術的洪流到來時,只要保持清晰的以滿足業務為導向的頭腦,根據自身的業務需要 設計自身的技術架構,就不會被各種流派,各種概念淹沒。
作者系《企業網》特約專家:劉強 樂蜂網數據總監