隨著云時代的來臨,大數據也吸引了越來越多的關注,大多行業都因沾染這兩個詞匯為榮。馬云也表示,在接下來的社會經濟發展中,數據將如過去的“石油”成為一種核心資源。
其實,上面這些搜集的數據多數是無效的。在我的文章《展會大數據精準營銷,你應該知道這些事》中,明確提要一個詞匯“大數據畫像”,考慮到未來的營銷會是精準化營銷,搜集數據時一定要按數據的組合進行整理,而大數據畫像很直接地告訴我們該搜集怎樣的數據,由于篇幅有限,此處不過多講解,更多請自行百度一下進行閱讀。
大數據浪潮,洶涌來襲,與互聯網的誕生一樣,這絕不僅僅是信息技術領域的升級,更是在全球范圍企業加速創新、社會加速變革的利器。現代關系學之父德魯克說過,預測未來最好的方法,就是去創造未來。而“大數據戰略”,在當下及未來某節點上能起到“給我一個杠桿,我能翹起整個地球”的效用。
大數據的應用離不開數據,從搜集、存儲、分析到預測。而關于數據的收集,許多人都會覺得無從下手,那么大數據的應用真的那么難嗎?
今年早些時候,一項出自Gartner的統計結果引起了我的關注。該結果稱,到2018年,由于面對關于技能和整合的挑戰,70%的Hadoop應用都將陷入困境。
誠然,技能與整合是會為我們帶來挑戰,但現如今,各個服務提供商都聲稱能使大數據應用變得更容易、更平滑,那么挑戰與困難會出現在什么環節呢?我們從大數據項目的上游部分入手,開始分析。
1、數據收集
對于數據收集,乍一看是一項艱巨的任務。因為對于數據,不僅僅要做到全面,還要做到精準。再加上大數據收集并納入數據湖泊(hub)的一系列工作,使人對大數據項目望洋興嘆。但是如果將數據收集問題肢解開來的話,你會發現實際操作難度系數降低了不少。
來自傳統來源的數據:我們有各種傳統的體系為我們作分析提供數據來源,例如會計系統、HR系統、CRM系統及專業的數據采集技術等等。通過現有的ETL技術,我們可以匯聚這些系統中的數據。大體上我們有兩種選擇:一種是將實體數據從數據倉庫復制、替換到數據湖泊(hub),另一種是在結構上搭建數據湖泊(hub)(虛擬數據倉庫的一種變體)。
來自物聯網的結構化的數據:物聯網中的傳感器以及其他設備產生的數據會使應用變得復雜,主要原因是數據產生量與攝入量的及時匹配問題。不過這其中涉及的數據通常高度標準化,而且對上游數據轉換的需求量不大。
非結構化的數據:諸如Hadoop之類的大數據平臺可以簡化媒體文件以及文字數據的收集工作。這些數據可以被簡單地“傾倒”入數據湖泊(hub)而后加以利用,因為這些數據的存儲是無結構的。
2、數據存儲
數據不斷增長造成單機系統性能不斷下降,即使不斷提升硬件配置也難以跟上數據的增長速度。因此,關于數據的存儲就發展出來數據庫進行存儲,具體有如下幾種:
并行數據庫
并行數據庫是指那些在無共享的體系結構中進行數據操作的數據庫系統。這些系統大部分采用了關系數據模型并且支持SQL語句查詢,但為了能夠并行執行SQL的查詢操作,系統中采用了兩個關鍵技術:關系表的水平劃分和SQL查詢的分區執行。
NoSQL數據管理系統
傳統關系型數據庫在處理數據密集型應用方面顯得力不從心,主要表現在靈活性差、擴展性差、性能差等方面。最近出現的一些存儲系統摒棄了傳統關系型數據庫管理系統的設計思想,轉而采用不同的解決方案來滿足擴展性方面的需求。這些沒有固定數據模式并且可以水平擴展的系統現在統稱為NoSQL(有些人認為稱為NoREL更為合理),這里的NoSQL指的是“Not Only SQL”,即對關系型SQL數據系統的補充。
NewSQL數據管理系統
傳統數據庫支持ACID和SQL等特性限制了數據庫的擴展和處理海量數據的性能,因此嘗試通過犧牲這些特性來提升對海量數據的存儲管理能力。這種方式取消了耗費資源的緩沖池,在內存中運行整個數據庫;它還擯棄了單線程服務的鎖機制,也通過使用冗余機器來實現復制和故障恢復,取代原有的昂貴的恢復操作。這種可擴展、高性能的SQL數據庫被稱為NewSQL。
得益于自身基礎設計理念,大數據平臺可以無限擴展。如果大數據平臺在云端運行維護,那么它的靈活性將更強,但是網絡也存在較大安全問題。但是我們從整個數據的應用過程來看,至少從概念上講,存儲數據是大數據應用中最易于實現的部分。
3、數據使用(非應用)
在數據湖泊中存儲了理想的數據后,我們該怎么將其加以利用呢?數據的轉換、協調、確保不同數據源之間的一致性、檢查數據的質量,這些是大數據應用中最難實施的部分,而且在這些方面我們可用的自動化工具少之又少。
如果我們的需求只是基于某個單一數據源開發項目,或者基于一致的數據集得出報告的話,那么我們有許多集成度高的無縫化解決方案可以使用。然而想要結合多種數據源、探索利用不同屬性的數據的話,我們就不得不自行開發。
4、大數據的兩個誤區
大數據“萬能”
個人認為,目前大多企業不具備數據應用的能力,因為大數據之間存在相關性。“一句話,即便在大數據時代,種種‘黑天鵝’事件也仍然是沒有辦法被準確預測到的。因為所有根據過去的理論數據模型進行的假設都無法準確推演未來,它們不過是為了未來某個黑天鵝做著準備。”
大數據涉及海量非相關數據的相關性的統計,其相關性的存在基礎又是什么呢?非相關數據,很多時候兩者的相關性是真相關,也可能是偽相關。需要注意,這種相關性要成為可推演的行為邏輯,首要前提就是確保這種相關性的基礎是恒定不變的。
因此,我們要注意和警惕的是,大數據并非是一個萬能的事物,它的缺陷在于立足于統計學基礎之上,必然是會因為統計樣本的變化而發生變化的。過去決定未來,是無法反映出時代進步和調整的可能性的。過去所做的推斷,永遠只代表了過去那個階段為止的最高極限,本身是不會自我演化和發展的。
大數據之“大”
人們往往犯這樣的錯誤,認為大數據越大越好。事實是數據并非越大越好,有價值的分析工具是幫助客戶從海量的大數據找出真正可用于決策的數據,這些有價值的數據就是‘小數據’。”換言之,“小數據”是針對客戶的特定需求概括、提煉出的數據。