大數據時代,人人都在談論大數據。從概念認知到場景應用,人們似乎正試圖掀起一股數據狂潮,這其中就包括了大家熟知的智慧城市、防止犯罪,以及類似于Google對流感趨勢的預測等等。諸如此類的大數據應用有些已經在發揮其應有的作用,但更多的只是一個夢想。在這些成功的和將要成功的案例背后,到底什么才是大數據的本質呢?
隨著過去20年中數據挖掘和人工智能的發展,預測技術在2011年已經相對成熟,甚至走向廣泛的應用,而大數據這個概念才剛剛提出。在過去的三到五年中,基于大數據的案例比比皆是,其結果卻喜憂參半。這些失敗的大數據項目背后是對大數據這一概念過高的預期,反而讓大家忽視了對問題場景的重視。除此之外,關聯數據往往也是缺失的,盡管說大數據到處都有,但是,真正對你有價值、對決策有意義的數據往往并不容易得到,而我們所知的絕大多數數據都是噪音多過價值。
大數據作為一個技術為我們提供了許多人與人之間交互的數據和信息,但是真正的大數據并不是一些排名和信息的發布,而是從數據中理性找出內在的邏輯關系,并將這些邏輯關系應用于實踐。如果不找到事物發展的規律而永遠“聞數據起舞”的話,我們的決策往往會與期望相距甚遠。Google曾通過用戶搜索與感冒相關的關鍵詞來預測流感趨勢,這一基于相關關系進行的趨勢預測一直到2012年前都應用得非常完美。但是到了2012年的圣誕節,Google的預測比真實數值高出了整整一倍。
是什么原因導致了Google的預測失誤?2013年的《科學》上面有一篇文章,幾位教授對這個現象進行了分析,他們的歸納是大數據有這樣一些天生的弱點:首當其沖的就是“驕傲的大數據”—認為大數據什么都能做,小數據沒有用。事實上,大數據的采集遠遠不如小數據那樣“干凈”。同時,所有大數據的應用都離不開算法—“唯一不變的就是永遠在變化的算法”。更重要的是,在Google的案例中,人的行為本身也會隨著大數據及其技術的發展而改變,僅僅基于數據之間的相關關系,而忽視內在的邏輯關系,對預測來講是遠遠不夠的。當意識到預測中存在這樣的問題,就需要人們用大數據去獲得規律,用小數據去匹配場景,從而實現精準的預測和智能的決策。無論是企業還是個人,先要存積并了解透徹碩大的大數據表格中屬于你的那行數據,唯有如此,我們才有可能從一滴水里看世界。
《大數據時代》作者認為:“由大數據帶來對人的重新認識,不是在阿波羅神廟,而是在小世界網絡中,認識你自己。”我們從昨天的數據作用中認識自然、認識宇宙到今天通過大數據更多地認識網絡和社會,我們的認識更加全面、更加深刻、也更加廣泛。但是成就大數據的是無數努力造就小數據的人,他們探索大數據技術,認知大數據文化,并懷揣著對數據的敬畏和對規律的尊重。