作為公眾號的開篇之作,自然以“忘掉大數據”為題,這既是我的主張也是十年實戰大數據的感悟。作為道家行者,凡事喜歡探究本原,試圖務實一些還原大數據的真相。
為什么要忘掉大數據?
是不是大數據無用?恰恰相反,大數據太有用了,大數據無處不在,它可以跟所有的應用結合,當然前提是能夠采集到相匹配的數據,而隨著科技的發展,采集數據的范圍越來越大、存儲技術越來越先進、計算能力越來越強、算法越來越智能,越來越多的問題能夠用數據技術來解決。那我為什么還是要忘掉它?理由有二:其一,數據的關鍵不在于“數據”本身,而是它表征的事實,我們必須回歸到數據產生的場景中去理解數據,也必須從場景出發去應用數據,單純的大數據毫無意義,想成為一個大數據專家,得先成為某一個應用領域的專家;其二,這是個人對大數據發展的終極夢想,因為數據,我們的生活更加自然,最終再也覺察不到大數據的存在,那才是真正的大數據時代!
回想上古時代,人類對這個世界一無所知或者知之甚少,因為無知,也就無爭,所以“老死不相往來”,社會是一種“自然”的穩態,后來,部分人掌握了更多的數據,開始爭奪利益,道德崩塌,社會變遷,只有大數據發展到人人都能平等的獲取同樣多的數據,社會才會進入一種新的“自然”的穩態。道家洞悉了天機,為“自然”的秩序,無為,也無所不為!
扯遠了…….接下來談談我對數據的理解。
一、數據=Know,數據一直存在
1、數據是人類對世界的觀測: 數據是個什么樣的東東?我是這么看的,我把世界分為如下這些元素:a、道,主宰世界的運行; b、公理/定理、規律 ;c、場景,包括政治人文地理氣候等;d、參與者,包括人和萬物,大到天體,小到粒子;于是所有的事情都可以抽象成這樣,在a和b的作用下,c和d相互影響在時空中運行,而這時候出現了一個旁觀者,把它觀測到的這一切記錄下來,就形成了我們所說的數據。
數據體現了人類的意志:數據的來源只有兩種,要么人類通過手工記錄,要么通過科技手段按照人類設想記錄下來,記錄者對事物的理解、采取的采集手段決定了數據長啥樣!所以看到數據,要追溯回記錄者當時怎么想怎么記的,才可能真正搞懂數據。
數據并不客觀,它是有角度的:正因為數據體現了人類的意志,而人類只能選取某些角度去觀測世界,因而記錄下來的數據是有角度的,它離客觀事實有很大的距離。譬如《史記》就體現了司馬遷的偏好,項羽不是帝王,卻列入本紀之中,可見其對于項羽的推崇心理。
數據表征事實,但數據只是事實的采樣:事物的細節很多,人類只能對局部的點進行記錄(空間抽樣),也不可能連續記錄(時間抽樣)。譬如你記錄了時間、地點、人物、事件,但還有人物心理、周邊環境、星際運行、甚至粒子級別的運動,人類觀測不過來,也記錄不過來,很多東西無法表征,更存儲不下來所有。
數據不僅失真,還可能錯漏:眼里見到的不一定就是真實,最終記錄下來的也不一定是眼里見到的,還有技術的誤差......
真正的“數據”是世界發生的這一切,這個“數據”無窮大,一直存在:相比之下,人類的采集及表征存儲技術實在是太渺小了!不少專家驚呼大數據時代來了,我們可以不用抽樣能夠全數據處理了,真實情況是,人類永遠沒有全數據,我們對這個世界“Know”得太少啊,真正的大數據時代還早得很!
(注:在我的概念,數據有廣義狹義之分,廣義的“數據”就是世界發生的這一切,狹義的數據是指人類記錄下來的)
順便也說一下,強人工智能時代還遠著呢,且不談意識那些深層次的話題,也不探究存儲及表征技術的落后,三個理由,其一,AI在采集數據方面是預設角度的,而人類對一個事物觀測角度有無窮想象空間,你自己都無法預知你會留意哪些方面,其二,模型方面,AI的學習方向也是預設的,人類大腦的聯想關聯能力、快速歸納能力AI無法做到,譬如嬰兒第一次見到圍巾,你教它把它掛到脖子上,下次它見到長的東西如皮帶,它也會創造性的往脖子上掛,沒人教過它圍巾與皮帶的關聯關系!我舉的這個例子不一定恰當,相信寶爸寶媽能舉出更多更好的例子(歡迎投稿供引用)。其三,解讀數據及數據影響行動的能力,AI還太弱。
2、“數據”是物質與意識之間的連接
人類對世界的認知就是體現在對“數據”的掌握,物質通過“數據”傳遞給意識,意識接收“數據”感知物質。沒有“數據”,物質與意識就會中斷。脫離了肌殼,不知道靈魂還能不能接收“數據”,如果不能,那就跟物質中斷了,這種狀態跟創世元靈忍受過的難以想象的孤寂差不多。
3、數據=Know
查英語詞典,“know”有知道、了解、懂三層含義,這三層漸進的解釋和大數據實在是太吻合了,單一的數據能幫人們淺層次的“知道”一些事實,多維度的數據讓我們進一步的“了解”事實,而對數據的綜合提煉、深度洞察才能稱之為“懂”,“懂”事物的規律、發展方向!所有的數據都是幫助我們Know,譬如運營報表是幫助我們“know”過去的運營情況、監控預警是幫助我們“Know”當下正在發生什么異常的事情、目標客戶數據是幫助我們“Know”客戶未來會有什么樣的購買需求;而大數據挖掘就是利用我們已經“Know”的事實數據去推測我們想“Know”的東西。
二、數據的方法一直在使用
人類一直在有意無意的采用數據方法來思考,幾乎所有的領域都有數據的影子。譬如讀心術,不就是通過分析身體語言、微觀動作、面部動作、空間行為、觸覺等非語言行為數據再結合社會習俗、文化背景、民族習慣、現場氣氛、對象資料等背景信息來推測對象的心理么?最近“別對我撒謊”就是試圖利用圖像數據來分析心理,當然智能程度還很低;而偵探就是通過收集現場等數據試圖還原真相;所謂聞香識女人、知己知己百戰不殆、分久必合合久必分等都是對數據的收集和運用;占卜算卦就更神奇了,利用道具來產生數據(當然,不知道是否還采集了空氣中一些神秘的數據)然后推測人的命運…...
但是,現行的數據技術并不能解決所有的問題,因為很多數據還沒辦法收集存儲,隨著采集技術的發展,未來,一切皆可測量,一切皆可數據化,所有領域的專家,都將是數據科學家。 未來,請忘掉大數據,不要問大數據能做什么,而是幾乎所有的領域都必須應用數據技術。大數據無處不在,也就是不存在。
三、所謂的模型、算法,都是為了讓數據產生新的數據,Know->行動
前面也說了,數據挖掘,就是利用已掌握的數據推測未知,推測的結果就是一個新的數據,譬如你沒有用戶的性別數據,只能通過用戶的瀏覽習慣、瀏覽網頁分類來推測它的性別,這個性別對于你就是一個新的數據。
不能影響行動的數據都是沒有意義的,換句話說,數據必須與商業(應用)相結合。千辛萬苦整出一個數據,沒有相應的應用流程來承接,那就徒勞無功。
四、經驗也是大數據
大數據出現之后,人們對數據驅動津津樂道,什么數據驅動營銷、數據驅動管理、數據驅動運營……...如果憑經驗做事情,似乎就被一棍子打死。但是,數據看起來很多,實際上很少(前面說的抽樣、失真......),它并不總能解決問題,如果掌握的數據與目標相去甚遠,無論算法多么的牛叉,都得不到一個與目標匹配的數據結果。
而人類的經驗是基于多年接收的大數據運用大腦提煉的結果,除了五官,人類身體的每一寸肌膚都在接收并處理大數據,人類的大腦比計算機模型強得不知道哪里去了,匹配度高的經驗效果遠遠好于一般的數據結果。
所以,別瞧不起經驗,很多情況下,數據無能為力!
結語
數據沒想象那么強大,但未來數據無處不在,最后,人類一定會忘掉大數據!
先推出第一篇,可能抽象了點。以后會寫些更接地氣的!
作者:小白楊(吳顯洋): 從小愛數學,曾是系統架構師,后回歸數據,10年大數據實戰經驗,漸成一家,擅長數據化思考、系統性布局。信奉道家思想,堅信萬物皆數據,數據藏大道。愛徒步、愛歷史、愛思考宇宙,弘大數據道,教你Know那些有趣、有用、有逼格的Data。