近年來,被「大數據」這一新詞所包圍,但是說來說去,由冷到熱又趨冷,耳朵都聽出繭子來了,除了沃爾瑪超市「啤酒與尿布」的老例子,似乎并沒有什么新的應用讓人切身感受到大數據帶來的驚喜,這是因為「大數據」被過度神化甚至妖魔化、故意把概念攪渾、搞的云山霧罩所造成的。
其實,大數據帶來的便捷早已深入我們的生活,下面,我將從數據化的角度給大家展示一下大數據的實用及數據化給我們帶來的驚喜。
大數據的最早數據化實踐
這里我要講到的是十九世紀的一位美國人,他叫做馬修·方丹·莫里(Matthew Fontaine Maury,1806~1873),這哥們曾經是一位前途無量的海軍軍官,但是一次意外事故讓他變成了一位跛足軍官,不再能勝任海上工作,于是他就被調任到后方,負責圖表和儀器廠。
十九世紀時候,海上行船毫無章法,基本全靠船長的經驗,這就導致很多航線明明可以直線到達的卻要繞很大的彎兒。費時費力,作為一位年輕的航海家,莫里對此曾請教過很多有經驗的船長,而船長們給出的答案是:走熟悉的遠路比冒險走不熟悉的近路要保險的多。他們認為海洋是一個不可預知的世界,人隨時都可能被意想不到的風浪困死在汪洋大海中。
但是同樣有著豐富航行經驗的莫里并不完全認同這一說法,因為即使是在同一片海域,不同的時間段也會有殘酷的風暴和平靜的微風,如果能夠根據潮汐、季風和洋流的知識,把沿用百年的陳舊圖表做下更新,一定能找出很多更短更安全的航線。
這一想法在他腦中盤算良久,但苦于沒有足以支撐他想法的數據。這一難題卻被莫里意外解決了,在他清點庫房的時候,發現了一些裝滿航海日志的發霉木箱,里面裝的都是以前海軍上尉寫的航海日志,當莫里將這些海水浸泡過的書籍上的灰塵擦凈,凝視著里面的內容的時候,這些被擱置已久的「垃圾」在莫里手中熠熠閃光。
這里有他所需要的所有的信息:特定日期、特定地點、特定季風、特定水域、特定天氣下的航海狀況,這些正是莫里夢寐以求的,但同時莫里也面臨著巨大的困難,這些日志雜亂無章,頁面邊上還盡是奇怪的打油詩和亂七八糟的吐槽涂鴉,莫里為了提取其中的有用信息,和他的20位助手一起將這些破損的航海日志記錄的信息進行了數據整理及處理,并記錄在一張表格中。
根據整理的數據,莫里將整個大西洋按經緯度劃分為五個板塊,并且按照月份標出海洋的溫度、風向、風速等信息,根據時間的不同,這些數據都會發生相應的有規律的變化,據此,莫里整理出一份全新的基于眾多船長航海日志的粗略航海路線圖,這張圖帶來的最大的好處是給出了一些確定時間段內安全的航線,極大的減少了船隊海上航行的冤枉路,能夠幫助商人們節省很大一筆費用。
為了獲取更多的數據,莫里制作了標準的航海日志表格,發放給美國海軍,要求他們在海上記錄,并在返航后交回表格,這些數據采集還包括數量眾多的商船,莫里讓他們用自己的航海日志來交換新的航海路線圖,參加莫里行動的船只還會懸掛特殊的旗幟,恐怕這就是病毒營銷的原型了。
在數據不斷更新完善之下,莫里的新航海路線圖不再需要年輕的海員們去摸索、總結經驗,能夠在圖表上輕松獲得來自成千上萬經驗豐富的航海家的指導,平均讓船隊的航行路程減少了三分之一左右。
這就是大數據很早的一次嘗試,沒有提「4個V」,也沒有提「Hadoop」,只是簡單的數據化,將現象描述轉化為可制表分析的量化形式,然后數據就給我們帶來了明顯的實用價值和無限的驚喜。
大數據數據化的威力無窮
其實,這是一個經驗數據化、經驗可視化的過程,就像我們的中醫,傳承千年,只是知道這種草藥能治療這種病癥;那種草藥適用那種病癥,這就是經驗,但是這種經驗沒有數據化,沒有進一步發展,我們需要的是經驗可視化的過程,就像屠呦呦從傳統古籍中得知青蒿對治療瘧疾有一定的效果,并在此基礎上不斷探索,讓經驗數據化、可視化,提煉出能夠治療瘧疾的青蒿素,挽救了數百萬人的生命。從經驗的傳承中找到精華,并不斷發揚,這才是傳統古籍通過經驗數據化、可視化帶給人們的大數據的實用及驚喜!
再進一步,經驗數據化在現代醫學中還有什么更加驚喜的應用嗎?有的。
比如說現在我們知道一些已經確定的疾病和基因的關系,如果突發一種疾病,我們并不清楚這種疾病是什么引起的,但是我們可以通過病癥的臨床表現,比如發燒、腹瀉等癥狀來確定一些可能的基因,圈定了一些可能相關的基因,然后再通過富集分析、查找拓撲模塊,確定疾病致病蛋白,然后再針對致病蛋白查找現有的能夠靶向治療的藥物。
比如某一疾病爆發,臨床表現就是發燒、腹瀉,那么就針對引起發燒和腹瀉的致病蛋白尋找靶向治療藥物,找到了能夠治療發燒和腹瀉致病蛋白的靶向藥物,然后將藥物進行技術性重混,進行臨床實驗,看是否對該疾病有效。如果有效,則作為實驗性藥物再進一步研究,通過不斷的嘗試藥物配比或者增改新藥物來到達治療未知疾病的目的。
這豈不就和莫里通過以往的航海日志數據化,來形成新的航海圖幫助改進航線有異曲同工之妙嗎?
大數據的數據化能讓算命公司上市
如果我們腦洞再開大一點,想想我們生活中的算命先生,每當有客戶找到他們請求算命的時候,算命先生都是仰頭掐指、念念有詞,那么他們是不是也會把某種經驗數據化呢?
很有可能,比如一個人出身貧寒、努力奮斗、機遇好,可能成為達官顯貴、富甲一方;比如一個人出身高貴、努力奮斗,能夠守家業并且可能還會開辟新天地;比如一個人出身貧寒、好吃懶做、怨天尤人,可能就潦倒一生……
這些都是有規律的,把所有這些不同的人的性格和最終歸宿進行匯總,是不是就能夠得到一個從古至今所有人的性格和最終成就的表格?如果再進一步進行聚類、協同過濾等算法處理,再來一個人算命,你針對他的性格特征在數據表格中搜索類似的人,是不是就可以對他的人生有一個預測?
恍然大悟啊,原來算命還有這么大的學問!
千萬不要小看算命,算命公司是可以上市的,新加坡有一家叫做「新天地集團」的公司于2012年6月在倫敦證券交易所AIM板塊掛牌上市,公司主營列赫然寫著:算命、算卦、看相、看風水……
再想想你們公司,又是科技,又是互聯網+,又是共享經濟的……什么都是最牛的,但是到頭來融資都苦難,更別說上市了。
人家一家搞算命的公司都能上市,是不是感覺很心塞?
算命怎么能算是大數據實踐?
讀到這里,你是不是有一個疑惑:如果算命真的是靠從古至今積累的大數據檢索來做預測的話,算命先生是怎么做到檢索速度這么快的呢?
其實,這里面還有一個技術要點,算命先生在算命時候一般輪換著掐手指、45度角仰望天空。
你以為他們那是在干嘛?
掐手指那是使用感應鍵盤輸入指令!至于看天空,自然是在請求云計算資源嘛!既有大數據,又有云計算,算命公司上市,好像也是理所當然的了……(開玩笑哈)
計量和記錄一起促成了數據的誕生,他們是數據化最早的根基,所以我們目前的要點不僅是要做將文字轉化為數據、將方位轉化為數據、將聊天轉化為數據、等等世間萬物的數字化,我們更應該重視數據化。
畢竟我們存一堆數是沒有意義的,就像你收藏書是沒有意義的,只有讀了才能發揮作用,正如現在面臨困局的滴滴公司,搜集了一堆的用戶數據,從家到公司的、從娛樂到休閑場所的、從學校到實習公司的……這么多數據如果單純的存著是沒有價值的,將這些數據化,才造就了現在的滴滴線路智能推薦系統,幫助我們挑選最合適的道路,如果現在滴滴公司能夠將這些數據與政府共享,協助政府緩解城市擁堵問題、為解決城市擁堵提出有效建議,估計還能緩和下局面。
有了數據化大數據的幫助,我們不會再將世界看作是一連串我們認為或是自然或是社會現象,我們會意識到本質上世界是由信息構成的,我們更看重的數據所產生的價值,而不是存儲一堆數據抱殘守缺得給大家畫餅,告訴我這大堆的數據將會產生什么價值。
現在很多公司包括一些政府都買了一大堆的硬盤,存了一大堆不知所謂的數據,給投資人、民眾鼓吹大數據的價值,你又不是演員,別設計那些情節,簡單點,做事的方式簡單點,有個做事的樣子,不管手里有多少數據,首先發揮出價值來,不要讓數據僅僅是到數字化的階段,比誰家硬盤存的數多有什么意思?
多想想數據化的事,這才是正事!
大數據的落地為何僅僅流于表面?
現在包括企業、政府,很多都僅僅是在炒大數據的概念,這并不是他們不想做好,而是受到了制約,主要是兩個方面的制約,一個是數據量小且難以利用,另一個是轉化經驗少實施困難。
數據量小這個事情可能不好理解,我們那么多數據怎么能說數據量小呢?
我在吉林和山東親自操刀參與了兩個政府主導的大數據項目,無一例外的最后死在數據量小和難以利用上。
為什么我說政府的數據量小,政府數據總量并不小,這里說的政府數據量小是說政府可利用數據量小。
首先是數據化程度很低。只是近幾年政府才開始在使用電子信息化辦公平臺的時候才積累了點數據,早年大量的數據基本都是以文件及紙質的形式存儲在政府辦公樓倉庫里,和莫里發現的倉庫里長了毛的航海日志差不多,而紙質的數據我們是無法使用的。想要將這些紙質數據化是一個非常龐大的工程,需要耗費巨大的人力物力,而這關鍵性的一步恰是一個吃力不討好的活,所以一般承接政府大數據的公司也都很少去觸碰。
那除了這些不能利用的,就沒有其他可利用的了嗎,有,但是量很少,基本都是一個EXCEl就能解決的問題,根本談不上大數據。
另外就是數據割裂,各個部門的數據都和寶貝似地保護著,生怕其他部門搶走,這就導致了數據的割裂,無法整合。比如咱們要進行一個智慧城市的建設,至少需要交通數據、氣象數據、人社數據等等部門的數據進行綜合考量,但是每個部門都把自己手里那點數據看的和寶貝疙瘩似得,碰都不讓人碰,又何談數據整合呢?
所以很多政府大數據工程到最后就流于表面,最后把手頭少的可憐的數據做做數據可視化,弄一些大屏幕,展示出來給領導匯報一下就結項了。
第二個就是轉化經驗少。
比如農業大數據,政府是有不少的農業數據和氣象數據,甚至還有糧食收購數據、農產品價格數據等等,但是即使這些數據全部都開放給施工方,如何使用還是一個大的問題,如何利用現有的數據通過數據挖掘、數據分析讓這些數據產生價值轉化、形成生產力,這又是面臨的新的問題。這方面美國有較好的實踐,美國的農業生產模式正在從機械化向信息化轉變,以精準為特征的農業,正在讓種植變得更加容易。
美國是對農業數據收集比較齊全的國家,也是較早進行農業數據開放的國家。目前,有關農業數據的采集、共享和利用正幫助美國農業政策制定者對農業部門的發展制定各種政策。不僅如此,美國各大農場主協會以及涉農企業也不惜投入大量的時間、金錢以及花費巨大的精力去搜集被人們稱為“大數據”的涉農數據。
大數據對于農業的作用隨著全球人口的增加,天氣的波動更加不穩定,以及依賴石油的農業對于石化燃料的價格越來越敏感,必然激勵更多地運用新技術來提高作物產量,并管理風險。圍繞著基因組學、生物信息學以及計算生物學的研究活動都已經取得了重大的進展,使得科學家和組織能夠更好地養活全世界,并提高食品和農作物的質量。
但是中國現在并不具備這種條件,還是家庭為單位的小作坊式的田塊化種植,無法集約化管理,這就導致了農民種什么、什么時候種都有自主權,那么現狀是什么呢?以現在最大的渤海糧倉為例,在山東幾個縣市為試點的渤海糧倉項目,最后落地后的成果是什么呢?所謂物聯網+大數據的實踐到最后就是找幾塊試驗田,插上桿子,裝上幾個傳感器和攝像頭,然后做一下數據展示,甚至很多地方的傳感器和攝像頭都被農民卸走了,如何指導生產,如何將農業機械制造產業鏈打通,目前我并沒有看到有什么實踐。
結語
不要一味的好大喜功,也不要政府提出物聯網就撲向物聯網,政府提出大數據就涌向大數據,政府提出萬眾創業就又去一窩蜂的弄眾創空間,適合自己的才是最好的。
貴州大數據的口號喊了好多年了,大數據交易所也吸引了總理的目光,但是究竟有多少筆交易,實際又產生了多大的價值?好像除了活在官方一次次的政治宣傳之外,并沒有看到什么實質性的進展。
要搞大數據,不一定就一味的去堆砌機器,上級領導來檢查就帶著領導逛機房。還是要真抓實干,從源頭出發,分析自己的優勢,比如山東泰安,結合山東傳統農業大省的優勢,結合山東農業大學的科研優勢,現在依靠自己在農業方面的優勢,一點一點來,先從土地復墾、測土施肥開始,慢慢的將苗木交易電子化、渠道化,指導苗木種植戶生產種植,給出建議的通知有保價收購,讓種植戶心理有底,按照政府的數據指導來做真正的能賺到錢!
不一定有多大的數據,即使是依靠著現有的幾百萬條數據,通過場景化的應用分析,給出老百姓建議,讓老百姓切實的得到實惠,讓老百姓切實看到大數據帶來的好處,這才應該是政府大數據的必由之路。
別再只顧著建機房了,試試將交通數據收集一下,整理一下,數據化,搞一個路路通的惠民小事情,在紅綠燈旁給司機提出前方是否擁堵的實時通知,給出如何繞道才能更省時間的建議,甚至在此基礎上,給城市下一步道路規劃提出如何才能更加友好的解決擁堵問題的建議是不是更有益,如果早這么做了,也就不至于出現北京西直門立交橋空中拍攝像蝴蝶很漂亮,實際出行繞暈人找不到路的怨聲載道的尷尬局面了。