引子
評論家很喜歡談論“尿片與啤酒”的故事。
上世紀60年代,沃爾瑪連鎖超市在研究銷售記錄時發現,給孩子買紙尿片的男人常會順便買幾瓶啤酒。為此,超市在尿布旁邊擺上了啤酒架。
這是半個世紀之前的故事,被認為是大數據分析的開始。
20年后,影響全球的未來學書籍《第三次浪潮》預言,未來信息時代,必然有大數據的應用。
但直到五六年前,網上百科全書Wikipedia還不愿開辟“big data”的詞條。
那時候,很多人認為,“big data”不過是兩個單詞的組合而已。當時,如果你瀏覽一下網頁就會發現,人們更傾向于,大數據是一個概念和憧憬,志向不小,但成就不多。
不過,就在這兩三年,大數據應用呈“爆炸”之勢,五彩繽紛的創意開始變成現實。
“大數據時代,互聯網思維促進行業轉型升級的作用越來越明顯。基于海量數據資源的挖掘和應用催生的大數據產業,是全球下一個促發創新、角力競爭、提高生產力的前沿領域。”中關村(000931,股吧)管委會主任郭洪說,“中關村將堅持把大數據產業作為戰略性新興產業發展的突破口,以大數據應用和商業模式創新為重點,全力建設全球大數據創新中心”。
第一部分:潮起中關村
“化學推動了工業時代的大繁榮,大數據正成為新時代的化學。在新時代里,可能會出現數據周期表和數據領域的門捷列夫。”在寬帶資本董事長田溯寧看來,“經過計算機時代和互聯網時代,大數據成為未來發展的重要方向。”
2012年底,在中關村大數據產業聯盟成立大會上,田溯寧作為投資方代表,宣布了云天使基金、中云融匯基金、大數據實驗室孵化基金三支基金的創立,這也拉開了中關村率先布局大數據產業的帷幕。
按照章程規定,三只基金將面向大數據等領域的早中期創業企業,關注這些行業種子期的技術和商業模式,發現、培育和扶持創造性的思想、創新的技術和創業的團隊。
云天使基金的投資方之一,北極光董事總經理鄧鋒認為,在對互聯網、物聯網等渠道廣泛大量數據資源收集基礎上,數據存儲、價值提煉、智能處理和分發的信息服務業需求越來越多,大數據時代悄然來臨,本土數據可能會造就有世界影響力的中國企業。
就在那一年,大數據在IT領域進行著技術變革,并在不斷沖擊著政治、商業、社會、科技諸多領域。
在當年1月瑞士達沃斯召開的世界經濟論壇上,大數據是主題之一,發布報告《大數據,大影響》宣稱,數據已經成為一種新的經濟資產類別,就像貨幣或黃金一樣。
而在兩個月后,美國政府發布了《大數據研發計劃》。麥肯錫咨詢公司評估認為,大數據關于非結構化數據的把握以及運用,不僅具有商業價值,還將成為國家戰略的一部分。
片段之一:用大數據給電影“算命”
“預估票房3.8億左右。”2012年11月9日,在媒體對于《1942》票房破7億的熱炒聲中,劉晗在微博中潑了一盆冷水。數周后,《1942》最終票房3.64億。
掌握可以改變行業未來、滿足需求的技術,我想做出來。”劉晗希望用大數據挖掘冷卻當前火熱到有些反常、投資近乎盲目的中國電影市場,推它回歸理性。
在旁人看來,他是在做夢;對于劉晗,他在接近自己的夢想。
百余平米,不足十人,劉晗創辦的新影數訊公司,匯聚著大得驚人的數據流—“我們的基礎數據庫里有兩萬部電影,六萬名藝人、四千位導演,以及公眾對他們的評價。”
劉晗說,他的團隊正精益求精地在這些數據中尋覓電影票房的先兆,“我們還有涵蓋微博80%(活躍)用戶約8000萬人的偏好分析。”
“我們就是拿這些數據給電影"算命"。”劉晗調侃說。
“數據顯示,300萬20—22歲的女性喜歡青春偶像劇,150萬30—35歲月收入過萬的白領男性喜歡尋寶題材。”劉晗講解著面前纖小筆記本上有圖有數據的演示。他的思路延伸進決定電影受歡迎度的30—50個參數變量中,這賦予了軟件高于80%的預測準確度。
片段之二:像“哆啦A夢”一樣縮放“大數據”“服務器"撐死"了,什么都調不出來。”一次信息業務研討會上,某公安廳交警處處長抱怨,“高速路每過一輛車就一通兒咔咔拍,每次事故處理和每個車駕檔案都是數據,增長遠比硬件擴容快。”
信息海無形的潮涌往往讓有形的硬件跟不上趟兒,大數據時代是不是就需要“無窮大”的存儲空間?
“這個文件23兆,”黔龍泰達創始人張春成,指著一個掃描文檔演示,“你看,經過獨特算法把文件轉換成新格式,它變成了24K。再把它轉回去看看。”張春成的演示下,文檔又恢復原來大小,打開后圖片質量不變。
用時拿出來放大、閑時揣起來縮小,有張大圓臉的張春成,變魔法般地隨意壓縮釋放著圖像、視頻文件,像極了總能掏出神奇道具的“哆啦A夢”。
和“哆啦A夢”不同,張春成深諳縮放的原理,“這一片都是白色,我可以把這些白色的點統一描述成一個數據,”他順手從桌邊拿起張紙比劃,“這些以前要用幾萬個字節描述的點,我只用幾十個字節就描述清楚了,文件自然縮小。”
“我能把圖像變為原來的百分之一甚至千分之一,這取決于你對還原時質量的要求。”張春成通過“獨特算法”壓“扁”大數據,解決了傳輸、管理和利用的難題。