時間是1948年,地點是中國東北。遼沈戰(zhàn)役進入關鍵階段。對于第四野戰(zhàn)軍司令員林彪來說,拿下錦州后的最重要目標就是打敗前來增援的國民黨新六軍。林彪使用的方法就是每天聽取“軍情匯報”,由值班參謀員讀出下屬各個部隊的當日戰(zhàn)況和繳獲情況。
那幾乎是千篇一律的數(shù)據(jù),異常枯燥。直到有一天,林彪突然發(fā)現(xiàn),在胡家窩棚的一場兩軍遭遇戰(zhàn)中,繳獲短槍與長槍的比例比其他戰(zhàn)斗略高,擊毀小車與大車的比例比其他戰(zhàn)斗略高,俘虜和擊斃的軍官與士兵的比例比其他戰(zhàn)斗略高。
林彪由此斷定,國民黨軍隊的指揮所就在這附近,他下令立即對從這里逃走的敗軍進行追擊。果然,部隊很快就在附近抓住了國民黨方面的指揮官廖耀湘,此成果揭開了中共軍隊遼沈戰(zhàn)役勝利的序幕。
林彪當年的做法符合近年風行全球并深入改變世界的大數(shù)據(jù)的簡單定義——從在別人看來枯燥乏味的數(shù)據(jù)中,發(fā)現(xiàn)有價值的信息,并將其轉化為機會。
人類社會全面數(shù)字化引發(fā)了數(shù)據(jù)量爆炸式增長。人、資金、商品的流動都以數(shù)據(jù)化方式呈現(xiàn)。當前,每天在全球各行各業(yè)產(chǎn)生的數(shù)據(jù)已經(jīng)足以填滿超過2億張DVD光盤——在這些看似雜亂無章的數(shù)據(jù)中,蘊藏著無限的金礦。
近年,伴隨著存儲能力、計算能力和傳輸能力的進步,人們開采這些金礦成為可能。數(shù)據(jù)不僅成為推動行業(yè)融合兼并、企業(yè)做大做強的戰(zhàn)略性資產(chǎn),更是體現(xiàn)一個國家綜合國力的重要組成部分,成為陸、海、空權益之外的另一種國家核心資產(chǎn)。
當前,大數(shù)據(jù)時代無可爭議地來臨了。它源自全球數(shù)十年的技術積累,但僅用了最近兩三年時間,便迅速滲透到各個行業(yè)。中國并不例外,百度、阿里巴巴、新浪微博、騰訊微信等最核心的資產(chǎn)便是大數(shù)據(jù);眾多行業(yè)、企業(yè)開始使用并利用大數(shù)據(jù)作出變革;中國6億多網(wǎng)民的上網(wǎng)記錄等正成為大數(shù)據(jù)的核心內(nèi)容。
在財新記者采訪的諸多業(yè)內(nèi)人士看來,大數(shù)據(jù)來臨的勢頭甚至比十幾年前互聯(lián)網(wǎng)泡沫時期還要迅猛。大數(shù)據(jù)更加實際、更容易落地、盈利模式更清晰。由大數(shù)據(jù)推動的行業(yè)變革,將會對整個世界格局產(chǎn)生顛覆性的影響。
而對于普通公眾來說,雖處于大數(shù)據(jù)時代,但對大數(shù)據(jù)仍是陌生的。大數(shù)據(jù)在中國正在做些什么?一家企業(yè)或一個個人可以得到何種便利,又或可能遇到何種“壞處”?了解大數(shù)據(jù),是解惑的開始。
“國家核心資產(chǎn)”
2012年3月22日,奧巴馬政府宣布投資2億美元拉動大數(shù)據(jù)相關產(chǎn)業(yè)發(fā)展,將“大數(shù)據(jù)戰(zhàn)略”上升為國家戰(zhàn)略。奧巴馬政府將大數(shù)據(jù)定義為“未來的新石油”,并表示一個國家擁有數(shù)據(jù)的規(guī)模、活性及解釋運用的能力將成為綜合國力的重要組成部分,對數(shù)據(jù)的占有和控制將成為陸權、海權、空權之外的另一種國家核心資產(chǎn)。
美國的這一舉動,是繼1993年克林頓政府的“信息高速公路”計劃后的又一次“狂飆突進”。在以中國為代表的新興國家日益對美國的經(jīng)濟、政治影響力構成挑戰(zhàn)的時候,通過大數(shù)據(jù)研究提高美國對數(shù)據(jù)資產(chǎn)的掌控能力,有助于美國搶占新的國際戰(zhàn)略制高點。
但是什么是大數(shù)據(jù),迄今為止,在產(chǎn)業(yè)界、學術界并沒有形成一個公認的科學定義。上海軟件產(chǎn)業(yè)促進中心主任唐全榮接受財新記者采訪時說,他曾經(jīng)和倫敦帝國理工大學一位華裔教授討論,什么是大數(shù)據(jù)?而這位教授認為,能夠處理的數(shù)據(jù)都不能稱為大數(shù)據(jù)。
首先提出大數(shù)據(jù)概念的國際咨詢公司麥肯錫,認為大數(shù)據(jù)就是大小超出常規(guī)數(shù)據(jù)庫工具處理能力的數(shù)據(jù)。國際數(shù)據(jù)公司IDC則用“大體量(volume)”“多樣性(variety)”“快速處理(velocity)”和“高價值(value)”來定義大數(shù)據(jù)。
正是由于大數(shù)據(jù)的這些特性,使得傳統(tǒng)的數(shù)據(jù)分析、數(shù)據(jù)挖掘、數(shù)據(jù)處理手段都不再適用。社會需要為動態(tài)、高維、復雜的大數(shù)據(jù)建立形式化、結構化的描述方法,進而在此基礎上發(fā)展大數(shù)據(jù)處理技術。
唐全榮說,跟云計算開始的時候一樣,許多人在爭論定義,而在IT基礎設施從帶寬到存儲能力的發(fā)展讓云計算真正走向應用的時候,就沒有人再關心它的定義了。而大數(shù)據(jù)概念也是一樣,它也是伴隨著數(shù)據(jù)的處理、存儲和分享能力的提升而出現(xiàn)的,從這個角度上看,大數(shù)據(jù)不僅是指需要處理的數(shù)據(jù)對象,也包括了處理的技術。
如果說云計算為數(shù)據(jù)資產(chǎn)提供了保管、訪問的場所和渠道,那么數(shù)據(jù)才是真正有價值的資產(chǎn)。隨著人類活動和資源環(huán)境信息的數(shù)字化,更伴隨著存儲和處理能力的提升,讓我們能夠從包括文檔、圖片、視頻乃至大量來自物聯(lián)網(wǎng)的傳感數(shù)據(jù)中獲取有價值的信息。
雖然處理難度大,但是可能獲取的價值更高。在美國,利用大數(shù)據(jù)可以幫助零售商增加60%的利潤,幫助制造業(yè)減少50%的裝配成本,基于大數(shù)據(jù)的智慧醫(yī)療,產(chǎn)值高達3000億美元。
中關村大數(shù)據(jù)產(chǎn)業(yè)聯(lián)盟副秘書長顏陽對財新記者說,現(xiàn)在的趨勢就是數(shù)據(jù)要成資產(chǎn)。而這從Facebook上市獲得的估值就可以看出來,它并沒有多少實物資產(chǎn),它上市后擁有的1000多億美元的市值,都來自無形資產(chǎn),最重要的無形資產(chǎn)就是它的數(shù)據(jù)。
從中國的BAT(百度、阿里巴巴、騰訊)三大網(wǎng)絡巨頭來說,他們各自擁有不同的大數(shù)據(jù),都是無價的資產(chǎn)。百度擁有用戶搜索數(shù)據(jù)和公共網(wǎng)頁數(shù)據(jù)。實際上百度、谷歌本身就是一個大數(shù)據(jù)公司,它們通過對全球網(wǎng)頁數(shù)據(jù)的抓取和解析,幫助用戶從海量數(shù)據(jù)中找出搜索結果,實質(zhì)就是對數(shù)據(jù)的獲取、組織、分析和挖掘的過程。
阿里巴巴擁有交易數(shù)據(jù)和信用數(shù)據(jù)。這兩種數(shù)據(jù)更容易變現(xiàn),挖掘出商業(yè)價值。騰訊擁有用戶關系數(shù)據(jù)和基于此產(chǎn)生的社交數(shù)據(jù)。這些數(shù)據(jù)可以分析人們的生活和行為,從里面挖掘出政治、社會、文化、商業(yè)、健康等領域的信息,甚至預測未來。
業(yè)內(nèi)人士透露,也正是看到了用戶數(shù)據(jù)的巨大價值,微博網(wǎng)站現(xiàn)在已經(jīng)拒絕網(wǎng)絡爬蟲訪問微博內(nèi)容,這就讓搜索引擎很難搜索到微博的內(nèi)容,而微博自己則把這些數(shù)據(jù)打包出售。
專門從事大數(shù)據(jù)分析的文思海輝技術有限公司首席技術官芮祥麟說,不久后,數(shù)據(jù)也將像技術、設備、人力資源那樣,成為企業(yè)重要的資產(chǎn)。與其他資產(chǎn)不同的是,大數(shù)據(jù)資產(chǎn)越是開放,越是共享,越對整個產(chǎn)業(yè)和社會民生有利。
他認為,大數(shù)據(jù)的本質(zhì),將是把數(shù)據(jù)從應用中解放出來,獨立形成價值鏈。今后將是數(shù)據(jù)定義應用,定義軟件、定義網(wǎng)絡、定義數(shù)據(jù)中心、定義一切。
據(jù)IDC預測,到2020年全球?qū)⒖偣矒碛?5ZB(1ZB=1萬億GB)的數(shù)據(jù)量。麥肯錫預測,未來大數(shù)據(jù)產(chǎn)品在個人位置服務市場的應用就將產(chǎn)生8000億美元的價值,未來中國大數(shù)據(jù)產(chǎn)品的潛在市場規(guī)模有望達到1.57萬億元人民幣,不僅將給IT行業(yè)開拓一個新的黃金時代,更將顛覆各行各業(yè)的競爭格局。
掘金大數(shù)據(jù)
“我們就是挖礦的。”在6月21日大連舉行的大數(shù)據(jù)技術領袖峰會上,金電聯(lián)行執(zhí)行副總裁艾小繽對財新記者說,他們就是通過挖掘小微企業(yè)的財務數(shù)據(jù),分析企業(yè)的信用等級,進而幫助他們拿到貸款。
對于廣大中小企業(yè)來說,在中國缺乏信用體系的情況下,只能通過聯(lián)保互保拿到貸款,而這實質(zhì)上還是抵押質(zhì)押。而這對銀行來說,抵押品也并不安全。在經(jīng)濟下行的時候,一切擔保的手段都會失效。
“在國外,有一個完整的體系去抑制失信情況的發(fā)生,但是我們沒有。”艾小繽說。所以他們就想到了另外一個方法,就是讓企業(yè)證明創(chuàng)造價值的能力,而這可以作為銀行放款的必要條件。
這就用到了大數(shù)據(jù)。他們可以使用大數(shù)據(jù)技術描繪企業(yè)的賺錢能力。這些數(shù)據(jù)的來源,包括企業(yè)的采購情況、訂單情況、庫存情況,有多少應收賬款、有多少現(xiàn)金、發(fā)了多少工資、交了多少稅,甚至能耗的情況。
“我們不相信財務報表,而是看企業(yè)生產(chǎn)經(jīng)營的真實數(shù)據(jù),不看合計數(shù),而是看明細數(shù),因為合計數(shù)往往掩蓋了真實的規(guī)律。”艾小繽說。例如在報表中,企業(yè)可以通過一筆過橋貸款而實現(xiàn)當季的贏利,但是在原始數(shù)據(jù)中,這筆突然而來的現(xiàn)金就會被發(fā)現(xiàn)。
從至少兩年的原始數(shù)據(jù)中,可以還原這個企業(yè)創(chuàng)造財富的過程,判斷企業(yè)是否有足夠的賺錢能力。2010年,民生銀行根據(jù)他們的信用報告,為一家企業(yè)發(fā)放了第一筆純信用貸款。到現(xiàn)在他們已經(jīng)幫助800多家企業(yè)拿到了40多億元的貸款,最大一筆單筆貸款為6800萬元。
艾小繽自豪地說,在這800多家企業(yè)中,還沒有出現(xiàn)一筆不良貸款。而且他們的大數(shù)據(jù)技術還可以幫助銀行對這些企業(yè)進行貸后監(jiān)管,相當于給企業(yè)穿上了可穿戴設備,隨時監(jiān)控企業(yè)的健康狀態(tài),企業(yè)的增長性、穩(wěn)定性、活躍度,都可以從大數(shù)據(jù)反映出來。
利用大數(shù)據(jù)為企業(yè)做體檢,是大數(shù)據(jù)應用中比較另類的一個。而為個人做體檢,讓2011年從美國硅谷回來的糜萬軍,帶回來了第一桶金。
2000年在美國第一次創(chuàng)業(yè)時,在斯坦福剛剛完成計算機和金融學業(yè)的糜萬軍拿到了軍方的一個實時翻譯系統(tǒng)的研究項目,在完成這一項目之后,他開的第二家公司就是希望利用個人的醫(yī)療信息預測其醫(yī)療費用,給保險公司做參考。
“這在技術上實際比第一個項目簡單多了。”他說。利用數(shù)據(jù)挖掘技術,他們把斯坦福全校員工的體檢記錄和就診記錄綜合分析,然后對所有人每年的醫(yī)療費用進行預測,這樣可以讓保險公司知道在誰身上掙錢,在誰身上賠錢。
但是這個項目做到后來,大的企業(yè)代替保險公司成了他們最主要的客戶。因為在美國很多大企業(yè)是自己承擔員工的醫(yī)療費用,他們在幫助企業(yè)預測了每個員工可能的醫(yī)療支出后,再幫助企業(yè)制定員工的個性化健身計劃,提前幫助員工改善健康狀況,反而省下了醫(yī)療的開支。
這樣既幫企業(yè)省了錢,員工的工作效率也提高了,員工的幸福感也提高了。所以這項業(yè)務受到了美國許多大企業(yè)的歡迎,現(xiàn)在從斯坦福大學到思科、蘋果等大公司,都是他們的客戶。“這個項目既有經(jīng)濟效益,又有社會價值。”糜萬軍說。
2013年8月,糜萬軍從北京來到上海,成立了經(jīng)爾緯數(shù)據(jù)技術有限公司,專注于做大數(shù)據(jù)平臺的垂直應用,包括廣告營銷,計算社會學和金融應用。在金融方面,他們本來想利用分析各種公開數(shù)據(jù)得到一些投資建議,為對沖基金服務。但是后來他們發(fā)現(xiàn)這種分析方法的效果非常好,于是他們不想賣了,自己成立了一家對沖基金。
“這是一個萬億級別的機會。”他對財新記者說,現(xiàn)在的這波大數(shù)據(jù)的熱潮,勢頭一點也不亞于本世紀初互聯(lián)網(wǎng)泡沫時期,而且勢頭更猛,落地更快,盈利模式更加清晰。在他看來,數(shù)據(jù)挖掘可以和各個行業(yè)結合創(chuàng)造價值。他現(xiàn)在也是寬帶資本的投資合伙人,主要負責大數(shù)據(jù)實驗室,專門投資利用大數(shù)據(jù)開發(fā)行業(yè)應用的公司。