大數據正在加速落地。中國政府出臺大數據刺激計劃只是時間早晚問題,企業家正在通過各種渠道去影響政府,希望其盡快承擔起大數據開放和利用的牽頭職責。
大數據從民到官,尋找新大陸
兩會期間,與大數據相關的提案呈現出井噴之勢。李彥宏在政協記者會上表示,政府應該把更多和人民生活有關的數據資料,公開的放到網絡上;雷軍則直接建議將大數據納入國家戰略,推動大數據切實地用起來;科大訊飛劉慶峰建議國家建設聲紋數據庫進行大數據反恐。張近東、馬化騰、楊元慶的提案也與數據應用有著緊密聯系。
大數據的重要性正在從科研理論群體轉向政府決策部門,而中間的橋梁是企業。這種自下而上的推動與美國的大數據發展走的是截然不同的道路。最終仍將走到相同的目的地:政府即是大數據產業的規劃指導者,也是實踐者,殊途同歸。
一方面,政府管理國家的過程中不斷收集到海量數據并存檔在案;而另一方面,政府又需要不斷去統計、分析、預測這個國家的一些宏觀情況,輔助決策。公安、媒體、金融、衛生、教育、貿易等行業都在不斷積累數據,政府因為監管的需要又會對這些數據進行匯總。統計局,測繪局、氣象局等部門則是直接在做數據的收集、分析或者利用。
政府掌握的海量數據如果能進行適度地開放,加載互聯網便捷的查詢能力和挖掘能力,將會釋放出巨大的價值。一些原本未曾主動收集的數據,政府如果推動其收集,也將爆發巨大能力。馬航失事便被一些人士認為是落后的數據同步技術,而聲紋數據庫如若建立則可以進行反恐,建立指紋數據庫則可幫助打擊兒童拐賣。
這些數據擁有巨大的社會、科研、民生和經濟價值。
大數據成為新的調查方式,輔助決策
兩會期間,中國政府的官方媒體CCTV在新聞報道中正在越來越多地利用大數據的研究成果,例如百度指數、百度新聞熱搜榜?;诖髷祿姆治鰣蟾娓尤?、客觀和直觀。數據是世界的真實映射。分析報告則反映了世界在空間和時間維度上的特性。大數據真正的優勢是,它的數據收集、統計是自動化的,分析是智能化的挖掘。
新聞和大數據的關聯,基于以下幾個特性——實時性、海量樣本、數據挖掘、真實表達等。因此大數據成為媒體報道熱衷的新手段——快、準、新、真。百度積累的是表征人們需求的搜索數據,反映民意和國情;阿里掌握著交易數據和信用數據,甚至可以預知經濟走向,金融危機前馬云便可基于B2B交易數據的變化,提前預知,這便是阿里的大數據場景;騰訊擅長社交和關系數據。在新聞媒體上都有發揮空間。
在大數據的運用上,新聞媒體充當了先鋒派,但大數據的價值絕不僅僅止于此。
大數據是調查的一種手段。兩會代表問政建議(提案、議案),政府部門決策,都在越來越多地依托百度這樣的大數據服務,從數據挖掘中獲得科學決策的智力支持。
馬化騰的“利用互聯網技術推進食品安全監督”,如果能利用RFID射頻技術等對食品從種植到成長到運輸到銷售整個流程進行數據收集,食品安全監督自然更容易。還可以定期基于大數據分析出不同地域、不同類型、不同品牌的食品安全問題,進行預警提醒。
基于空間和時間兩個緯度統計空氣質量變化,可以輔助環保部門進行空氣治理規劃?;诟咧猩鷮I意向的收集統計,則可以指導教育部門和高校進行更科學合理的招生計劃。
互聯網大數據誰先落地?
搜索引擎天生就在做數據生意。百度擁有兩種類型的大數據:用戶搜索表征的需求數據;爬蟲和阿拉丁獲取的公共web數據。百度是匯聚國情、民意的大數據的最大平臺,包括搜索及點擊行為、貼吧知道百科等UGC內容、基于位置服務(LBS)數據、收集到的海量第三方的網站數據,甚至包括微博)。它擁有一座需求和民意數據的金礦。
阿里更多的是電商和信用相關的數據,在經濟、金融、貿易等相關領域的影響力不容小覷;騰訊的則是社交數據,由于封閉的特性使之數據量不可能貫穿整個(移動)互聯網,但其數據在輿情監測、廣告營銷等方面仍十分具有價值。
整體而言,百度更容易落地大數據。數據優勢主要有,
1.量大、面廣:百度是中國流量排名第一的網站,在移動端擁有超過14個過億的App。它們均會形成數據的積淀;數十萬臺服務器組成的爬蟲集群每天不遺余力地到處去收集優質數據。阿拉丁計劃則是鼓勵站長主動將數據接入百度,移動端則是百度云,App通過百度云的LBS等服務為其貢獻數據。海量的數據支撐著樣本的有效性。
2.及時甚至超前:實時反饋,數據收集、回傳、分析在物聯網、4G技術和云計算的支持下,將會更加容易。相比之下,傳統調研有時滯。而基于海量大數據的運算結果甚至可以可以預測未來,例如Google流感,百度遷徙,Twitter股市。
3.調研對象跟蹤:一般調查只是一次或者幾次,很難對一個樣本進行持續跟蹤。而百度大數據則可以對一個對象進行持續跟蹤,進行不同時期緯度的分析。前提是不影響該對象的生活和隱私情況。
4、強大的數據技術:百度是中國最具技術基因的互聯網巨頭。百度在建立索引過程中需要去解析網頁,去理解超鏈接,去分析原網頁文本內容,在處理搜索時需嘗試理解用戶五花八門的輸入請求。這些事情實際上鍛煉了百度對非結構化的互聯網數據的分析處理能力。而百度在硬件設施,例如集群機房等方面的布局也不含糊。
騰訊的大數據應用主要是用來改進產品,廣點通算小試牛刀;阿里則是要做數據的分享交易集市,在搭建數據的流通、收集和分享的底層架構。十分遠大的理想,還需假以時日。百度是研究與實踐結合,除了百度指數、百度沸點、百度統計、百度遷徙等成功案例之外,李彥宏去年向政治局常委講解大數據,對百度的大數據能力也是一種肯定。
互聯網是冰山一角,大數據更多在BAT之外
央視數據新聞的應用取得成功,值得肯定。但大數據的價值遠不止此,它可以支持媒體收集民意,反饋真實世界,它可以幫助BAT開拓新的業務和嘗試新的研究。但數據更大的想象空間則是其與政府數據結合,與行業數據結合。大數據在BAT之外。
移動互聯網,設備數量爆發式增長。而4G來臨,移動互聯網的網絡瓶頸被突破之后,包括物聯網、可穿戴設備、車聯網、智能醫療、智能家居等在內的智能硬件產業行將爆發,這些設備將源源不斷地產生、收集、回傳數據到云端。目前爆發的大數據只能算“核彈”級別,真正的大數據爆發會是“氫彈”級別的規模。
在經濟方面,移動支付確保了及時、細粒度和全面的交易數據收集,進而可以對經濟進行更加準確、有說服力、有時效性的監測。這會影響什么呢?CPI、GDP統計可以細化到分鐘,可以進行預警管控。各個行業的交易額、市場份額數據也可自動化統計,而不再是調研公司抽樣完成,后者說服力不夠。
在教育方面,互聯網教育收集更豐富的教育數據。可以進行師資力量的調配,可以針對學習情況對課程進行改進優化,可以基于學生學習的跟蹤進行教育研究。
在金融方面,有股市股價預測、存款波動監控、基于保險理賠的大數據分析推出新產品;在工業方面,可以根據市場消費、口碑的大數據了解不同地域、不同性別、不同人群的消費行為特征進行精準營銷甚至反向定制。在通信方面,可以根據人群流動情況、話務情況的歷史規律動態自動調配基站載波進行節能管理。
地方政府如果能積極開放數據,例如一些信息查詢連接到App,則可以提高辦事效率和群眾滿意度;如果能積極利用數據,基于交通大數據進行城市規劃、道路規劃、紅綠燈規劃緩解擁堵,基于流感趨勢預測進行疾病預警控制,基于用戶搜索情況了解本地民意、關注點、輿情等,這比一些官員微服私訪收集民意效率更高。
在新聞報道上的大數據應用,是互聯網表達民意的一大社會進步,這還遠遠不夠,從“春節”到“兩會”,大數據是“先鋒派”的新聞界在用,一些大數據先行者例如百度發揮得還不算多,用它的也不多,大都是淺嘗輒止。各個行業都應該多利用大數據幫助科學決策。
大數據在經濟、社會、民生等領域都大有可為。它不再是云里霧里,不再是紙上談兵,不再是巨頭的游戲,而是落到實處,不斷圈入新玩家,探索新模式,創造新價值。雖然大數據在各行各業都存在且具備應用價值,但技術+數據驅動的互聯網行業才是排頭兵。