一不留神之間,我們已經匯入浩瀚的大數據洪流之中
大數據時代來了,大家的起點差不多,中國的機會也來了
推特上的情緒變化曲線,與道瓊斯股票的指數變化曲線高度相關
作為一種現象
大數據的洪流都容納了什么?
還記得當年谷歌和百度以“大數據”為關鍵詞的搜索曲線嗎?那兩幅圖熱烈地反映了大數據受關注的程度。谷歌從2011年到2012年,百度從2012年到2013年,都有一個明顯甚至是陡然的上升。而在中文搜索曲線陡然上升的同時,統計工作中有關大數據的應用研究也已經同步開始了。
“大數據”作為一個詞語,或許是一個發現,而不是一個發明。但是,“大數據”作為一種現象,或是許多發明的結果、聚集和延續,是科學技術、生產力水平發展到一定程度后的必然。銀行系統有海量的儲戶個人信息及存儲信息,商場、超市有龐雜的商品信息及價格信息,機場記錄著許多乘客的出行情況,醫院記錄著許多病人的檢查和治療情況;門戶網站每一條新聞下面的留言,匯集成對許多現象和問題的民意;實名注冊微博中的喜怒哀樂,則都是情感和態度的表達;百度、谷歌引擎的每一次使用,都可以說明IP那端鍵盤操作者到底想要什么;透過大氣層中彌漫著的無數手機短信,足以掌握無數手機使用者“打死也不說”的秘密。從我們不變的屬性到可變的態度,很多都已經在一不留神之間,匯入了浩瀚的大數據洪流之中。
以往歷次技術革命,中國跟在別人后面亦步亦趨。大數據時代來了,大家的起點都差不多,中國能不能在大數據應用方面與發達國家并駕齊驅,乃至做出一些貢獻呢?
著名的《大數據》一書的作者涂子沛先生曾是中國基層政府的一名工作人員,后來去了美國,在最恰當的時候寫出了這樣一本書籍。我們請他做過一場報告,而半年之后,再請他作報告就非常困難了。據《中國青年報》報道,涂子沛去年6月時進行第四次國內巡講之旅,連早餐時間都被占滿了。從《大數據》一書出版后,每當這位在美國供職的中國程序員回到國內,都會受到熱烈的追捧。6月16日,他在招商銀行深圳總部大樓與剛卸任的原行長馬蔚華共進早餐。和馬蔚華共進早餐的第二天,他在江蘇常州就“教育與大數據”的話題進行了一場聽眾超過1000人的講座。其間,他與某公司董事長吃了一頓午飯。這時,要請他講課,只能找他的秘書安排了。這個變化,恰恰是大數據現象快速發展變化的一個縮影。
演進和發展
不說不做也難,因為已經唯此為大
一年多以前,在我們剛剛開始研究大數據及其對統計數據和統計工作帶來的影響時,一位年輕同仁在我的博客上留下一段英文:“Big data is like teenage sex: everyone talks about it, nobody really knows how to do it, everyone thinks everyone else is doing it, so everyone claims they are doing it。”我不敢妄加直譯,放到在線翻譯系統上走了一下,結果顯示:“大數據就像青少年性行為:每個人都在談論它,沒有人真的知道如何去做,每個人都認為別人在做,所以每個人都聲稱他們正在做。”于是,我回復說:“很經典。但是不說不做也難,因為已經唯此為大了。”
歸納起來,對大數據現象和概念追根溯源,大致可以分為三個階段。
一是20世紀80年代至90年代中期,這是大數據認知的萌芽階段。1980年,美國著名未來學家阿爾文·托夫勒在《第三次浪潮》一書中將大數據盛贊為“第三次浪潮的華彩樂章”。1996年,美通社在介紹高性能平行節點技術時也提到中央處理器集群以及大數據應用。這時提到的大數據,僅是字面意義,僅指數據量大,并不涉及類型、存儲方式、處理技術等。
二,20世紀90年代中期到21世紀前10年,是大數據廣受各界關注的階段。數量經濟學家迪博爾德2000年在《大數據,宏觀經濟度量與預測動態因素模型》一文中,討論了如何使用大數據進行經濟度量和預測。美國高德納公司的分析師道格拉斯·蘭尼2001年首次從大數據特征的角度對其進行了相對明確的定義,他強調大數據必須具備3V特征,即容量大、多樣化和速度快。
三是2010年至今,是大數據戰略應用被提上日程并迅速發展的階段。2010年,美國總統科學技術顧問委員會在呈給奧巴馬總統和國會的報告《規劃數字化的未來》,將大數據列為現有科技領域面臨的挑戰之首,并要求聯邦政府的每一個機構和部門都制定一個應對大數據的戰略。這是全球首次在政府層面將大數據作為國家戰略的里程碑事件。
2011年,麥肯錫公司發布了《大數據:創新、競爭和生產力的下一個前沿》,詳列了大數據的核心技術,分析了大數據在不同行業的應用,提出了政府和企業決策者應對大數據發展的策略。
2012年1月,在瑞士達沃斯世界經濟論壇上,大數據處理技術被視為“2012 年最應該關注的科學技術”,被譽為“改變世界的第一位科學技術”。論壇發布的《大數據 大影響》報告中有一段著名的論述,即“大數據已經成為一種新的經濟資產類別,就像貨幣或黃金一樣”。
2012年3月29日,美國奧巴馬政府頒布了《大數據的研究和發展計劃》,擬通過提高從大型復雜的數據集中提取知識和觀點的能力,進而加快美國科技進步的步伐,加強國家安全,并改進教學與研究。該戰略涉及美國聯邦政府的六個部門。
2012年5月,聯合國秘書長執行辦公室發布了《大數據促發展:挑戰與機遇》的報告,分析了各國特別是發展中國家在運用大數據促進社會發展方面所面臨的歷史機遇和挑戰,系統給出了在應用過程中正確運用大數據的策略建議。
2012年6月,經合組織OECD召開統計委員會第9屆會議,發布《使用大數據作決策》研究報告,闡述了大數據現象對決策的潛在重要性和支撐作用,并特別分析了大數據對官方統計帶來的各種挑戰。
2012年,中國計算機協會決定成立“大數據專家委員會”,推動大數據的發展。同年6月,阿里巴巴集團宣布,將在集團層面設立首席數據官,負責全面推進“數據分享平臺”戰略。同年7月,“第二屆大數據世界論壇”在北京召開。同月,首屆中國大數據應用論壇在北京大學召開。
2013年7月,“大數據時代統計學:機遇與挑戰—中國統計學高端論壇”在上海財經大學舉辦。全國統計學專家學者齊聚一堂,共同探討在大數據時代統計學面臨的機遇與挑戰。同年,第十七次全國統計科學討論會在杭州舉行,會議的主題是“大數據背景下的統計”。這是國內第一次研究大數據與統計工作的科學研討會。11月19日,國家統計局與阿里、百度等11家企業簽署了大數據戰略合作框架協議,共同在分享、開發、利用大數據方面進行合作,以推動促進大數據實現大價值,使之更好地服務于社會。這標志著在統計工作中應用大數據,已經從研究轉向實操層面。
兩朵細小浪花
從“喝醉的海盜”到斯諾登的“泄密”
舍恩伯格先生告訴我們這樣一個故事:史黛西·施奈德最大的夢想是成為一名教師。2006年春天,她完成了自己的學業,并對未來充滿期待。但她心儀的學校明確拒絕她,理由是她的行為與一名教師不相稱,因為她的個人網頁上有一張取名“喝醉的海盜”的照片。
照片里的她頭戴一頂海盜帽子,舉著塑料杯輕輕啜飲著。她曾將這張照片放在 MySpace并且取名為“喝醉的海盜”。這張照片她是給朋友看的,也許只是為了搞怪而已。但她實習的大學里,一位教師發現了這張照片,并上報給校方,校方認為網上的這張照片是不符合教師這個職業的,因為學生可能會因看到教師喝酒的照片而受到不良影響。于是,史黛西打算將這張照片從她的個人網頁上刪除。但是危害已經發生了:她的個人網頁已被搜索引擎編錄,而且,她的照片已經被網絡爬蟲程序存檔了。
斯諾登披露的棱鏡門事件更加清晰地揭示,當我們個人的行動乃至心動都融入浩瀚的大數據洪流,成為其中的一朵細小浪花后,一切已皆在掌握之中。
當人們揣著手機從一個地區到達另一個地區,馬上會接到來自運營商的歡迎短信。而每一部手機都是名副其實的跟蹤器和定位儀,可以精確鎖定到某一座建筑物內。如果調查者和運營商聯手,不用填寫問卷,就可以既精準又及時地掌握所需要的信息。
當人們通過博客、微博、微信、飛信表達自己情感上的喜怒哀樂的時候,通過網上留言、跟帖表達自己對不同事物的態度和意愿的時候,通過關鍵詞的輸入搜索自己需要和感興趣的結果時,不僅留下了不可磨滅的痕跡,也為后臺的匯總與分析提供了最具基礎性的依據。當人們坐在電腦前輕點鼠標、輕松完成一次又一次購物的時候,不僅切實感受到網購商品的物美價廉,還能享受到送貨上門的方便和快捷。但與此同時,每一個網購者也不得不把自己的銀行賬號及其他相關信息,交給一雙或幾雙看不見的手去掌握、控制和操作……
盡管如此,人類社會畢竟還是要向前發展的,我們不可能再退回到沒有網絡、沒有手機的年代。其實,即使倒退半個世紀,隱私安全問題也依然存在。因為我們畢竟要到銀行存款,到醫院看病,通過郵局寄信,通過單位電話或公用電話溝通。只是大數據時代的到來,使這個問題變得更加復雜和突出罷了。
在大數據時代保護個人隱私,既要靠技術,也要靠法律。技術層面,一是要防止不法分子侵入個人系統,盜取個人信息;二是要限制個人信息掌握者的權限,使每個層級的相關人員只能掌握有限的信息。更重要的是法律層面。生成、處理、分享和利用大數據,可以創造大量有價值的信息,服務于廣大民眾,服務于經濟與社會發展。而從法律著眼,則既要為依法合理地搜集處理大數據信息提供保障,也要確保信息處理過程中個人隱私不被泄露、不被用于服務和統計以外的目的。因此,法律需要針對兩方面情況作出相應的規定。
一種比較普遍的情況是,對很多自動生成的大數據信息進行搜集處理,可以生成很多有價值的統計信息。如通過對網上交易情況的處理,可以得出很多價格和交易方面的信息;對大量臨床電子病歷的處理,可以進行流行病學分析,并進行醫學研究;對工資收入信息的匯總分析,可以為收入分配制度的調整提供有價值的依據……法律既要保障這些合法的開發利用,也要明確指出在此過程中個人和企業信息既不得向國家統計部門以外的任何第三方提供,也不得用來對個人和企業進行處罰,更不得對社會發布。法律要細化處罰條款,一旦發生上述情況,不僅必須承擔法律責任,而且要付出一生付不起的代價。另一種比較特殊的情況則是,為了國家安全或查處犯罪行為,需要采取一些特殊手段,但這也必須在法律的框架內進行。在證據和理由充分的情況下,僅針對特定的目標,并經過必要的法律程序,等等。總之,盡快立法以適應大數據時代保護公民隱私的需要,不是未雨綢繆,而是迫在眉睫了。
應用與實踐
電影搜索曲線與電影票房曲線高度相似
美國麻省理工學院承擔的“十億價格項目”,基于學術研究方法對全世界海量網上零售價格進行價格指數計算。每天實時收取50萬條互聯網上的商品信息,是美國政府統計收集的5倍。由于價格信息不是用訪問數千座實體商店的傳統方法獲得,因此成本很低。“每日網上價格指數”每天更新,研究人員和政策制定者在官方統計數據發布之前就能夠判斷價格漲幅形勢。該指數并非用于預測官方公布的通脹率,而是為判斷通脹趨勢提供實時信息。2008年9月美國雷曼倒閉時,“每日網上價格指數”很快顯示出價格下降的趨勢,而官方統計的CPI直到11月才顯示出下降趨勢。
聯合國全球脈沖計劃與Crimson Hexagon分析公司合作,分析了美國和印度尼西亞1400萬Twitter用戶中與食物、燃料和住房相關的數據,以更好地理解人們關注點。分析者以“負擔”等為關鍵詞,根據人們交談主題和關鍵詞數量的變動研究人們的行為特點。結果發現,印尼Twitter用戶提到大米價格的數量變化與實際食品價格通脹指數(官方公布的數據)密切相關。
類似的例子還有很多。如2012年,谷歌的電影搜索曲線與電影票房曲線高度相似;巴西發生登革熱時,谷歌關于該病的搜索曲線與該病實際發生的曲線也高度一致;社交平臺推特上人們交流時的情緒變化曲線,與道瓊斯股票的指數變化曲線高度相關,不知是情緒影響了股市,還是股市影響了情緒,或兩者互為影響。
國內最典型的例子,就是馬云的阿里巴巴集團推出的淘寶網絡零售價格指數(簡稱淘寶ISPI)。在阿里巴巴公司的淘寶網上,許許多多的店主開了許許多多的網店,經營著各種各樣的商品。于是,一個綜合性的淘寶價格指數應運而生。采用淘寶商品小類目平均價格,權重是淘寶網支付寶成交金額的比例。結果顯示,淘寶價格指數曲線與統計部門的商品零售價格指數曲線高度相似,但因為是實時的,所以淘寶曲線趨勢的出現要早于統計部門的價格指數曲線。
隨著大數據時代的到來,政府統計部門不再是唯一的海量數據的擁有者,互聯網上每時每刻都生成著大量的交易和價格信息。你看還是不看,數據就在那里,用還是不用,數據總是越來越多。大數據是一場大變革。應對大數據帶來的挑戰,統計工作必須變革和創新。
春江水暖鴨先知,得大數據者得天下。在大數據與日俱增的情況下,必然有越來越多的大數據轉化成統計數據,并在此過程中實現更大的社會價值。供圖/桑青