這一新工具提供了認識和解決問題的新機遇和手段,但它不是能治百病的萬能藥,也不能取代傳統統計學和數據分析
張小彥|文
何謂大數據?
大數據是指互聯網時代數碼化的數據超高速增長的現象。數據大只是量的概念,而“數碼化”是質的變化。數碼化數據可以用電腦高速處理。數碼相機取代了膠卷相機就是因為它可以實時地用電腦芯片處理數據而生成照片和映像。這種變革是劃時代的,它改變了一個產業。
數碼化的數據除了量大(Volume)以外,它積累的速度(Velocity)更是驚人。積累的方式已不是過去的批量式而是源源不斷的數據流。數據的產生也是多源化(Variety)的。采集手段包括手機、傳感器、電腦、掃描器、監測儀等。數據形態包括數字、文字、聲音、照片、影視等。這種從現實生活中產生的實時數據具有很大的噪音(Voracity)。既有傳統的有結構數據,更有大量半結構和無結構數據。
大數據為何重要?
不管你承認與否,大數據已成為現代生活的現實,而且在改變著我們的思維和行為方式。當你在互聯網上購買一本書時,你會同時收到網站給你推薦的另幾本書。這就是供應商在背后應用大數據的方法對其他成千上萬購買同一本書的群體進行比較分析后的結果。被推薦的書正是該群體最常買的相關書籍。
大數據的處理技術使我們能做過去認為做不到的事情。中國人的治學境界是要“破萬卷書,行萬里路”。今天用電腦“看”數碼化的書,破萬卷書是輕而一舉的事。
大數據實時處理多媒體、多渠道提供的數碼化數據的能力正在改變我們的生活。正在興起的遠程醫療就是一例。在病人家中安裝監測儀定時采集醫療數據,病人用智能手機自我檢查的結果等數據可以實時地傳送給醫院。醫護人員可根據實時電子病歷進行診斷、治療和護理。這些不斷積累的電子病歷又經過數據挖掘而產生新的信息和智能,促進醫護服務質量的改進和提高。
大數據對傳統統計學提出了挑戰的同時也創造了機遇。以概率為基礎的抽樣統計的理念是以盡可能 小的隨機樣本來推測總體的狀態和行為。我們必須先設計調查問卷,再進行數據采集、清理、分析以形成報告。這個過程很長,數據采集費用高, 而能回答的問題又受問卷的限制。這就產生了抽樣統計的不治之癥:慢、少、貴。即使行政統計,也都是用預制表格采集有結構數據。大數據的理念是對現代生活中通過多種渠道和手段源源不斷得到的半結構、無結構的數碼化的數據進行處理、挖掘和分析而產生信息。它是實時或接近實時的數據處理,尋找的是相關性而不是因果性,回答的問題不受問卷和表格的限制。
如果說抽樣統計和行政統計是統計1.0,我們可以把包括大數據的統計研究叫做統計2.0。統計1.0的數據是有結構的樣本和行政數據。而統計2.0的數據還要加上無結構或半結構的、從現實生活中通過多種渠道獲得的數碼化數據。從這個意義上講,大數據為解決傳統統計“慢、少、貴”的頑癥提供了新的可能性。
大數據與現代信息技術
近年來信息技術的快速發展促進了大數據時代的到來。
首先,海量數據的高速處理必須解決傳統數據處理的瓶頸問題:數據庫需要一個一個排起隊來處理。搜索一個數據庫可以瞬時完成,但搜索50個,上百個數據庫,即使再快的電腦也需很長時間。網上搜索引擎巨頭公司如雅虎(Yahoo)和谷歌(Google)即率先研發應用以Hadoop為代表的數據分散組合處理技術。這種技術的核心理念是把搜索50個數據庫的任務分散到50臺電腦服務器上同時進行,然后把所有搜索結果組合后反饋給用戶,大大加快了數據處理速度。
第二,由于大數據處理(如Hadoop)技術需要大量的硬件投資和專業人員的維護,大部分公司和政府部門都無力承擔其費用。云計算使得資源共享成為可能,因而大大降低了大數據技術應用的成本,推動了大數據發展的進程。
第三,大數據處理過程中需要組合多源數據。而我們知道數據庫有多種(如:Oracle, SQL, 等),它們之間在數據結構、定義等各方面是不匹配的。近年來以XML語言為基礎的數據整合技術(Data Mashup)的發展和成熟使實時的網上現場多源數據整合成為可能,為大數據時代的到來掃除了一個障礙。
第四,海量數據處理和分析的結果常常是分散和雜亂的。如何使數據分析結果變成簡明易懂的信息是大數據產生價值的關鍵。近年來方興未艾的數據可視化技術(Data Visualization)上的創新和發展使以數據為基礎的,實時的智能決策支持成為可能,為大數據時代開了綠燈。
谷歌、亞馬遜、沃爾瑪、等大公司在應用大數據獲得商業利益上取得了成功。這些公司的共同點是自己擁有數據而且起步早。由于前一段大數據熱,為大數據處理研發工具的一批新公司也獲得了一定的成功。以提供大數據分析服務為目標的公司出現了一大批,但成功的很少。美國各級政府自奧巴馬就任以來在開放數據方面取得很大進展,但大多是行政數據,大數據應用的成功例子是鳳毛麟角。
大數據高端分析人才(Data Scientist – 數據科學家)短缺。美國很多大學已開始設置數據科學家的課程和學位。傳統統計學家很難接受大數據的新理念和掌握新的分析手段和技能。
由于缺少成功的分析模式,海量數據不能很快產生商業價值,對大數據產業的投資迅速降溫。
保護個人隱私和權益仍是一個令人困惑的大問題,因為它涉及到道德、法律、和信息技術等多方面。
大數據的應用上也存在著很多潛在問題。大數據可以揭示大量相關性但很難確定那個是有意義的。一旦計算方法暴露,數據造假很容易。網絡數據的回聲效應很強,很容易引起以訛傳訛使錯誤信息快速升級和傳播。用數據分析的方法把復雜的問題歸結于一個簡單的數字常常會產生誤導的結論(如:計算特定字詞出現的次數來確定某人或事件的歷史地位)。在數據整合方面的挑戰更大。商場如戰場,企業之間都要保護自己的數據,數據共享幾乎不可能。政府部門之間也因責、權、利上的沖突,以鄰為壑,各自把持自己的數據。這不是技術問題,而是利益、政治、政策、法律和道德問題。
結語
大數據代表了信息時代發展的一個新趨勢,其重要性和影響力不可低估。這一新工具為我們提供了認識和解決問題的新機遇和手段。但它不是能治百病的萬能藥,也不能取代傳統統計學和數據分析。比如,大數據可以對海量數據進行實時處理而發現大量的相關性但不能確定哪個相關性是最有意義的。而在科學研究和智能決策的過程中, 一個可確定的因果關系比多個不可確定的相關性關系更重要和有意義。如果說抽樣和行政統計(小數據)是點殺步槍,大數據則是掃射的機關槍。明智的指揮員知道武器的性能和特點并能實行有效的火力配置去贏得戰斗的勝利。