北京12月17日電 按照業界比較普遍的看法,大數據具有海量、多種類、需要大規模處理和快速響應等特點。
根據IDC(國際數據公司)的跟蹤分析,全球產生的數據總量2010年首次突破1澤(10的21次方)字節,2012年達到約2.8澤字節,2020年有望達到40澤字節。2012年,全球產生的數據中僅有約0.5%得到分析。到2020年,全球數據總量中有22%將來自中國。
從內容來看,這些海量數據可分為結構化和非結構化數據。問卷調查、產品評論、信用卡記錄和實驗結果等屬于結構化數據,僅占數據總量的5%左右;大數據時代的數據量爆炸多來自非結構化數據,例如在社交網站上發布的照片和視頻,在搜索引擎中輸入的搜索詞,手機產生的即時位置信息等,約占數據量的95%。
在大數據的處理上,舍恩伯格所著《大數據時代》一書指出,大數據處理分析面對的不是隨機樣本而是全體數據,不是精確性而是混雜性,不是因果關系而是相關關系。
比如,世界上第一部“先拍照后對焦”光場相機Lytro,就運用了大數據處理分析理念。與傳統相機只記錄一束光不同,Lytro可以記錄整個光場里所有的光,也就是用總體數據取代了隨機樣本。用戶沒必要一開始就對焦,想要什么樣的照片可以在拍攝之后再決定。
數據量大幅增加對人們注重精確性的習慣等提出了挑戰,大數據需要技術和思維上的變革才能利用。谷歌公司人工智能專家說,谷歌翻譯在語料庫使用龐雜的網絡內容后取得了飛躍發展,不完整的句子、拼寫錯誤、語法錯誤等各種錯誤,讓谷歌翻譯可以正確地推算出英文詞匯搭配在一起的可能性,混雜性和謬誤反而讓谷歌翻譯在同類產品中更為突出。