根據IDC監測,全球數據量大約每兩年翻一番,意味著人類在最近兩年產生的數據量相當于之前產生的全部數據量,預計到2020年,全球將總共擁有35ZB的數據量,相較于2010年,數據量將增長近30倍。換句話說,我們正處于大數據時代的邊緣。
大數據時代的超大數據體量和超過80%比例非結構化數據的存在,已經超越了傳統數據庫的管理能力,大數據技術將是IT領域新一代的技術與架構,它將幫助人們從大體量、高復雜的數據中提取價值。我們有理由相信未來大數據的產業規模將會至少以萬億美元來進行衡量,大數據將有可能給IT行業開拓一個新的黃金時代。
近年關于大數據主題的并購數量和規模正在逐步上升,IDC預測,2012年可能會是充滿由大數據引發的合并及收購活動的一年。我們預計“大數據”將會是2012年A股一條重要的投資主線。
什么是大數據
“大數據”首先是一個現象而不是一種技術。個人認為想要理解“大數據”這個概念,首先要從“大”入手,“大”首先是指數據體量(volumes) 大,指代大型數據集,一般在10TB 規模左右,但在實際應用中,很多企業用戶把多個數據集放在一起,已經形成了PB級的數據量;其次是指數據類別(variety)大,數據來自多種數據源,數據種類和格式日漸豐富,已沖破了以前所限定的結構化數據范疇,囊括了半結構化和非結構化數據。
簡而言之,“大數據”就是一個體量特別大,數據類別特別大的數據集。也就是說“大數據”本身并不是一種新的技術,也不是一種新的產品,而是我們這個時代出現的一種現象。而這個“大”大到了一種什么樣的程度呢?可以說他即將突破現有常規軟件所能提供的能力極限。
綜上所述,我們覺得使用麥肯錫的定義可能會更為簡潔明了:“大數據”是指無法在一定時間內用傳統數據庫軟件工具對其內容進行抓取、管理和處理的數據集合。
大數據時代為何會到來
為何大數據時代會到來?“大數據摩爾定律”(全球數據量大約每兩年翻一番)為什么會成立?首先,數據產生的成本下降推動了數據體量 (volumes)的膨脹。對大企業而言,大數據的興起,部分是因為計算能力可用更低的成本獲得,且各類系統如今已能夠執行更多任務處理;其次,內存的成本也在直線下降,企業可以在內存中處理比以往更多的數據;另外,就是把計算機聚合成服務器集群越來越簡單。IDC的數據庫管理分析師Carl Olofson認為,這三大因素的結合便催生了大數據。
根據IDC估計,由于計算機技術進步的持續推動,2011年企業創造、采集、管理和儲存信息的成本已經下降到2005年的1/6,而同期企業關于數據的總投資自2005年以來卻反而上升了50%。根據IDC判斷,數據產生成本是符合反摩爾定律的,即數據產生成本大概每兩年下降一半。而這一趨勢,最起碼會持續到2015年。數據產生成本的下降和增加的投資規模,最終導致了全球數據增速符合“大數據摩爾定律”,與之相匹配的現象即是全球數據存儲能力增長顯著。
同時,新的數據源增加了數據類型(variety)的種類。如果說數據成本的下降只是助推了數據量的增長,那么新的數據源和數據采集技術的出現則大大增加了未來數據的類型,數據類型的增加直接導致現有數據空間維度增加,極大地增加了未來大數據的復雜度。