數據顯示,從現在起直到2018年,全球大數據市場的年均復合增長率將達到26%,從148.7億增至463.4億美元。中國工程院院士鄔賀銓也表示,繼云計算后,大數據成為信息技術領域最為熱門的概念之一。在工信部發布的物聯網“十二五”規劃中,作為四項關鍵技術創新工程之一的信息處理技術中包括海量數據存儲、數據挖掘、圖像視頻智能分析,這些都是大數據的重要組成部分。
然而,大數據究竟是怎么回事?在現實場景中又有哪些應用?這個“時髦”的新產業,將給我們的生活和工作帶來哪些巨大的變化?
取之不盡的“數據金礦”
什么是大數據?《大數據時代》的作者之一舍恩伯格將之定義為“不用抽樣調查的捷徑,而采用所有數據的分析方法”,簡單來說,就是利用互聯網和計算機對海量數據進行抓取、管理和處理,并且從中提取出有意義的訊息。
大數據有什么用?一方面大數據技術可以扎扎實實地用數據說話,打破直覺和思維定式。舍恩伯格曾經舉例說,人們常常會說冬天要記得戴帽子和手套,避免著涼感冒,但大數據會告訴你,感冒來自于病毒,跟戴帽子手套沒有直接關系。二是大數據技術可以讓人們對未來進行“預測”,通過對所有可能的數據進行分析,而找到數據之間的關聯性,并由此預測出趨勢。
日本SS制藥公司運營的網站Kazemiru正是大數據技術應用的一個生動寫照。這個網站通過對數萬條推特信息的抓取,找到日本各地可能正在感冒的人,并通過與昨天的數據進行對比,并結合氣溫和濕度變化來預測感冒在不同地區的流行情況,為每個登錄該網站的用戶提供“感冒日歷”,通過與日本國立感染癥研究所對全國5000個醫療機構的感冒患者的統計數據對比,Kazemiru的預測與實際情況基本一致。
大數據技術在今時今日的“井噴”也事出有因。大數據,首先要有足夠多的數據產生。隨著互聯網的高速發展和成熟,互聯網產生內容和數據的能力不斷增強,百度技術委員會理事長陳尚義曾透露,百度每天處理的數據量接近100PB,而1PB相當于5000個國家圖書館的信息量總和,此外在每分鐘內,新浪和騰訊微博發送出數萬條微博,淘寶賣出了近10萬件商品……來自市場研究機構IDC的數據顯示,2011年全球數據總量已經達到1.8ZB,這個數值還在以每兩年翻一番的速度增長,預計到2020年全球將總共擁有35ZB的數據量,增長近20倍。而每個ZB的數據,都相當于裝滿10億個1TB的移動硬盤。
其次,還要有儲存和分析這些數據的能力。從硬件設備來看,計算機性價比的提高,磁盤價格的下降,大幅降低了大數據存儲和處理的門檻,數據顯示,2000年的硬盤驅動器平均每GB容量的單價約為16美元到19美元,而現在卻只有7美分。在重量上,1982年世界第一臺超GB存儲器容量為1.2GB,重113千克,而現在,32GB的微型SD卡僅有0.5克。從處理能力來看,云計算成為最重要的推手,數據被搬到了“云”上之后,更容易被收集和獲得,而云計算強大的處理能力也使更多行業和企業有機會對數據進行整理和分析。
“真金白銀”領跑行業應用
去年11月份,北京公務員胡曉璐搖到了車牌號,在網上四處查詢和對比各種汽車型號之后,她驚訝地發現,自己看到的汽車網絡廣告變多了。
胡曉璐所不知道的是,在她點開某個網頁的瞬間,一場“拍賣”正在悄無聲息地進行著。廣告交易平臺迅速地向各大需求方平臺發出“這兒有個廣告位”的信息,需求方平臺則根據她之前的瀏覽行為判斷出“這個人可能要買車”,然后迅速出價,誰出價最高,胡曉璐就會在點開的網頁上看到誰推送的廣告,一切都在0.1秒內完成。
這就是RTB(實時競價)技術,利用大數據,它可以根據每個用戶的具體偏好來精準地投放互聯網廣告。和這項技術一樣,與營銷、電子商務、互聯網金融等等“真金白銀”相關的大數據技術最早被投入到對商業模式的變革之中。
1號店負責生鮮業務的副總裁郭冬東告訴本報記者,通過對海量數據的分析、判斷和整合能力,1號店可以精確地預測第二天生鮮貨品的訂貨數量,然后向供貨商下訂單,產品第二天早上8點進庫。“綜合折算下來,僅在倉儲環節,損耗率可以控制在個位數,而傳統線下渠道的損耗率一般是30%左右。”借助大數據,電子商務平臺得以進軍傳統零售業的“腹地”。
數據甚至成為網絡賣家和中小企業的“無形資產”。阿里巴巴旗下的兩家小額貸款公司,截至2012年6月底,已為超過12.9萬家小微企業和個人創業者提供貸款,貸款總額累計超過260億元。他們能拿到貸款的關鍵之一,正是此前網絡交易的誠信記錄。全國農信銀資金清算中心運行保障部總經理王永剛對此感慨萬千:“阿里巴巴的小額貸款幾小時就能發放,而我們最快也要7天。他們靠的就是開放平臺的渠道優勢,和大數據的分析和處理能力,從而大大降低了信貸的成本。”
不過這些都還是基于自己平臺內部產生的數據,如今互聯網巨頭們還通過頻繁的并購與合作,將外部數據納入大數據處理的范疇。比如:阿里巴巴在收購新浪微博18%的股權后,宣布打通淘寶與新浪賬號,讓微博產生的隱形消費需求和淘寶的顯性消費數據得以整合;百度將19億美金砸向91手機助手,從而獲得了1.27億手機用戶的使用習慣和相關數據;騰訊則通過微信公眾平臺直接向線下企業提供大數據技術下的客戶管理增值服務。用戶在哪里?他們喜歡什么?想要什么?互聯網巨頭們正在拼湊一份涵蓋方方面面生活圖景的數據圖。
智慧城市釋放數據“能量”
對于廣東佛山的“12345”市民熱線來說,每一通來電都是寶貴的“數據財富”,不光是話務量分析,通過大數據技術,這些音頻中的核心數據被提取出來,并被統一組織、存儲、管理和應用,市民們集中的訴求會被直接向各有關部門反映,成為政府決策分析的數據支撐。
盡管目前大數據相關的商業模式還集中于企業應用,但與電子政務相適應的服務則被不少人當做大數據技術未來的又一重要的應用場景,大數據也因此被視為智慧城市的“智慧引擎”。鄔賀銓告訴記者,大數據將遍布智慧城市的方方面面,是智慧城市的智慧之源。大數據能夠使政府的決策與服務、人們的生活方式、城市的產業布局和規劃及城市的運營與管理方式,實現“智慧化”或“智能化”。
然而,將這部引擎發動起來,卻首先需要數據的開放與整合。國務院發展研究中心技術經濟研究部副調研員李廣乾表示,數據開放為大數據應用提供創新“源頭”。大量數據的可獲得是大數據價值實現和最大化的前提。
在美國,2009年奧巴馬入主白宮后,所做的第一件事就是要求聯邦政府各部門通過“一站式”政府數據下載網站向社會公開各類非保密的數據庫。如今在這個網站上,有超過40萬種各類原始數據文件,涵蓋了農業、氣象、金融、就業、人口等近50個門類。
在我國,各地也在探索數據開放的機制和方式。作為“大數據”惠民的一項重要探索,北京市政務數據資源網預計今年年底之前正式開通,為政府信息資源的社會化開發利用提供數據支撐。北京市經濟和信息化委員會副主任童騰飛表示:“政府部門大量信息資源,如果能開放給社會利用,會創造更多價值。”目前,北京市已有29個部門公布了400余個數據包,點擊量最高的“土地用途分區”已被下載684次。在上海、廣東、浙江、重慶等地,不同形式的數據開放也在探索之中。
隨著數據公開,大數據使用的監管也被提上日程,有關專家建議,應該盡快出臺大數據相關的頂層設計方案,劃清保密信息、商業公開信息和免費公開信息、義務公開信息之間的界限,并且明確信息公開和數據使用的責任與義務。